Copiar o plagiar es cometer una falta ética al restar crédito al autor del trabajo original. En el caso de documentos escritos, se puede incurrir en copia mediante la inclusión de fragmentos sin citar la fuente original, plagiando ideas o mediante la copia completa del texto.
Con el uso de tecnologías de información, como Internet, existe una gran cantidad de información de fácil acceso, por lo que el plagio es una opción de gran tentación para los estudiantes: el acto de copiar y pegar durante la realización de informes o trabajos en el ámbito educativo y de investigación es un tema cada vez más recurrente.
La detección de dichos casos de copia es compleja, debido a la infinidad de fuentes disponibles. Debido a esto, herramientas de detección automática de plagio, diseñadas para grandes volúmenes de documentos, cobran mayor importancia. Estas herramientas se basan en la detección de patrones en común, en diferentes técnicas de recuperación de información y en la teoría de la información.
Una posible solución es la detección automatizada de copia textual. Como hipótesis, se postula que si bien existen otros tipos de copia, por ejemplo la copia semántica, la copia textual representa una porción importante de lo plagiado, y su detección automatizada es posible y precisa.
El objetivo principal de esta tesis es el desarrollar un método para la detección automatizada de plagio en documentos digitales, e implementar un prototipo para comprobar su efectividad. Este método debiese contar con tecnologías y conceptos de última generación para cumplir con su objetivo. Además, el sistema será evaluado mediante la participación en un taller y competencia internacional en detección de plagio.
En este trabajo, se plantea el diseño e implementación de un método de detección automático de plagio textual, basado en el lenguaje de programación java. Este método se acoplará posteriormente al sistema DOCODE (de ahora en adelante arquitectura DOCODE) proyecto en el cual se desarrolla un producto a comercializar, cuyo éxito de ventas depende, en parte, de la eficacia y rendimiento de la estrategia de detección aquí propuesta.
Los resultados indican que una búsqueda exhaustiva de plagio en un par de documentos puede obtener los mejores resultados en comparación a otros métodos. Pero este método tiene una desventaja; requiere el mayor tiempo computacional de todos los algoritmos probados. El método propuesto utiliza una aproximación y obtiene resultados aceptables; su F-measure es de 0.8 sobre los datos utilizados, comparado con 0.9 que el algoritmo exhaustivo obtiene, pero requiere considerablemente menos recursos computacionales (25 por ciento del tiempo total utilizado por el algoritmo exhaustivo).
Identifer | oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/103677 |
Date | January 2010 |
Creators | Oberreuter Gallardo, Gabriel Ignacio León |
Contributors | Velásquez Silva, Juan, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Industrial, L'Huillier Chaparro, Gastón, Ríos Pérez, Sebastián A. |
Publisher | Universidad de Chile, CyberDocs |
Source Sets | Universidad de Chile |
Language | Spanish |
Detected Language | Spanish |
Type | Tesis |
Rights | Oberreuter Gallardo, Gabriel Ignacio León |
Page generated in 0.0019 seconds