El Análisis de Autoría (AA) es una subtarea en el campo de la Minería de Datos (MD), donde se persigue el propósito de minar un estilo o patrón de redacción correspondiente y característico de un autor, a partir de los documentos redactados por el mismo. Una de las aplicaciones o enfoques más analizados en la comunidad internacional se corresponde con determinar el autor de un documento anónimo o uno cuyo autor esté en duda. Para esto es necesario intentar inferir características del estilo de redacción del autor a través de los documentos escritos por él, estas características nos permitirán conformar un modelo del estilo de este autor y medir qué tan similar puede ser un documento cualquiera a los documentos escritos por dicho autor. Un caso de estudio práctico en las ciencias forenses se manifiesta cuando el perito debe evaluar la autoría de un documento desconocido y solo cuenta con muestras certificadas de un autor, para lo cual debe responder si fue redactado o no por el consiguiente autor, se puede abstener o en qué grado pudo ser redactado, entre otros elementos, atendiendo a la semejanza con las muestras conocidas. Este caso de estudio se corresponde con las investigaciones realizadas en la Verificación de Autoría (VA). Al proceso que trata de determinar la autoría de un documento digital a partir de las muestras digitales conocidas de uno o más autores se conoce como Verificación de Autoría Intrínseca (VAI). La propuesta se centra en el diseño y la implementación de métodos supervisados de VAI orientado a una sola clase, donde solo se empleen muestras conocidas de un autor y se analicen las características contenidas en la redacción de cada documento (enfoque basado en instancias) y otra variante donde a partir de las muestras conocidas de autor se crea un nuevo documento ficticio que contiene información de todos los documentos (enfoque basado en prototipo). Los resultados obtenidos son alentadores y permiten evaluar la utilidad y generalización de nuestra propuesta ante diferentes escenarios y dominios de aplicación. En lo fundamental se manifiesta la importancia de disponer de más de una muestra conocida para cada autor que se desee analizar. Los mejores resultados se obtienen para las colecciones con mayor promedio de palabras por documentos y número de muestras por autores. Se aprecia que la combinación de los resultados en las decisiones permite obtener una mayor efectividad que si solo se empleara una función de comparación y una representación de los documentos empleando un solo tipo de rasgo.
Identifer | oai:union.ndltd.org:ua.es/oai:rua.ua.es:10045/91047 |
Date | 28 January 2019 |
Creators | Castro, Daniel |
Contributors | Muñoz, Rafael, Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos |
Publisher | Universidad de Alicante |
Source Sets | Universidad de Alicante |
Language | Spanish |
Detected Language | Spanish |
Type | info:eu-repo/semantics/doctoralThesis |
Rights | Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0, info:eu-repo/semantics/openAccess |
Page generated in 0.0022 seconds