• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Categorización semi-supervisada de Documentos usando la Web como corpus

Guzmán Cabrera, Rafael 04 December 2009 (has links)
La mayoría de los métodos para la categorización automática de documentos está basada en técnicas de aprendizaje supervisado y por consecuencia, tienen el problema de requerir un gran número de instancias de entrenamiento. Con la finalidad de afrontar este problema, en esta tesis se propone un nuevo método semi-supervisado para la categorización de documentos, el cual considera la extracción automática de ejemplos no etiquetados de la Web y su incorporación al conjunto de entrenamiento. Los ejemplos no etiquetados que se incorporan al conjunto de entrenamiento son seleccionados por medio de un método basado en aprendizaje automático. Este modelo incremental permite la selección sólo de los mejores ejemplos no etiquetados en cada iteración. Sin embargo, en algunos dominios esta técnica no permite mejorar la precisión de clasificación, principalmente cuando los datos etiquetados son dispersos. Esto es, entre más relación tengan los ejemplos etiquetados con la categoría a la que pertenecen, mejores resultados se obtendrán con este método. Éste es independiente del dominio y del lenguaje, su funcionamiento resulta más adecuado en aquellos escenarios en los cuales no se cuenta con suficientes instancias de entrenamiento manualmente etiquetadas. La evaluación experimental del método se llevó a cabo con tres experimentos de categorización de documentos tanto temática (utilizando colecciones con diferentes características de documentos, como son: muy pocos ejemplos de entrenamiento y un alto grado de traslape) así como no temática (tarea de atribución de autoría). Un cuarto experimento se llevó a cabo para la tarea de la desambiguación del sentido de las palabras. Los resultados obtenidos en cada uno de estos experimentos nos permiten ver la efectividad de incorporar datos no etiquetados descargados de la Web al conjunto de entrenamiento. / Guzmán Cabrera, R. (2009). Categorización semi-supervisada de Documentos usando la Web como corpus [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/6562

Page generated in 0.0446 seconds