El tema del acceso a la información es de especial interés dado el contexto actual de la web
2.0, donde se generan grandes volúmenes de información por parte de muchos usuarios.
Es deseable categorizar y priorizar la información disponible para mejorar el acceso a ella.
Para esto se han creado variadas interfaces basadas en términos que la caracterizan.
El trabajo consistió en el estudio de herramientas computacionales para extraer
términos o palabras clave categorizados a partir de un texto en español, el diseño y
construcción de un sistema que realice dicha acción y finalmente el diseño de una aplicación
tipo servicio web que sirva para construir una interfaz que facilite el acceso a un conjunto
de documentos a partir de los términos extraídos.
Para la realización de este trabajo, el alumno estudió herramientas existentes de
minería de texto y extracción de información, de acuerdo a los requerimientos del sistema
que extrae términos categorizados. Esto incluye distintos modelos y algoritmos estudiados
a nivel teórico, además de implementaciones de los algoritmos elegidos. Se eligió el modelo
de campos aleatorios condicionales como la base de la extracción de términos, y se
estudiaron las distintas características del texto relevantes para dicho modelo.
Gracias a una serie de experimentos, se concluyó que la aplicación tipo servicio web
propuesta cumple con los objetivos de generar una interfaz útil para el acceso a distintas
colecciones de documentos, categorizados según nombres de personas. Se comprobó que
la aplicación resulta efectiva incluso para colecciones de contenido profundamente distinto.
Además, es suficientemente extensible como para ser aplicada en el futuro a otro tipo de
categorías, como lugares, instituciones u otra, permitiendo tener más dimensiones para
explorar los documentos.
Identifer | oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/103122 |
Date | January 2008 |
Creators | Serpell Carriquiry, Cristián Felipe |
Contributors | Hurtado Larraín, Carlos, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ciencias de la Computación, Navarro Badino, Gonzalo, Paredes Moraleda, Rodrigo |
Publisher | Universidad de Chile |
Source Sets | Universidad de Chile |
Language | Spanish |
Detected Language | Spanish |
Type | Tesis |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ |
Page generated in 0.0017 seconds