Global ETD Search

1	Modelo algorítmico para la clasificación de documentos de carácter judicial en lenguaje portugués según su contenido Pinto Valdiviezo, Luis Alejandro 18 August 2015 (has links) En los últimos años la generación de información virtual ha aumentado considerablemente. Parte de esa información se encuentra almacenada en bases de datos de instituciones públicas y privadas. Sin embargo, no toda la información almacenada de forma electrónica tiene una estructura definida, tal es el caso de los documentos donde encontramos secuencias de palabras no estructuradas, los cuales según estudios representan el 80% de la información de las empresas. La tarea de clasificar automáticamente documentos tiene como motivo principal brindar una herramienta de mejora en la gestión de la información, la cual es considerada como condición indispensable para el éxito de cualquiera empresa. Ante esto, en el propósito del proyecto se propone la obtención de un modelo algorítmico para la clasificación automática de documentos de carácter judicial en lenguaje portugués según su contenido con el fin de automatizar las labores manuales involucradas en el proceso, y con ello disminuir los recursos implicados en la tarea de clasificación. La colección de documentos será brindada por una empresa en Brasil encargada de la clasificación manual de intimaciones a través de especialistas, llamados procuradores. Las intimaciones son documentos que son enviados desde los tribunales hacia las procuradurías durante un proceso de juicio. / Tesis Procesamiento de textos Minería de datos--Algoritmos Recuperación de la información
2	Herramienta de análisis y clasificación de complejidad de textos en español Pérez Urcia, Walter, Quispesaravia Ildefonso, André Raúl 04 June 2015 (has links) La selección de textos es una de las responsabilidades principales de los profesores dentro del planeamiento del orden de exposición a textos para sus alumnos. Debido a la gran cantidad de textos disponibles y la diversidad de géneros y temas, esta tarea demanda mucho tiempo y está ligada a aspectos subjetivos del evaluador. Esto es un problema, sobre el cual proponemos una alternativa de automatización. Se toma como proyecto la implementación de una herramienta de análisis y clasificación de complejidad de tetos en español. Con ello se busca brindar una alternativa automatizada al problema de escalabilidad en complejidad de textos. Esto se refiere a la necesidad de tener un orden de textos evaluados por complejidad. Para ello evaluamos la complejidad utilizando las métricas de Coh-Metrix adaptadas al español. Este conjunto de métricas evalúa textos en inglés de acuerdo a los estudios de coherencia y cohesión que los autores de Coh-Metrix desarrollaron. En base a esta adatapación de Coh-Metrix se desarrolló un clasificador basado en técnicas de aprenizaje de máquina y un conjunto de textos en español conformado por fábulas y cuentos previamente clasificados. Finalmente estos componentes fueron unidos en una herraamienta web para la accesibilidad pública de la herramienta desarrollada. / Tesis Procesamiento de textos Programas para computadoras--Medición. Lingüística computacional
3	Visualización para documentos en producción Pérez Messina, Ignacio Baltazar January 2017 (has links) Ingeniero Civil en Computación / Gracias a los avances tecnológicos, hoy es posible preservar los diferentes borradores y etapas por los que transita el proceso de escritura de un documento. Un buen ejemplo de ello es el servicio de almacenamiento web Google Drive y su procesador de texto Docs, que permite almacenar diferentes datos del proceso de escritura que están siendo generados masivamente por los mismos usuarios mientras escriben. Un documento en Docs es más que un texto versionado, es un fino registro de cada cambio ocurrido, al cual se ha llamado documento-en-producción para distinguirlo del primero. A pesar de que hoy contamos con ese material invaluable para la investigación del proceso de escritura, para los investigadores de la escritura eso no es suficiente pues exige avanzados conocimientos computacionales. Por ello aparece la necesidad de presentar esa valiosa información de manera más amigable para el usuario. En esta Memoria se diseña una visualización para documentos-en-producción y se implementa un prototipo funcional para los datos que se pueden obtener de Google Drive. Fue necesario desarrollar una nueva estructura de datos para su preprocesamiento. La efectividad de la visualización se muestra por medio de casos de estudio de documentos en un dataset que fue obtenido del proceso de escritura de tareas de estudiantes de la Facultad de Ciencias Físicas y Matemáticas. El análisis de estos casos sugiere que la visualización se muestra adecuada para estudiar el proceso de escritura de textos expositivos, permitiendo observar la estructura jerárquica y/o tópica del texto final, y diferentes características de su proceso de producción. La visualización sigue un paradigma de diseño orgánico, contiene elementos de interactividad y basa su efectividad principalmente en las microdecisiones del usuario a nivel de movimientos del puntero. Se generó un marco de evaluación teórico que arrojó luz sobre las funcionalidades faltantes y las tensiones en el diseño, que muestra, entre otras cosas, que aún no se ha explotado por completo la información disponible y señala el camino para nuevas visualizaciones y futuras exploraciones del documento-en-producción. Visualización de información Software computacional - Desarrollo
4	Diseño y construcción de una plataforma de clasificación de texto basada en textmining aplicada sobre una red de blogs para Betazeta Networks S.A López Aravena, Camilo Alberto January 2012 (has links) Betazeta Networks S.A. es una empresa dedicada a la publicación de información mediante una red de blogs de diversas temáticas. A corto plazo, la empresa necesita visualizar cómo se distribuye el contenido actual para tomar decisiones estratégicas respecto al mercado que enmarca los contenidos que publican. En el mediano plazo, la empresa emitirá contenido generado por los usuarios, el cual debe ser revisado para mantener la calidad de cada Blog. Para esto se requiere contar con métodos automáticos de clasificación para dichos mensajes, los cuales serán revisados por periodistas expertos en diferentes áreas. El trabajo realizado en esta memoria constituye un prototipo que apunta a resolver la problemática de la empresa. Para ello se construye una plataforma de procesamiento de texto, denominada Tanalyzer, que permite manejar grandes volúmenes de información, visualizar, clasificar y hacer predicciones sobre las temáticas de nuevos documentos utilizando text-mining, sub área de la minería de datos especializada en texto, implementando el modelo de tópicos generativo Latent Dirichlet Allocation. Las pruebas realizadas al software son satisfactorias. Sobre un modelo que maneja 8 temáticas, cada una asociada a uno de los 8 blogs de la empresa que se encuentran bajo estudio, es posible predecir documentos con un 80% de precision y 64% de recall, lo que demuestra la viabilidad de la aplicación. Actualmente, la solución permite escalar tanto en velocidad como en costos. Con un tiempo de ejecución de 2.5 horas para 300.000 documentos, permite entrenar en ese tiempo un mes de publicaciones a una tasa de 1250 artículos enviados diariamente repartidos en 8 blogs, frente a la tasa actual de publicación de 12.5 artículos diarios por blog. Entrenar 10 veces un modelo de esta magnitud representa para la empresa un costo de $USD 17 utilizando los servicios de Amazon Cloud Computing. Si bien los resultados obtenidos son positivos y la memoria cumple sus objetivos a cabailidad, existen múltiples mejoras realizables a la plataforma que constituyen el trabajo futuro de esta investigación y que deben ser consideradas por la empresa para llevar a cabo una implementación en producción. Por un lado es posible mejorar aún más los tiempos de ejecución y por otra parte se debe solucionar la disminución de recall cuando la cantidad de temáticas y la especificidad de éstas aumenta. Minería de datos Tanalyzer Categorización de texto Blogs Textmining
5	Diseño y construcción de una plataforma de clasificación de texto basada en textmining aplicada sobre una red de blogs para Betazeta Networks S.A López Aravena, Camilo Alberto January 2012 (has links) Ingeniero Civil Industrial / Ingeniero Civil en Computación / Betazeta Networks S.A. es una empresa dedicada a la publicación de información mediante una red de blogs de diversas temáticas. A corto plazo, la empresa necesita visualizar cómo se distribuye el contenido actual para tomar decisiones estratégicas respecto al mercado que enmarca los contenidos que publican. En el mediano plazo, la empresa emitirá contenido generado por los usuarios, el cual debe ser revisado para mantener la calidad de cada Blog. Para esto se requiere contar con métodos automáticos de clasificación para dichos mensajes, los cuales serán revisados por periodistas expertos en diferentes áreas. El trabajo realizado en esta memoria constituye un prototipo que apunta a resolver la problemática de la empresa. Para ello se construye una plataforma de procesamiento de texto, denominada Tanalyzer, que permite manejar grandes volúmenes de información, visualizar, clasificar y hacer predicciones sobre las temáticas de nuevos documentos utilizando text-mining, sub área de la minería de datos especializada en texto, implementando el modelo de tópicos generativo Latent Dirichlet Allocation. Las pruebas realizadas al software son satisfactorias. Sobre un modelo que maneja 8 temáticas, cada una asociada a uno de los 8 blogs de la empresa que se encuentran bajo estudio, es posible predecir documentos con un 80% de precision y 64% de recall, lo que demuestra la viabilidad de la aplicación. Actualmente, la solución permite escalar tanto en velocidad como en costos. Con un tiempo de ejecución de 2.5 horas para 300.000 documentos, permite entrenar en ese tiempo un mes de publicaciones a una tasa de 1250 artículos enviados diariamente repartidos en 8 blogs, frente a la tasa actual de publicación de 12.5 artículos diarios por blog. Entrenar 10 veces un modelo de esta magnitud representa para la empresa un costo de $USD 17 utilizando los servicios de Amazon Cloud Computing. Si bien los resultados obtenidos son positivos y la memoria cumple sus objetivos a cabailidad, existen múltiples mejoras realizables a la plataforma que constituyen el trabajo futuro de esta investigación y que deben ser consideradas por la empresa para llevar a cabo una implementación en producción. Por un lado es posible mejorar aún más los tiempos de ejecución y por otra parte se debe solucionar la disminución de recall cuando la cantidad de temáticas y la especificidad de éstas aumenta. Minería de datos Tanalyzer Categorización de texto Blogs Textmining
6	Resúmenes semiautomáticos de conocimiento : caso de RDF Garrido García, Camilo Fernando January 2013 (has links) Ingeniero Civil en Computación / En la actualidad, la cantidad de información que se genera en el mundo es inmensa. En el campo científico tenemos, por ejemplo, datos astronómicos con imágenes de las estrellas, los datos de pronósticos meteorológicos, los datos de infomación biológica y genética, etc. No sólo en el mundo científico se produce este fenómeno, por ejemplo, un usuario navegando por Internet produce grandes cantidades de información: Comentarios en foros, participación en redes sociales o simplemente la comunicación a través de la web. Manejar y analizar esta cantidad de información trae grandes problemas y costos. Por ello, antes de realizar un análisis, es conveniente determinar si el conjunto de datos que se posee es adecuado para lo que se desea o si trata sobre los temas que son de nuestro interés. Estas preguntas podrían responderse si se contara con un resumen del conjunto de datos. De aquí surge el problema que esta memoria abarca: Crear resúmenes semi-automáticos de conocimiento formalizado. En esta memoria se diseñó e implementó un método para la obtención de resúmenes semiautomáticos de conjuntos RDF. Dado un grafo RDF se puede obtener un conjunto de nodos, cuyo tamaño es determinado por el usuario, el cual representa y da a entender cuáles son los temas más importantes dentro del conjunto completo. Este método fue diseñado en base a los conjuntos de datos provistos por DBpedia. La selección de recursos dentro del conjunto de datos se hizo utilizando dos métricas usadas ampliamente en otros escenarios: Centralidad de intermediación y grados. Con ellas se detectaron los recursos más importantes en forma global y local. Las pruebas realizadas, las cuales contaron con evaluación de usuarios y evaluación automática, indicaron que el trabajo realizado cumple con el objetivo de realizar resúmenes que den a entender y representen al conjunto de datos. Las pruebas también mostraron que los resúmenes logran un buen balance de los temas generales, temas populares y la distribución respecto al conjunto de datos completo. Ciencia de la computación Minería de datos Linked data DBpedia
7	Modelo algorítmico para la clasificación de documentos de carácter judicial en lenguaje portugués según su contenido Pinto Valdiviezo, Luis Alejandro 18 August 2015 (has links) En los últimos años la generación de información virtual ha aumentado considerablemente. Parte de esa información se encuentra almacenada en bases de datos de instituciones públicas y privadas. Sin embargo, no toda la información almacenada de forma electrónica tiene una estructura definida, tal es el caso de los documentos donde encontramos secuencias de palabras no estructuradas, los cuales según estudios representan el 80% de la información de las empresas. La tarea de clasificar automáticamente documentos tiene como motivo principal brindar una herramienta de mejora en la gestión de la información, la cual es considerada como condición indispensable para el éxito de cualquiera empresa. Ante esto, en el propósito del proyecto se propone la obtención de un modelo algorítmico para la clasificación automática de documentos de carácter judicial en lenguaje portugués según su contenido con el fin de automatizar las labores manuales involucradas en el proceso, y con ello disminuir los recursos implicados en la tarea de clasificación. La colección de documentos será brindada por una empresa en Brasil encargada de la clasificación manual de intimaciones a través de especialistas, llamados procuradores. Las intimaciones son documentos que son enviados desde los tribunales hacia las procuradurías durante un proceso de juicio. Procesamiento de textos Minería de datos--Algoritmos Recuperación de la información
8	Herramienta de análisis y clasificación de complejidad de textos en español Pérez Urcia, Walter, Quispesaravia Ildefonso, André Raúl 04 June 2015 (has links) La selección de textos es una de las responsabilidades principales de los profesores dentro del planeamiento del orden de exposición a textos para sus alumnos. Debido a la gran cantidad de textos disponibles y la diversidad de géneros y temas, esta tarea demanda mucho tiempo y está ligada a aspectos subjetivos del evaluador. Esto es un problema, sobre el cual proponemos una alternativa de automatización. Se toma como proyecto la implementación de una herramienta de análisis y clasificación de complejidad de tetos en español. Con ello se busca brindar una alternativa automatizada al problema de escalabilidad en complejidad de textos. Esto se refiere a la necesidad de tener un orden de textos evaluados por complejidad. Para ello evaluamos la complejidad utilizando las métricas de Coh-Metrix adaptadas al español. Este conjunto de métricas evalúa textos en inglés de acuerdo a los estudios de coherencia y cohesión que los autores de Coh-Metrix desarrollaron. En base a esta adatapación de Coh-Metrix se desarrolló un clasificador basado en técnicas de aprenizaje de máquina y un conjunto de textos en español conformado por fábulas y cuentos previamente clasificados. Finalmente estos componentes fueron unidos en una herraamienta web para la accesibilidad pública de la herramienta desarrollada. Procesamiento de textos Programas para computadoras--Medición Lingüística computacional

Search results