Global ETD Search

1	Diseño y aplicación de una metodología para análisis de noticias policiales utilizando minería de textos Torres Silva, Daniel Alejandro January 2013 (has links) Ingeniero Civil Industrial / En esta memoria se presenta el diseño y la aplicación de una metodología, basada en técnicas de minería de textos, para el procesamiento de grandes volúmenes de noticias que permita descubrir interesantes patrones en los datos para desarrollar un acabado análisis de la cobertura de distintas temáticas policiales y estudiar su relación con las estadísticas de casos reales de delincuencia. Las noticias policiales han sido objeto de constante análisis, cuyo interés se debe a la probable distorsión que provocaría sobre los niveles de preocupación frente al delito en la población. Los artículos noticiosos poseen valiosa información que muchas veces no es explotada, dado que requiere de un proceso de análisis manual, intensivo en tiempo y recursos. Actualmente existen herramientas tecnológicas que permiten manejar crecientes volúmenes de datos, particularmente datos no estructurados como los textos, tomando cada vez más protagonismo la minería de textos en el descubrimiento de nuevo e interesante conocimiento. La metodología de investigación propuesta se basa en las etapas del modelo de procesos CRISP-DM, para lo cual se debe integrar la comprensión de la naturaleza del problema, la comprensión y preparación de los datos, la construcción y evaluación de los modelos y los posteriores desarrollos a partir del conocimiento generado. La aplicación de la metodología se realiza sobre un conjunto de noticias policiales en formato RSS recopiladas a partir de cuatro medios de prensa nacionales durante el segundo semestre del año 2011. Se logran identificar siete temáticas policiales dentro de las noticias, caracterizando cada una de ellas a partir de diferentes herramientas basadas en las palabras más relevantes. Se detecta que las distintas temáticas presentan diferentes niveles de cobertura entre sí, así como también según región y según medio de prensa. También se logra constatar una relativa proporcionalidad entre el número de noticias y el número de habitantes según región, mientras que la posible relación entre el número de casos reales y el número de noticias podría explicar una proporción importante de la variabilidad experimentada por los niveles de noticias para cada temática policial. La metodología implementada permite cumplir exitosamente con los objetivos propuestos, facilitando la comprensión y manejo de las distintas interacciones entre las etapas involucradas en el proceso. Como trabajo futuro se plantea un sistema de monitoreo continuo de los niveles de cobertura policial en medios de prensa escritos, apoyándose en la propuesta de este trabajo. Minería de datos Estructura de datos Minería de textos
2	Extracción de conocimiento nuevo desde los reclamos recibidos en el Servicio Nacional del Consumidor mediante técnicas de text mining Contreras Piña, Constanza Daniela January 2014 (has links) Ingeniera Civil Industrial / El Servicio Nacional del Consumidor (SERNAC) es el organismo estatal que se encarga de que se cumpla la Ley del Consumidor. Para esto, media los conflictos entre consumidores y proveedores tramitando los reclamos de los primeros. Desde el 2010 a la fecha posee más de 1 millón de reclamos, los cuales son utilizados para realizar estudios que establecen las políticas institucionales de los próximos años. Se considera que SERNAC tiene valiosa información para analizar profundamente permitiéndole mejorar sus funciones y disminuir los tiempos que tardan los estudios. Dado esto, el objetivo de este trabajo es extraer conocimiento nuevo y específico de los reclamos de SERNAC utilizando técnicas de minería de textos. En la literatura existen muchas técnicas para realizar minería de textos. En este trabajo se utilizaron modelos de tópicos por su capacidad de encontrar semántica subyacente dentro de una colección de documentos. Dado que no queda claro cuál modelo de tópicos es mejor, se compararon 4 de ellos: Latent Dirichlet Allocation (LDA), Pitman-Yor Topic Model (PYTM), Latent Semantic Analysis (LSA) y Non-Negative Matrix Factorization (NMF). Primero se validó el uso de modelo de tópicos experimentando con LDA. Se logró extraer problemas comunes entre los consumidores, temas de contingencia nacional, problemas específicos de productos o servicios y caracterizar el comportamiento de empresas y consumidores frente a ciertas problemáticas. Esto fue validado por los miembros de SERNAC, definiendo que un tema agrega valor si entrega información específica o revela información no observada. Después, se fijó un conjunto de datos para trabajar con los modelos (reclamos de tarjetas de multitiendas). Los temas encontrados por cada modelo fueron evaluados por SERNAC en términos de valor. Además, fueron encuestados a opinión popular para ver si eran fáciles de entender y se les calculó su grado de coherencia con respecto a los otros temas del modelo. Comparando los resultados por modelo se concluye que tanto LSA como NMF son modelos difíciles de interpretar debido a las palabras que utilizan para caracterizar los temas. Los modelos bayesianos en cambio (LDA y PYTM) no poseen ese inconveniente. En particular PYTM logro extraer temas valiosos más específicos para SERNAC que LDA, por lo cual fue el modelo finalmente escogido. Sin embargo, se considera que las métricas utilizadas en este trabajo no son suficientes para realizar una buena comparación del valor (y calidad) de un modelo. Se propone el continuar la investigación en encontrar métricas que logren este objetivo. Chile. Servicio Nacional del Consumidor Minería de textos
3	Metodología para el análisis de grandes volúmenes de información aplicada a la investigación médica en Chile Clavijo García, David Mauricio January 2017 (has links) Magíster en Ingeniería de Negocios con Tecnología de Información / El conocimiento en la medicina se ha acumulado en artículos de investigación científica a través del tiempo, por consiguiente, se ha generado un interés creciente en desarrollar metodologías de minería de texto para extraer, estructurar y analizar el conocimiento obtenido de grandes volúmenes de información en el menor tiempo posible. En este trabajo se presenta un una metodología que permite lograr el objetivo anterior utilizando el modelo LDA (Latent Dirichlet Allocation). Esta metodología consiste en 3 pasos: Primero, reconocer tópicos relevantes en artículos de investigación científica médica de la Revista Médica de Chile (2012 2015); Segundo, identificar e interpretar la relación entre los tópicos resultantes mediante métodos de visualización (LDAvis); Tercero, evaluar características propias de las investigaciones científicas, en este caso, el financiamiento dirigido, utilizando los dos pasos anteriores. Los resultados muestran que esta metodología resulta efectiva, no sólo para el análisis de artículos de investigación científica médica, sino que también puede ser utilizado en otros campos de la ciencia. Adicionalmente, éste método permite analizar e interpretar el estado en el que se encuentra la investigación médica a nivel nacional utilizando como referente la Revista Médica de Chile. Dentro de este contexto es importante considerar los procesos de planificación, gestión y producción de la investigación científica al interior de los Hospitales que han sido estandartes de generación del conocimiento ya que funcionan como campus universitarios de tradición e innovación. Por la razón anterior, se realizará un análisis del entorno en el sector de la salud, su estructura y la posibilidad de aplicar la metodología propuesta en este trabajo a partir del planteamiento estratégico y el modelo de negocio del Hospital Exequiel González Cortés. Minería de datos Administración del conocimiento Minería de textos Latent Dirichlet Allocation
4	Modelling of a System for the Detection of Weak Signals Through Text Mining and NLP. Proposal of Improvement by a Quantum Variational Circuit Griol Barres, Israel 30 May 2022 (has links) Tesis por compendio / [ES] En esta tesis doctoral se propone y evalúa un sistema para detectar señales débiles (weak signals) relacionadas con cambios futuros trascendentales. Si bien la mayoría de las soluciones conocidas se basan en el uso de datos estructurados, el sistema propuesto detecta cuantitativamente estas señales utilizando información heterogénea y no estructurada de fuentes científicas, periodísticas y de redes sociales. La predicción de nuevas tendencias en un medio tiene muchas aplicaciones. Por ejemplo, empresas y startups se enfrentan a cambios constantes en sus mercados que son muy difíciles de predecir. Por esta razón, el desarrollo de sistemas para detectar automáticamente cambios futuros significativos en una etapa temprana es relevante para que cualquier organización tome decisiones acertadas a tiempo. Este trabajo ha sido diseñado para obtener señales débiles del futuro en cualquier campo dependiendo únicamente del conjunto de datos de entrada de documentos. Se aplican técnicas de minería de textos y procesamiento del lenguaje natural para procesar todos estos documentos. Como resultado, se obtiene un mapa con un ranking de términos, una lista de palabras clave clasificadas automáticamente y una lista de expresiones formadas por múltiples palabras. El sistema completo se ha probado en cuatro sectores diferentes: paneles solares, inteligencia artificial, sensores remotos e imágenes médicas. Este trabajo ha obtenido resultados prometedores, evaluados con dos metodologías diferentes. Como resultado, el sistema ha sido capaz de detectar de forma satisfactoria nuevas tendencias en etapas muy tempranas que se han vuelto cada vez más importantes en la actualidad. La computación cuántica es un nuevo paradigma para una multitud de aplicaciones informáticas. En esta tesis doctoral también se presenta un estudio de las tecnologías disponibles en la actualidad para la implementación física de qubits y puertas cuánticas, estableciendo sus principales ventajas y desventajas, y los marcos disponibles para la programación e implementación de circuitos cuánticos. Con el fin de mejorar la efectividad del sistema, se describe un diseño de un circuito cuántico basado en máquinas de vectores de soporte (SVM) para la resolución de problemas de clasificación. Este circuito está especialmente diseñado para los ruidosos procesadores cuánticos de escala intermedia (NISQ) que están disponibles actualmente. Como experimento, el circuito ha sido probado en un computador cuántico real basado en qubits superconductores por IBM como una mejora para el subsistema de minería de texto en la detección de señales débiles. Los resultados obtenidos con el experimento cuántico muestran también conclusiones interesantes y una mejora en el rendimiento de cerca del 20% sobre los sistemas convencionales, pero a su vez confirman que aún se requiere un desarrollo tecnológico continuo para aprovechar al máximo la computación cuántica. / [CA] En aquesta tesi doctoral es proposa i avalua un sistema per detectar senyals febles (weak signals) relacionats amb canvis futurs transcendentals. Si bé la majoria de solucions conegudes es basen en l'ús de dades estructurades, el sistema proposat detecta quantitativament aquests senyals utilitzant informació heterogènia i no estructurada de fonts científiques, periodístiques i de xarxes socials. La predicció de noves tendències en un medi té moltes aplicacions. Per exemple, empreses i startups s'enfronten a canvis constants als seus mercats que són molt difícils de predir. Per això, el desenvolupament de sistemes per detectar automàticament canvis futurs significatius en una etapa primerenca és rellevant perquè les organitzacions prenguen decisions encertades a temps. Aquest treball ha estat dissenyat per obtenir senyals febles del futur a qualsevol camp depenent únicament del conjunt de dades d'entrada de documents. S'hi apliquen tècniques de mineria de textos i processament del llenguatge natural per processar tots aquests documents. Com a resultat, s'obté un mapa amb un rànquing de termes, un llistat de paraules clau classificades automàticament i un llistat d'expressions formades per múltiples paraules. El sistema complet s'ha provat en quatre sectors diferents: panells solars, intel·ligència artificial, sensors remots i imatges mèdiques. Aquest treball ha obtingut resultats prometedors, avaluats amb dues metodologies diferents. Com a resultat, el sistema ha estat capaç de detectar de manera satisfactòria noves tendències en etapes molt primerenques que s'han tornat cada cop més importants actualment. La computació quàntica és un paradigma nou per a una multitud d'aplicacions informàtiques. En aquesta tesi doctoral també es presenta un estudi de les tecnologies disponibles actualment per a la implementació física de qubits i portes quàntiques, establint-ne els principals avantatges i desavantatges, i els marcs disponibles per a la programació i implementació de circuits quàntics. Per tal de millorar l'efectivitat del sistema, es descriu un disseny d'un circuit quàntic basat en màquines de vectors de suport (SVM) per resoldre problemes de classificació. Aquest circuit està dissenyat especialment per als sorollosos processadors quàntics d'escala intermèdia (NISQ) que estan disponibles actualment. Com a experiment, el circuit ha estat provat en un ordinador quàntic real basat en qubits superconductors per IBM com una millora per al subsistema de mineria de text. Els resultats obtinguts amb l'experiment quàntic també mostren conclusions interessants i una millora en el rendiment de prop del 20% sobre els sistemes convencionals, però a la vegada confirmen que encara es requereix un desenvolupament tecnològic continu per aprofitar al màxim la computació quàntica. / [EN] In this doctoral thesis, a system to detect weak signals related to future transcendental changes is proposed and tested. While most known solutions are based on the use of structured data, the proposed system quantitatively detects these signals using heterogeneous and unstructured information from scientific, journalistic, and social sources. Predicting new trends in an environment has many applications. For instance, companies and startups face constant changes in their markets that are very difficult to predict. For this reason, developing systems to automatically detect significant future changes at an early stage is relevant for any organization to make right decisions on time. This work has been designed to obtain weak signals of the future in any field depending only on the input dataset of documents. Text mining and natural language processing techniques are applied to process all these documents. As a result, a map of ranked terms, a list of automatically classified keywords and a list of multi-word expressions are obtained. The overall system has been tested in four different sectors: solar panels, artificial intelligence, remote sensing, and medical imaging. This work has obtained promising results that have been evaluated with two different methodologies. As a result, the system was able to successfully detect new trends at a very early stage that have become more and more important today. Quantum computing is a new paradigm for a multitude of computing applications. This doctoral thesis also presents a study of the technologies that are currently available for the physical implementation of qubits and quantum gates, establishing their main advantages and disadvantages and the available frameworks for programming and implementing quantum circuits. In order to improve the effectiveness of the system, a design of a quantum circuit based on support vector machines (SVMs) is described for the resolution of classification problems. This circuit is specially designed for the noisy intermediate-scale quantum (NISQ) computers that are currently available. As an experiment, the circuit has been tested on a real quantum computer based on superconducting qubits by IBM as an improvement for the text mining subsystem in the detection of weak signals. The results obtained with the quantum experiment show interesting outcomes with an improvement of close to 20% better performance than conventional systems, but also confirm that ongoing technological development is still required to take full advantage of quantum computing. / Griol Barres, I. (2022). Modelling of a System for the Detection of Weak Signals Through Text Mining and NLP. Proposal of Improvement by a Quantum Variational Circuit [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/183029 / Compendio Minería de textos Computación cuántica Señales futuras Señales débiles Toma de decisiones Procesamiento del lenguaje natural Modelos predictivos Circuitos cuánticos variacionales Quantum computing Text mining Weak signals of the future Decision making Natural language processing Predictive models Variational quantum circuits TECNOLOGIA ELECTRONICA

1

Page generated in 0.084 seconds