• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 77
  • 74
  • 52
  • 10
  • 3
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 269
  • 269
  • 175
  • 165
  • 95
  • 56
  • 55
  • 51
  • 50
  • 47
  • 44
  • 43
  • 40
  • 40
  • 36
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Um estudo sobre agrupamento de documentos textuais em processamento de informações não estruturadas usando técnicas de "clustering" / A study about arrangement of textual documents applied to unstructured information processing using clustering techniques

Wives, Leandro Krug January 1999 (has links)
Atualmente, técnicas de recuperação e análise de informações, principalmente textuais, são de extrema importância. Após o grande BOOM da Internet, muitos problemas que já eram conhecidos em contextos fechados passaram a preocupar também toda a comunidade científica. No âmbito deste trabalho os problemas relacionados à sobrecarga de informações, que ocorre devido ao grande volume de dados a disposição de uma pessoa, são os mais importantes. Visando minimizar estes problemas, este trabalho apresenta um estudo sobre métodos de agrupamento de objetos textuais (documentos no formato ASCII), onde os objetos são organizados automaticamente em grupos de objetos similares, facilitando sua localização, manipulação e análise. Decorrente deste estudo, apresenta-se uma metodologia de aplicação do agrupamento descrevendo-se suas diversas etapas. Estas etapas foram desenvolvidas de maneira que após uma ter sido realizada ela não precisa ser refeita, permitindo que a etapa seguinte seja aplicada diversas vezes sobre os mesmos dados (com diferentes parâmetros) de forma independente. Além da metodologia, realiza-se um estudo comparativo entre alguns algoritmos de agrupamento, inclusive apresentando-se um novo algoritmo mais eficiente. Este fato é comprovado em experimentos realizados nos diversos estudos de caso propostos. Outras contribuições deste trabalho incluem a implementação de uma ferramenta de agrupamento de textos que utiliza a metodologia elaborada e os algoritmos estudados; além da utilização de uma fórmula não convencional de cálculo de similaridades entre objetos (de abordagem fuzzy), aplicada a informações textuais, obtendo resultados satisfatórios. / The Internet is the vital media of today and, as being a mass media, problems known before to specific fields of Science arise. One of these problems, capable of annoying many people, is the information overload problem caused by the excessive amount of information returned in response to the user’s query. Due to the information overload problem, advanced techniques for information retrieval and analysis are needed. This study presents some aids in these fields, presenting a methodology to help users to apply the clustering process in textual data. The technique investigated is capable of grouping documents of several subjects in clusters of documents of the same subject. The groups identified can be used to simplify the process of information analysis and retrieval. This study also presents a tool that was created using the methodology and the algorithms analyzed. The tool was implemented to facilitate the process of investigation and demonstration of the study. The results of the application of a fuzzy formula, used to calculate the similarity among documents, are also presented.
62

Um estudo sobre agrupamento de documentos textuais em processamento de informações não estruturadas usando técnicas de "clustering" / A study about arrangement of textual documents applied to unstructured information processing using clustering techniques

Wives, Leandro Krug January 1999 (has links)
Atualmente, técnicas de recuperação e análise de informações, principalmente textuais, são de extrema importância. Após o grande BOOM da Internet, muitos problemas que já eram conhecidos em contextos fechados passaram a preocupar também toda a comunidade científica. No âmbito deste trabalho os problemas relacionados à sobrecarga de informações, que ocorre devido ao grande volume de dados a disposição de uma pessoa, são os mais importantes. Visando minimizar estes problemas, este trabalho apresenta um estudo sobre métodos de agrupamento de objetos textuais (documentos no formato ASCII), onde os objetos são organizados automaticamente em grupos de objetos similares, facilitando sua localização, manipulação e análise. Decorrente deste estudo, apresenta-se uma metodologia de aplicação do agrupamento descrevendo-se suas diversas etapas. Estas etapas foram desenvolvidas de maneira que após uma ter sido realizada ela não precisa ser refeita, permitindo que a etapa seguinte seja aplicada diversas vezes sobre os mesmos dados (com diferentes parâmetros) de forma independente. Além da metodologia, realiza-se um estudo comparativo entre alguns algoritmos de agrupamento, inclusive apresentando-se um novo algoritmo mais eficiente. Este fato é comprovado em experimentos realizados nos diversos estudos de caso propostos. Outras contribuições deste trabalho incluem a implementação de uma ferramenta de agrupamento de textos que utiliza a metodologia elaborada e os algoritmos estudados; além da utilização de uma fórmula não convencional de cálculo de similaridades entre objetos (de abordagem fuzzy), aplicada a informações textuais, obtendo resultados satisfatórios. / The Internet is the vital media of today and, as being a mass media, problems known before to specific fields of Science arise. One of these problems, capable of annoying many people, is the information overload problem caused by the excessive amount of information returned in response to the user’s query. Due to the information overload problem, advanced techniques for information retrieval and analysis are needed. This study presents some aids in these fields, presenting a methodology to help users to apply the clustering process in textual data. The technique investigated is capable of grouping documents of several subjects in clusters of documents of the same subject. The groups identified can be used to simplify the process of information analysis and retrieval. This study also presents a tool that was created using the methodology and the algorithms analyzed. The tool was implemented to facilitate the process of investigation and demonstration of the study. The results of the application of a fuzzy formula, used to calculate the similarity among documents, are also presented.
63

A visual analytics approach for passing strateggies analysis in soccer using geometric features

Malqui, José Luis Sotomayor January 2017 (has links)
As estrategias de passes têm sido sempre de interesse para a pesquisa de futebol. Desde os inícios do futebol, os técnicos tem usado olheiros, gravações de vídeo, exercícios de treinamento e feeds de dados para coletar informações sobre as táticas e desempenho dos jogadores. No entanto, a natureza dinâmica das estratégias de passes são bastante complexas para refletir o que está acontecendo dentro do campo e torna difícil o entendimento do jogo. Além disso, existe uma demanda crecente pela deteção de padrões e analise de estrategias de passes popularizado pelo tiki-taka utilizado pelo FC. Barcelona. Neste trabalho, propomos uma abordagem para abstrair as sequências de pases e agrupálas baseadas na geometria da trajetória da bola. Para analizar as estratégias de passes, apresentamos um esquema de visualização interátiva para explorar a frequência de uso, a localização espacial e ocorrência temporal das sequências. A visualização Frequency Stripes fornece uma visão geral da frequencia dos grupos achados em tres regiões do campo: defesa, meio e ataque. O heatmap de trajetórias coordenado com a timeline de passes permite a exploração das formas mais recorrentes no espaço e tempo. Os resultados demostram oito trajetórias comunes da bola para sequências de três pases as quais dependem da posição dos jogadores e os ângulos de passe. Demonstramos o potencial da nossa abordagem com utilizando dados de várias partidas do Campeonato Brasileiro sob diferentes casos de estudo, e reportamos os comentários de especialistas em futebol. / Passing strategies analysis has always been of interest for soccer research. Since the beginning of soccer, managers have used scouting, video footage, training drills and data feeds to collect information about tactics and player performance. However, the dynamic nature of passing strategies is complex enough to reflect what is happening in the game and makes it hard to understand its dynamics. Furthermore, there exists a growing demand for pattern detection and passing sequence analysis popularized by FC Barcelona’s tiki-taka. We propose an approach to abstract passing strategies and group them based on the geometry of the ball trajectory. To analyse passing sequences, we introduce a interactive visualization scheme to explore the frequency of usage, spatial location and time occurrence of the sequences. The frequency stripes visualization provide, an overview of passing groups frequency on three pitch regions: defense, middle, attack. A trajectory heatmap coordinated with a passing timeline allow, for the exploration of most recurrent passing shapes in temporal and spatial domains. Results show eight common ball trajectories for three-long passing sequences which depend on players positioning and on the angle of the pass. We demonstrate the potential of our approach with data from the Brazilian league under several case studies, and report feedback from a soccer expert.
64

TRACTS : um método para classificação de trajetórias de objetos móveis usando séries temporais

Santos, Irineu Júnior Pinheiro dos January 2011 (has links)
O crescimento do uso de sistemas de posicionamento global (GPS) e outros sistemas de localização espacial tornaram possível o rastreamento de objetos móveis, produzindo um grande volume de um novo tipo de dado, chamado trajetórias de objetos móveis. Existe, entretanto, uma forte lacuna entre a quantidade de dados extraídos destes dispositivos, dotados de sistemas GPS, e a descoberta de conhecimento que se pode inferir com estes dados. Um tipo de descoberta de conhecimento em dados de trajetórias de objetos móveis é a classificação. A classificação de trajetórias é um tema de pesquisa relativamente novo, e poucos métodos tem sido propostos até o presente momento. A maioria destes métodos foi desenvolvido para uma aplicação específica. Poucos propuseram um método mais geral, aplicável a vários domínios ou conjuntos de dados. Este trabalho apresenta um novo método de classificação que transforma as trajetórias em séries temporais, de forma a obter características mais discriminativas para a classificação. Experimentos com dados reais mostraram que o método proposto é melhor do que abordagens existentes. / The growing use of global positioning systems (GPS) and other location systems made the tracking of moving objects possible, producing a large volume of a new kind of data, called trajectories of moving objects. However, there is a large gap between the amount of data generated by these devices and the knowledge that can be inferred from these data. One type of knowledge discovery in trajectories of moving objects is classification. Trajectory classification is a relatively new research subject, and a few methods have been proposed so far. Most of these methods were developed for a specific application. Only a few have proposed a general method, applicable to multiple domains or datasets. This work presents a new classification method that transforms the trajectories into time series, in order to obtain more discriminative features for classification. Experiments with real trajectory data revealed that the proposed approach is more effective than existing approaches.
65

"O framework de integração do sistema DISCOVER" / The Discover integration framework

Ronaldo Cristiano Prati 04 April 2003 (has links)
Talvez uma das maiores capacidades do ser humano seja a sua habilidade de aprender a partir de observações e transmitir o que aprendeu para outros humanos. Durante séculos, a humanidade vem tentado compreender o mundo em que vive e, a partir desse novo conhecimento adquirido, melhorar o mundo em que vive. O desenvolvimento da tecnologia colocou a descoberta de conhecimento em um momento ímpar na história da humanidade. Com os progressos da Ciência da Computação, e, em particular, da Inteligência Artificial - IA - e Aprendizado de Máquina -AM, hoje em dia é possível, a partir de métodos de inferência indutiva e utilizando um conjunto de exemplos, descobrir algum tipo de conhecimento implícito nesses exemplos. Entretanto, por ser uma área de pesquisa relativamente nova, e por envolver um processo tanto iterativo quanto interativo, atualmente existem poucas ferramentas que suportam eficientemente a descoberta de conhecimento a partir dos dados. Essa falta de ferramentas se agrava ainda mais no que se refere ao seu uso por pesquisadores em Aprendizado de Máquina e Aquisição de Conhecimento. Esses fatores, além do fato que algumas pesquisas em nosso Laboratório de Inteligência Computacional - LABIC - têm alguns componentes em comum, motivaram a elaboração do projeto Discover, que consiste em uma estratégia de trabalho em conjunto, envolvendo um conjunto de ferramentas que se integram e interajam, e que supram as necessidades de pesquisa dos integrantes do nosso laboratório. O Discover também pode ser utilizado como um campo de prova para desenvolver novas ferramentas e testar novas idéias. Como o Discover tem como principal finalidade o seu uso e extensão por pesquisadores, uma questão principal é que a arquitetura do projeto seja flexível o suficiente para permitir que novas pesquisas sejam englobadas e, simultaneamente, deve impor determinados padrões que permitam a integração eficiente de seus componentes. Neste trabalho, é proposto um framework de integração de componentes que tem como principal objetivo possibilitar a criação de um sistema computacional a partir das ferramentas desenvolvidas para serem utilizadas no projeto Discover. Esse framework compreende um mecanismo de adaptação de interface que cria uma camada (interface horizontal) sobre essas ferramentas, um poderoso mecanismo de metadados, que é utilizado para descrever tanto os componentes que implementam as funcionalidades do sistema quanto as configurações de experimentos criadas pelos usuário, que serão executadas pelo framework, e um ambiente de execução para essas configurações de experimentos. / One of human greatest capability is the ability to learn from observed instances of the world and to transmit what have been learnt to others. For thousands of years, we have tried to understand the world, and used the acquired knowledge to improve it. Nowadays, due to the progress in digital data acquisition and storage technology as well as significant progress in the field of Artificial Intelligence - AI, particularly Machine Learning - ML, it is possible to use inductive inference in huge databases in order to find, or discover, new knowledge from these data. The discipline concerned with this task has become known as Knowledge Discovery from Databases - KDD. However, this relatively new research area offers few tools that can efficiently be used to acquire knowledge from data. With these in mind, a group of researchers at the Computational Intelligence Laboratory - LABIC - is working on a system, called Discover, in order to help our research activities in KDD and ML. The aim of the system is to integrate ML algorithms mostly used by the community with the data and knowledge processing tools developed as the results of our work. The system can also be used as a workbench for new tools and ideas. As the main concern of the Discover is related to its use and extension by researches, an important question is related to the flexibility of its architecture. Furthermore, the Discover architecture should allow new tools be easily incorporated. Also, it should impose strong patterns to guarantee efficient component integration. In this work, we propose a component integration framework that aims the development of an integrated computational environment using the tools already implemented in the Discover project. The proposed component integration framework has been developed keeping in mind its future integration with new tools. This framework offers an interface adapter mechanism that creates a layer (horizontal interface) over these tools, a powerful metadata mechanism, which is used to describe both components implementing systems' functionalities and experiment configurations created by the user, and an environment that enables these experiment execution.
66

TRACTS : um método para classificação de trajetórias de objetos móveis usando séries temporais

Santos, Irineu Júnior Pinheiro dos January 2011 (has links)
O crescimento do uso de sistemas de posicionamento global (GPS) e outros sistemas de localização espacial tornaram possível o rastreamento de objetos móveis, produzindo um grande volume de um novo tipo de dado, chamado trajetórias de objetos móveis. Existe, entretanto, uma forte lacuna entre a quantidade de dados extraídos destes dispositivos, dotados de sistemas GPS, e a descoberta de conhecimento que se pode inferir com estes dados. Um tipo de descoberta de conhecimento em dados de trajetórias de objetos móveis é a classificação. A classificação de trajetórias é um tema de pesquisa relativamente novo, e poucos métodos tem sido propostos até o presente momento. A maioria destes métodos foi desenvolvido para uma aplicação específica. Poucos propuseram um método mais geral, aplicável a vários domínios ou conjuntos de dados. Este trabalho apresenta um novo método de classificação que transforma as trajetórias em séries temporais, de forma a obter características mais discriminativas para a classificação. Experimentos com dados reais mostraram que o método proposto é melhor do que abordagens existentes. / The growing use of global positioning systems (GPS) and other location systems made the tracking of moving objects possible, producing a large volume of a new kind of data, called trajectories of moving objects. However, there is a large gap between the amount of data generated by these devices and the knowledge that can be inferred from these data. One type of knowledge discovery in trajectories of moving objects is classification. Trajectory classification is a relatively new research subject, and a few methods have been proposed so far. Most of these methods were developed for a specific application. Only a few have proposed a general method, applicable to multiple domains or datasets. This work presents a new classification method that transforms the trajectories into time series, in order to obtain more discriminative features for classification. Experiments with real trajectory data revealed that the proposed approach is more effective than existing approaches.
67

Integrando mineração de séries temporais e fractais para encontrar padrões e eventos extremos em bases de dados climáticas e de sensoriamento remoto / Integrating time series mining and fractals to discover patterns and extreme events in climate and remote sensing databases

Luciana Alvim Santos Romani 13 December 2010 (has links)
Esta tese apresenta novos metodos baseados na teoria dos fractais e em tecnicas de mineração de dados para dar suporte ao monitoramento agrícola em escala regional, mais especicamente areas com plantações de cana-de-açucar que tem um papel importante na economia brasileira como uma alternativa viavel para a substituição de combustíveis fósseis. Uma vez que o clima tem um grande impacto na agricultura, os agrometeorologistas utilizam dados climáticos associados a índices agrometeorológicos e mais recentemente dados provenientes de satélites para apoiar a tomada de decisão. Neste sentido, foi proposto um método que utiliza a dimensão fractal para identicar mudanças de tendências nas séries climáticas juntamente com um módulo de análise estatística para definir quais atributos são responsáveis por essas alterações de comportamento. Além disso, foram propostos dois métodos de medidas de similaridade para auxiliar na comparação de diferentes regiões agrícolas representadas por múltiplas variáveis provenientes de dados meteorológicos e imagens de sensoriamento remoto. Diante da importância de se estudar os extremos climáticos que podem se intensicar dado os cenários que preveem mudanças globais no clima, foi proposto o algoritmo CLIPSMiner que identifica padrões relevantes e extremos em séries climáticas. CLIPSMiner também permite a identificação de correlação de múltiplas séries considerando defasagem de tempo e encontra padrões de acordo com parâmetros que podem ser calibrados pelos usuários. A busca por padrões de associação entre séries foi alcançada por meio de duas abordagens distintas. A primeira delas integrou o cálculo da correlação de dimensão fractal com uma técnica para tornar os valores contínuos das séries em intervalos discretos e um algoritmo de regras de associação gerando o método Apriori-FD. Embora tenha identificado padrões interessantes em relação a temperatura, este método não conseguiu lidar de forma apropriada com defasagem temporal. Foi proposto então o algoritmo CLEARMiner que de forma não-supervisionada minera padrões em uma série associando-os a padrões em outras séries considerando a possibilidade de defasagem temporal. Os métodos propostos foram comparados a técnicas similares e avaliados por um grupo composto por meteorologistas, agrometeorologistas e especialistas em sensoriamento remoto. Os experimentos realizados mostraram que a aplicação de técnicas de mineração de dados e fractais contribui para melhorar a análise dos dados agrometeorológicos e de satélite auxiliando no trabalho de pesquisadores, além de se configurar como uma ferramenta importante para apoiar a tomada de decisão no agronegócio / This thesis presents new methods based on fractal theory and data mining techniques to support agricultural monitoring in regional scale, specifically regions with sugar canefields. This commodity greatly contributes to the Brazilian economy since it is a viable alternative to replace fossil fuels. Since climate in uences the national agricultural production, researchers use climate data associated to agrometeorological indexes, and recently they also employed data from satellites to support decision making processes. In this context, we proposed a method that uses the fractal dimension to identify trend changes in climate series jointly with a statistical analysis module to define which attributes are responsible for the behavior alteration in the series. Moreover, we also proposed two methods of similarity measure to allow comparisons among different agricultural regions represented by multiples variables from meteorological data and remote sensing images. Given the importance of studying the extreme weather events, which could increase in intensity, duration and frequency according to different scenarios indicated by climate forecasting models, we proposed the CLIPSMiner algorithm to identify relevant patterns and extremes in climate series. CLIPSMiner also detects correlations among multiple time series considering time lag and finds patterns according to parameters, which can be calibrated by the users. We applied two distinct approaches in order to discover association patterns on time series. The first one is the Apriori-FD method that integrates an algorithm to perform attribute selection through applying the correlation fractal dimension, an algorithm of discretization to convert continuous values of series into discrete intervals, and a well-known association rules algorithm (Apriori). Although Apriori-FD has identified interesting patterns related to temperature, this method failed to appropriately deal with time lag. As a solution, we proposed CLEARMiner that is an unsupervised algorithm in order to mine the association patterns in one time series relating them to patterns in other series considering the possibility of time lag. The proposed methods were compared with similar techniques as well as assessed by a group of meteorologists, and specialists in agrometeorology and remote sensing. The experiments showed that applying data mining techniques and fractal theory can contribute to improve the analyses of agrometeorological and satellite data. These new techniques can aid researchers in their work on decision making and become important tools to support decision making in agribusiness
68

Cadre général pour la recherche d'information et l'extraction de connaissances par l'exploration de treillis / General framework for information retrieval and knowledge discovery through lattice exploration

Viaud, Jean-François 31 August 2017 (has links)
Au cours des deux dernières décennies, nous avons été littéralement submergés par les données. Nous recevons, rapidement, un flux colossal de données hétérogènes. Les techniques issues de la recherche d’information doivent évoluer afin de les ordonner et de les sélectionner. D’un autre côté, les techniques d’extraction de connaissances sont capables d’extraire une quantité (exponentielle) de connaissances des données, en particulier lors de la fouille de règles d’association. De nouveaux outils doivent être fournis aux analystes des données. La recherche d’information et l’extraction de connaissances abordent la même problématique : elles structurent et organisent les données. La première sélectionne et attribue un rang, l’autre partitionne et hiérarchise. L’Analyse des Concepts Formels (FCA), introduite par R. Wille, utilise les treillis de concepts afin de mettre en évidence à la fois un ordre (au sens d’attribuer un rang) et une classification (au sens de partition). Cependant, il est bien connu de la communauté FCA que ces treillis peuvent avoir une taille exponentielle. Pour toutes ces raisons, des outils pour réduire la taille des données ou des treillis, sont nécessaires. Dans cette thèse, nous avons utilisé différentes approches. Des algorithmes distribués pour la FCA ont été définis afin de réduire la taille des données d’entrée en petits morceaux. Différentes méthodes de décomposition de treillis ont été étudiées ou définies. Certaines sont basées sur les relations de congruence, d’autres sur les relations de tolérance. Pour aider l’utilisateur dans ses choix de réduction, un cadre général, nommé LattExp, a été mis en place. LattExp fournit une possibilité de navigation à travers les réductions/décompositions et aide l’utilisateur dans ses choix. / During the last two decades, data have literrally overwhelmed the world. Indeed a huge amount of heterogenous data is daily produced, so that techniques of Information Retrieval have to evolve to order them and select relevant ones. On the other side, techniques of Knowledge Discovery are able to extract a potentially exponential number of patterns from data, especially association rules, so that new tools have to be defined to help data analysts in their job. Both information retrieval and knowledge discovery address the same issue : they structure and organize data. Nevertheless their points of view are different : the former selects and ranks data whether the latter classifies and clusters them. Formal Concept Analysis (FCA), introduced by R. Wille, uses concept lattices to reveal both an order and a classification inside data. However, it is well known in the FCA community, that these concept lattices may have an exponential size with respect to data. For all these reasons, tools to reduce the size of data, or lattices, are needed. In this thesis, some distributed algorithms for FCA have been designed in order to reduce input data into small pieces. Different decompositions of lattices have also been studied or defined, some based on congruence relations, other on tolerance relations. At last, to help the user in his choices of reduction, a general framework, named LattExp, have been defined. LattExp provides a navigation facility through reductions/decompositions and guide the user in his choices.
69

Identificación de las tendencias de reclamos presentes en reclamos.cl y que apunten contra instituciones de educación y organizaciones públicas

Beth Madariaga, Daniel Guillermo January 2012 (has links)
Ingeniero Civil Industrial / En la siguiente memoria se busca corroborar, por medio de una experiencia práctica y aplicada, si a caso el uso de las técnicas de Web Opinion Mining (WOM) y de herramientas informáticas, permiten determinar las tendencias generales que pueden poseer un conjunto de opiniones presentes en la Web. Particularmente, los reclamos publicados en el sitio web Reclamos.cl, y que apuntan contra instituciones pertenecientes a las industrias nacionales de Educación y de Gobierno. En ese sentido, los consumidores cada vez están utilizando más la Web para publicar en ella las apreciaciones positivas y negativas que poseen sobre lo que adquieren en el mercado, situación que hace de esta una mina de oro para diversas instituciones, especialmente para lo que es el identificar las fortalezas y las debilidades de los productos y los servicios que ofrecen, su imagen pública, entre varios otros aspectos. Concretamente, el experimento se realiza a través de la confección y la ejecución de una aplicación informática que integra e implementa conceptos de WOM, tales como Knowledge Discovery from Data (KDD), a modo de marco metodológico para alcanzar el objetivo planteado, y Latent Dirichlet Allocation (LDA), para lo que es la detección de tópicos dentro de los contenidos de los reclamos abordados. También se hace uso de programación orientada a objetos, basada en el lenguaje Python, almacenamiento de datos en bases de datos relacionales, y se incorporan herramientas pre fabricadas con tal de simplificar la realización de ciertas tareas requeridas. La ejecución de la aplicación permitió descargar las páginas web en cuyo interior se encontraban los reclamos de interés para la realización experimento, detectando en ellas 6.460 de estos reclamos; los cueles estaban dirigidos hacia 245 instituciones, y cuya fecha de publicación fue entre el 13 de Julio de 2006 y el 5 de Diciembre de 2011. Así también, la aplicación, mediante el uso de listas de palabras a descartar y de herramientas de lematización, procesó los contenidos de los reclamos, dejando en ellos sólo las versiones canónicas de las palabras que los constituían y que aportasen significado a estos. Con ello, la aplicación llevó a cabo varios análisis LDA sobre estos contenidos, los que arbitrariamente se definieron para ser ejecutados por cada institución detectada, tanto sobre el conjunto total de sus reclamos, como en segmentos de estos agrupados por año de publicación, con tal de generar, por cada uno de estos análisis, resultados compuestos por 20 tópicos de 30 palabras cada uno. Con los resultados de los análisis LDA, y mediante una metodología de lectura e interpretación manual de las palabras que constituían cada uno de los conjuntos de tópicos obtenidos, se procedió a generar frases y oraciones que apuntasen a hilarlas, con tal de obtener una interpretación que reflejase la tendencia a la cual los reclamos, representados en estos resultados, apuntaban. De esto se pudo concluir que es posible detectar las tendencias generales de los reclamos mediante el uso de las técnicas de WOM, pero con observaciones al respecto, pues al surgir la determinación de las tendencias desde un proceso de interpretación manual, se pueden generar subjetividades en torno al objeto al que apuntan dichas tendencias, ya sea por los intereses, las experiencias, entre otros, que posea la persona que realice el ejercicio de interpretación de los resultados.
70

Knowledge discovery method for deriving conditional probabilities from large datasets

Elsilä, U. (Ulla) 04 December 2007 (has links)
Abstract In today's world, enormous amounts of data are being collected everyday. Thus, the problems of storing, handling, and utilizing the data are faced constantly. As the human mind itself can no longer interpret the vast datasets, methods for extracting useful and novel information from the data are needed and developed. These methods are collectively called knowledge discovery methods. In this thesis, a novel combination of feature selection and data modeling methods is presented in order to help with this task. This combination includes the methods of basic statistical analysis, linear correlation, self-organizing map, parallel coordinates, and k-means clustering. The presented method can be used, first, to select the most relevant features from even hundreds of them and, then, to model the complex inter-correlations within the selected ones. The capability to handle hundreds of features opens up the possibility to study more extensive processes instead of just looking at smaller parts of them. The results of k-nearest-neighbors study show that the presented feature selection procedure is valid and appropriate. A second advantage of the presented method is the possibility to use thousands of samples. Whereas the current rules of selecting appropriate limits for utilizing the methods are theoretically proved only for small sample sizes, especially in the case of linear correlation, this thesis gives the guidelines for feature selection with thousands of samples. A third positive aspect is the nature of the results: given that the outcome of the method is a set of conditional probabilities, the derived model is highly unrestrictive and rather easy to interpret. In order to test the presented method in practice, it was applied to study two different cases of steel manufacturing with hot strip rolling. In the first case, the conditional probabilities for different types of retentions were derived and, in the second case, the rolling conditions for the occurrence of wedge were revealed. The results of both of these studies show that steel manufacturing processes are indeed very complex and highly dependent on the various stages of the manufacturing. This was further confirmed by the fact that with studies of k-nearest-neighbors and C4.5, it was impossible to derive useful models concerning the datasets as a whole. It is believed that the reason for this lies in the nature of these two methods, meaning that they are unable to grasp such manifold inter-correlations in the data. On the contrary, the presented method of conditional probabilities allowed new knowledge to be gained of the studied processes, which will help to better understand these processes and to enhance them.

Page generated in 0.0725 seconds