Sistemas de computação têm se tornado maiores e mais complexos com o objetivo de lidar com a vasta quantidade de dados disponíveis. Uma tarefa decisiva em tais sistemas é classificar estes dados, bem como extrair informação útil destes. Nesta dissertação, testam-se as redes lógicas de Markov como linguagem para especificação e aprendizado de classificadores automáticos de dados. Esta linguagem combina fragmentos da lógica de primeira ordem e modelos probabilísticos gráficos (redes de Markov) em uma única representação. A junção destas duas técnicas permite a modelagem de conhecimento relacional através da lógica, e também de incertezas por meio de probabilidades e grafos não-direcionados. Neste trabalho, classificadores são aprendidos segundo dois paradigmas de aprendizado de máquina: o supervisionado, foco desta dissertação, e também o aprendizado semi-supervisionado com restrições determinísticas. Para investigar a utilidade das redes lógicas de Markov no treinamento de classificadores, uma série de experimentos de aprendizado é desenvolvida a partir de bases de dados de treino reais disponíveis em repositórios na internet. Como ferramenta auxiliar nos experimentos, esta dissertação testa também o pacote Alchemy, que provê um conjunto de algoritmos para tarefas gerais de aprendizado de máquina e inferência probabilística em redes lógicas de Markov. Para mensurar o desempenho dos classificadores aprendidos, três métricas tradicionais são empregadas: acurácia, precisão e revocação. Os resultados alcançados com classificadores semi-supervisionados com restrições indicam que a linguagem ainda não é própria para este paradigma de aprendizado. Por outro lado, o êxito obtido no desempenho dos classificadores treinados de forma supervisionada sugere que as redes lógicas de Markov são um formalismo lógico-probabilístico promissor para aplicações de classificação, e devem ser objeto de pesquisas futuras. / Computing systems have become larger and more complex in order to deal with the vast amount of available data. An important task in such systems is to classify these data, so as to extract useful information from them. In this dissertation, Markov logic networks are tested as a language to specify and learn automatic data classifiers. This language combines fragments of first-order logic and probabilistic graphical models (Markov networks), in a single representation. Together, both techniques allow one to model relational knowledge through a logic formalism, and uncertainty through probabilities and undirected graphs. In this work, data classifiers are learned by two machine learning paradigms: the supervised, the main focus of this dissertation, and also the semisupervised learning under deterministic constraints. To investigate the usefulness of Markov logic networks in training data classifiers, a set of experiments is developed from real databases available in repositories at the internet. As a support tool for experiments, this dissertation tests also the Alchemy package, which provides a set of algorithms for general machine learning tasks and probabilistic inference in Markov logic networks. To measure the performance of data classifiers, three traditional metrics are employed: accuracy, precision and recall. The results reached with semisupervised data classifiers indicate that the language is not yet suitable for learning based on this paradigm. On the other hand, the success achieved with classifiers trained in a supervised context suggests that Markov logic networks are a promising logical-probabilistic formalism to approach classification applications, and should be considered in future research.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-18052011-151242 |
Date | 15 June 2010 |
Creators | Silva, Victor Anselmo |
Contributors | Cozman, Fabio Gagliardi |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0021 seconds