Made available in DSpace on 2019-03-29T23:33:19Z (GMT). No. of bitstreams: 0
Previous issue date: 2012-09-11 / Identifying unreliable or uncertain information in texts is fundamental for information extraction systems, as only information based on facts, free from uncertainties should be communicated to users. The literature on the detection of uncertainty texts contains many works that use Machine Learning (ML) to identify parts of the text that are not based on facts. The work divides the problem into three subproblems of classification and then applying post-processing with heuristics for removal of inconsistencies of outputs of classifiers. This work proposes a hybrid methodology based on ML and Integer Linear Programming (ILP) to detect uncertainties texts. The methodology consists of three steps: (1) the first step consists in pre-processing text for inclusion of linguistic information, (2) the second step consists in using local classifiers trained using AM; (3) the third step is to combine the results of local classifiers using an inference procedure that exploits the global structure of the problem, ruling out the need for the use of heuristics. The main contribution of the proposed methodology as well as this dissertation is the ILP model proposed in step 3. To verify the feasibility of the methodology, we developed a tool that allowed the application on a case study in biomedicine. The contribution of the combination of the output of the classifiers with the use of ILP is examined based on the comparison results produced when this step is replaced by a set of heuristics. The experimental results showed an improvement of 3.7 points when using the measure F of ILP step instead of heuristics.
Keywords: Detection of Uncertainty; Machine Learning; Natural Language Processing; Integer Linear Programming / Identificar informações incertas ou não confiáveis em textos é fundamental para sistemas de extração de informação, pois somente informações baseadas em fatos, livre de incertezas, devem ser transmitidas para os usuários. A literatura sobre detecção de incerteza em textos contém diversos trabalhos que utilizam Aprendizado de Máquina (AM) para identificar partes do texto que não são baseados em fatos. Os trabalhos dividem o problema em três subproblemas de classificação e em seguida aplicam pós-processamento com heurísticas para retirada de inconsistências das saídas dos classificadores. Esta dissertação propõe uma metodologia híbrida baseada em AM e Programação Linear Inteira (PLI) para detectar incertezas em textos. A metodologia proposta é composta de três etapas: (1) a primeira etapa consiste no pré-processamento do texto para inclusão de informações linguísticas; (2) a segunda etapa, consiste em utilizar classificadores locais treinados com o uso de AM; (3) a terceira etapa, consiste em combinar os resultados dos classificadores locais usando um mecanismo de inferência que explora a estrutura global do problema, descartando a necessidade do uso de heurísticas. A principal contribuição da metodologia proposta, bem como desta dissertação, é o modelo de PLI proposto na etapa 3. Para verificar a viabilidade da metodologia, foi desenvolvida uma ferramenta que permitiu a aplicação num estudo de caso da área biomédica. A contribuição da combinação da saída dos classificadores com o uso de PLI é examinada a partir da comparação dos resultados produzidos quando essa etapa é substituída por um conjunto de heurísticas. Os resultados experimentais evidenciam uma melhora de 3,7 pontos na medida F ao utilizar a etapa de PLI ao invés das heurísticas.
Palavras-chave: Detecção de Incertezas; Aprendizado de Máquina; Processamento em Linguagem Natural; Programação Linear Inteira
Identifer | oai:union.ndltd.org:IBICT/oai:dspace.unifor.br:tede/90046 |
Date | 11 September 2012 |
Creators | Quinho, Marcelo Coelho |
Contributors | Santos, Cícero Nogueira dos, Pinheiro, Plácido Rogério, Pinheiro, Plácido Rogério, Santos, Cícero Nogueira dos, Coelho, Andre Luis Vasconcelos, Souza, Criston Pereira de |
Publisher | Universidade de Fortaleza, Mestrado Em Informática Aplicada, UNIFOR, Brasil, Centro de Ciências Tecnológicas |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR, instname:Universidade de Fortaleza, instacron:UNIFOR |
Rights | info:eu-repo/semantics/openAccess |
Relation | 5443571202788449035, 500, 500, -7645770940771915222 |
Page generated in 0.0023 seconds