Global ETD Search

Return to search

Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos / Hybrid Methodology based on Machine Learning and Integer Linear Programming for Detecting Hedges in Texts (Inglês)

Made available in DSpace on 2019-03-29T23:33:19Z (GMT). No. of bitstreams: 0
Previous issue date: 2012-09-11 / Identifying unreliable or uncertain information in texts is fundamental for information extraction systems, as only information based on facts, free from uncertainties should be communicated to users. The literature on the detection of uncertainty texts contains many works that use Machine Learning (ML) to identify parts of the text that are not based on facts. The work divides the problem into three subproblems of classification and then applying post-processing with heuristics for removal of inconsistencies of outputs of classifiers. This work proposes a hybrid methodology based on ML and Integer Linear Programming (ILP) to detect uncertainties texts. The methodology consists of three steps: (1) the first step consists in pre-processing text for inclusion of linguistic information, (2) the second step consists in using local classifiers trained using AM; (3) the third step is to combine the results of local classifiers using an inference procedure that exploits the global structure of the problem, ruling out the need for the use of heuristics. The main contribution of the proposed methodology as well as this dissertation is the ILP model proposed in step 3. To verify the feasibility of the methodology, we developed a tool that allowed the application on a case study in biomedicine. The contribution of the combination of the output of the classifiers with the use of ILP is examined based on the comparison results produced when this step is replaced by a set of heuristics. The experimental results showed an improvement of 3.7 points when using the measure F of ILP step instead of heuristics.
Keywords: Detection of Uncertainty; Machine Learning; Natural Language Processing; Integer Linear Programming / Identificar informações incertas ou não confiáveis em textos é fundamental para sistemas de extração de informação, pois somente informações baseadas em fatos, livre de incertezas, devem ser transmitidas para os usuários. A literatura sobre detecção de incerteza em textos contém diversos trabalhos que utilizam Aprendizado de Máquina (AM) para identificar partes do texto que não são baseados em fatos. Os trabalhos dividem o problema em três subproblemas de classificação e em seguida aplicam pós-processamento com heurísticas para retirada de inconsistências das saídas dos classificadores. Esta dissertação propõe uma metodologia híbrida baseada em AM e Programação Linear Inteira (PLI) para detectar incertezas em textos. A metodologia proposta é composta de três etapas: (1) a primeira etapa consiste no pré-processamento do texto para inclusão de informações linguísticas; (2) a segunda etapa, consiste em utilizar classificadores locais treinados com o uso de AM; (3) a terceira etapa, consiste em combinar os resultados dos classificadores locais usando um mecanismo de inferência que explora a estrutura global do problema, descartando a necessidade do uso de heurísticas. A principal contribuição da metodologia proposta, bem como desta dissertação, é o modelo de PLI proposto na etapa 3. Para verificar a viabilidade da metodologia, foi desenvolvida uma ferramenta que permitiu a aplicação num estudo de caso da área biomédica. A contribuição da combinação da saída dos classificadores com o uso de PLI é examinada a partir da comparação dos resultados produzidos quando essa etapa é substituída por um conjunto de heurísticas. Os resultados experimentais evidenciam uma melhora de 3,7 pontos na medida F ao utilizar a etapa de PLI ao invés das heurísticas.

Palavras-chave: Detecção de Incertezas; Aprendizado de Máquina; Processamento em Linguagem Natural; Programação Linear Inteira

Aprendizado computacional

Programação linear

Linguagem natural

Identifer	oai:union.ndltd.org:IBICT/oai:dspace.unifor.br:tede/90046
Date	11 September 2012
Creators	Quinho, Marcelo Coelho
Contributors	Santos, Cícero Nogueira dos, Pinheiro, Plácido Rogério, Pinheiro, Plácido Rogério, Santos, Cícero Nogueira dos, Coelho, Andre Luis Vasconcelos, Souza, Criston Pereira de
Publisher	Universidade de Fortaleza, Mestrado Em Informática Aplicada, UNIFOR, Brasil, Centro de Ciências Tecnológicas
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR, instname:Universidade de Fortaleza, instacron:UNIFOR
Rights	info:eu-repo/semantics/openAccess
Relation	5443571202788449035, 500, 500, -7645770940771915222

Page generated in 0.0023 seconds

Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos / Hybrid Methodology based on Machine Learning and Integer Linear Programming for Detecting Hedges in Texts (Inglês)

Description

Links & Downloads

Tags

Additional Fields