Global ETD Search

Return to search

Extração de informação não-supervisionada por segmentação de texto

Submitted by Lúcia Brandão (lucia.elaine@live.com) on 2015-07-27T19:15:09Z
No. of bitstreams: 1
Tese - Eli Cortez Custódio Vilarinho.pdf: 11041462 bytes, checksum: 19414e6ce9e997483dc1adee4e5eb413 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-07-28T19:02:25Z (GMT) No. of bitstreams: 1
Tese - Eli Cortez Custódio Vilarinho.pdf: 11041462 bytes, checksum: 19414e6ce9e997483dc1adee4e5eb413 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-07-28T19:08:39Z (GMT) No. of bitstreams: 1
Tese - Eli Cortez Custódio Vilarinho.pdf: 11041462 bytes, checksum: 19414e6ce9e997483dc1adee4e5eb413 (MD5) / Made available in DSpace on 2015-07-28T19:08:39Z (GMT). No. of bitstreams: 1
Tese - Eli Cortez Custódio Vilarinho.pdf: 11041462 bytes, checksum: 19414e6ce9e997483dc1adee4e5eb413 (MD5)
Previous issue date: 2012-12-14 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / In this work we propose, implement and evaluate a new unsupervised approach for
the problem of Information Extraction by Text Segmentation (IETS). Our approach
relies on information available on pre-existing data to learn how to associate segments
in the input string with attributes of a given domain relying on a very effective
set of content-based features. The effectiveness of the content-based features is also
exploited to directly learn from test data structure-based features, with no previous
human-driven training, a feature unique to our approach. Based on our approach,
we have produced a number of results to address the IETS problem in a unsupervised
fashion. In particular, we have developed, implemented and evaluated distinct IETS
methods, namely ONDUX, JUDIE and iForm. ONDUX (On Demand Unsupervised
Information Extraction) is an unsupervised probabilistic approach for IETS that
relies on content-based features to bootstrap the learning of structure-based features.
Structure-based features are exploited to disambiguate the extraction of certain
attributes through a reinforcement step, which relies on sequencing and positioning
of attribute values directly learned on-demand from the input texts. JUDIE (Joint
Unsupervised Structure Discovery and Information Extraction) aims at automatically
extracting several semi-structured data records in the form of continuous text
and having no explicit delimiters between them. In comparison with other IETS
methods, including ONDUX, JUDIE faces a task considerably harder, that is, extracting
information while simultaneously uncovering the underlying structure of
the implicit records containing it. In spite of that, it achieves results comparable to
the state-of- the-art methods. iForm applies our approach to the task of Web form
filling. It aims at extracting segments from a data-rich text given as input and associating
these segments with fields from a target Web form. The extraction process
relies on content-based features learned from data that was previously submitted to
the Web form. All of these methods were evaluated considering different experimental
datasets, which we use to perform a large set of experiments in order to validate
our approach and methods. These experiments indicate that our proposed approach
yields high quality results when compared to state-of-the-art approaches and that
it is able to properly support IETS methods in a number of real applications. / Neste trabalho, propomos, implementar e avaliar uma nova abordagem não supervisionada para
o problema de Extração de Informações Segmentação Texto (IETS). Nossa abordagem
baseia-se em informações disponíveis sobre dados pré-existentes para aprender a associar segmentos
na seqüência de entrada com atributos de um determinado domínio contando com uma muito eficaz
conjunto de recursos baseados em conteúdo. A eficácia dos recursos com base em conteúdo também é
explorada para aprender diretamente com recursos baseados em estrutura de dados de teste, sem prévia
formação humana-driven, uma característica única para a nossa abordagem. Com base em nossa abordagem,
que produziram um número de resultados de abordar o problema IETS num sem supervisão
moda. Em particular, temos desenvolvido, implementado e avaliado IETS distintas
métodos, nomeadamente ONDUX, judie e iForm. ONDUX (On Demand Unsupervised
Extração de Informação) é uma abordagem probabilística sem supervisão para que IETS
depende de características baseadas em conteúdo para iniciar o aprendizado de características baseadas em estrutura.
Recursos baseados em estrutura são exploradas para disambiguate a extração de certos
atributos através de uma etapa de reforço, que se baseia na sequenciação e posicionamento
de valores de atributos diretamente aprendidas on-demand a partir dos textos de entrada. Judie (Joint
Estrutura sem supervisão Descoberta e Extração de Informações) visa automaticamente
extrair vários registros semi-estruturados de dados na forma de texto contínuo
e não tendo delimitadores explícitas entre eles. Em comparação com outros IETS
métodos, incluindo ONDUX, judie enfrenta uma tarefa consideravelmente mais forte, isto é, extrair
informações, ao mesmo tempo descobrindo a estrutura subjacente de
os registros implícitas que o contenham. Apesar disso, ele consegue resultados comparáveis aos
a métodos the-art estado-da. iForm aplica-se a nossa abordagem para a tarefa de forma Web
o preenchimento. Destina-se a extração de segmentos de um texto rico em dados fornecidos como entrada e associando
esses segmentos com campos de um formulário Web de destino. O processo de extracção
depende de recursos com base em conteúdo aprendidas com os dados que foram previamente submetidos à
o formulário Web. Todos esses métodos foram avaliados considerando diferente experimental
conjuntos de dados, que usamos para realizar um grande conjunto de experiências, a fim de validar
nossa abordagem e métodos. Estas experiências indicam que a nossa abordagem proposta
produz resultados de alta qualidade quando comparado com abordagens state-of-the-art e que
ele é capaz de suportar adequadamente os métodos IETS em uma série de aplicações reais.

Banco de dados

Gerência de dados da web

Information extraction

Database

Web data management

Identifer	oai:union.ndltd.org:IBICT/oai:http://localhost:tede/4518
Date	14 December 2012
Creators	Vilarinho, Eli Cortez Custódio
Contributors	Silva, Altigran Soares da, Laender, Alberto Henrique Frade, Srivastava, Divesh, Traina Júnior, Caetano, Cavalcanti, João Marcos Bastos
Publisher	Universidade Federal do Amazonas, Programa de Pós-graduação em Informática, UFAM, Brasil, Instituto de Computação
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	English
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Format	application/pdf
Source	reponame:Biblioteca Digital de Teses e Dissertações da UFAM, instname:Universidade Federal do Amazonas, instacron:UFAM
Rights	info:eu-repo/semantics/openAccess
Relation	-312656415484870643, 600

Page generated in 0.0031 seconds

Extração de informação não-supervisionada por segmentação de texto

Description

Links & Downloads

Tags

Additional Fields