Return to search

Leitura da web em português em ambiente de aprendizado sem-fim

Submitted by Alison Vanceto (alison-vanceto@hotmail.com) on 2017-01-03T12:49:19Z
No. of bitstreams: 1
TeseMCD.pdf: 1564245 bytes, checksum: fbb9eb1099a1b38351371c97e8e49bb4 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2017-01-16T16:47:27Z (GMT) No. of bitstreams: 1
TeseMCD.pdf: 1564245 bytes, checksum: fbb9eb1099a1b38351371c97e8e49bb4 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2017-01-16T16:47:38Z (GMT) No. of bitstreams: 1
TeseMCD.pdf: 1564245 bytes, checksum: fbb9eb1099a1b38351371c97e8e49bb4 (MD5) / Made available in DSpace on 2017-01-16T16:47:46Z (GMT). No. of bitstreams: 1
TeseMCD.pdf: 1564245 bytes, checksum: fbb9eb1099a1b38351371c97e8e49bb4 (MD5)
Previous issue date: 2016-01-04 / Não recebi financiamento / NELL is a computer system that has the goal of learn to learn 24 hours per day, continuously
and learn more an better than the last day, to perform the knowledge base (KB). NELL is
running since January 12 of 2010. Furthermore, NELL goals is have hight precision to be able to continue the learning.
NELL is developed in macro-reading context, because this NELL needs very much redundancy to run. The first step to run NELL is to have an big (all-pairs-data). An all-pairs-data
is a preprocessed base using Natural Language Processing (NLP), that base has all sufficient statistics about a corpus of web pages. The proposal of this project was to create a instance of NELL (currently in English) in Portuguese. For this, the first goal was the developing an all-pairs-data in Portuguese. The
second step was to create a new version of Portuguese NELL. And finally, the third goal
was to develop a coreference resolution hybrid method focused in features semantics and
morphologics. This method is not dependent of a specific language, it is can be applied for
another languages with the same alphabet of Portuguese language. The NELL in Portuguese was developed, but the all-pairs-data is not big enough. Because it Portuguese NELL is not running for ever, like the English version. Even so, this project present the steps about how to develop a NELL in other language and some ideas about how to improve the all-pairs-data. By the way, this project present a coreference resolution hybrid method with good results to NELL. / A NELL é um sistema de computador que possui o objetivo de executar 24 horas por dia,
7 dias por semana, sem parar. A versão atual da NELL foi iniciada em 12 de Janeiro de
2010 e continua ativa. Seu objetivo é aprender cada vez mais fatos da web para popular sua
base de conhecimento (Knowlegde Base - KB). Além de aprender cada vez mais, a NELL
também objetiva alcançar alta confiança no aprendizado para garantir a continuidade do
aprendizado. A NELL foi desenvolvida e atua no contexto da macroleitura, no qual é necessária uma grande quantidade e redundância de dados. Para que o sistema possa aprender, o primeiro passo é criar uma base preprocessada (all-pairs-data) a partir do uso de técnicas linguísticas. O all-pairs-data deve possuir todas as estatísticas suficientes para a execução da NELL e também deve ser de um tamanho suficientemente grande para que o aprendizado possa ocorrer. Neste projeto, foi proposta a criação de uma nova instância da NELL em português. Inicialmente
foi proposta a criação de um all-pairs-data e, em seguida, a criação de uma abordagem híbrida para a resolução de correferências independente de língua por base em
características semânticas e morfológicas. A proposta híbrida objetivou aperfeiçoar o processo atual de tratamento de correferências na NELL, melhorando assim a confiabilidade
no aprendizado. Todas as propostas foram desenvolvidas e a NELL em português obteve bons resultados. Tais resultados evidenciam que a leitura da web em português poderá se tornar um sistema de aprendizado sem-fim. Para que isso ocorra são também apresentadas as futuras abordagens
e propostas. Além disso, este projeto apresenta a metodologia de criação da instância da NELL em português, uma proposta de resolução de correferência que explora atributos linguisticos,bem como a ontologia da NELL, além de apontar trabalhos futuros, nos quais inclui-se processos de adição de outras línguas na NELL, principalmente para aquelas que possuem
poucas páginas web disponíveis para o aprendizado.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/8414
Date04 January 2016
CreatorsDuarte, Maísa Cristina
ContributorsHruschka Júnior, Estevam Rafael
PublisherUniversidade Federal de São Carlos, Câmpus São Carlos, Programa de Pós-graduação em Ciência da Computação, UFSCar
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0029 seconds