Global ETD Search

Return to search

Desambigua??o de anota??es morfossint?ticas feitas por MTMDD

Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-10-05T19:09:02Z
No. of bitstreams: 1
475518 - Texto Completo.pdf: 1065929 bytes, checksum: cf8f71f90f9d278fccf4595fde672a11 (MD5) / Made available in DSpace on 2015-10-05T19:09:02Z (GMT). No. of bitstreams: 1
475518 - Texto Completo.pdf: 1065929 bytes, checksum: cf8f71f90f9d278fccf4595fde672a11 (MD5)
Previous issue date: 2015-03-24 / The Natural Language Processing technologies (PLN) are being used for analysis of huge amounts of data. With the advent of new media and mass adoption of social networking, the flow of information generated every second is the largest in history. The majority of that is multimedia files. Meanwhile, a large portion of the information produced, especially in social network, is textual. Thus, PLN solutions need to be more robust than they ever were, finding processing solutions that might accompany this constant information production or at least provide better results compared to procedures previously used.
The labelers or taggers are a major component of PLN. Its function, explored in this work is the ability to observe and catalog the words in a text according to their morphosyntactic functions. The name commonly given to this process is the POST (Part-Of-Speech Tagging). Within the context Part-Of-Speech (POS) is the function to process and identify a group of words by grouping them into pre-defined types. This grouping can occur due to syntactic, morphological or morphosyntactic. Although the processing speed is a worthy feature, when we deal with labelers, the accuracy obtained for its process should be the premise.
The concept of obtaining semantic labels from texts evaluations seems simple at first sight, although presents several challenges. One of the major challenges encountered in PLN is the problem of ambiguity. This situation, which occurs in several stages of natural language processing, is complex due to requires comprehensive knowledge from the processing application using that as tools to collaborate in order to implement the most correct choices. It is a classic problem, inherent to natural and existing language since the beginning of the researches of this area. Several possibilities to minimize its consequences have been proposed since then. This paper lists some of the proposals found on the literature by adding the possibility to use MTMDD structures during the process, looking for a substantial performance gain. / Atualmente as tecnologias de Processamento de Linguagem Natural (PLN) est?o sendo utilizadas em an?lises de enormes quantidades de dados. Com o advento das novas m?dias e a ado??o em massa das redes sociais, o fluxo de informa??es geradas a cada segundo ? o maior da hist?ria. Embora isso se concentre, em maior parte, por informa??es e arquivos de multim?dia, uma grande parcela da informa??o produzida, principalmente nas redes sociais, ? textual. Desta forma, as solu??es de PLN necessitam ser mais robustas do que jamais foram, encontrando solu??es de processamento que possam acompanhar esta gera??o constante de informa??es ou pelo menos apresentar resultados melhores se comparados aos procedimentos utilizados anteriormente.
Os etiquetadores ou taggers s?o um dos principais componentes da PLN. Sua fun??o, explorada neste trabalho ? a capacidade de observar e catalogar as palavras em um texto de acordo com suas fun??es morfossint?ticas. O nome comumente dado a este processo ? o de POST (Part-Of-Speech Tagging). Dentro do contexto Part-Of-Speech (POS) encontra-se a fun??o de processar e identificar um grupo de palavras agrupando-as em tipos pr?-definidos. Este agrupamento pode ocorrer em raz?o sint?tica, morfol?gica ou morfossint?tica. Embora a velocidade de processamento seja uma carater?stica digna de nota, quando tratamos de etiquetadores, a acuidade obtida por seu processo deve ser a premissa.
O conceito da obten??o de etiquetas sem?nticas a partir de avalia??es dos textos embora pare?a simples em um primeiro momento, apresenta v?rios desafios. Um dos maiores desafios encontrado em PLN ? o problema da ambiguidade. Esta situa??o que ocorre nas mais diversas etapas do processamento de linguagem natural ? complexa, devido ? necessidade de que a aplica??o processadora tenha conhecimentos abrangentes que possam ser utilizados como ferramentas que colaborem no intuito de realizar as escolhas mais corretas. Devido ao fato de se tratar de um problema antigo, inerente ? linguagem natural e existente desde o come?o das pesquisas da ?rea, diversas possibilidades de minimizar suas consequ?ncias foram propostas. O presente trabalho enumera algumas das propostas encontradas, adicionando a possibilidade de uso de estruturas do tipo MTMDD no processo, buscando um ganho substancial de desempenho.

http://tede2.pucrs.br/tede2/handle/tede/6341

INFORM?TICA

PROCESSAMENTO DA LINGUAGEM NATURAL

Identifer	oai:union.ndltd.org:IBICT/oai:tede2.pucrs.br:tede/6341
Date	24 March 2015
Creators	Thiele, Pablo Frederico Oliveira
Contributors	Fernandes, Paulo Henrique Lemelle
Publisher	Pontif?cia Universidade Cat?lica do Rio Grande do Sul, Programa de P?s-Gradua??o em Ci?ncia da Computa??o, PUCRS, Brasil, Faculdade de Inform?tica
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	application/pdf
Source	reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS, instname:Pontifícia Universidade Católica do Rio Grande do Sul, instacron:PUC_RS
Rights	info:eu-repo/semantics/openAccess
Relation	1974996533081274470, 600, 600, 600, -3008542510401149144, 3671711205811204509

Page generated in 0.0057 seconds

Desambigua??o de anota??es morfossint?ticas feitas por MTMDD

Description

Links & Downloads

Tags

Additional Fields