O Processamento de Línguas Naturais é uma área interdisciplinar cujas pesquisas podem ser divididas em duas grandes linhas: análise e síntese da língua. Esta pesquisa de doutorado traz contribuições para ambas. Para a análise da língua, um modelo integrativo capaz de unir diferentes níveis linguísticos é apresentado e avaliado em relação aos níveis morfológico, (incluindo subníveis léxico e morfossintático), sintático e semântico. Enquanto análises tradicionais são feitas dos níveis mais baixos da língua para os mais altos, em uma estratégia em cascata, na qual erros dos níveis mais baixos são propagados para os níveis mais altos, o modelo de análise proposto é capaz de unificar a análise de diferentes níveis a partir de uma abordagem bidirecional. O modelo é baseado em uma grande rede neural, treinada em córpus, cujos padrões de treinamento são extraídos de tokens presentes nas orações. Um tipo de recorrência denominado coativação é aplicado no modelo para permitir que a análise de um padrão modifique e seja modificada pela análise de outros padrões em um mesmo contexto. O modelo de análise permite investigações para as quais não foi originalmente planejado, além de apresentar resultados considerados satisfatórios em lematização e análise morfossintática, porém ainda demandando aprimoramento para a tarefa de análise sintática. A ferramenta associada a esse modelo permitiu investigar a recorrência proposta e a interação bidirecional entre níveis da língua, incluindo seus subníveis. Experimentos para coativação e bidirecionalidade foram realizados e considerados satisfatórios. Para a área de síntese da língua, um modelo de simplificação sintática, tarefa considerada como adaptação de texto para texto, baseado em regras manuais é aplicado em textos analisados sintaticamente, tendo como objetivo tornar os textos sintaticamente mais simples para leitores com letramento rudimentar ou básico. A ferramenta associada a esse modelo permitiu realizar simplificação sintática com medida-f de 77,2%, simplificando aproximadamente 16% de orações em textos do gênero enciclopédico / Natural Language Processing is an interdisciplinary research area that encompasses two large research avenues: language analysis and language synthesis. This thesis contributes for both of them. In what concerns language analysis, it presents an integrative model that links different levels of linguistic analysis. The evaluation of such model takes into consideration several levels: morphologic (including lexical and morph-syntactic sub-levels), syntactic and semantic. Whereas traditional analysis are undertaken from the lower levels to the upper ones, propagating errors in such direction, the model proposed herein is able to unify different levels of analysis using a bidirectional approach. The model is based on a large-scale neural network trained in corpus, which extracts its training features from tokens within the sentences. A type of recurrence denominated co-activation is applied to the model to make the analysis of a pattern able to modify (and to be modified by) the analysis of other patterns in a same context. This model may be used for purposes different from those for which it was conceived and yields satisfactory results in lemmatization and part-of-speech analysis, but still needs work on syntactic analysis. The tool associated to this model makes it possible to analyze the proposed recurrence language and the bidirectional influence of different levels on each other, including sub-level interaction. Experiments on both co-activation and bidirectional level integration were performed, and the results were considered satisfactory. On the other hand, in what concerns language synthesis, this thesis presents a rule-based model of syntactic simplification (one of text adaptation techniques), applicable to syntactically parsed texts in order to render them simpler for low literacy readers. The tool associated to this model makes it possible to carry out the task of syntactic simplification in Portuguese language. Such tool achieved 77.2% of f-measure in a task that simplified approximately 16% of the sentences of an encyclopedic text
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-24062013-090016 |
Date | 28 March 2013 |
Creators | Candido Junior, Arnaldo |
Contributors | Aluisio, Sandra Maria |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | English |
Type | Tese de Doutorado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0021 seconds