• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 16
  • 2
  • Tagged with
  • 18
  • 18
  • 18
  • 16
  • 16
  • 9
  • 9
  • 8
  • 6
  • 6
  • 6
  • 6
  • 5
  • 5
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

e-Termos: Um ambiente colaborativo web de gestão terminológica / e-Termos: a web collaborative environment of terminology management

Leandro Henrique Mendonça de Oliveira 22 September 2009 (has links)
Em uma de suas definções, a Terminologia representa o conjunto de princípios e métodos adotados no processo de gestão e criação de produtos terminológicos, tais como glossários e dicionários de termos. A sistematização desses métodos envolve a aplicação de ferramentas computacionais específicas e compatíveis com as tarefas terminológicas, contribuindo para o desenvolvimento desses produtos e a difusão de conhecimento especializado. Entretanto, principalmente no Brasil, a combinação da Terminologia e Informática é incipiente, e dentre as atividades do trabalho terminológico é comum a utilização de várias ferramentas não especializados para esse fim. Isso torna o trabalho dos terminólogos muito moroso, pois esse trabalho geralmente é feito por uma equipe multidisciplinar que deve ter acesso, a todo o momento, à versão mais atual das várias etapas da geração de um produto terminológico. Além disso, deixa o gerenciamento dos dados mais complicado, pois não existe um padrão de entrada e saída definido para os programas. Apoiado nos pressupostos da Teoria Comunicativa da Terminologia (TCT), este trabalho apresenta a proposta de desenvolvimento e avaliação do e- Termos, um Ambiente ColaborativoWeb composto por seis módulos de trabalho bem definidos, cujo propósito é automatizar as tarefas de gestão e criação de produtos terminológicos. Cada módulo do e-Termos possui a responsabilidade de abrigar tarefas inerentes ao processo de criação das terminologias, sendo atreladas a eles diferentes ferramentas de apoio lingüístico, que possuem a função de dar suporte às atividades de Processamento de Língua Natural envolvidas nesse processo. Além delas, há também ferramentas colaborativas, designadas para dar apoio às necessidades comunicacionais e de interação da equipe de trabalho. Particularmente com relação ao processo de avaliação proposto, uma de suas características é a capacidade de ser executado em um tempo curto, viabilizando a avaliação controlada de vários grupos, mas executada no ambiente de trabalho do público alvo. As principais contribuições desta pesquisa são o aspecto colaborativo instanciado na prática terminológica, a criação flexível da Ficha Terminológica, a possibilidade didática de uso para o ensino de terminologia, lexicografia e tradução e o processo de avaliação para sistemas colaborativos desenvolvido para o e-Termos, que combina Cenários de Uso e um Questionário de Pesquisa. Utilizando tecnologias Web e da área de Computer Supported Collaborative Work (CSCW) para o desenvolvimento da sua arquitetura computacional colaborativa, o e-Termos apresenta-se como um ambiente inovador para a pesquisa terminolóogica assistida por computador, pois automatiza um método prático que exp~oe os postulados da terminologia de orientação descritiva e evidencia todas as etapas do processo de criação de produtos terminológicos com o inédito diferencial colaborativo. Para certificar este êxito, o e-Termos tem recebido um número crescente de novas propostas de projeto, tendo até Agosto de 2009 mais de 130 usuários cadastrados, alocados em 68 diferentes projetos terminológicos / In one of its definitions, Terminology represents the set of principles and methods adopted in the creation and management of terminological products as glossaries and dictionaries of terms. A systematization of these methods includes the application of specific computational tools, compatible with terminological tasks, which contribute to developing such products and disseminating expert knowledge. However, especially in Brazil, the combination of Terminology and Computer Science is still incipient, and to perform the tasks of a terminological work it is typical to employ several nonspecialized tools, which make terminologists\' work very time-consuming, since it is usually carried out by a multidisciplinary team that should have access, all the time, to the latest versions of the various stages of the generation of a terminological product. Moreover, it makes data management more complex, because there is no input/output standard defined for programs. Based on the presuppositions of the Communicative Theory of Terminology (CTT), this thesis proposes the development and evaluation of e-Termos, a Web Collaborative Environment composed of six well-defined working modules, whose purpose is to automatize tasks for creating and managing terminological products. Each module in e- Termos is responsible for tasks inherent to the process of creating terminologies. Linked to these modules, there are different linguistic support tools that assist the Natural Language Processing activities included in the process. Besides them, there are also collaborative tools for supporting the communication and interaction needs of team members. As far as the proposed evaluation process is concerned, one of its features is that it can be run in a short time, making viable a controlled evaluation of several groups that is, however, run in the work environment of the target audience. The main contributions of this research are the collaborative aspect instantiated in terminological practice, the exible creation of Terminological Records, the possibility of being used for teaching terminology, lexicography and translation, and the evaluation of collaborative systems developed for e-Termos, which combines Scenario-based Evaluations and Surveys. Using Web technologies and Computer Supported Collaborative Work (CSCW) to develop its collaborative computational architecture, e-Termos is an innovative environment for computer-assisted terminological research, since it automatizes a useful method that represents the postulates of descriptive terminology and highlights all stages of the process of creating terminological products with the unprecedented collaborative differential. Confirming its success, e-Termos has been receiving a growing number of new project proposals, and in August 2009 has more than 130 registered users in 68 different terminological projects
12

Sumarização multidocumento com base em aspectos informativos / Multidocument summarization based on information aspects

Alessandro Yovan Bokan Garay 20 August 2015 (has links)
A sumarização multidocumento consiste na produção de um sumário/resumo a partir de uma coleção de textos sobre um mesmo assunto. Devido à grande quantidade de informação disponível na Web, esta tarefa é de grande relevância já que pode facilitar a leitura dos usuários. Os aspectos informativos representam as unidades básicas de informação presentes nos textos. Por exemplo, em textos jornalísticos em que se relata um fato/acontecimento, os aspectos podem representar a seguintes informações: o que aconteceu, onde aconteceu, quando aconteceu, como aconteceu, e por que aconteceu. Conhecendo-se esses aspectos e as estratégias de produção e organização de sumários, é possível automatizar a tarefa de sumarização. No entanto, para o Português do Brasil, não há pesquisa feita sobre sumarização com base em aspectos. Portanto, neste trabalho de mestrado, investigaram-se métodos de sumarização multidocumento com base em aspectos informativos, pertencente à abordagem profunda para a sumarização, em que se busca interpretar o texto para se produzir sumários mais informativos. Em particular, implementaram-se duas etapas relacionadas: (i) identificação automática de aspectos os aspectos informativos e (ii) desenvolvimento e avaliação de dois métodos de sumarização com base em padrões de aspectos (ou templates) em sumários. Na etapa (i), criaram-se classificadores de aspectos com base em anotador de papéis semânticos, reconhecedor de entidades mencionadas, regras manuais e técnicas de aprendizado de máquina. Avaliaram-se os classificadores sobre o córpus CSTNews (Rassi et al., 2013; Felippo et al., 2014). Os resultados foram satisfatórios, demostrando que alguns aspectos podem ser identificados automaticamente em textos jornalísticos com um desempenho razoável. Já na etapa (ii), elaboraram-se dois métodos inéditos de sumarização multidocumento com base em aspectos. Os resultados obtidos mostram que os métodos propostos neste trabalho são competitivos com os métodos da literatura. Salienta-se que esta abordagem para sumarização tem recebido grande destaque ultimamente. Além disso, é inédita nos trabalhos desenvolvidos no Brasil, podendo trazer contribuições importantes para a área. / Multi-document summarization is the task of automatically producing a unique summary from a group of texts on the same topic. With the huge amount of available information in the web, this task is very relevant because it can facilitate the reading of the users. Informative aspects, in particular, represent the basic information units in texts and summaries, e.g., in news texts there should be the following information: what happened, when it happened, where it happened, how it happened and why it happened. Knowing these aspects and the strategies to produce and organize summaries, it is possible to automate the aspect-based summarization. However, there is no research about aspect-based multi-document summarization for Brazilian Portuguese. This research work investigates multi-document summarization methods based on informative aspects, which follows the deep approach for summarization, in which it aims at interpreting the texts to produce more informative summaries. In particular, two main stages are developed: (i) the automatic identification of informative aspects and (ii) and the development and evaluation of two summarization methods based on aspects patterns (or templates). In the step (i) classifiers were created based on semantic role labeling, named entity recognition, handcrafted rules and machine learning techniques. Classifiers were evaluated on the CSTNews annotated corpus (Rassi et al., 2013; Felippo et al., 2014). The results were satisfactory, demonstrating that some aspects can be automatically identified in the news with a reasonable performance. In the step (ii) two novels aspect-based multi-document summarization methods are elaborated. The results show that the proposed methods in this work are competitive with the classical methods. It should be noted that this approach has lately received a lot of attention. Furthermore, it is unprecedented in the summarization task developed in Brazil, with the potential to bring important contributions to the area.
13

Using phonetic knowledge in tools and resources for Natural Language Processing and Pronunciation Evaluation / Utilizando conhecimento fonético em ferramentas e recursos de Processamento de Língua Natural e Treino de Pronúncia

Almeida, Gustavo Augusto de Mendonça 21 March 2016 (has links)
This thesis presents tools and resources for the development of applications in Natural Language Processing and Pronunciation Training. There are four main contributions. First, a hybrid grapheme-to-phoneme converter for Brazilian Portuguese, named Aeiouadô, which makes use of both manual transcription rules and Classification and Regression Trees (CART) to infer the phone transcription. Second, a spelling correction system based on machine learning, which uses the trascriptions produced by Aeiouadô and is capable of handling phonologically-motivated errors, as well as contextual errors. Third, a method for the extraction of phonetically-rich sentences, which is based on greedy algorithms. Fourth, a prototype system for automatic pronunciation assessment, especially designed for Brazilian-accented English. / Esta dissertação apresenta recursos voltados para o desenvolvimento de aplicações de reconhecimento de fala e avaliação de pronúncia. São quatro as contribuições aqui discutidas. Primeiro, um conversor grafema-fonema híbrido para o Português Brasileiro, chamado Aeiouadô, o qual utiliza regras de transcrição fonética e Classification and Regression Trees (CART) para inferir os fones da fala. Segundo, uma ferramenta de correção automática baseada em aprendizado de máquina, que leva em conta erros de digitação de origem fonética, que é capaz de lidar com erros contextuais e emprega as transcrições geradas pelo Aeiouadô. Terceiro, um método para a extração de sentenças foneticamente-ricas, tendo em vista a criação de corpora de fala, baseado em algoritmos gulosos. Quarto, um protótipo de um sistema de reconhecimento e correção de fala não-nativa, voltado para o Inglês falado por aprendizes brasileiros.
14

Auxílio à leitura de textos em português facilitado: questões de acessibilidade / Reading assistance for texts in facilitated portuguese: accessibility issues

Watanabe, Willian Massami 05 August 2010 (has links)
A grande capacidade de disponibilização de informações que a Web possibilita se traduz em múltiplas possibilidades e oportunidades para seus usuários. Essas pessoas são capazes de acessar conteúdos provenientes de todas as partes do planeta, independentemente de onde elas estejam. Mas essas possibilidades não são estendidas a todos, sendo necessário mais que o acesso a um computador e a Internet para que sejam realizadas. Indivíduos que apresentem necessidades especiais (deficiência visual, cognitiva, dificuldade de locomoção, entre outras) são privados do acesso a sites e aplicações web que façam mal emprego de tecnologias web ou possuam o conteúdo sem os devidos cuidados para com a acessibilidade. Um dos grupos que é privado do acesso a esse ambiente é o de pessoas com dificuldade de leitura (analfabetos funcionais). A ampla utilização de recursos textuais nas aplicações pode tornar difícil ou mesmo impedir as interações desses indivíduos com os sistemas computacionais. Nesse contexto, este trabalho tem por finalidade o desenvolvimento de tecnologias assistivas que atuem como facilitadoras de leitura e compreensão de sites e aplicações web a esses indivíduos (analfabetos funcionais). Essas tecnologias assistivas utilizam recursos de processamento de língua natural visando maximizar a compreensão do conteúdo pelos usuários. Dentre as técnicas utilizadas são destacadas: simplificação sintática, sumarização automática, elaboração léxica e reconhecimento das entidades nomeadas. Essas técnicas são utilizadas com a finalidade de promover a adaptação automática de conteúdos disponíveis na Web para usuários com baixo nível de alfabetização. São descritas características referentes à acessibilidade de aplicações web e princípios de design para usuários com baixo nível de alfabetização, para garantir a identificação e entendimento das funcionalidades que são implementadas nas duas tecnologias assistivas resultado deste trabalho (Facilita e Facilita Educacional). Este trabalho contribuiu com a identificação de requisitos de acessibilidade para usuários com baixo nível de alfabetização, modelo de acessibilidade para automatizar a conformidade com a WCAG e desenvolvimento de soluções de acessibilidade na camada de agentes de usuários / The large capacity of Web for providing information leads to multiple possibilities and opportunities for users. The development of high performance networks and ubiquitous devices allow users to retrieve content from any location and in different scenarios or situations they might face in their lives. Unfortunately the possibilities offered by the Web are not necessarily currently available to all. Individuals who do not have completely compliant software or hardware that are able to deal with the latest technologies, or have some kind of physical or cognitive disability, find it difficult to interact with web pages, depending on the page structure and the ways in which the content is made available. When specifically considering the cognitive disabilities, users classified as functionally illiterate face severe difficulties accessing web content. The heavy use of texts on interfaces design creates an accessibility barrier to those who cannot read fluently in their mother tongue due to both text length and linguistic complexity. In this context, this work aims at developing an assistive technologies that assists functionally illiterate users during their reading and understanding of websites textual content. These assistive technologies make use of natural language processing (NLP) techniques that maximize reading comprehension for users. The natural language techniques that this work uses are: syntactic simplification, automatic summarization, lexical elaboration and named entities recognition. The techniques are used with the goal of automatically adapting textual content available on the Web for users with low literacy levels. This work describes the accessibility characteristics incorporated into both resultant applications (Facilita and Educational Facilita) that focus on low literacy users limitations towards computer usage and experience. This work contributed with the identification of accessibility requirements for low-literacy users, elaboration of an accessibility model for automatizing WCAG conformance and development of accessible solutions in the user agents layer of web applications
15

Aprendizado sem-fim de paráfrases

Polastri, Paulo César 04 March 2016 (has links)
Submitted by Luciana Sebin (lusebin@ufscar.br) on 2016-10-05T18:38:23Z No. of bitstreams: 1 DissPCP.pdf: 1921482 bytes, checksum: 5298cc1a066e0cfe217b2b9c61076e65 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-14T14:13:08Z (GMT) No. of bitstreams: 1 DissPCP.pdf: 1921482 bytes, checksum: 5298cc1a066e0cfe217b2b9c61076e65 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-14T14:13:18Z (GMT) No. of bitstreams: 1 DissPCP.pdf: 1921482 bytes, checksum: 5298cc1a066e0cfe217b2b9c61076e65 (MD5) / Made available in DSpace on 2016-10-14T14:13:28Z (GMT). No. of bitstreams: 1 DissPCP.pdf: 1921482 bytes, checksum: 5298cc1a066e0cfe217b2b9c61076e65 (MD5) Previous issue date: 2016-03-04 / Não recebi financiamento / Use different words to express/convey the same message is a necessity in any natural language and, as such, should be investigated in research in Natural Language Processing (NLP). When it is just a simple word, we say that the interchangeable words are synonyms; while the term paraphrase is used to express a more general idea and that also may involve more than one word. For example, the sentences "the light is red" and "the light is closed" are examples of paraphrases as "sign" and "traffic light" represent synonymous in this context. Proper treatment of paraphrasing is important in several NLP applications, such as Machine Translation, which paraphrases can be used to increase the coverage of Statistical Machine Translation systems; on Multidocument Summarization, where paraphrases identification allows the recognition of repeated information; and Natural Language Generation, where the generation of paraphrases allows creating more varied and fluent texts. The project described in this document is intended to verify that is possible to learn, in an incremental and automatic way, paraphrases in words level from a bilingual parallel corpus, using Never-Ending Machine Learning (NEML) strategy and the Internet as a source of knowledge. The NEML is a machine learning strategy, based on how humans learn: what is learned previously can be used to learn new information and perhaps more complex in the future. Thus, the NEML has been applied together with the strategy for paraphrases extraction proposed by Bannard and Callison-Burch (2005) where, from bilingual parallel corpus, paraphrases are extracted using a pivot language. In this context, it was developed NEPaL (Never-Ending Paraphrase Learner) AMSF system responsible for: (1) extract the internet texts, (2) align the text using a pivot language, (3) rank the candidates according to a classification model and (4) use the knowledge to produce a new classifier model and therefore gain more knowledge restarting the never-ending learning cycle. / Usar palavras diferentes para expressar/transmitir a mesma mensagem é uma necessidade em qualquer língua natural e, como tal, deve ser investigada nas pesquisas em Processamento de Língua Natural (PLN). Quando se trata apenas de uma palavra simples, dizemos que as palavras intercambiáveis são sinônimos; enquanto o termo paráfrase é utilizado para expressar uma ideia mais geral e que pode envolver também mais de uma palavra. Por exemplo, as sentenças “o sinal está vermelho” e “o semáforo está fechado” são exemplo de paráfrases enquanto “sinal” e “semáforo” representam sinônimos, nesse contexto. O tratamento adequado de paráfrases é importante em diversas aplicações de PLN, como na Tradução Automática, onde paráfrases podem ser utilizadas para aumentar a cobertura de sistemas de Tradução Automática Estatística; na Sumarização Multidocumento, onde a identificação de paráfrases permite o reconhecimento de informações repetidas; e na Geração de Língua Natural, onde a geração de paráfrases permite criar textos mais variados e fluentes. O projeto descrito neste documento visa verificar se é possível aprender, de modo incremental e automático, paráfrases em nível de palavras a partir de corpus paralelo bilíngue, utilizando a estratégia de Aprendizado de Máquina Sem-fim (AMSF) e a Internet como fonte de conhecimento. O AMSF é uma estratégia de Aprendizado de Máquina, baseada na forma como os humanos aprendem: o que é aprendido previamente pode ser utilizado para aprender informações novas e talvez mais complexas, futuramente. Para tanto, o AMSF foi aplicado juntamente com a estratégia para a extração de paráfrases proposta por Bannard e Callison-Burch (2005) onde, a partir de corpus paralelo bilíngue, paráfrases são extraídas utilizando um idioma pivô. Nesse contexto, foi desenvolvido o NEPaL (Never-Ending Paraphrase Learner), sistema de AMSF responsável por: (1) extrair textos da internet, (2) alinhar os textos utilizando um idioma pivô, (3) classificar as candidatas de acordo com um modelo de classificação e (4) utilizar o conhecimento para produzir um novo modelo classificador e, consequentemente, adquirir mais conhecimento reiniciando o ciclo de aprendizado sem-fim.
16

Using phonetic knowledge in tools and resources for Natural Language Processing and Pronunciation Evaluation / Utilizando conhecimento fonético em ferramentas e recursos de Processamento de Língua Natural e Treino de Pronúncia

Gustavo Augusto de Mendonça Almeida 21 March 2016 (has links)
This thesis presents tools and resources for the development of applications in Natural Language Processing and Pronunciation Training. There are four main contributions. First, a hybrid grapheme-to-phoneme converter for Brazilian Portuguese, named Aeiouadô, which makes use of both manual transcription rules and Classification and Regression Trees (CART) to infer the phone transcription. Second, a spelling correction system based on machine learning, which uses the trascriptions produced by Aeiouadô and is capable of handling phonologically-motivated errors, as well as contextual errors. Third, a method for the extraction of phonetically-rich sentences, which is based on greedy algorithms. Fourth, a prototype system for automatic pronunciation assessment, especially designed for Brazilian-accented English. / Esta dissertação apresenta recursos voltados para o desenvolvimento de aplicações de reconhecimento de fala e avaliação de pronúncia. São quatro as contribuições aqui discutidas. Primeiro, um conversor grafema-fonema híbrido para o Português Brasileiro, chamado Aeiouadô, o qual utiliza regras de transcrição fonética e Classification and Regression Trees (CART) para inferir os fones da fala. Segundo, uma ferramenta de correção automática baseada em aprendizado de máquina, que leva em conta erros de digitação de origem fonética, que é capaz de lidar com erros contextuais e emprega as transcrições geradas pelo Aeiouadô. Terceiro, um método para a extração de sentenças foneticamente-ricas, tendo em vista a criação de corpora de fala, baseado em algoritmos gulosos. Quarto, um protótipo de um sistema de reconhecimento e correção de fala não-nativa, voltado para o Inglês falado por aprendizes brasileiros.
17

Auxílio à leitura de textos em português facilitado: questões de acessibilidade / Reading assistance for texts in facilitated portuguese: accessibility issues

Willian Massami Watanabe 05 August 2010 (has links)
A grande capacidade de disponibilização de informações que a Web possibilita se traduz em múltiplas possibilidades e oportunidades para seus usuários. Essas pessoas são capazes de acessar conteúdos provenientes de todas as partes do planeta, independentemente de onde elas estejam. Mas essas possibilidades não são estendidas a todos, sendo necessário mais que o acesso a um computador e a Internet para que sejam realizadas. Indivíduos que apresentem necessidades especiais (deficiência visual, cognitiva, dificuldade de locomoção, entre outras) são privados do acesso a sites e aplicações web que façam mal emprego de tecnologias web ou possuam o conteúdo sem os devidos cuidados para com a acessibilidade. Um dos grupos que é privado do acesso a esse ambiente é o de pessoas com dificuldade de leitura (analfabetos funcionais). A ampla utilização de recursos textuais nas aplicações pode tornar difícil ou mesmo impedir as interações desses indivíduos com os sistemas computacionais. Nesse contexto, este trabalho tem por finalidade o desenvolvimento de tecnologias assistivas que atuem como facilitadoras de leitura e compreensão de sites e aplicações web a esses indivíduos (analfabetos funcionais). Essas tecnologias assistivas utilizam recursos de processamento de língua natural visando maximizar a compreensão do conteúdo pelos usuários. Dentre as técnicas utilizadas são destacadas: simplificação sintática, sumarização automática, elaboração léxica e reconhecimento das entidades nomeadas. Essas técnicas são utilizadas com a finalidade de promover a adaptação automática de conteúdos disponíveis na Web para usuários com baixo nível de alfabetização. São descritas características referentes à acessibilidade de aplicações web e princípios de design para usuários com baixo nível de alfabetização, para garantir a identificação e entendimento das funcionalidades que são implementadas nas duas tecnologias assistivas resultado deste trabalho (Facilita e Facilita Educacional). Este trabalho contribuiu com a identificação de requisitos de acessibilidade para usuários com baixo nível de alfabetização, modelo de acessibilidade para automatizar a conformidade com a WCAG e desenvolvimento de soluções de acessibilidade na camada de agentes de usuários / The large capacity of Web for providing information leads to multiple possibilities and opportunities for users. The development of high performance networks and ubiquitous devices allow users to retrieve content from any location and in different scenarios or situations they might face in their lives. Unfortunately the possibilities offered by the Web are not necessarily currently available to all. Individuals who do not have completely compliant software or hardware that are able to deal with the latest technologies, or have some kind of physical or cognitive disability, find it difficult to interact with web pages, depending on the page structure and the ways in which the content is made available. When specifically considering the cognitive disabilities, users classified as functionally illiterate face severe difficulties accessing web content. The heavy use of texts on interfaces design creates an accessibility barrier to those who cannot read fluently in their mother tongue due to both text length and linguistic complexity. In this context, this work aims at developing an assistive technologies that assists functionally illiterate users during their reading and understanding of websites textual content. These assistive technologies make use of natural language processing (NLP) techniques that maximize reading comprehension for users. The natural language techniques that this work uses are: syntactic simplification, automatic summarization, lexical elaboration and named entities recognition. The techniques are used with the goal of automatically adapting textual content available on the Web for users with low literacy levels. This work describes the accessibility characteristics incorporated into both resultant applications (Facilita and Educational Facilita) that focus on low literacy users limitations towards computer usage and experience. This work contributed with the identification of accessibility requirements for low-literacy users, elaboration of an accessibility model for automatizing WCAG conformance and development of accessible solutions in the user agents layer of web applications
18

Tradução automática estatística baseada em sintaxe e linguagens de árvores

Beck, Daniel Emilio 19 June 2012 (has links)
Made available in DSpace on 2016-06-02T19:05:58Z (GMT). No. of bitstreams: 1 4541.pdf: 1339407 bytes, checksum: be0e2f3bb86e7d6b4c8d03f4f20214ef (MD5) Previous issue date: 2012-06-19 / Universidade Federal de Minas Gerais / Machine Translation (MT) is one of the classic Natural Language Processing (NLP) applications. The state-of-the-art in MT is represented by statistical methods that aim to learn all necessary linguistic knowledge automatically through large collections of texts (corpora). However, while the quality of statistical MT systems had improved, nowadays these advances are not significant. For this reason, research in the area have sought to involve more explicit linguistic knowledge in these systems. One issue that purely statistical MT systems have is the lack of correct treatment of syntactic phenomena. Thus, one of the research directions when trying to incorporate linguistic knowledge in those systems is through the addition of syntactic rules. To accomplish this, many methods and formalisms with this goal in mind are studied. This text presents the investigation of methods which aim to advance the state-of-the-art in statistical MT through models that consider syntactic information. The methods and formalisms studied are those used to deal with tree languages, mainly Tree Substitution Grammars (TSGs) and Tree-to-String (TTS) Transducers. From this work, a greater understanding was obtained about the studied formalisms and their behavior when used in NLP applications. / A Tradução Automática (Machine Translation - MT) é uma das aplicações clássicas dentro do Processamento da Língua Natural (Natural Language Processing - NLP). O estado-da-arte em MT é representado por métodos estatísticos, que buscam aprender o conhecimento linguístico necessário de forma automática por meio de grandes coleções de textos (os corpora). Entretanto, ainda que se tenha avançado bastante em relação à qualidade de sistemas estatísticos de MT, hoje em dia esses avanços não estão sendo significativos. Por conta disso, as pesquisas na área têm buscado formas de envolver mais conhecimento linguístico explícito nesses sistemas. Um dos problemas que não é bem resolvido por sistemas de MT puramente estatísticos é o correto tratamento de fenômenos sintáticos. Assim, uma das direções que as pesquisas tomam na hora de incorporar conhecimento linguístico a esses sistemas é através da adição de regras sintáticas. Para isso, uma série de métodos e formalismos foram e são estudados até hoje. Esse texto apresenta a investigação de métodos que se utilizam de informação sintática na tentativa de avançar no estado-da-arte da MT estatística. Foram utilizados métodos e formalismos que lidam com linguagens de a´rvores, em especial as Gramáticas de Substituição de Árvores (Tree Substitution Grammars - TSGs) e os Transdutores Árvore-para-String (Tree-to-String - TTS). Desta investigação, obteve-se maior entendimento sobre os formalismos estudados e seu comportamento em aplicações de NLP.

Page generated in 0.4996 seconds