Global ETD Search

11	Anotação automática semissupervisionada de papéis semânticos para o português do Brasil / Automatic semi-supervised semantic role labeling for Brazilian Portuguese Manchego, Fernando Emilio Alva 22 January 2013 (has links) A anotac~ao de papeis sem^anticos (APS) e uma tarefa do processamento de lngua natural (PLN) que permite analisar parte do signicado das sentencas atraves da detecc~ao dos participantes dos eventos (e dos eventos em si) que est~ao sendo descritos nelas, o que e essencial para que os computadores possam usar efetivamente a informac~ao codicada no texto. A maior parte das pesquisas desenvolvidas em APS tem sido feita para textos em ingl^es, considerando as particularidades gramaticais e sem^anticas dessa lngua, o que impede que essas ferramentas e resultados sejam diretamente transportaveis para outras lnguas como o portugu^es. A maioria dos sistemas de APS atuais emprega metodos de aprendizado de maquina supervisionado e, portanto, precisa de um corpus grande de senten cas anotadas com papeis sem^anticos para aprender corretamente a tarefa. No caso do portugu^es do Brasil, um recurso lexical que prov^e este tipo de informac~ao foi recentemente disponibilizado: o PropBank.Br. Contudo, em comparac~ao com os corpora para outras lnguas como o ingl^es, o corpus fornecido por este projeto e pequeno e, portanto, n~ao permitiria que um classicador treinado supervisionadamente realizasse a tarefa de anotac~ao com alto desempenho. Para tratar esta diculdade, neste trabalho emprega-se uma abordagem semissupervisionada capaz de extrair informac~ao relevante tanto dos dados anotados disponveis como de dados n~ao anotados, tornando-a menos dependente do corpus de treinamento. Implementa-se o algoritmo self-training com modelos de regress~ ao logstica (ou maxima entropia) como classicador base, para anotar o corpus Bosque (a sec~ao correspondente ao CETENFolha) da Floresta Sinta(c)tica com as etiquetas do PropBank.Br. Ao algoritmo original se incorpora balanceamento e medidas de similaridade entre os argumentos de um verbo especco para melhorar o desempenho na tarefa de classicac~ao de argumentos. Usando um benchmark de avaliac~ao implementado neste trabalho, a abordagem semissupervisonada proposta obteve um desempenho estatisticamente comparavel ao de um classicador treinado supervisionadamente com uma maior quantidade de dados anotados (80,5 vs. 82,3 de \'F IND. 1\', p > 0, 01) / Semantic role labeling (SRL) is a natural language processing (NLP) task able to analyze part of the meaning of sentences through the detection of the events they describe and the participants involved, which is essential for computers to eectively understand the information coded in text. Most of the research carried out in SRL has been done for texts in English, considering the grammatical and semantic particularities of that language, which prevents those tools and results to be directly transported to other languages such as Portuguese. Most current SRL systems use supervised machine learning methods and require a big corpus of sentences annotated with semantic roles in order to learn how to perform the task properly. For Brazilian Portuguese, a lexical resource that provides this type of information has recently become available: PropBank.Br. However, in comparison with corpora for other languages such as English, the corpus provided by that project is small and it wouldn\'t allow a supervised classier to perform the labeling task with good performance. To deal with this problem, in this dissertation we use a semi-supervised approach capable of extracting relevant information both from annotated and non-annotated data available, making it less dependent on the training corpus. We implemented the self-training algorithm with logistic regression (or maximum entropy) models as base classier to label the corpus Bosque (section CETENFolha) from the Floresta Sintá(c)tica with the PropBank.Br semantic role tags. To the original algorithm, we incorporated balancing and similarity measures between verb-specic arguments so as to improve the performance of the system in the argument classication task. Using an evaluation benchmark implemented in this research project, the proposed semi-supervised approach has a statistical comparable performance as the one of a supervised classier trained with more annotated data (80,5 vs. 82,3 de \'F IND. 1\', p > 0, 01). Anotação de papéis semânticos Aprendizado semissupervisionado Natural language processing Processamento de língua natural Semantic role labeling Semi-supervised learning
12	Determinação de conteúdo para geração de língua natural baseada em personalidade / Content planning for natural language generation based on personality Ramos, Ricelli Moreira Silva 25 June 2018 (has links) O presente trabalho aborda a determinação de conteúdo na fase de planejamento do documento no pipeline de Geração de Língua Natural (GLN) usando fatores de personalidade do modelo dos Cinco Grandes Fatores (CGF). O principal objetivo deste trabalho é gerar modelos computacionais de determinação de conteúdo baseados nos fatores de personalidade CGF. O trabalho aplicará técnicas já existentes de GLN para determinação de conteúdo, levando em conta os fatores de personalidade mapeados pelo modelo CGF. São utilizados os conceitos descritos por substantivos e os conceitos descritos por adjetivos relacionados aos substantivos na tarefa de descrição de cenas para a determinação de conteúdo. As principais contribuições desse trabalho são uma investigação de se e como a determinação de conteúdo de descrições textuais é influenciada pela personalidade do autor, além de entregar um modelo de determinação de conteúdo baseado em personalidade para os conceitos em que o trabalho foi aplicado, entre outras entregas. É apresentado o embasamento teórico com os conceitos fundamentais de GLN, e mais especificamente de determinação de conteúdo, foco dessa pesquisa. Além disso, são apresentados os modelos de personalidade humana, com destaque ao modelo CGF e inventários CGF, utilizados para a coleta de dados e execução dessa proposta. São apresentados também os principais trabalhos relacionados à GLN e modelo CGF, mesmo que não tratem especificamente da influência dos CGF na determinação de conteúdo. Um experimento para coleta do córpus utilizado na pesquisa é descrito, e também os modelos para determinação de conteúdo no âmbito de conceitos representando entidades visuais e seus predicados, assim como a avaliação desses modelos. Por fim, são apresentadas as conclusões obtidas com os modelos desenvolvidos e experimentos realizados / The present research approaches the content determination in the document planning phase of the Natural Language Generation (NLG) pipeline using personality factors of the Big Five Factor (BFF) model. The main objective of this research is to generate computational models of content determination based on the BFF personality factors. This research will apply existing NLG models to the content determination, taking into account the personality factors mapped by the BFF model. The concepts described by nouns and the concepts described by adjectives related to nouns in the task of describing scenes for content determination are used. The main contributions of this research are an investigation of if and how the content determination of textual descriptions is influenced by the personality of the author, in addition to providing a personality-based content determination model for the concepts in which the research was applied, among others deliveries. This document presents the theoretical basis and the fundamental NLG concepts, and more specifically the concept of content determination, which is the focus of this research. In addition, human personality models are presented, with emphasis on the BFF model and BFF inventories, used both for data collection and development of this proposal. The main studies related to NLG and the BFF model, even if they do not specifically address the influence of BFF in content determination, are also presented. An experiment for collecting the corpus used in the research is described, also the models to determine content in the scope of concepts representing visual entities and their predicates, as well as an evaluation of these models. Finally, the conclusions obtained with the developed models and experiments are presented BFF model Big Five Factors Content determination Determinação de conteúdo Fatores de personalidade Geração de língua natural Modelo CGF Natural language generation
13	Determinação de conteúdo para geração de língua natural baseada em personalidade / Content planning for natural language generation based on personality Ricelli Moreira Silva Ramos 25 June 2018 (has links) O presente trabalho aborda a determinação de conteúdo na fase de planejamento do documento no pipeline de Geração de Língua Natural (GLN) usando fatores de personalidade do modelo dos Cinco Grandes Fatores (CGF). O principal objetivo deste trabalho é gerar modelos computacionais de determinação de conteúdo baseados nos fatores de personalidade CGF. O trabalho aplicará técnicas já existentes de GLN para determinação de conteúdo, levando em conta os fatores de personalidade mapeados pelo modelo CGF. São utilizados os conceitos descritos por substantivos e os conceitos descritos por adjetivos relacionados aos substantivos na tarefa de descrição de cenas para a determinação de conteúdo. As principais contribuições desse trabalho são uma investigação de se e como a determinação de conteúdo de descrições textuais é influenciada pela personalidade do autor, além de entregar um modelo de determinação de conteúdo baseado em personalidade para os conceitos em que o trabalho foi aplicado, entre outras entregas. É apresentado o embasamento teórico com os conceitos fundamentais de GLN, e mais especificamente de determinação de conteúdo, foco dessa pesquisa. Além disso, são apresentados os modelos de personalidade humana, com destaque ao modelo CGF e inventários CGF, utilizados para a coleta de dados e execução dessa proposta. São apresentados também os principais trabalhos relacionados à GLN e modelo CGF, mesmo que não tratem especificamente da influência dos CGF na determinação de conteúdo. Um experimento para coleta do córpus utilizado na pesquisa é descrito, e também os modelos para determinação de conteúdo no âmbito de conceitos representando entidades visuais e seus predicados, assim como a avaliação desses modelos. Por fim, são apresentadas as conclusões obtidas com os modelos desenvolvidos e experimentos realizados / The present research approaches the content determination in the document planning phase of the Natural Language Generation (NLG) pipeline using personality factors of the Big Five Factor (BFF) model. The main objective of this research is to generate computational models of content determination based on the BFF personality factors. This research will apply existing NLG models to the content determination, taking into account the personality factors mapped by the BFF model. The concepts described by nouns and the concepts described by adjectives related to nouns in the task of describing scenes for content determination are used. The main contributions of this research are an investigation of if and how the content determination of textual descriptions is influenced by the personality of the author, in addition to providing a personality-based content determination model for the concepts in which the research was applied, among others deliveries. This document presents the theoretical basis and the fundamental NLG concepts, and more specifically the concept of content determination, which is the focus of this research. In addition, human personality models are presented, with emphasis on the BFF model and BFF inventories, used both for data collection and development of this proposal. The main studies related to NLG and the BFF model, even if they do not specifically address the influence of BFF in content determination, are also presented. An experiment for collecting the corpus used in the research is described, also the models to determine content in the scope of concepts representing visual entities and their predicates, as well as an evaluation of these models. Finally, the conclusions obtained with the developed models and experiments are presented Determinação de conteúdo Fatores de personalidade Geração de língua natural Modelo CGF BFF model Big Five Factors Content determination Natural language generation
14	Anotação automática semissupervisionada de papéis semânticos para o português do Brasil / Automatic semi-supervised semantic role labeling for Brazilian Portuguese Fernando Emilio Alva Manchego 22 January 2013 (has links) A anotac~ao de papeis sem^anticos (APS) e uma tarefa do processamento de lngua natural (PLN) que permite analisar parte do signicado das sentencas atraves da detecc~ao dos participantes dos eventos (e dos eventos em si) que est~ao sendo descritos nelas, o que e essencial para que os computadores possam usar efetivamente a informac~ao codicada no texto. A maior parte das pesquisas desenvolvidas em APS tem sido feita para textos em ingl^es, considerando as particularidades gramaticais e sem^anticas dessa lngua, o que impede que essas ferramentas e resultados sejam diretamente transportaveis para outras lnguas como o portugu^es. A maioria dos sistemas de APS atuais emprega metodos de aprendizado de maquina supervisionado e, portanto, precisa de um corpus grande de senten cas anotadas com papeis sem^anticos para aprender corretamente a tarefa. No caso do portugu^es do Brasil, um recurso lexical que prov^e este tipo de informac~ao foi recentemente disponibilizado: o PropBank.Br. Contudo, em comparac~ao com os corpora para outras lnguas como o ingl^es, o corpus fornecido por este projeto e pequeno e, portanto, n~ao permitiria que um classicador treinado supervisionadamente realizasse a tarefa de anotac~ao com alto desempenho. Para tratar esta diculdade, neste trabalho emprega-se uma abordagem semissupervisionada capaz de extrair informac~ao relevante tanto dos dados anotados disponveis como de dados n~ao anotados, tornando-a menos dependente do corpus de treinamento. Implementa-se o algoritmo self-training com modelos de regress~ ao logstica (ou maxima entropia) como classicador base, para anotar o corpus Bosque (a sec~ao correspondente ao CETENFolha) da Floresta Sinta(c)tica com as etiquetas do PropBank.Br. Ao algoritmo original se incorpora balanceamento e medidas de similaridade entre os argumentos de um verbo especco para melhorar o desempenho na tarefa de classicac~ao de argumentos. Usando um benchmark de avaliac~ao implementado neste trabalho, a abordagem semissupervisonada proposta obteve um desempenho estatisticamente comparavel ao de um classicador treinado supervisionadamente com uma maior quantidade de dados anotados (80,5 vs. 82,3 de \'F IND. 1\', p > 0, 01) / Semantic role labeling (SRL) is a natural language processing (NLP) task able to analyze part of the meaning of sentences through the detection of the events they describe and the participants involved, which is essential for computers to eectively understand the information coded in text. Most of the research carried out in SRL has been done for texts in English, considering the grammatical and semantic particularities of that language, which prevents those tools and results to be directly transported to other languages such as Portuguese. Most current SRL systems use supervised machine learning methods and require a big corpus of sentences annotated with semantic roles in order to learn how to perform the task properly. For Brazilian Portuguese, a lexical resource that provides this type of information has recently become available: PropBank.Br. However, in comparison with corpora for other languages such as English, the corpus provided by that project is small and it wouldn\'t allow a supervised classier to perform the labeling task with good performance. To deal with this problem, in this dissertation we use a semi-supervised approach capable of extracting relevant information both from annotated and non-annotated data available, making it less dependent on the training corpus. We implemented the self-training algorithm with logistic regression (or maximum entropy) models as base classier to label the corpus Bosque (section CETENFolha) from the Floresta Sintá(c)tica with the PropBank.Br semantic role tags. To the original algorithm, we incorporated balancing and similarity measures between verb-specic arguments so as to improve the performance of the system in the argument classication task. Using an evaluation benchmark implemented in this research project, the proposed semi-supervised approach has a statistical comparable performance as the one of a supervised classier trained with more annotated data (80,5 vs. 82,3 de \'F IND. 1\', p > 0, 01). Anotação de papéis semânticos Aprendizado semissupervisionado Processamento de língua natural Natural language processing Semantic role labeling Semi-supervised learning
15	e-Termos: Um ambiente colaborativo web de gestão terminológica / e-Termos: a web collaborative environment of terminology management Oliveira, Leandro Henrique Mendonça de 22 September 2009 (has links) Em uma de suas definções, a Terminologia representa o conjunto de princípios e métodos adotados no processo de gestão e criação de produtos terminológicos, tais como glossários e dicionários de termos. A sistematização desses métodos envolve a aplicação de ferramentas computacionais específicas e compatíveis com as tarefas terminológicas, contribuindo para o desenvolvimento desses produtos e a difusão de conhecimento especializado. Entretanto, principalmente no Brasil, a combinação da Terminologia e Informática é incipiente, e dentre as atividades do trabalho terminológico é comum a utilização de várias ferramentas não especializados para esse fim. Isso torna o trabalho dos terminólogos muito moroso, pois esse trabalho geralmente é feito por uma equipe multidisciplinar que deve ter acesso, a todo o momento, à versão mais atual das várias etapas da geração de um produto terminológico. Além disso, deixa o gerenciamento dos dados mais complicado, pois não existe um padrão de entrada e saída definido para os programas. Apoiado nos pressupostos da Teoria Comunicativa da Terminologia (TCT), este trabalho apresenta a proposta de desenvolvimento e avaliação do e- Termos, um Ambiente ColaborativoWeb composto por seis módulos de trabalho bem definidos, cujo propósito é automatizar as tarefas de gestão e criação de produtos terminológicos. Cada módulo do e-Termos possui a responsabilidade de abrigar tarefas inerentes ao processo de criação das terminologias, sendo atreladas a eles diferentes ferramentas de apoio lingüístico, que possuem a função de dar suporte às atividades de Processamento de Língua Natural envolvidas nesse processo. Além delas, há também ferramentas colaborativas, designadas para dar apoio às necessidades comunicacionais e de interação da equipe de trabalho. Particularmente com relação ao processo de avaliação proposto, uma de suas características é a capacidade de ser executado em um tempo curto, viabilizando a avaliação controlada de vários grupos, mas executada no ambiente de trabalho do público alvo. As principais contribuições desta pesquisa são o aspecto colaborativo instanciado na prática terminológica, a criação flexível da Ficha Terminológica, a possibilidade didática de uso para o ensino de terminologia, lexicografia e tradução e o processo de avaliação para sistemas colaborativos desenvolvido para o e-Termos, que combina Cenários de Uso e um Questionário de Pesquisa. Utilizando tecnologias Web e da área de Computer Supported Collaborative Work (CSCW) para o desenvolvimento da sua arquitetura computacional colaborativa, o e-Termos apresenta-se como um ambiente inovador para a pesquisa terminolóogica assistida por computador, pois automatiza um método prático que exp~oe os postulados da terminologia de orientação descritiva e evidencia todas as etapas do processo de criação de produtos terminológicos com o inédito diferencial colaborativo. Para certificar este êxito, o e-Termos tem recebido um número crescente de novas propostas de projeto, tendo até Agosto de 2009 mais de 130 usuários cadastrados, alocados em 68 diferentes projetos terminológicos / In one of its definitions, Terminology represents the set of principles and methods adopted in the creation and management of terminological products as glossaries and dictionaries of terms. A systematization of these methods includes the application of specific computational tools, compatible with terminological tasks, which contribute to developing such products and disseminating expert knowledge. However, especially in Brazil, the combination of Terminology and Computer Science is still incipient, and to perform the tasks of a terminological work it is typical to employ several nonspecialized tools, which make terminologists\' work very time-consuming, since it is usually carried out by a multidisciplinary team that should have access, all the time, to the latest versions of the various stages of the generation of a terminological product. Moreover, it makes data management more complex, because there is no input/output standard defined for programs. Based on the presuppositions of the Communicative Theory of Terminology (CTT), this thesis proposes the development and evaluation of e-Termos, a Web Collaborative Environment composed of six well-defined working modules, whose purpose is to automatize tasks for creating and managing terminological products. Each module in e- Termos is responsible for tasks inherent to the process of creating terminologies. Linked to these modules, there are different linguistic support tools that assist the Natural Language Processing activities included in the process. Besides them, there are also collaborative tools for supporting the communication and interaction needs of team members. As far as the proposed evaluation process is concerned, one of its features is that it can be run in a short time, making viable a controlled evaluation of several groups that is, however, run in the work environment of the target audience. The main contributions of this research are the collaborative aspect instantiated in terminological practice, the exible creation of Terminological Records, the possibility of being used for teaching terminology, lexicography and translation, and the evaluation of collaborative systems developed for e-Termos, which combines Scenario-based Evaluations and Surveys. Using Web technologies and Computer Supported Collaborative Work (CSCW) to develop its collaborative computational architecture, e-Termos is an innovative environment for computer-assisted terminological research, since it automatizes a useful method that represents the postulates of descriptive terminology and highlights all stages of the process of creating terminological products with the unprecedented collaborative differential. Confirming its success, e-Termos has been receiving a growing number of new project proposals, and in August 2009 has more than 130 registered users in 68 different terminological projects Ambiente coloborativo Collaborative work Computational terminology CSCW Electronicsw terms Processamento de língua natural Produtos terminológicos Terminologia computacional Terminological products Terminology Termos eletrônicos Web Web collaborative environment
16	CorrefSum: revisão da coesão referencial em sumários extrativos Gonçalves, Patrícia Nunes 28 February 2008 (has links) Made available in DSpace on 2015-03-05T13:59:43Z (GMT). No. of bitstreams: 0 Previous issue date: 28 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Com o avanço da Internet, cada vez mais convivemos com a sobrecarga de informação. É nesse contexto que a área de sumarização automática de textos tem se tornado uma área proeminente de pesquisa. A sumarização é o processo de discernir as informações mais importantes dos textos para produzir uma versão resumida. Sumarizadores extrativos escolhem as sentenças mais relevantes do texto e as reagrupam para formar o sumário. Muitas vezes, as frases selecionadas do texto não preservam a coesão referencial necessária para o entendimento do texto. O foco deste trabalho é, portanto, na análise e recuperação da coesão referencial desses sumários. O objetivo é desenvolver um sistema que realiza a manutenção da coesão referencial dos sumários extrativos usando como fonte de informação as cadeias de correferência presentes no texto-fonte. Para experimentos e avaliação dos resultados foram utilizados dois sumarizadores: Gist-Summ e SuPor-2. Foram utilizadas duas formas de avaliação: automática e subjetiva. Os resultados / With the advance of Internet technology we see the problem of information overload. In this context, automatic summarization is an important research area. Summarization is the process of identifying the most relevant information brought about in a text and on that basis to rewrite a short version of it. Extractive summarizers choose the most relevant sentences in a text and regroup them to form the summary. Usually the juxtaposition of the selected sentences violate the referential cohesion that is needed for the interpretation of the text. This work focuses on the analysis and recovery of referential cohesion of extractive summaries on the basis of knowledge about correference chains as presented in the source text. Some experiments were undertaken considering the summarizers GistSumm and SuPor-2. Evaluation was done in two ways, automatically and subjectively. The results indicate that this is a promising area of work and ways of advancing in this research are discussed Ciências Exatas e da Terra cadeias de correferência coerência coesão textual língua natural sumarização automática processamento automatic summarization coherence coreference chains textual cohesion natural language processing
17	Sumarização multidocumento com base em aspectos informativos / Multidocument summarization based on information aspects Garay, Alessandro Yovan Bokan 20 August 2015 (has links) A sumarização multidocumento consiste na produção de um sumário/resumo a partir de uma coleção de textos sobre um mesmo assunto. Devido à grande quantidade de informação disponível na Web, esta tarefa é de grande relevância já que pode facilitar a leitura dos usuários. Os aspectos informativos representam as unidades básicas de informação presentes nos textos. Por exemplo, em textos jornalísticos em que se relata um fato/acontecimento, os aspectos podem representar a seguintes informações: o que aconteceu, onde aconteceu, quando aconteceu, como aconteceu, e por que aconteceu. Conhecendo-se esses aspectos e as estratégias de produção e organização de sumários, é possível automatizar a tarefa de sumarização. No entanto, para o Português do Brasil, não há pesquisa feita sobre sumarização com base em aspectos. Portanto, neste trabalho de mestrado, investigaram-se métodos de sumarização multidocumento com base em aspectos informativos, pertencente à abordagem profunda para a sumarização, em que se busca interpretar o texto para se produzir sumários mais informativos. Em particular, implementaram-se duas etapas relacionadas: (i) identificação automática de aspectos os aspectos informativos e (ii) desenvolvimento e avaliação de dois métodos de sumarização com base em padrões de aspectos (ou templates) em sumários. Na etapa (i), criaram-se classificadores de aspectos com base em anotador de papéis semânticos, reconhecedor de entidades mencionadas, regras manuais e técnicas de aprendizado de máquina. Avaliaram-se os classificadores sobre o córpus CSTNews (Rassi et al., 2013; Felippo et al., 2014). Os resultados foram satisfatórios, demostrando que alguns aspectos podem ser identificados automaticamente em textos jornalísticos com um desempenho razoável. Já na etapa (ii), elaboraram-se dois métodos inéditos de sumarização multidocumento com base em aspectos. Os resultados obtidos mostram que os métodos propostos neste trabalho são competitivos com os métodos da literatura. Salienta-se que esta abordagem para sumarização tem recebido grande destaque ultimamente. Além disso, é inédita nos trabalhos desenvolvidos no Brasil, podendo trazer contribuições importantes para a área. / Multi-document summarization is the task of automatically producing a unique summary from a group of texts on the same topic. With the huge amount of available information in the web, this task is very relevant because it can facilitate the reading of the users. Informative aspects, in particular, represent the basic information units in texts and summaries, e.g., in news texts there should be the following information: what happened, when it happened, where it happened, how it happened and why it happened. Knowing these aspects and the strategies to produce and organize summaries, it is possible to automate the aspect-based summarization. However, there is no research about aspect-based multi-document summarization for Brazilian Portuguese. This research work investigates multi-document summarization methods based on informative aspects, which follows the deep approach for summarization, in which it aims at interpreting the texts to produce more informative summaries. In particular, two main stages are developed: (i) the automatic identification of informative aspects and (ii) and the development and evaluation of two summarization methods based on aspects patterns (or templates). In the step (i) classifiers were created based on semantic role labeling, named entity recognition, handcrafted rules and machine learning techniques. Classifiers were evaluated on the CSTNews annotated corpus (Rassi et al., 2013; Felippo et al., 2014). The results were satisfactory, demonstrating that some aspects can be automatically identified in the news with a reasonable performance. In the step (ii) two novels aspect-based multi-document summarization methods are elaborated. The results show that the proposed methods in this work are competitive with the classical methods. It should be noted that this approach has lately received a lot of attention. Furthermore, it is unprecedented in the summarization task developed in Brazil, with the potential to bring important contributions to the area. Annotation semantic desktop Anotação de papéis semânticos Aprendizado de máquina Aspectos informativos Aspects informational Learning machine Natural language processing Processamento de língua natural Sumarização automática multidocumento Sumarization automatic multidocument
18	e-Termos: Um ambiente colaborativo web de gestão terminológica / e-Termos: a web collaborative environment of terminology management Leandro Henrique Mendonça de Oliveira 22 September 2009 (has links) Em uma de suas definções, a Terminologia representa o conjunto de princípios e métodos adotados no processo de gestão e criação de produtos terminológicos, tais como glossários e dicionários de termos. A sistematização desses métodos envolve a aplicação de ferramentas computacionais específicas e compatíveis com as tarefas terminológicas, contribuindo para o desenvolvimento desses produtos e a difusão de conhecimento especializado. Entretanto, principalmente no Brasil, a combinação da Terminologia e Informática é incipiente, e dentre as atividades do trabalho terminológico é comum a utilização de várias ferramentas não especializados para esse fim. Isso torna o trabalho dos terminólogos muito moroso, pois esse trabalho geralmente é feito por uma equipe multidisciplinar que deve ter acesso, a todo o momento, à versão mais atual das várias etapas da geração de um produto terminológico. Além disso, deixa o gerenciamento dos dados mais complicado, pois não existe um padrão de entrada e saída definido para os programas. Apoiado nos pressupostos da Teoria Comunicativa da Terminologia (TCT), este trabalho apresenta a proposta de desenvolvimento e avaliação do e- Termos, um Ambiente ColaborativoWeb composto por seis módulos de trabalho bem definidos, cujo propósito é automatizar as tarefas de gestão e criação de produtos terminológicos. Cada módulo do e-Termos possui a responsabilidade de abrigar tarefas inerentes ao processo de criação das terminologias, sendo atreladas a eles diferentes ferramentas de apoio lingüístico, que possuem a função de dar suporte às atividades de Processamento de Língua Natural envolvidas nesse processo. Além delas, há também ferramentas colaborativas, designadas para dar apoio às necessidades comunicacionais e de interação da equipe de trabalho. Particularmente com relação ao processo de avaliação proposto, uma de suas características é a capacidade de ser executado em um tempo curto, viabilizando a avaliação controlada de vários grupos, mas executada no ambiente de trabalho do público alvo. As principais contribuições desta pesquisa são o aspecto colaborativo instanciado na prática terminológica, a criação flexível da Ficha Terminológica, a possibilidade didática de uso para o ensino de terminologia, lexicografia e tradução e o processo de avaliação para sistemas colaborativos desenvolvido para o e-Termos, que combina Cenários de Uso e um Questionário de Pesquisa. Utilizando tecnologias Web e da área de Computer Supported Collaborative Work (CSCW) para o desenvolvimento da sua arquitetura computacional colaborativa, o e-Termos apresenta-se como um ambiente inovador para a pesquisa terminolóogica assistida por computador, pois automatiza um método prático que exp~oe os postulados da terminologia de orientação descritiva e evidencia todas as etapas do processo de criação de produtos terminológicos com o inédito diferencial colaborativo. Para certificar este êxito, o e-Termos tem recebido um número crescente de novas propostas de projeto, tendo até Agosto de 2009 mais de 130 usuários cadastrados, alocados em 68 diferentes projetos terminológicos / In one of its definitions, Terminology represents the set of principles and methods adopted in the creation and management of terminological products as glossaries and dictionaries of terms. A systematization of these methods includes the application of specific computational tools, compatible with terminological tasks, which contribute to developing such products and disseminating expert knowledge. However, especially in Brazil, the combination of Terminology and Computer Science is still incipient, and to perform the tasks of a terminological work it is typical to employ several nonspecialized tools, which make terminologists\' work very time-consuming, since it is usually carried out by a multidisciplinary team that should have access, all the time, to the latest versions of the various stages of the generation of a terminological product. Moreover, it makes data management more complex, because there is no input/output standard defined for programs. Based on the presuppositions of the Communicative Theory of Terminology (CTT), this thesis proposes the development and evaluation of e-Termos, a Web Collaborative Environment composed of six well-defined working modules, whose purpose is to automatize tasks for creating and managing terminological products. Each module in e- Termos is responsible for tasks inherent to the process of creating terminologies. Linked to these modules, there are different linguistic support tools that assist the Natural Language Processing activities included in the process. Besides them, there are also collaborative tools for supporting the communication and interaction needs of team members. As far as the proposed evaluation process is concerned, one of its features is that it can be run in a short time, making viable a controlled evaluation of several groups that is, however, run in the work environment of the target audience. The main contributions of this research are the collaborative aspect instantiated in terminological practice, the exible creation of Terminological Records, the possibility of being used for teaching terminology, lexicography and translation, and the evaluation of collaborative systems developed for e-Termos, which combines Scenario-based Evaluations and Surveys. Using Web technologies and Computer Supported Collaborative Work (CSCW) to develop its collaborative computational architecture, e-Termos is an innovative environment for computer-assisted terminological research, since it automatizes a useful method that represents the postulates of descriptive terminology and highlights all stages of the process of creating terminological products with the unprecedented collaborative differential. Confirming its success, e-Termos has been receiving a growing number of new project proposals, and in August 2009 has more than 130 registered users in 68 different terminological projects Ambiente coloborativo Processamento de língua natural Produtos terminológicos Terminologia computacional Termos eletrônicos Web Collaborative work Computational terminology CSCW Electronicsw terms Terminological products Terminology Web collaborative environment
19	Sumarização multidocumento com base em aspectos informativos / Multidocument summarization based on information aspects Alessandro Yovan Bokan Garay 20 August 2015 (has links) A sumarização multidocumento consiste na produção de um sumário/resumo a partir de uma coleção de textos sobre um mesmo assunto. Devido à grande quantidade de informação disponível na Web, esta tarefa é de grande relevância já que pode facilitar a leitura dos usuários. Os aspectos informativos representam as unidades básicas de informação presentes nos textos. Por exemplo, em textos jornalísticos em que se relata um fato/acontecimento, os aspectos podem representar a seguintes informações: o que aconteceu, onde aconteceu, quando aconteceu, como aconteceu, e por que aconteceu. Conhecendo-se esses aspectos e as estratégias de produção e organização de sumários, é possível automatizar a tarefa de sumarização. No entanto, para o Português do Brasil, não há pesquisa feita sobre sumarização com base em aspectos. Portanto, neste trabalho de mestrado, investigaram-se métodos de sumarização multidocumento com base em aspectos informativos, pertencente à abordagem profunda para a sumarização, em que se busca interpretar o texto para se produzir sumários mais informativos. Em particular, implementaram-se duas etapas relacionadas: (i) identificação automática de aspectos os aspectos informativos e (ii) desenvolvimento e avaliação de dois métodos de sumarização com base em padrões de aspectos (ou templates) em sumários. Na etapa (i), criaram-se classificadores de aspectos com base em anotador de papéis semânticos, reconhecedor de entidades mencionadas, regras manuais e técnicas de aprendizado de máquina. Avaliaram-se os classificadores sobre o córpus CSTNews (Rassi et al., 2013; Felippo et al., 2014). Os resultados foram satisfatórios, demostrando que alguns aspectos podem ser identificados automaticamente em textos jornalísticos com um desempenho razoável. Já na etapa (ii), elaboraram-se dois métodos inéditos de sumarização multidocumento com base em aspectos. Os resultados obtidos mostram que os métodos propostos neste trabalho são competitivos com os métodos da literatura. Salienta-se que esta abordagem para sumarização tem recebido grande destaque ultimamente. Além disso, é inédita nos trabalhos desenvolvidos no Brasil, podendo trazer contribuições importantes para a área. / Multi-document summarization is the task of automatically producing a unique summary from a group of texts on the same topic. With the huge amount of available information in the web, this task is very relevant because it can facilitate the reading of the users. Informative aspects, in particular, represent the basic information units in texts and summaries, e.g., in news texts there should be the following information: what happened, when it happened, where it happened, how it happened and why it happened. Knowing these aspects and the strategies to produce and organize summaries, it is possible to automate the aspect-based summarization. However, there is no research about aspect-based multi-document summarization for Brazilian Portuguese. This research work investigates multi-document summarization methods based on informative aspects, which follows the deep approach for summarization, in which it aims at interpreting the texts to produce more informative summaries. In particular, two main stages are developed: (i) the automatic identification of informative aspects and (ii) and the development and evaluation of two summarization methods based on aspects patterns (or templates). In the step (i) classifiers were created based on semantic role labeling, named entity recognition, handcrafted rules and machine learning techniques. Classifiers were evaluated on the CSTNews annotated corpus (Rassi et al., 2013; Felippo et al., 2014). The results were satisfactory, demonstrating that some aspects can be automatically identified in the news with a reasonable performance. In the step (ii) two novels aspect-based multi-document summarization methods are elaborated. The results show that the proposed methods in this work are competitive with the classical methods. It should be noted that this approach has lately received a lot of attention. Furthermore, it is unprecedented in the summarization task developed in Brazil, with the potential to bring important contributions to the area. Anotação de papéis semânticos Aprendizado de máquina Aspectos informativos Processamento de língua natural Sumarização automática multidocumento Annotation semantic desktop Aspects informational Learning machine Natural language processing Sumarization automatic multidocument
20	Using phonetic knowledge in tools and resources for Natural Language Processing and Pronunciation Evaluation / Utilizando conhecimento fonético em ferramentas e recursos de Processamento de Língua Natural e Treino de Pronúncia Almeida, Gustavo Augusto de Mendonça 21 March 2016 (has links) This thesis presents tools and resources for the development of applications in Natural Language Processing and Pronunciation Training. There are four main contributions. First, a hybrid grapheme-to-phoneme converter for Brazilian Portuguese, named Aeiouadô, which makes use of both manual transcription rules and Classification and Regression Trees (CART) to infer the phone transcription. Second, a spelling correction system based on machine learning, which uses the trascriptions produced by Aeiouadô and is capable of handling phonologically-motivated errors, as well as contextual errors. Third, a method for the extraction of phonetically-rich sentences, which is based on greedy algorithms. Fourth, a prototype system for automatic pronunciation assessment, especially designed for Brazilian-accented English. / Esta dissertação apresenta recursos voltados para o desenvolvimento de aplicações de reconhecimento de fala e avaliação de pronúncia. São quatro as contribuições aqui discutidas. Primeiro, um conversor grafema-fonema híbrido para o Português Brasileiro, chamado Aeiouadô, o qual utiliza regras de transcrição fonética e Classification and Regression Trees (CART) para inferir os fones da fala. Segundo, uma ferramenta de correção automática baseada em aprendizado de máquina, que leva em conta erros de digitação de origem fonética, que é capaz de lidar com erros contextuais e emprega as transcrições geradas pelo Aeiouadô. Terceiro, um método para a extração de sentenças foneticamente-ricas, tendo em vista a criação de corpora de fala, baseado em algoritmos gulosos. Quarto, um protótipo de um sistema de reconhecimento e correção de fala não-nativa, voltado para o Inglês falado por aprendizes brasileiros. Automatic pronunciation assessment Avaliação de pronúncia automática Balanceamento de corpus Conversão grafema-fonema Corpus balancing Corretor ortográfico Natural language processing Processamento de língua natural Pronunciation training Spelling correction Text-to-speech Treino de pronúncia

Search results