Global ETD Search

21	Identificação e tratamento de expressões multipalavras aplicado à recuperação de informação / Identification and treatment of multiword expressions applied to information retrieval Acosta, Otavio Costa January 2011 (has links) A vasta utilização de Expressões Multipalavras em textos de linguagem natural requer atenção para um estudo aprofundado neste assunto, para que posteriormente seja possível a manipulação e o tratamento, de forma robusta, deste tipo de expressão. Uma Expressão Multipalavra costuma transmitir precisamente conceitos e ideias que geralmente não podem ser expressos por apenas uma palavra e estima-se que sua frequência, em um léxico de um falante nativo, seja semelhante à quantidade de palavras simples. A maioria das aplicações reais simplesmente ignora ou lista possíveis termos compostos, porém os identifica e trata seus itens lexicais individualmente e não como uma unidade de conceito. Para o sucesso de uma aplicação de Processamento de Linguagem Natural, que envolva processamento semântico, é necessário um tratamento diferenciado para essas expressões. Com o devido tratamento, é investigada a hipótese das Expressões Multipalavras possibilitarem uma melhora nos resultados de uma aplicação, tal como os sistemas de Recuperação de Informação. Os objetivos desse trabalho estão voltados ao estudo de técnicas de descoberta automática de Expressões Multipalavras, permitindo a criação de dicionários, para fins de indexação, em um mecanismo de Recuperação de Informação. Resultados experimentais apontaram melhorias na recuperação de documentos relevantes, ao identificar Expressões Multipalavras e tratá-las como uma unidade de indexação única. / The use of Multiword Expressions (MWE) in natural language texts requires a detailed study, to further support in manipulating and processing, robustly, these kinds of expression. A MWE typically gives concepts and ideas that usually cannot be expressed by a single word and it is estimated that the number of MWEs in the lexicon of a native speaker is similar to the number of single words. Most real applications simply ignore them or create a list of compounds, treating and identifying them as isolated lexical items and not as an individual unit. For the success of a Natural Language Processing (NLP) application, involving semantic processing, adequate treatment for these expressions is required. In this work we investigate the hypothesis that an appropriate identification of Multiword Expressions provide better results in an application, such as Information Retrieval (IR). The objectives of this work are to compare techniques of MWE extraction for creating MWE dictionaries, to be used for indexing purposes in IR. Experimental results show qualitative improvements on the retrieval of relevant documents when identifying MWEs and treating them as a single indexing unit. Processamento : Linguagem natural Processamento : Palavra Natural language processing Multiword expression Information retrieval
22	Redução de dimensionalidade aplicada à diarização de locutor / Dimensionality reduction applied to speaker diarization Silva, Sérgio Montazzolli January 2013 (has links) Atualmente existe uma grande quantidade de dados multimídia sendo geradas todos os dias. Estes dados são oriundos de diversas fontes, como transmissões de rádio ou televisão, gravações de palestras, encontros, conversas telefônicas, vídeos e fotos capturados por celular, entre outros. Com isto, nos últimos anos o interesse pela transcrição de dados multimídia tem crescido, onde, no processamento de voz, podemos destacar as áreas de Reconhecimento de Locutor, Reconhecimento de Fala, Diarização de Locutor e Rastreamento de Locutores. O desenvolvimento destas áreas vem sendo impulsionado e direcionado pelo NIST, que periodicamente realiza avaliações sobre o estado-da-arte. Desde 2000, a tarefa de Diarização de Locutor tem se destacado como uma das principáis frentes de pesquisa em transcrição de dados de voz, tendo sido avaliada pelo NIST por diversas vezes na última década. O objetivo desta tarefa é encontrar o número de locutores presentes em um áudio, e rotular seus respectivos trechos de fala, sem que nenhuma informação tenha sido previamente fornecida. Em outras palavras, costuma-se dizer que o objetivo é responder a questão "Quem falou e quando?". Um dos grandes problemas nesta área é se conseguir obter um bom modelo para cada locutor presente no áudio, dada a pouca quantidade de informações e a alta dimensionalidade dos dados. Neste trabalho, além da criação de um Sistema de Diarização de Locutor, iremos tratar este problema mediante à redução de dimensionalidade através de análises estatísticas. Usaremos a Análise de Componentes Principáis, a Análise de Discriminantes Lineares e a recém apresentada Análise de Semi-Discriminantes Lineares. Esta última utiliza um método de inicialização estático, iremos propor o uso de um método dinâmico, através da detecção de pontos de troca de locutor. Também investigaremos o comportamento destas análises sob o uso simultâneo de múltiplas parametrizações de curto prazo do sinal acústico. Os resultados obtidos mostram que é possível preservar - ou até melhorar - o desempenho do sistema, mesmo reduzindo substâncialmente o número de dimensões. Isto torna mais rápida a execução de algoritmos de Aprendizagem de Máquina e reduz a quantidade de memória necessária para armezenar os dados. / Currently, there is a large amount of multimedia data being generated everyday. These data come from various sources, such as radio or television, recordings of lectures and meetings, telephone conversations, videos and photos captured by mobile phone, among others. Because of this, interest in automatic multimedia data transcription has grown in recent years, where, for voice processing, we can highlight the areas of Speaker Recognition, Speech Recognition, Speaker Diarization and Speaker Tracking. The development of such areas is being conducted by NIST, which periodically promotes state-of-the-art evaluations. Since 2000, the task of Speaker Diarization has emerged as one of the main research fields in voice data transcription, having been evaluated by NIST several times in the last decade. The objective of this task is to find the number of speakers in an audio recording, and properly label their speech segments without the use of any training information. In other words , it is said that the goal of Speaker Diarization is to answer the question "Who spoke when?". A major problem in this area is to obtain a good speaker model from the audio, given the limited amount of information available and the high dimensionality of the data. In the current work, we will describe how our Speaker Diarization System was built, and we will address the problem mentioned by lowering the dimensionality of the data through statistical analysis. We will use the Principal Component Analysis, the Linear Discriminant Analysis and the newly presented Fisher Linear Semi-Discriminant Analysis. The latter uses a static method for initialization, and here we propose the use of a dynamic method by the use of a speaker change points detection algorithm. We also investigate the behavior of these data analysis techniques under the simultaneous use of multiple short term features. Our results show that it is possible to maintain - and even improve - the system performance, by substantially reducing the number of dimensions. As a consequence, the execution of Machine Learning algorithms is accelerated while reducing the amount of memory required to store the data. Processamento : Linguagem natural Voz computacional Speaker diarization Discriminant analysis Dimensionality reduction
23	Distinção de grupos linguísticos através de desempenho da linguagem / Distinction of linguistic groups through linguistic performance Wilkens, Rodrigo Souza January 2016 (has links) A aquisição e o desempenho de linguagem humana é um processo pelo qual todas as pessoas passam. No entanto, esse processo não é completamente entendido, o que gera amplo espaço para pesquisa nessa área. Além disso, mesmo após o processo de aquisição da linguagem pela criança estar completo, ainda não há garantia de domínio da língua em suas diferentes modalidades, especialmente de leitura e escrita. Recentemente, em 2016, divulgou-se que 49,3% dos estudantes brasileiros não possuem proficiência de compreensão de leitura plena em português. Isso é particularmente importante ao considerarmos a quantidade de textos disponíveis, mas não acessíveis a pessoas com diferentes tipos de problemas de proficiência na língua. Sob o ponto de vista computacional, há estudos que visam modelar os processos de aquisição da linguagem e medir o nível do falante, leitor ou redator. Em vista disso, neste trabalho propomos uma abordagem computacional independente de idioma para modelar o nível de desenvolvimento linguístico de diferentes tipos de usuários da língua, de crianças e adultos, sendo a nossa proposta fortemente baseada em características linguísticas. Essas características são dependentes de corpora orais transcritos, no segmento de crianças, e de corpora escritos, no segmento de adultos. Para alcançar esse modelo abrangente, são considerados como objetivos a identificação de atributos e valores que diferenciam os níveis de desenvolvimento da linguagem do indivíduo, assim como o desenvolvimento de um modelo capaz de indicá-los. Para a identificação dos atributos, utilizamos métodos baseados em estatística, como o teste de hipóteses e divergência de distribuição. A fim de comprovar a abrangência da abordagem, realizamos experimentos com os corpora que espelham diferentes etapas do desenvolvimento da linguagem humana: (1) etapa de aquisição da linguagem oral de pela criança e (2) etapa pós aquisição, através da percepção de complexidade da linguagem escrita. Como resultados, obtivemos um grande conjunto anotado de dados sobre aquisição e desempenho de linguagem que podem contribuir para outros estudos. Assim como um perfil de atributos para os vários níveis de desenvolvimento. Também destacamos como resultados, os modelos computacionais que identificam textos quanto ao nível de desenvolvimento de linguagem. Em especial, o são resultados do trabalho o modelo de identificação de palavras complexas, que ultrapassou o estado da arte para o corpus estudado, e o modelo de identificação de idade de crianças que ultrapassou os baselines utilizados, incluindo uma medida clássica de desenvolvimento linguístico. / Language acquisition and language performance is a process by which all the people experience. However, this process is not completely understood, which creates room for research in this area. Moreover, even after the acquisition process by a child is completed, there is still no guarantee of language proficiency in different modalities, specially reading and writing. Recently, in 2016, OECD/PIAAC released that 49,3% of Brazilian students do not have written and read proficiency in Portuguese. This is more important when we take into account the large number of available text, but they are not accessible by people with different types of language proficiency issues. In computational point of view, there are some studies which aim to model the language acquisition process and measure the speaker level. For that, we propose an computational approach independent of language to model language development level of different types of language users, children and adults. In that sense our proposal is highly based on linguistics features. Those features dependents of transcript oral corpora from children and adults. To achieve this model, we considered aim to identify attributes and values able to differentiate between leves of development by an individual, as well the desenvolvimento of a model able to indicate them. The attribute identification are based on statistical methods such as hypothesis testing and divergence distribution. Aiming to validate our approach, we performed experiments with the corpora that reflect at different stages of development of human language: (1) oral language acquisition by a child and (2) post-acquisition stage, through the perception of difficulty of written language. With this work, we obtained a large corpus of annotated language acquisition data that can contribute to the acquisition of other studies. We also build an attribute profile of the development levels. From all of our results we highlight the computer models that identify texts and language development level. In particular, the complex word identification model that exceeded the state of the art for the studied corpus, and the children age identifier model, who exceeded the baselines, including a classic measure of language development. Linguística computacional Processamento : Linguagem natural Natural language processing CHILDES-DB Machine learning Feature selection Development level classification Complex word identification
24	Reconhecimento semântico através de redes neurais artificiais / Semantic recognition through artificial neural nets Muller, Daniel Nehme January 1996 (has links) Um dos grandes desafios atuais da computação e ultrapassar o abismo existente entre o homem e a maquina. Para tanto, o desafio passa a ser a formalização de estados mentais e sua modelagem computacional. Isso e necessário, uma vez que o homem somente conseguira comunicar-se com uma maquina quando esta puder dar e receber informações sem que o homem precise aprender uma forma especial de comunicação. É necessário, portanto, que a maquina aprenda a comunicar-se como o homem. Neste sentido, o estudo da linguagem torna-se uma porta aberta para criar uma computação que se adapte ao homem e, ao mesmo tempo favoreça pesquisas que visem uma melhor compreensão do funcionamento do cérebro, da linguagem e do aprendizado do próprio homem. O presente trabalho mostra que o computador possui um potencial de comunicação ainda inexplorado. Por este motivo, em estudos anteriores procurou-se a verificação do atual estagio de modelagem de comunicação homem-máquina em comparação a evolução da linguagem humana. Constatou-se, então, que a maquina pode chegar a uma efetiva comunicação com o homem embora jamais espontânea. como se vê na ficção científica. O que e possível e a auto-organização pelo computador de sinais provenientes de seu meio, visando a realização de determinadas tarefas. Esses sinais do meio em que esta o computador são exatamente o que justifica suas ações, o que da significado ao que lhe e transmitido, assim como o que ocorre no homem. Para que se modele o reconhecimento semantico de frases necessário que se encontre uma forma de codificar os sinais do meio para que estes, acompanhando a frase, permitam o reconhecimento de seu significado. Porem, como o objetivo deste trabalho e a implementação do reconhecimento semântico e não a recepção de sinais, optou-se por uma codificação representativa dos sinais externos. Esta codificação permite que, através da tecnologia das Redes Neurais Artificiais, seja possível a implementação de relações semânticas entre palavras e entre frases, permitindo a classificação para posterior reconhecimento. A implementação computacional realizada permite o reconhecimento de frases, mesmo com alteração de palavras e numero de palavras. O protótipo aqui apresentado mostra que, mesmo com uma estrutura extremamente mais simples que outros sistemas de reconhecimento de língua natural, é possível uma adequada identificação de frases. / One of the great challenges of computation nowadays is to cross the abyss between man and machine. Thus, the challenge becomes the formalization of mental states and its computational modelling. This is necessary since man will only get to communicate with a machine when this machine is able to give and receive information without man needs to learn a special way to communicate. Therefore, it is necessary that the machine learns to communicate with man. In this sense, the study of the language becomes an open door in order to create a computation that may be adapted to man. and, at the same time, may help researches which aim at a better comprehension of the brain functioning of the language and of man's learning. This work shows that the computer has a potential for communication that has not been explored yet. For this reason, in prior studies we tried to verify the present stage of man-machine communication modelling in comparison with the human language evolution. We verified, then, that the machine can reach an effective communication with man, but never spontaneous, as we see in scientific fiction (Sci-Fi). What can be possible is the self-organization by computer of signals deriving from its own environment, aiming at realization of specifics tasks. Those signals of the computer environment are exactly what justifies its actions. what gives meaning to what is transmitted to it in the same way that happens with man. In order to mould the Semantic Recognition of phrases it is necessary to find out a way of codifying the signals of the environment so that these signals. accompanying a phrase, may permit recognition of its meaning. However, as the purpose of this work is the implementation of the Semantic Recognition, and not the reception of signals, we have opted for a representative codification of external signals. This codification allows that, through the Artificial Neural Nets technology, the implementation of semantic relations among words and phrases may be possible, permitting the classification for posterior recognition. The computational implementation realized permits the recognition of phrases, even with alteration of words and number of words. The prototype presented here shows that, even with one structure extremely simpler than other systems of Natural Language Recognition, an adequate identification of phrases is possible. Linguística computacional Redes neurais Aquisicao : Linguagem Processamento : Linguagem natural Processamento distribuido Semantic recognition Artificial neural nets Cognition Natural language
25	Reconhecimento semântico através de redes neurais artificiais / Semantic recognition through artificial neural nets Muller, Daniel Nehme January 1996 (has links) Um dos grandes desafios atuais da computação e ultrapassar o abismo existente entre o homem e a maquina. Para tanto, o desafio passa a ser a formalização de estados mentais e sua modelagem computacional. Isso e necessário, uma vez que o homem somente conseguira comunicar-se com uma maquina quando esta puder dar e receber informações sem que o homem precise aprender uma forma especial de comunicação. É necessário, portanto, que a maquina aprenda a comunicar-se como o homem. Neste sentido, o estudo da linguagem torna-se uma porta aberta para criar uma computação que se adapte ao homem e, ao mesmo tempo favoreça pesquisas que visem uma melhor compreensão do funcionamento do cérebro, da linguagem e do aprendizado do próprio homem. O presente trabalho mostra que o computador possui um potencial de comunicação ainda inexplorado. Por este motivo, em estudos anteriores procurou-se a verificação do atual estagio de modelagem de comunicação homem-máquina em comparação a evolução da linguagem humana. Constatou-se, então, que a maquina pode chegar a uma efetiva comunicação com o homem embora jamais espontânea. como se vê na ficção científica. O que e possível e a auto-organização pelo computador de sinais provenientes de seu meio, visando a realização de determinadas tarefas. Esses sinais do meio em que esta o computador são exatamente o que justifica suas ações, o que da significado ao que lhe e transmitido, assim como o que ocorre no homem. Para que se modele o reconhecimento semantico de frases necessário que se encontre uma forma de codificar os sinais do meio para que estes, acompanhando a frase, permitam o reconhecimento de seu significado. Porem, como o objetivo deste trabalho e a implementação do reconhecimento semântico e não a recepção de sinais, optou-se por uma codificação representativa dos sinais externos. Esta codificação permite que, através da tecnologia das Redes Neurais Artificiais, seja possível a implementação de relações semânticas entre palavras e entre frases, permitindo a classificação para posterior reconhecimento. A implementação computacional realizada permite o reconhecimento de frases, mesmo com alteração de palavras e numero de palavras. O protótipo aqui apresentado mostra que, mesmo com uma estrutura extremamente mais simples que outros sistemas de reconhecimento de língua natural, é possível uma adequada identificação de frases. / One of the great challenges of computation nowadays is to cross the abyss between man and machine. Thus, the challenge becomes the formalization of mental states and its computational modelling. This is necessary since man will only get to communicate with a machine when this machine is able to give and receive information without man needs to learn a special way to communicate. Therefore, it is necessary that the machine learns to communicate with man. In this sense, the study of the language becomes an open door in order to create a computation that may be adapted to man. and, at the same time, may help researches which aim at a better comprehension of the brain functioning of the language and of man's learning. This work shows that the computer has a potential for communication that has not been explored yet. For this reason, in prior studies we tried to verify the present stage of man-machine communication modelling in comparison with the human language evolution. We verified, then, that the machine can reach an effective communication with man, but never spontaneous, as we see in scientific fiction (Sci-Fi). What can be possible is the self-organization by computer of signals deriving from its own environment, aiming at realization of specifics tasks. Those signals of the computer environment are exactly what justifies its actions. what gives meaning to what is transmitted to it in the same way that happens with man. In order to mould the Semantic Recognition of phrases it is necessary to find out a way of codifying the signals of the environment so that these signals. accompanying a phrase, may permit recognition of its meaning. However, as the purpose of this work is the implementation of the Semantic Recognition, and not the reception of signals, we have opted for a representative codification of external signals. This codification allows that, through the Artificial Neural Nets technology, the implementation of semantic relations among words and phrases may be possible, permitting the classification for posterior recognition. The computational implementation realized permits the recognition of phrases, even with alteration of words and number of words. The prototype presented here shows that, even with one structure extremely simpler than other systems of Natural Language Recognition, an adequate identification of phrases is possible. Linguística computacional Redes neurais Aquisicao : Linguagem Processamento : Linguagem natural Processamento distribuido Semantic recognition Artificial neural nets Cognition Natural language
26	Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento / Text alignment Schreiner, Paulo January 2010 (has links) O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho. / Lexical alignment is an essential task for modern empirical machine translation techniques. The unsupervised generative approach is being replaced by a supervised, discriminative one that considerably facilitates the inclusion of linguistic knowledge from several sources. Given this context, the present work describes a series of discriminative lexical aligners that incorporate post-processing heuristics with the goal of improving the quality of the alignments of multiword expressions, which is one of the major challanges in natural language processing today. The evaluation is conducted using a gold-standard obtained from a movie subtitle parallel corpus. The aligners proposed show an alignment quality that is superior both to our baseline and to a state-of-the-art generative aligner (Giza++), for the general case as well as for the expressions that are the focus of this work. Linguística computacional Processamento : Linguagem natural Natural language processing Lexical alignment Machine learning Parallel corpora Multiword expressions UFRGS
27	A computational investigation of verbs during aging with and without Alzheimer’s disease / Uma investigação computacional do uso de verbos no envelhecimento com e sem doença de Alzheimer Santos, Anderson Roberto Santos dos January 2011 (has links) A doença de Alzheimer produz alterações nas funções cognitivas, entre eles, de processos que são responsáveis pela linguagem e memória. Com o intuito de termos uma melhor compreensão das alterações da linguagem, este trabalho investigou características presentes em redes semânticas de pacientes com diagnóstico de provável Alzheimer, com foco nos verbos. Os resultados das comparações entre as redes de indivíduos saudáveis e pacientes com Alzheimer indicam diferenças topológicas entre eles. Neste trabalho, também foram construídos classificadores que poderiam captar as diferenças entre os vários perfis de indivíduos, e que podem ser utilizados para classificar novos indivíduos de acordo com o perfil mais próximo. Esse esforço se deu com o intuito de ajudar no diagnóstico de doenças que afetam a linguagem, como a doença de Alzheimer. / Alzheimer’s disease produces alterations of cognitive functions and of processes that are responsible for language and memory. In order to have a better understanding of language changes, we investigate the characteristics of the semantic networks of patients diagnosed with probable Alzheimer, focusing on verbs. The results of comparisons with networks of healthy individuals and patients with Alzheimer disease highlight some topological differences among them. We also constructed classifiers that could capture the differences between the various profiles of speakers, and that can be used to classify unknown speakers according to the closest profile. We made this effort in order to help the diagnosis of diseases that affect language, such as the Alzheimer’s disease. Processamento : Linguagem natural Informática médica Natural language processing Cognitively based models Mental lexicon Decline of the verbal lexicon Alzheimer
28	Tell me why : uma arquitetura para fornecer explicações sobre revisões / Tell me why : an architecture to provide rich review explanations Woloszyn, Vinicius January 2015 (has links) O que as outras pessoas pensam sempre foi uma parte importante do processo de tomada de decisão. Por exemplo, as pessoas costumam consultar seus amigos para obter um parecer sobre um livro ou um filme ou um restaurante. Hoje em dia, os usuários publicam suas opiniões em sites de revisão colaborativa, como IMDB para filmes, Yelp para restaurantes e TripAdiviser para hotéis. Ao longo do tempo, esses sites têm construído um enorme banco de dados que conecta usuários, artigos e opiniões expressas por uma classificação numérica e um comentário de texto livre que explicam por que eles gostam ou não gostam de um item. Mas essa vasta quantidade de dados pode prejudicar o usuário a obter uma opinião. Muitos trabalhos relacionados fornecem uma interpretações de revisões para os usuários. Eles oferecem vantagens diferentes para vários tipos de resumos. No entanto, todos eles têm a mesma limitação: eles não fornecem resumos personalizados nem contrastantes comentários escritos por diferentes segmentos de colaboradores. Compreeder e contrastar comentários escritos por diferentes segmentos de revisores ainda é um problema de pesquisa em aberto. Assim, nosso trabalho propõe uma nova arquitetura, chamado Tell Me Why. TMW é um projeto desenvolvido no Laboratório de Informática Grenoble em cooperação com a Universidade Federal do Rio Grande do Sul para fornecer aos usuários uma melhor compreensão dos comentários. Propomos uma combinação de análise de texto a partir de comentários com a mineração de dados estruturado resultante do cruzamento de dimensões do avaliador e item. Além disso, este trabalho realiza uma investigação sobre métodos de sumarização utilizados na revisão de produtos. A saída de nossa arquitetura consiste em declarações personalizadas de texto usando Geração de Linguagem Natural composto por atributos de itens e comentários resumidos que explicam a opinião das pessoas sobre um determinado assunto. Os resultados obtidos a partir de uma avaliação comparativa com a Revisão Mais Útil da Amazon revelam que é uma abordagem promissora e útil na opinião do usuário. / What other people think has been always an important part of the process of decision-making. For instance, people usually consult their friends to get an opinion about a book, or a movie or a restaurant. Nowadays, users publish their opinions on collaborative reviewing sites such as IMDB for movies, Yelp for restaurants and TripAdvisor for hotels. Over the time, these sites have built a massive database that connects users, items and opinions expressed by a numeric rating and a free text review that explain why they like or dislike a specific item. But this vast amount of data can hamper the user to get an opinion. Several related work provide a review interpretations to the users. They offer different advantages for various types of summaries. However, they all have the same limitation: they do not provide personalized summaries nor contrasting reviews written by different segments of reviewers. Understanding and contrast reviews written by different segments of reviewers is still an open research problem. Our work proposes a new architecture, called Tell Me Why, which is a project developed at Grenoble Informatics Laboratory in cooperation with Federal University of Rio Grande do Sul to provide users a better understanding of reviews. We propose a combination of text analysis from reviews with mining structured data resulting from crossing reviewer and item dimensions. Additionally, this work performs an investigation of summarization methods utilized in review domain. The output of our architecture consists of personalized statement using Natural Language Generation that explain people’s opinion about a particular item. The evaluation reveal that it is a promising approach and useful in user’s opinion. Processamento : Linguagem natural Linguagem natural Mineracao : Dados Opinion mining Data mining Natural language processing Natural language generation Big data
29	Distinção de grupos linguísticos através de desempenho da linguagem / Distinction of linguistic groups through linguistic performance Wilkens, Rodrigo Souza January 2016 (has links) A aquisição e o desempenho de linguagem humana é um processo pelo qual todas as pessoas passam. No entanto, esse processo não é completamente entendido, o que gera amplo espaço para pesquisa nessa área. Além disso, mesmo após o processo de aquisição da linguagem pela criança estar completo, ainda não há garantia de domínio da língua em suas diferentes modalidades, especialmente de leitura e escrita. Recentemente, em 2016, divulgou-se que 49,3% dos estudantes brasileiros não possuem proficiência de compreensão de leitura plena em português. Isso é particularmente importante ao considerarmos a quantidade de textos disponíveis, mas não acessíveis a pessoas com diferentes tipos de problemas de proficiência na língua. Sob o ponto de vista computacional, há estudos que visam modelar os processos de aquisição da linguagem e medir o nível do falante, leitor ou redator. Em vista disso, neste trabalho propomos uma abordagem computacional independente de idioma para modelar o nível de desenvolvimento linguístico de diferentes tipos de usuários da língua, de crianças e adultos, sendo a nossa proposta fortemente baseada em características linguísticas. Essas características são dependentes de corpora orais transcritos, no segmento de crianças, e de corpora escritos, no segmento de adultos. Para alcançar esse modelo abrangente, são considerados como objetivos a identificação de atributos e valores que diferenciam os níveis de desenvolvimento da linguagem do indivíduo, assim como o desenvolvimento de um modelo capaz de indicá-los. Para a identificação dos atributos, utilizamos métodos baseados em estatística, como o teste de hipóteses e divergência de distribuição. A fim de comprovar a abrangência da abordagem, realizamos experimentos com os corpora que espelham diferentes etapas do desenvolvimento da linguagem humana: (1) etapa de aquisição da linguagem oral de pela criança e (2) etapa pós aquisição, através da percepção de complexidade da linguagem escrita. Como resultados, obtivemos um grande conjunto anotado de dados sobre aquisição e desempenho de linguagem que podem contribuir para outros estudos. Assim como um perfil de atributos para os vários níveis de desenvolvimento. Também destacamos como resultados, os modelos computacionais que identificam textos quanto ao nível de desenvolvimento de linguagem. Em especial, o são resultados do trabalho o modelo de identificação de palavras complexas, que ultrapassou o estado da arte para o corpus estudado, e o modelo de identificação de idade de crianças que ultrapassou os baselines utilizados, incluindo uma medida clássica de desenvolvimento linguístico. / Language acquisition and language performance is a process by which all the people experience. However, this process is not completely understood, which creates room for research in this area. Moreover, even after the acquisition process by a child is completed, there is still no guarantee of language proficiency in different modalities, specially reading and writing. Recently, in 2016, OECD/PIAAC released that 49,3% of Brazilian students do not have written and read proficiency in Portuguese. This is more important when we take into account the large number of available text, but they are not accessible by people with different types of language proficiency issues. In computational point of view, there are some studies which aim to model the language acquisition process and measure the speaker level. For that, we propose an computational approach independent of language to model language development level of different types of language users, children and adults. In that sense our proposal is highly based on linguistics features. Those features dependents of transcript oral corpora from children and adults. To achieve this model, we considered aim to identify attributes and values able to differentiate between leves of development by an individual, as well the desenvolvimento of a model able to indicate them. The attribute identification are based on statistical methods such as hypothesis testing and divergence distribution. Aiming to validate our approach, we performed experiments with the corpora that reflect at different stages of development of human language: (1) oral language acquisition by a child and (2) post-acquisition stage, through the perception of difficulty of written language. With this work, we obtained a large corpus of annotated language acquisition data that can contribute to the acquisition of other studies. We also build an attribute profile of the development levels. From all of our results we highlight the computer models that identify texts and language development level. In particular, the complex word identification model that exceeded the state of the art for the studied corpus, and the children age identifier model, who exceeded the baselines, including a classic measure of language development. Linguística computacional Processamento : Linguagem natural Natural language processing CHILDES-DB Machine learning Feature selection Development level classification Complex word identification
30	Reconhecimento semântico através de redes neurais artificiais / Semantic recognition through artificial neural nets Muller, Daniel Nehme January 1996 (has links) Um dos grandes desafios atuais da computação e ultrapassar o abismo existente entre o homem e a maquina. Para tanto, o desafio passa a ser a formalização de estados mentais e sua modelagem computacional. Isso e necessário, uma vez que o homem somente conseguira comunicar-se com uma maquina quando esta puder dar e receber informações sem que o homem precise aprender uma forma especial de comunicação. É necessário, portanto, que a maquina aprenda a comunicar-se como o homem. Neste sentido, o estudo da linguagem torna-se uma porta aberta para criar uma computação que se adapte ao homem e, ao mesmo tempo favoreça pesquisas que visem uma melhor compreensão do funcionamento do cérebro, da linguagem e do aprendizado do próprio homem. O presente trabalho mostra que o computador possui um potencial de comunicação ainda inexplorado. Por este motivo, em estudos anteriores procurou-se a verificação do atual estagio de modelagem de comunicação homem-máquina em comparação a evolução da linguagem humana. Constatou-se, então, que a maquina pode chegar a uma efetiva comunicação com o homem embora jamais espontânea. como se vê na ficção científica. O que e possível e a auto-organização pelo computador de sinais provenientes de seu meio, visando a realização de determinadas tarefas. Esses sinais do meio em que esta o computador são exatamente o que justifica suas ações, o que da significado ao que lhe e transmitido, assim como o que ocorre no homem. Para que se modele o reconhecimento semantico de frases necessário que se encontre uma forma de codificar os sinais do meio para que estes, acompanhando a frase, permitam o reconhecimento de seu significado. Porem, como o objetivo deste trabalho e a implementação do reconhecimento semântico e não a recepção de sinais, optou-se por uma codificação representativa dos sinais externos. Esta codificação permite que, através da tecnologia das Redes Neurais Artificiais, seja possível a implementação de relações semânticas entre palavras e entre frases, permitindo a classificação para posterior reconhecimento. A implementação computacional realizada permite o reconhecimento de frases, mesmo com alteração de palavras e numero de palavras. O protótipo aqui apresentado mostra que, mesmo com uma estrutura extremamente mais simples que outros sistemas de reconhecimento de língua natural, é possível uma adequada identificação de frases. / One of the great challenges of computation nowadays is to cross the abyss between man and machine. Thus, the challenge becomes the formalization of mental states and its computational modelling. This is necessary since man will only get to communicate with a machine when this machine is able to give and receive information without man needs to learn a special way to communicate. Therefore, it is necessary that the machine learns to communicate with man. In this sense, the study of the language becomes an open door in order to create a computation that may be adapted to man. and, at the same time, may help researches which aim at a better comprehension of the brain functioning of the language and of man's learning. This work shows that the computer has a potential for communication that has not been explored yet. For this reason, in prior studies we tried to verify the present stage of man-machine communication modelling in comparison with the human language evolution. We verified, then, that the machine can reach an effective communication with man, but never spontaneous, as we see in scientific fiction (Sci-Fi). What can be possible is the self-organization by computer of signals deriving from its own environment, aiming at realization of specifics tasks. Those signals of the computer environment are exactly what justifies its actions. what gives meaning to what is transmitted to it in the same way that happens with man. In order to mould the Semantic Recognition of phrases it is necessary to find out a way of codifying the signals of the environment so that these signals. accompanying a phrase, may permit recognition of its meaning. However, as the purpose of this work is the implementation of the Semantic Recognition, and not the reception of signals, we have opted for a representative codification of external signals. This codification allows that, through the Artificial Neural Nets technology, the implementation of semantic relations among words and phrases may be possible, permitting the classification for posterior recognition. The computational implementation realized permits the recognition of phrases, even with alteration of words and number of words. The prototype presented here shows that, even with one structure extremely simpler than other systems of Natural Language Recognition, an adequate identification of phrases is possible. Linguística computacional Redes neurais Aquisicao : Linguagem Processamento : Linguagem natural Processamento distribuido Semantic recognition Artificial neural nets Cognition Natural language

Search results