Global ETD Search

131	A verb learning model driven by syntactic constructions / Um modelo de aquisição de verbos guiado por construções sintáticas Machado, Mario Lúcio Mesquita January 2008 (has links) Desde a segunda metade do último século, as teorias cognitivas têm trazido algumas visões interessantes em relação ao aprendizado de linguagem. A aplicação destas teorias em modelos computacionais tem duplo benefício: por um lado, implementações computacionais podem ser usaas como uma forma de validação destas teorias; por outro lado, modelos computacionais podem alcançar uma performance melhorada a partir da adoção de estratégias de aprendizado cognitivamente plausíveis. Estruturas sintáticas são ditas fornecer uma pista importante para a aquisição do significado de verbos. Ainda, para um subconjunto particular de verbos muito frequentes e gerais - os assim-chamados light verbs - há uma forte ligação entre as estruturas sintáticas nas quais eles aparecem e seus significados. Neste trabalho, empregamos um modelo computacional para investigar estas propostas, em particular, considerando a tarefa de aquisição como um mapeamento entre um verbo desconhecido e referentes prototípicos para eventos verbais, com base na estrutura sintática na qual o verbo aparece. Os experimentos conduzidos ressaltaram alguns requerimentos para um aprendizado bem-sucedido, em termos de níveis de informação disponível para o aprendiz e da estratégia de aprendizado adotada. / Cognitive theories have been, since the second half of the last century, bringing some interesting views about language learning. The application of these theories on computational models has double benefits: in the one hand, computational implementations can be used as a form of validation of these theories; on the other hand, computational models can earn an improved performance from adopting some cognitively plausible learning strategies. Syntactic structures are said to provide an important cue for the acquisition of verb meaning. Yet, for a particular subset of very frequent and general verbs – the so-called light verbs – there is a strong link between the syntactic structures in which they appear and their meanings. In this work, we used a computational model, to further investigate these proposals, in particular looking at the acquisition task as a mapping between an unknown verb and prototypical referents for verbal events, on the basis of the syntactic structure in which the verb appears. The experiments conducted have highlighted some requirements for a successful learning, both in terms of the levels of information available to the learner and the learning strategies adopted. Teoria da computação Linguagem natural Linguística computacional Natural language processing Cognitively based models Mental lexicon
132	Identificação de diagnósticos contidos em narrativas clínicas e mapeamento para a classificação internacional de doenças / Hugo Bulegon ; orientadora, Claudia Maria Cabral Moro Barra Bulegon, Hugo January 2011 (has links) Dissertação (mestrado) - Pontifícia Universidade Católica do Paraná, Curitiba, 2011 / Bibliografia: f. 64-67 / Durante o atendimento de pacientes são registradas algumas informações no prontuário na forma de textos, que são denominadas narrativas clínicas. A utilização das informações contidas nestas narrativas é restrita, uma vez que é muito difícil identificá-la / During patient treatment some information are registered in text format into medical records, named clinical narratives. The use of information from these narratives is restrained once it's very difficult to identify them automatically. Diagnoses are one 610.28 20 Engenharia biomédica Dissertações Clínica médica Anamnese Diagnóstico Registros médicos
133	Métodos de mineração de dados para extração de conhecimento em bioinformática: aplicação em dados de Geminivirus e predição de novas proteínas ribossomais / Data mining methods for knowledge extraction in bioinformatics: Application on Geminivirus data and prediction of new ribosomal pro-teins Carvalho, Thales Francisco Mota 25 July 2016 (has links) Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-10T10:24:21Z No. of bitstreams: 1 texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) / Made available in DSpace on 2017-02-10T10:24:21Z (GMT). No. of bitstreams: 1 texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) Previous issue date: 2016-07-25 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A mineração de dados (DM, do inglês data mining) é um processo de des- coberta de padrões que permite extrair informação e conhecimento em grandes volumes de dados. Suas principais técnicas se baseiam em predição, classificação e agrupamento (clustering). Estas técnicas têm sido utilizadas na bioinformá- tica para classificar o perfil de expressão gênica, encontrar padrões em sequências de DNA, avaliar a estrutura do dobramento de proteínas, entre outras aplicações. Neste trabalho, avançadas técnicas de DM foram aplicadas para o desenvolvimento de um Data Warehouse específica para geminivírus (geminivirus.org), a fim de au- xiliar na organização, correção e normalização de dados referentes a geminivírus. Neste Data Warehouse também foram propostas metodologias baseadas em regras e aprendizado de máquina (ML) que classificam as sequências de DNA e seus ge- nes. A família Geminiviridae é composta por pequenos vírus de DNA circular de fita simples que infectam uma grande variedade de plantas e causam sérios danos econômicos ao redor do mundo. O aprimoramento da amplificação do DNA viral e de técnicas de sequenciamento permitiram um enorme crescimento de dados em banco de dados públicos. Simultaneamente, ocorreu o crescimento no volume de publicações relacionadas a esta família. Desta forma, numa segunda linha de tra- balho surgiu a necessidade de aplicar as técnicas de DM, seguindo o processo de KDD (knowledge-discovery in databases) para extrair informações desses dados. Além disso, técnicas de Processamento de Linguagem Natural (NLP) foram utili- zadas para extrair informação em resumos de artigos relacionados a geminivírus. Assim, o acervo científico pode ser explorado de maneira contextualizada. Final- mente, uma terceira frente de trabalho em mineração de dados foi empreendida, desta vez direcionada à descoberta de proteínas ribossomais. Pesquisas recentes têm demonstrado que plantas suprimem o mecanismo global de tradução como uma estratégia de imunidade antiviral. Entretanto, poucas proteínas ribossomais são mencionadas a integrarem vias do mecanismo de defesa das plantas. As pro- teínas ribossomais (RPs) desempenham um papel fundamental em células vivas, pois são o principal componente dos ribossomos. Além disso, estas proteínas estão envolvidas em vários processos fisiológicos e patológicos. Assim, foi desenvolvido um método de aprendizado de máquina capaz de identificar novas proteínas ri- bossomais, designado Rama. O Rama utiliza abordagens inovadoras em relação aos métodos computacionais atualmente existentes. Em experimentos in silico, o Rama obteve resultados médios de precisão, acurácia, sensitividade e especifici- dade de 0.9203, 0.9214, 0.9214 e 0.8236, respectivamente. Ademais, duas proteínas não caracterizadas foram preditas como RPs pelo Rama e experimentos in vitro confirmaram a veracidade do resultado, ao passo que as metodologias atuais não conseguem lograr o mesmo sucesso. / Data mining (DM) is a pattern discovery process that can extract information and knowledge in large volumes of data. Its main techniques are based on prediction, classification, and clustering. These techniques have been used in bioinformatics to identify gene expression profiles, find patterns in DNA sequences, evaluate protein folding structure, among other applications. In this work, advanced techniques of DM were applied to the development of a specific Data Warehouse for geminivi- ruses (geminivirus.org) to assist in organization, correction, and normalization of data related to geminivirus. In this Data Warehouse, we also propose methodo- logies based on rules and machine learning (ML) to classify DNA sequences and their genes. The Geminiviridae family consists of small circular single-stranded DNA viruses which infect a wide variety of plants and cause serious economic losses wordwide. Improvements in amplification of viral DNA and sequencing techniques have led to an enormous growth of public databases. Thus, in a second endeavor in this work, we realized the need to apply DM techniques, following the process of KDD (knowledge-discovery in databases), to extract yet-unknown information. Furthermore, natural language processing techniques (NLP) were used to extract information in abstracts of paper related to geminivirus. In this way, the scientific literature can be explored in a contextualized manner. Finally, a third effort using data mining approaches was carried out, this time directed to the identification of new ribosomal proteins. Recent research has shown that plants suppress the ove- rall mechanism of translation as a strategy for antiviral immunity. However, few ribosomal proteins are referred to integrate pathways of plant defense mechanisms. Ribosomal proteins (RPs) have a fundamental role in living cells, as they are the main component of ribosomes. Furthermore, these proteins are involved in various physiological and pathological processes. Therefore, we developed a ML method to identify new ribosomal proteins, called Rama. Rama uses innovative approaches in comparison to currently existing computational methods. In in silico experiments, Rama presented average results of precision, accuracy, sensitivity, and specificity of 0.9203, 0.9214, 0.9214, and 0.8236, respectively. In addition, two proteins not yet characterized were predicted as RPs by Rama, whereas other methods could not achieve the same success. In vitro experiments confirmed the veracity of our result. Mineração de dados (Computação) Bancos de dados Bionformática Geminivirus Aprendizado de máquina Proteínas Ciência da Computação
134	Um método de identificação de emoções em textos curtos para o português do Brasil / Barbara Martinazzo ; orientador, Emerson Cabrera Paraiso Martinazzo, Barbara January 2010 (has links) Dissertação (mestrado) - Pontifícia Universidade Católica do Paraná, Curitiba, 2010 / Bibliografia: f.[53-57] / Os avanços recentes na análise automática de textos conduziram ao surgimento de uma área responsável por reconhecimento de aspectos subjetivos, tais como opiniões, sentimentos e emoções do autor do texto analisado. Pesquisas nessa área remetem ao desenvol / Recent advances in texts analysis lead to the emergence of a new area responsible for the recognition of subjective aspects, such as opinions, feelings and emotions in texts. Research in this area refer to the development of methods to allow computational 004 20 Informática Dissertações Emoções Língua portuguesa
135	Extração multilíngue de termos multipalavra em corpora comparáveis Prestes, Kassius Vargas January 2015 (has links) Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês. / This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English. Processamento : Linguagem natural Língua portuguesa Natural language processing Term extraction Multilingual alignment Comparable corpora alignment Corpus
136	Identificação e tratamento de expressões multipalavras aplicado à recuperação de informação / Identification and treatment of multiword expressions applied to information retrieval Acosta, Otavio Costa January 2011 (has links) A vasta utilização de Expressões Multipalavras em textos de linguagem natural requer atenção para um estudo aprofundado neste assunto, para que posteriormente seja possível a manipulação e o tratamento, de forma robusta, deste tipo de expressão. Uma Expressão Multipalavra costuma transmitir precisamente conceitos e ideias que geralmente não podem ser expressos por apenas uma palavra e estima-se que sua frequência, em um léxico de um falante nativo, seja semelhante à quantidade de palavras simples. A maioria das aplicações reais simplesmente ignora ou lista possíveis termos compostos, porém os identifica e trata seus itens lexicais individualmente e não como uma unidade de conceito. Para o sucesso de uma aplicação de Processamento de Linguagem Natural, que envolva processamento semântico, é necessário um tratamento diferenciado para essas expressões. Com o devido tratamento, é investigada a hipótese das Expressões Multipalavras possibilitarem uma melhora nos resultados de uma aplicação, tal como os sistemas de Recuperação de Informação. Os objetivos desse trabalho estão voltados ao estudo de técnicas de descoberta automática de Expressões Multipalavras, permitindo a criação de dicionários, para fins de indexação, em um mecanismo de Recuperação de Informação. Resultados experimentais apontaram melhorias na recuperação de documentos relevantes, ao identificar Expressões Multipalavras e tratá-las como uma unidade de indexação única. / The use of Multiword Expressions (MWE) in natural language texts requires a detailed study, to further support in manipulating and processing, robustly, these kinds of expression. A MWE typically gives concepts and ideas that usually cannot be expressed by a single word and it is estimated that the number of MWEs in the lexicon of a native speaker is similar to the number of single words. Most real applications simply ignore them or create a list of compounds, treating and identifying them as isolated lexical items and not as an individual unit. For the success of a Natural Language Processing (NLP) application, involving semantic processing, adequate treatment for these expressions is required. In this work we investigate the hypothesis that an appropriate identification of Multiword Expressions provide better results in an application, such as Information Retrieval (IR). The objectives of this work are to compare techniques of MWE extraction for creating MWE dictionaries, to be used for indexing purposes in IR. Experimental results show qualitative improvements on the retrieval of relevant documents when identifying MWEs and treating them as a single indexing unit. Processamento : Linguagem natural Processamento : Palavra Natural language processing Multiword expression Information retrieval
137	Detecting contrastive sentences for sentiment analysis / Detecção de sentenças contrastantes através de análise de sentimentos Vargas, Danny Suarez January 2016 (has links) A análise de contradições é uma área relativamente nova, multidisciplinar e complexa que tem por objetivo principal identificar pedaços contraditórios de texto. Ela pode ser abordada a partir das perspectivas de diferentes áreas de pesquisa, tais como processamento de linguagem natural, mineração de opinioes, recuperação de informações e extração de Informações. Este trabalho foca no problema de detectar contradições em textos – mais especificamente, nas contradições que são o resultado da diversidade de sentimentos entre as sentenças de um determinado texto. Ao contrário de outros tipos de contradições, a detecção de contradições baseada em sentimentos pode ser abordada como uma etapa de pós-processamento na tarefa tradicional de análise de sentimentos. Neste contexto, este trabalho apresenta duas contribuições principais. A primeira é um estudo exploratório da tarefa de classificação, na qual identificamos e usamos diferentes ferramentas e recursos. A segunda contribuição é a adaptação e a extensão de um framework de análise contradição existente, filtrando seus resultados para remover os comentários erroneamente rotulados como contraditórios. O método de filtragem baseia-se em dois algoritmos simples de similaridade entre palavras. Uma avaliação experimental em comentários sobre produtos reais mostrou melhorias proporcionais de até 30 % na acurácia da classificação e 26 % na precisão da detecção de contradições. / Contradiction Analysis is a relatively new multidisciplinary and complex area with the main goal of identifying contradictory pieces of text. It can be addressed from the perspectives of different research areas such as Natural Language Processing, Opinion Mining, Information Retrieval, and Information Extraction. This work focuses on the problem of detecting sentiment-based contradictions which occur in the sentences of a given review text. Unlike other types of contradictions, the detection of sentiment-based contradictions can be tackled as a post-processing step in the traditional sentiment analysis task. In this context, we make two main contributions. The first is an exploratory study of the classification task, in which we identify and use different tools and resources. Our second contribution is adapting and extending an existing contradiction analysis framework by filtering its results to remove the reviews that are erroneously labeled as contradictory. The filtering method is based on two simple term similarity algorithms. An experimental evaluation on real product reviews has shown proportional improvements of up to 30% in classification accuracy and 26% in the precision of contradiction detection. Processamento : Linguagem natural Recuperacao : Informacao Mineracao : Dados Sentiment analysis Contradiction analysis
138	Em favor do comum : estudo sobre a formação da 'filosofia da linguagem comum' Rocha, Ronai Pires da January 2013 (has links) Este trabalho aborda o surgimento do movimento filosófico conhecido como “filosofia da linguagem comum”. O objetivo é oferecer uma nova perspectiva sobre as origens e a formação desse movimento, a partir das críticas de Wittgenstein a alguns divulgadores da ciência no Livro Azul. Apresento a seguir, as principais polêmicas ocorridas entre os que simpatizavam com as ideias de Wittgenstein, nos anos quarenta, e alguns críticos que denunciavam as aparentes fragilidades conceituais dos filósofos que defendiam usos comuns da língua. Nessas polêmicas um dos pontos mais complexos diz respeito às possíveis relações entre uma atitude de consideração à língua natural, a linguagem comum, e uma “defesa do senso comum”. O tema é examinado na convergência de ideias entre Wittgenstein, Norman Malcolm e G. E. Moore. Finalmente, apresentado a polêmica entre Benson Mates e Stanley Cavell sobre o status dos enunciados filosóficos feitos a partir de um apelo à linguagem comum; os dois filósofos preservam na polêmica que mantiveram alguns vestígios da querela iniciada no Livro Azul e com isso fecham um ciclo de discussões. / This study addresses the emergence of the philosophical movement known as "ordinary language philosophy". The aim here is to offer a new perspective on the origins and formation of the movement, considering some criticisms that Wittgenstein adressed to science communicators in the Blue Book. The main controversy occurred among those who sympathized with the ideas of Wittgenstein, in the forties, and critics who denounced the apparent conceptual weaknesses of philosophers who advocated common uses of language. In these controversies one of the most complex subjects concerns the possible relationship between an attitude of consideration to natural language, and a "defense of common sense." The subject is examined in the convergence of ideas among Wittgenstein, Norman Malcolm and G. E. Moore. Finally, I present the controversy between Benson Mates and Stanley Cavell on the status of philosophical statements made from an appeal to ordinary language; the two philosophers preserve the controversy that kept some traces of the quarrel started in the Blue Book and it closes a cycle of discussions. Filosofia da linguagem Filosofia da linguagem ordinária Filosofia contemporânea Linguagem natural Língua comum Senso comum
139	Redução de dimensionalidade aplicada à diarização de locutor / Dimensionality reduction applied to speaker diarization Silva, Sérgio Montazzolli January 2013 (has links) Atualmente existe uma grande quantidade de dados multimídia sendo geradas todos os dias. Estes dados são oriundos de diversas fontes, como transmissões de rádio ou televisão, gravações de palestras, encontros, conversas telefônicas, vídeos e fotos capturados por celular, entre outros. Com isto, nos últimos anos o interesse pela transcrição de dados multimídia tem crescido, onde, no processamento de voz, podemos destacar as áreas de Reconhecimento de Locutor, Reconhecimento de Fala, Diarização de Locutor e Rastreamento de Locutores. O desenvolvimento destas áreas vem sendo impulsionado e direcionado pelo NIST, que periodicamente realiza avaliações sobre o estado-da-arte. Desde 2000, a tarefa de Diarização de Locutor tem se destacado como uma das principáis frentes de pesquisa em transcrição de dados de voz, tendo sido avaliada pelo NIST por diversas vezes na última década. O objetivo desta tarefa é encontrar o número de locutores presentes em um áudio, e rotular seus respectivos trechos de fala, sem que nenhuma informação tenha sido previamente fornecida. Em outras palavras, costuma-se dizer que o objetivo é responder a questão "Quem falou e quando?". Um dos grandes problemas nesta área é se conseguir obter um bom modelo para cada locutor presente no áudio, dada a pouca quantidade de informações e a alta dimensionalidade dos dados. Neste trabalho, além da criação de um Sistema de Diarização de Locutor, iremos tratar este problema mediante à redução de dimensionalidade através de análises estatísticas. Usaremos a Análise de Componentes Principáis, a Análise de Discriminantes Lineares e a recém apresentada Análise de Semi-Discriminantes Lineares. Esta última utiliza um método de inicialização estático, iremos propor o uso de um método dinâmico, através da detecção de pontos de troca de locutor. Também investigaremos o comportamento destas análises sob o uso simultâneo de múltiplas parametrizações de curto prazo do sinal acústico. Os resultados obtidos mostram que é possível preservar - ou até melhorar - o desempenho do sistema, mesmo reduzindo substâncialmente o número de dimensões. Isto torna mais rápida a execução de algoritmos de Aprendizagem de Máquina e reduz a quantidade de memória necessária para armezenar os dados. / Currently, there is a large amount of multimedia data being generated everyday. These data come from various sources, such as radio or television, recordings of lectures and meetings, telephone conversations, videos and photos captured by mobile phone, among others. Because of this, interest in automatic multimedia data transcription has grown in recent years, where, for voice processing, we can highlight the areas of Speaker Recognition, Speech Recognition, Speaker Diarization and Speaker Tracking. The development of such areas is being conducted by NIST, which periodically promotes state-of-the-art evaluations. Since 2000, the task of Speaker Diarization has emerged as one of the main research fields in voice data transcription, having been evaluated by NIST several times in the last decade. The objective of this task is to find the number of speakers in an audio recording, and properly label their speech segments without the use of any training information. In other words , it is said that the goal of Speaker Diarization is to answer the question "Who spoke when?". A major problem in this area is to obtain a good speaker model from the audio, given the limited amount of information available and the high dimensionality of the data. In the current work, we will describe how our Speaker Diarization System was built, and we will address the problem mentioned by lowering the dimensionality of the data through statistical analysis. We will use the Principal Component Analysis, the Linear Discriminant Analysis and the newly presented Fisher Linear Semi-Discriminant Analysis. The latter uses a static method for initialization, and here we propose the use of a dynamic method by the use of a speaker change points detection algorithm. We also investigate the behavior of these data analysis techniques under the simultaneous use of multiple short term features. Our results show that it is possible to maintain - and even improve - the system performance, by substantially reducing the number of dimensions. As a consequence, the execution of Machine Learning algorithms is accelerated while reducing the amount of memory required to store the data. Processamento : Linguagem natural Voz computacional Speaker diarization Discriminant analysis Dimensionality reduction
140	Uma interface de reconhecimento de voz para o sistema de gerenciamento de central de informação de fretes Hugo, Marcel January 1995 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnologico / Made available in DSpace on 2016-01-08T19:32:58Z (GMT). No. of bitstreams: 1 101794.pdf: 1760262 bytes, checksum: ae028de8257318f1b36cc1b9a9b36c5b (MD5) Previous issue date: 1995 / A necessidade da evolução das interfaces homem-máquina gerou uma série de pesquisas na área de reconhecimento de padrões, procurando tornar naturais estas interfaces. A tarefa de reconhecimento de voz, realizada por computadores digitais, vem sendo pesquisada e desenvolvida nas últimas décadas, buscando alcançar o modo mais natural de comunicação humana - a fala. Este trabalho demonstra a viabilidade e potencialidade dos sistemas a um comando falado por um usuário. Ele se utiliza das técnicas de redes neurais artificiais para realizar o reconhecimento das palavras faladas. A interface de voz construída para reconhecer as palavras, que operam um protótipo do sistema gerenciador de central de informação de fretes (SGCIF) em Windows aplica o modelo de rede neural Kohonen, alcançando uma taxa média de acerto de 84,84% no reconhecimento. Interfaces (Computador) Interação homem-máquina Redes neurais (Computação)

Search results