• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 202
  • 25
  • 6
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 233
  • 233
  • 233
  • 114
  • 113
  • 82
  • 52
  • 51
  • 51
  • 47
  • 47
  • 36
  • 36
  • 35
  • 34
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
201

"SemanticAgent, uma plataforma para desenvolvimento de agentes inteligentes" / SemanticAgent, a platform for development of Intelligent Agents capable of processing restricted natural language.

Lucena, Percival Silva de 15 April 2003 (has links)
Agentes inteligentes é um termo guarda-chuva que agrega diversas pesquisas no desenvolvimento de softwares autônomos que utilizam técnicas de Inteligência Artificial a fim de satisfazer metas estabelecidas por seus usuários. A construção de sistemas baseados em agentes inteligentes é uma tarefa complexa que envolve aspectos como comunicação entre agentes, planejamento, divisão de tarefas, coordenação, representação e manipulação de conhecimento e comportamentos, entre outras tarefas. Plataformas para agentes prevêem alguns serviços que permitem a desenvolvedores construir soluções sem a necessidade de se preocupar com todos detalhes da implementação. Um novo modelo para criação de agentes chamado 'agentes atômicos' é proposto com o objetivo de oferecer flexibilidade para o gerenciamento de conhecimento e implementação de comportamentos. A arquitetura Agentes Semânticos provê um framework para a implementação de tal modelo, oferecendo um conjunto de ferramentas para a criação de agentes inteligentes. Um protótipo de plataforma para agentes, baseado em tal arquitetura, foi desenvolvido em Java e permite a criação de aplicações capazes de processar linguagem natural restrita, manipular conhecimento e executar ações úteis. / Intelligent Agents is an umbrella term that aggregates different research on the development of autonomous software that uses Artificial Intelligence techniques in order to satisfy user requests. The construction of systems based on intelligent agents is a complex task that involves aspects such as agent communication, planning, work division, cooperation, epresentation and manipulation of knowledge,among other activities. Agent Platforms provide some services that allow developers to build solutions without the need of worrying about every implementation detail. A new model for creating agents, called 'atomic agents', is proposed with the goal of offering flexible knowledge management and behavior implementation for constructing software agents. The Semantic AgentArchitecture provides a framework for the implementation of such model, offering a set of tools for the creation of intelligent agents. A prototype Agent Platform, based on the architecture, was developed in Java and allows the creation of applications that are able to process restricted natural language, manipulate knowledge and execute useful actions.
202

Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural / A tool for clinical and epidemiological investigation in cardiology based on natural language processing

Castilla, André Coutinho 13 September 2007 (has links)
O registro eletrônico do paciente (REP) está sendo gradativamente implantado no meio médico hospitalar. Grande parte das informações essenciais do REP está armazenada na forma de texto narrativo livre, dificultando operações de procura, análise e comparação de dados. O processamento de linguagem natural (PLN) refere-se a um conjunto de técnicas computacionais, cujo objetivo é a análise de texto através de conhecimentos léxicos, gramaticais e semânticos. O presente projeto propõe a criação de uma ferramenta computacional de investigação clínicoepidemiológica aplicada a textos narrativos médicos. Como metodologia propomos a utilização do processador de linguagem natural especializado em medicina MEDLEE desenvolvido para textos em Inglês. Para que seu uso seja possível textos médicos em Português são traduzidos ao Inglês automaticamente. A tradução automatizada (TA) é realizada utilizando o aplicativo baseado em regras SYSTRAN especialmente configurado para processar textos médicos através da incorporação de terminologias especializadas. O resultado desta seqüência de TA e PLN são informações conceituais que serão investigadas à procura de achados clínicos pré-definidos, atrvés de inferência lógica sobre uma ontologia. O objetivo experimental desta tese foi conduzir um estudo de recuperação de informações em um conjunto de 12.869 relatórios de radiografias torácicas à procura de vinte e dois achados clínicos e radiológicas. A sensibilidade e especificidade médias obtidas em comparação com referência formada pela opinião de três médicos radiologistas foram de 0,91 e 0,99 respectivamente. Os resultados obtidos indicam a viabilidade da procura de achados clínicos em relatórios de radiografias torácicas através desta metodologia de acoplamento da TA e PLN. Conseqüentemente em trabalhos futuros poderá ser ampliado o número de achados investigados, estendida a metodologia para textos de outras modalidades, bem como de outros idiomas / The Electronic Medical Record (EMR) is gradually replacing paper storage on clinical care settings. Most of essential information contained on EMR is stored as free narrative text, imposing several difficulties on automated data extraction and retrieval. Natural language processing (NLP) refers to computational linguistics tools, whose main objective is text analysis using lexical, grammatical and semantic knowledge. This project describes the creation of a computational tool for clinical and epidemiologic queries on narrative medical texts. The proposed methodology uses the specialized natural language processor MEDLEE developed for English language. To use this processor on Portuguese medical texts chest x-ray reports were Machine Translated into English. The machine translation (MT) was performed by SYSTRAN software, a rule based system customized with a specialized lexicon developed for this project. The result of serial coupling of MT an NLP is tagged text which needs further investigation for extracting clinical findings, whish was done by logical inference upon an ontolgy. The experimental objective of this thesis project was to investigate twenty-two clinical and radiological findings on 12.869 chest x-rays reports. Estimated sensitivity and specificity were 0.91 and 0.99 respectively. The gold standard reference was formed by the opinion of three radiologists. The obtained results indicate the viability of extracting clinical findings from chest x-ray reports using the proposed methodology through coupling MT and NLP. Consequently on future works the number of investigated conditions could be expanded. It is also possible to use this methodology on other medical texts, and on texts of other languages
203

Gerenciamento de diálogo baseado em modelo cognitivo para sistemas de interação multimodal

Prates, Jonathan Simon 16 January 2015 (has links)
Submitted by Maicon Juliano Schmidt (maicons) on 2015-04-24T13:06:47Z No. of bitstreams: 1 Jonathan Simon Prates.pdf: 2514736 bytes, checksum: 58b7bca77d32ecba8467a3e3a533d2a0 (MD5) / Made available in DSpace on 2015-04-24T13:06:48Z (GMT). No. of bitstreams: 1 Jonathan Simon Prates.pdf: 2514736 bytes, checksum: 58b7bca77d32ecba8467a3e3a533d2a0 (MD5) Previous issue date: 2015-01-31 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Os Sistemas de Interação Multimodal possibilitam uma utilização mais amigável dos sistemas de computação. Eles permitem que os usuários recebam informações e indiquem suas necessidades com maior facilidade, amparados por recursos de interação cada vez mais diversos. Neste contexto, um elemento central é o diálogo que se estabelece entre os usuários e estes sistemas. Alguns dos desafios observados na área de Interação Multimodal estão ligados à integração dos diversos estímulos a serem tratados, enquanto outros estão ligados à geração de respostas adequadas a estes estímulos. O gerenciamento do diálogo nestes sistemas envolve atividades diversas associadas tanto com a representação dos assuntos tratados, como com a escolha de alternativas de resposta e com o tratamento de modelos que representam tarefas e usuários. A partir das diversas abordagens conhecidas para estas implementações, são observadas demandas de modelos de diálogo que aproximem os resultados das interações que são geradas pelos sistemas daquelas interações que seriam esperados em situações de interação em linguagem natural. Uma linha de atuação possível para a obtenção de melhorias neste aspecto pode estar ligada à utilização de estudos da psicologia cognitiva sobre a memória de trabalho e a integração de informações. Este trabalho apresenta os resultados obtidos com um modelo de tratamento de diálogo para sistemas de Interação Multimodal baseado em um modelo cognitivo, que visa proporcionar a geração de diálogos que se aproximem de situações de diálogo em linguagem natural. São apresentados os estudos que embasaram esta proposta e a sua justificativa para uso no modelo descrito. Também são demonstrados resultados preliminares obtidos com o uso de protótipos para a validação do modelo. As avaliações realizadas demonstram um bom potencial para o modelo proposto. / Multimodal interaction systems allow a friendly use of computing systems. They allow users to receive information and indicate their needs with ease, supported by new interaction resources. In this context, the central element is the dialogue, established between users and these systems. The dialogue management of these systems involves various activities associated with the representation of subjects treated, possible answers, tasks model and users model treatment. In implementations for these approaches, some demands can be observed to approximate the results of the interactions by these systems of interaction in natural language. One possible line of action to obtain improvements in this aspect can be associated to the use of cognitive psychology studies on working memory and information integration. This work presents results obtained with a model of memory handling for multimodal dialogue interaction based on a cognitive model, which aims to provide conditions for dialogue generation closer to situations in natural language dialogs. This research presents studies that supported this proposal and the justification for the described model’s description. At the end, results using two prototypes for the model’s validation are also shown.
204

Auxílio na prevenção de doenças crônicas por meio de mapeamento e relacionamento conceitual de informações em biomedicina / Support in the Prevention of Chronic Diseases by means of Mapping and Conceptual Relationship of Biomedical Information

Pollettini, Juliana Tarossi 28 November 2011 (has links)
Pesquisas recentes em medicina genômica sugerem que fatores de risco que incidem desde a concepção de uma criança até o final de sua adolescência podem influenciar no desenvolvimento de doenças crônicas da idade adulta. Artigos científicos com descobertas e estudos inovadores sobre o tema indicam que a epigenética deve ser explorada para prevenir doenças de alta prevalência como doenças cardiovasculares, diabetes e obesidade. A grande quantidade de artigos disponibilizados diariamente dificulta a atualização de profissionais, uma vez que buscas por informação exata se tornam complexas e dispendiosas em relação ao tempo gasto na procura e análise dos resultados. Algumas tecnologias e técnicas computacionais podem apoiar a manipulação dos grandes repositórios de informações biomédicas, assim como a geração de conhecimento. O presente trabalho pesquisa a descoberta automática de artigos científicos que relacionem doenças crônicas e fatores de risco para as mesmas em registros clínicos de pacientes. Este trabalho também apresenta o desenvolvimento de um arcabouço de software para sistemas de vigilância que alertem profissionais de saúde sobre problemas no desenvolvimento humano. A efetiva transformação dos resultados de pesquisas biomédicas em conhecimento possível de ser utilizado para beneficiar a saúde pública tem sido considerada um domínio importante da informática. Este domínio é denominado Bioinformática Translacional (BUTTE,2008). Considerando-se que doenças crônicas são, mundialmente, um problema sério de saúde e lideram as causas de mortalidade com 60% de todas as mortes, o presente trabalho poderá possibilitar o uso direto dos resultados dessas pesquisas na saúde pública e pode ser considerado um trabalho de Bioinformática Translacional. / Genomic medicine has suggested that the exposure to risk factors since conception may influence gene expression and consequently induce the development of chronic diseases in adulthood. Scientific papers bringing up these discoveries indicate that epigenetics must be exploited to prevent diseases of high prevalence, such as cardiovascular diseases, diabetes and obesity. A large amount of scientific information burdens health care professionals interested in being updated, once searches for accurate information become complex and expensive. Some computational techniques might support management of large biomedical information repositories and discovery of knowledge. This study presents a framework to support surveillance systems to alert health professionals about human development problems, retrieving scientific papers that relate chronic diseases to risk factors detected on a patient\'s clinical record. As a contribution, healthcare professionals will be able to create a routine with the family, setting up the best growing conditions. According to Butte, the effective transformation of results from biomedical research into knowledge that actually improves public health has been considered an important domain of informatics and has been called Translational Bioinformatics. Since chronic diseases are a serious health problem worldwide and leads the causes of mortality with 60% of all deaths, this scientific investigation will probably enable results from bioinformatics researches to directly benefit public health.
205

Análise e representacão de construcões adjectivais para processamento automático de texto. Adjectivos intransitivos humanos

Carvalho, Paula Cristina 01 December 2007 (has links) (PDF)
Este estudo teve como objectivo determinar e formalizar as propriedades léxico-sintácticas dos adjectivos intransitivos, i.e., sem complementos, e que se constroem com sujeito humano, em português europeu contemporâneo. Uma das motivações subjacentes à escolha deste tema foi a aparente falta de economia descritiva resultante da dupla classificação de numerosas unidades lexicais como nomes e adjectivos. Efectivamente, muitos destes adjectivos têm sido classificados como nomes, por forma a dar conta dos casos em que aparecem em posições sintácticas tipicamente nominais. Esta ambiguidade encontra eco no fenómeno de criação lexical tradicionalmente designado como derivação imprópria (ou conversão). Nesta dissertação, defendemos que certos adjectivos humanos têm a propriedade de desempenhar superficialmente a função de núcleo de grupos nominais. Esta análise baseia-se na constatação de que, nessas construções sintácticas, os adjectivos exibem, geralmente, algumas propriedades que exibiriam se se encontrassem em contexto adnominal e de que é possível reconstituir o nome (humano) a que os mesmos se encontram associados. Entre as várias estruturas aqui analisadas, tratámos (i) as construções caracterizadoras indefinidas, em que o adjectivo aparece precedido de artigo indefinido; (ii) as construções cruzadas, em que o adjectivo ocupa a posição típica de núcleo de um grupo nominal; (iii) as orações exclamativas de insulto; e outras, cujas especificidades sintácticas, semânticas e discursivas procurámos igualmente clarificar. A investigação baseou-se na análise de 4.250 lemas adjectivais, que organizámos em diversas subclasses sintáctico-semânticas, de acordo com os princípios teórico-metodológicos do Léxico-Gramática, fundados na gramática transformacional de operadores harrissiana. As informações linguísticas foram formalizadas em matrizes léxico-sintácticas, o que permite, como ilustraremos, a sua utilização em diversas tarefas de processamento de linguagem natural (PLN), nomeadamente, na desambiguação e análise sintáctica automática de textos.
206

Um analisador sintático neural multilíngue baseado em transições

Costa, Pablo Botton da 24 January 2017 (has links)
Submitted by Ronildo Prado (ronisp@ufscar.br) on 2017-08-23T18:26:08Z No. of bitstreams: 1 DissPBC.pdf: 1229668 bytes, checksum: 806b06dd0fbdd6a4076384a7d0f90456 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-23T18:26:15Z (GMT) No. of bitstreams: 1 DissPBC.pdf: 1229668 bytes, checksum: 806b06dd0fbdd6a4076384a7d0f90456 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-23T18:26:21Z (GMT) No. of bitstreams: 1 DissPBC.pdf: 1229668 bytes, checksum: 806b06dd0fbdd6a4076384a7d0f90456 (MD5) / Made available in DSpace on 2017-08-23T18:26:28Z (GMT). No. of bitstreams: 1 DissPBC.pdf: 1229668 bytes, checksum: 806b06dd0fbdd6a4076384a7d0f90456 (MD5) Previous issue date: 2017-01-24 / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / A dependency parser consists in inducing a model that is capable of extracting the right dependency tree from an input natural language sentence. Nowadays, the multilingual techniques are being used more and more in Natural Language Processing (NLP) (BROWN et al., 1995; COHEN; DAS; SMITH, 2011), especially in the dependency parsing task. Intuitively, a multilingual parser can be seen as vector of different parsers, in which each one is individually trained on one language. However, this approach can be a really pain in the neck in terms of processing time and resources. As an alternative, many parsing techniques have been developed in order to solve this problem (MCDONALD; PETROV; HALL, 2011; TACKSTROM; MCDONALD; USZKOREIT, 2012; TITOV; HENDERSON, 2007) but all of them depends on word alignment (TACKSTROM; MCDONALD; USZKOREIT, 2012) or word clustering, which increases the complexity since it is difficult to induce alignments between words and syntactic resources (TSARFATY et al., 2013; BOHNET et al., 2013a). A simple solution proposed recently (NIVRE et al., 2016a) uses an universal annotated corpus in order to reduce the complexity associated with the construction of a multilingual parser. In this context, this work presents an universal model for dependency parsing: the NNParser. Our model is a modification of Chen e Manning (2014) with a more greedy and accurate model to capture distributional representations (MIKOLOV et al., 2011). The NNparser reached 93.08% UAS in English Penn Treebank (WSJ) and better results than the state of the art Stack LSTM parser for Portuguese (87.93% × 86.2% LAS) and Spanish (86.95% × 85.7% LAS) on the universal dependencies corpus. / Um analisador sintático de dependência consiste em um modelo capaz de extrair a estrutura de dependência de uma sentença em língua natural. No Processamento de Linguagem Natural (PLN), os métodos multilíngues tem sido cada vez mais utilizados (BROWN et al., 1995; COHEN; DAS; SMITH, 2011), inclusive na tarefa de análise de dependência. Intuitivamente, um analisador sintático multilíngue pode ser visto como um vetor de analisadores sintáticos treinados individualmente em cada língua. Contudo, a tarefa realizada com base neste vetor torna-se inviável devido a sua alta demanda por recursos. Como alternativa, diversos métodos de análise sintática foram propostos (MCDONALD; PETROV; HALL, 2011; TACKSTROM; MCDONALD; USZKOREIT, 2012; TITOV; HENDERSON, 2007), mas todos dependentes de alinhamento entre palavras (TACKSTROM; MCDONALD; USZKOREIT, 2012) ou de técnicas de agrupamento, o que também aumenta a complexidade associada ao modelo (TSARFATY et al., 2013; BOHNET et al., 2013a). Uma solução simples surgiu recentemente com a construção de recursos universais (NIVRE et al., 2016a). Estes recursos universais têm o potencial de diminuir a complexidade associada à construção de um modelo multilíngue, uma vez que não é necessário um mapeamento entre as diferentes notações das línguas. Nesta linha, este trabalho apresenta um modelo para análise sintática universal de dependência: o NNParser. O modelo em questão é uma modificação da proposta de Chen e Manning (2014) com um modelo mais guloso e preciso na captura de representações distribuídas (MIKOLOV et al., 2011). Nos experimentos aqui apresentados o NNParser atingiu 93, 08% de UAS para o inglês no córpus Penn Treebank e resultados melhores do que o estado da arte, o Stack LSTM, para o português (87,93% × 86,2% LAS) e o espanhol (86,95% × 85,7% LAS) no córpus UD 1.2.
207

[en] QUOTATION EXTRACTION FOR PORTUGUESE / [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS

WILLIAM PAULO DUCCA FERNANDES 24 January 2017 (has links)
[pt] A Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um sistema de Extração de Citações para Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas e para diversas línguas.Nossa proposta é diferente dos trabalhos anteriores, pois usamos Aprendizado de Máquina para construir automaticamente regras especializadas ao invés de regras criadas por humanos. Modelos de Aprendizado de Máquina geralmente apresentam forte capacidade de generalização comparados a modelos feitos por humanos. Além disso, nós podemos facilmente adaptar nosso modelo para outras línguas, precisando apenas de uma lista de verbos de citação para uma dada língua. Os sistemas propostos anteriormente provavelmente precisariam de uma adaptação no conjunto de regras de forma a classificar corretamente as citações, o que consumiria tempo. Nós atacamos a tarefa de Extração de Citações usando um modelo para o algoritmo de Aprendizado de Transformações Guiado por Entropia e um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, nós construímos o corpus GloboQuotes com notícias extraídas do portal globo.com. Adicionamos etiquetas morfossintáticas ao corpus, utilizando um anotador estado da arte. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F sub Beta igual a 1 igual a 76,80 por cento. / [en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Quotation Extraction system for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work since we use Machine Learning to automatically build specialized rules instead of human-derived rules. Machine Learning models usually present stronger generalization power compared to human-derived models. In addition, we are able to easily adapt our model to other languages, needing only a list of verbs of speech for a given language. The previously proposed systems would probably need a rule set adaptation to correctly classify the quotations, which would be time consuming. We tackle the Quotation Extraction task using one model for the Entropy Guided Transformation Learning algorithm and another one for the Structured Perceptron algorithm. In order to train and evaluate the system, we have build the GloboQuotes corpus, with news extracted from the globo.com portal. We add part-of-speech tags to the corpus using a state-of-the-art tagger. The Structured Perceptron based on weighted interval scheduling obtains an F sub Beta equal 1 score of 76.80 per cent.
208

[en] COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE / [pt] RESOLUÇÃO DE CO-REFERÊNCIA PARA A LÍNGUA INGLESA

ADRIEL GARCIA HERNANDEZ 28 July 2017 (has links)
[pt] Um dos problemas encontrados nos sistemas de processamento de linguagem natural é a dificuldade em identificar elementos textuais que se referem à mesma entidade. Este fenômeno é chamado de correferência. Resolver esse problema é parte integrante da compreensão do discurso, permitindo que os usuários da linguagem conectem as partes da informação de fala relativas à mesma entidade. Por conseguinte, a resolução de correferência é um importante foco de atenção no processamento da linguagem natural.Apesar da riqueza das pesquisas existentes, o desempenho atual dos sistemas de resolução de correferência ainda não atingiu um nível satisfatório. Neste trabalho, descrevemos um sistema de aprendizado estruturado para resolução de correferências em restrições que explora duas técnicas: árvores de correferência latente e indução automática de atributos guiadas por entropia. A modelagem de árvore latente torna o problema de aprendizagem computacionalmente viável porque incorpora uma estrutura escondida relevante. Além disso, utilizando um método automático de indução de recursos, podemos construir eficientemente modelos não-lineares, usando algoritmos de aprendizado de modelo linear como, por exemplo, o algoritmo de perceptron estruturado e esparso.Nós avaliamos o sistema para textos em inglês, utilizando o conjunto de dados da CoNLL-2012 Shared Task. Para a língua inglesa, nosso sistema obteve um valor de 62.24 por cento no score oficial dessa competição. Este resultado está abaixo do desempenho no estado da arte para esta tarefa que é de 65.73 por cento. No entanto, nossa solução reduz significativamente o tempo de obtenção dos clusters dos documentos, pois, nosso sistema leva 0.35 segundos por documento no conjunto de testes, enquanto no estado da arte, leva 5 segundos para cada um. / [en] One of the problems found in natural language processing systems, is the difficulty to identify textual elements referring to the same entity, this task is called coreference. Solving this problem is an integral part of discourse comprehension since it allows language users to connect the pieces of speech information concerning to the same entity. Consequently, coreference resolution is a key task in natural language processing.Despite the large efforts of existing research, the current performance of coreference resolution systems has not reached a satisfactory level yet. In this work, we describe a structure learning system for unrestricted coreferencere solution that explores two techniques: latent coreference trees and automatic entropy-guided feature induction. The latent tree modeling makes the learning problem computationally feasible,since it incorporates are levant hidden structure. Additionally,using an automatic feature induction method, we can efciently build enhanced non-linear models using linear model learning algorithms, namely, the structure dandsparse perceptron algorithm. We evaluate the system on the CoNLL-2012 Shared Task closed track data set, for the English portion. The proposed system obtains a 62.24 per cent value on the competition s official score. This result is be low the 65.73 per cent, the state-of-the-art performance for this task. Nevertheless, our solution significantly reduces the time to obtain the clusters of adocument, since, our system takes 0.35 seconds per document in the testing set, while in the state-of-the-art, it takes 5 seconds for each one.
209

[en] NAMED ENTITY RECOGNITION FOR PORTUGUESE / [pt] RECONHECIMENTO DE ENTIDADES MENCIONADAS PARA O PORTUGUÊS

DANIEL SPECHT SILVA MENEZES 13 December 2018 (has links)
[pt] A produção e acesso a quantidades imensas dados é um elemento pervasivo da era da informação. O volume de informação disponível é sem precedentes na história da humanidade e está sobre constante processo de expansão. Uma oportunidade que emerge neste ambiente é o desenvolvimento de aplicações que sejam capazes de estruturar conhecimento contido nesses dados. Neste contexto se encaixa a área de Processamento de Linguagem Natural (PLN) - Natural Language Processing (NLP) - , ser capaz de extrair informações estruturadas de maneira eficiente de fontes textuais. Um passo fundamental para esse fim é a tarefa de Reconhecimento de Entidades Mencionadas (ou nomeadas) - Named Entity Recognition (NER) - que consistem em delimitar e categorizar menções a entidades num texto. A construção de sistemas para NLP deve ser acompanhada de datasets que expressem o entendimento humano sobre as estruturas gramaticais de interesse, para que seja possível realizar a comparação dos resultados com o real discernimento humano. Esses datasets são recursos escassos, que requerem esforço humano para sua produção. Atualmente, a tarefa de NER vem sendo abordada com sucesso por meio de redes neurais artificiais, que requerem conjuntos de dados anotados tanto para avaliação quanto para treino. A proposta deste trabalho é desenvolver um dataset de grandes dimensões para a tarefa de NER em português de maneira automatizada, minimizando a necessidade de intervenção humana. Utilizamos recursos públicos como fonte de dados, nominalmente o DBpedia e Wikipédia. Desenvolvemos uma metodologia para a construção do corpus e realizamos experimentos sobre o mesmo utilizando arquiteturas de redes neurais de melhores performances reportadas atualmente. Exploramos diversas modelos de redes neurais, explorando diversos valores de hiperparâmetros e propondo arquiteturas com o foco específico de incorporar fontes de dados diferentes para treino. / [en] The production and access of huge amounts of data is a pervasive element of the Information Age. The volume of availiable data is without precedents in human history and it s in constant expansion. An oportunity that emerges in this context is the development and usage of applicationos that are capable structuring the knowledge of data. In this context fits the Natural Language Processing, being able to extract information efficiently from textual data. A fundamental step for this goal is the task of Named Entity Recognition (NER) which delimits and categorizes the mentions to entities. The development o systems for NLP tasks must be accompanied by datasets produced by humans in order to compare the system with the human discerniment for the NLP task at hand. These datasets are a scarse resource which the construction is costly in terms of human supervision. Recentlly, the NER task has been approached using artificial network models which needs datsets for both training and evaluation. In this work we propose the construction of a datasets for portuguese NER with an automatic approach using public data sources structured according to the principles of SemanticWeb, namely, DBpedia and Wikipédia. A metodology for the construction of this dataset was developed and experiments were performed using both the built dataset and the neural network architectures with the best reported results. Many setups for the experiments were evaluated, we obtained preliminary results for diverse hiperparameters values, also proposing architectures with the specific focus of incorporating diverse data sources for training.
210

Descrição de verbos de base adjetiva derivados com os sufixos -ecer e -izar, para o Processamento Automático de Linguagem Natural

Picoli, Larissa 10 March 2015 (has links)
Submitted by Elizabete Silva (elizabete.silva@ufes.br) on 2015-10-07T19:20:22Z No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) DESCRIÇÃO DE VERBOS DE BASE ADJETIVA DERIVADOS COM OS SUFIXOS -ECER E -IZAR, PARA O PROCESSAMENTO AUTOMÁTICO DE LINGUAGEM NATURAL.pdf: 1557898 bytes, checksum: a5ecdad72923053673ea35aca44385e9 (MD5) / Approved for entry into archive by Morgana Andrade (morgana.andrade@ufes.br) on 2015-11-23T19:06:02Z (GMT) No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) DESCRIÇÃO DE VERBOS DE BASE ADJETIVA DERIVADOS COM OS SUFIXOS -ECER E -IZAR, PARA O PROCESSAMENTO AUTOMÁTICO DE LINGUAGEM NATURAL.pdf: 1557898 bytes, checksum: a5ecdad72923053673ea35aca44385e9 (MD5) / Made available in DSpace on 2015-11-23T19:06:02Z (GMT). No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) DESCRIÇÃO DE VERBOS DE BASE ADJETIVA DERIVADOS COM OS SUFIXOS -ECER E -IZAR, PARA O PROCESSAMENTO AUTOMÁTICO DE LINGUAGEM NATURAL.pdf: 1557898 bytes, checksum: a5ecdad72923053673ea35aca44385e9 (MD5) Previous issue date: 2015 / Capes / Esta pesquisa apresenta uma descrição sintático-semântica de verbos de base adjetiva derivados com o sufixo –ecer, por exemplo, enriquecer e fortalecer e de verbos de base adjetiva derivados com o sufixo o –izar, como banalizar e suavizar em pares de frases simples do tipo (1) A herança enriqueceu Pedro, (1a) A herança tornou Pedro rico e (2) O aumento da renda banalizou as viagens, (2a) O aumento da renda tornou as viagens banais com intuito de observar a correspondência semântica entre as frases base (1) e (2) e as frases transformadas (1a) e (2a). A descrição dos verbos apoia-se numa lista dos verbos de base adjetiva derivados com os sufixos –ecer e –izar que foram coletados por meio de buscas em dicionários, na web e por introspecção. A partir desses verbos são construídas frases simples para se observar as propriedades sintático-semânticas deles. A análise das propriedades sintático-semânticas desses verbos é respaldada pelo modelo teórico-metodológico do Léxico-Gramática (1975), definido pelo linguista Maurice Gross. Essas propriedades são codificadas por meio de fórmulas sintáticas. A descrição das propriedades das estruturas permite a elaboração de um recurso linguístico no formato de uma tabela do Léxico-Gramática. A tabela é composta por uma lista de 88 verbos de base adjetiva derivados com o sufixo –ecer e 84 verbos de base adjetiva derivados com o sufixo –izar. A descrição codificada das propriedades dos verbos poderá ser incluída em uma base de dados para o processamento automático de linguagem natural (PLN). / This research presents a syntactic-semantic description of verbs derived from adjectives with suffix –ecer, for example, enriquecer “enrich”, amadurecer “ripen” and fortalecer “strengthen”, and with suffix –izar, for example, banalizar “banalize” and suavizar “soften” in pairs of simple sentences like: (1) A herança enriqueceu Pedro “The heritage enriched Pedro”, (1a) A herança tornou Pedro rico “The heritage made Pedro rich” and (2) O aumento da renda banalizou as viagens “Rising incomes trivialized travel”, (2a) O aumento da renda tornou as viagens banais “Rising incomes made the banal travel”, in order to observe the semantic correspondence between base sentences (1) and (2) and transformed sentences (1a) and (2a). The description of the verbs is based on a list of deadjectival verbs in –ecer and –izar collected through searches in dictionaries, in the web and by introspection. From these verbs, simple sentences are built to observe their syntactic-semantic properties. The analysis of syntactic-semantic properties of the verbs is carried out within the theoretical-methodological model of Lexicon-Grammar (1975), defined by linguist Maurice Gross. These properties are encoded through syntactic formulas. The description of the structures’ properties allows for the elaboration of a language resource in the format of a Lexicon-Grammar table. The table is composed of a list of 88 deadjectival verbs with suffix –ecer and 84 verbs with–izar. The encoded description of the properties of verbs can be included in a data base for Automatic Processing of Natural Language (PLN).

Page generated in 0.097 seconds