• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 291
  • 49
  • 6
  • 5
  • 5
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 348
  • 348
  • 281
  • 177
  • 151
  • 91
  • 62
  • 56
  • 55
  • 55
  • 52
  • 51
  • 50
  • 47
  • 47
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
211

Reconhecimento de traços de personalidade com base em textos / Personality traits recognition through texts

Silva, Barbara Barbosa Claudino da 27 February 2018 (has links)
Apresentamos uma pesquisa na área de Processamento de Linguagem Natural, para reconhecimento de personalidade com base em textos da língua portuguesa. Neste trabalho utilizamos textos provenientes da rede social Facebook, em conjunto com o modelo de personalidade dos Cinco Grandes Fatores, para construir um córpus rotulado com as personalidades de seus autores e, após a identificação das características mais relevantes para o reconhecimento de personalidade, construir modelos computacionais utilizando essas características. Utilizando-se métodos provenientes de léxicos, como o dicionário LIWC ou atributos psicolinguísticos, e métodos provenientes do próprio texto, como bag of words, representação distribuída de palavras e de documentos foram desenvolvidos modelos para reconhecimento de personalidade sem a necessidade de outros métodos mais comumente utilizados para essa tarefa, como inventários ou entrevistas com psicólogos. Os resultados dos métodos de representação distribuída são ligeiramente superiores do que os resultados utilizando o dicionário LIWC, com a vantagem de não exigirem recursos dependentes de um idioma específico / We present a research proposal in the Natural Language Processing field, to recognize personality through texts in the portuguese language. Using texts from the social network Facebook we built a corpus labeled with authors Big-5 personality traits, and after identifying the most relevant atributes to recognize personality, we built computational models based on those attributes. The model was expected to recognize personality without the help of any other methods commonly used in this task, such as inventories or interviews with psychologists. Using lexical methods such as the LIWC dictionary or psycholinguistic attributes, and methods from the text itself, such as bag of words, distributed representation of words and documents, we obtained models for personality recognition without the need of other methods most commonly used for this task. The results of distributed representation methods are slightly better than the results using the LIWC dictionary, with the advantage of not requiring features dependent on a specific language
212

Conversão grafema-fone para um sistema de reconhecimento de voz com suporte a grandes vocabulários para o português brasileiro / Conversion grapheme-phone for a system of recognition of voice with support the great vocabularies for the Brazilian Portuguese

HOSN, Chadia Nadim Aboul 12 June 2006 (has links)
Made available in DSpace on 2011-03-23T21:19:13Z (GMT). No. of bitstreams: 0 / Item created via OAI harvest from source: http://www.bdtd.ufpa.br/tde_oai/oai2.php on 2011-03-23T21:19:13Z (GMT). Item's OAI Record identifier: oai:bdtd.ufpa.br:54 / Speech processing has become a data-driven technology. Hence, the success of research in this area is linked to the existence of public corpora and associated resources, as a phonetic dictionary. In contrast to other languages such as English, one cannot find, in public domain, a Large Vocabulary Continuos Speech Recognition (LVCSR) System for Brazilian Portuguese. This work discusses some efforts within the FalaBrasil initiative [1], developed by researchers, teachers and students of the Signal Processing Laboratory (LaPS) at UFPA, providing an overview of the research and softwares related to Automatic Speech Recognition (ASR) for Brazilian Portuguese. More specifically, the present work discusses the implementation of a large vocabulary ASR for Brazilian Portuguese using the HTK software, which is based on hidden Markov models (HMM). Besides, the work discusses the implementation of a grapheme-phoneme conversion module using machine learning techniques. / O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.
213

Distinção de grupos linguísticos através de desempenho da linguagem / Distinction of linguistic groups through linguistic performance

Wilkens, Rodrigo Souza January 2016 (has links)
A aquisição e o desempenho de linguagem humana é um processo pelo qual todas as pessoas passam. No entanto, esse processo não é completamente entendido, o que gera amplo espaço para pesquisa nessa área. Além disso, mesmo após o processo de aquisição da linguagem pela criança estar completo, ainda não há garantia de domínio da língua em suas diferentes modalidades, especialmente de leitura e escrita. Recentemente, em 2016, divulgou-se que 49,3% dos estudantes brasileiros não possuem proficiência de compreensão de leitura plena em português. Isso é particularmente importante ao considerarmos a quantidade de textos disponíveis, mas não acessíveis a pessoas com diferentes tipos de problemas de proficiência na língua. Sob o ponto de vista computacional, há estudos que visam modelar os processos de aquisição da linguagem e medir o nível do falante, leitor ou redator. Em vista disso, neste trabalho propomos uma abordagem computacional independente de idioma para modelar o nível de desenvolvimento linguístico de diferentes tipos de usuários da língua, de crianças e adultos, sendo a nossa proposta fortemente baseada em características linguísticas. Essas características são dependentes de corpora orais transcritos, no segmento de crianças, e de corpora escritos, no segmento de adultos. Para alcançar esse modelo abrangente, são considerados como objetivos a identificação de atributos e valores que diferenciam os níveis de desenvolvimento da linguagem do indivíduo, assim como o desenvolvimento de um modelo capaz de indicá-los. Para a identificação dos atributos, utilizamos métodos baseados em estatística, como o teste de hipóteses e divergência de distribuição. A fim de comprovar a abrangência da abordagem, realizamos experimentos com os corpora que espelham diferentes etapas do desenvolvimento da linguagem humana: (1) etapa de aquisição da linguagem oral de pela criança e (2) etapa pós aquisição, através da percepção de complexidade da linguagem escrita. Como resultados, obtivemos um grande conjunto anotado de dados sobre aquisição e desempenho de linguagem que podem contribuir para outros estudos. Assim como um perfil de atributos para os vários níveis de desenvolvimento. Também destacamos como resultados, os modelos computacionais que identificam textos quanto ao nível de desenvolvimento de linguagem. Em especial, o são resultados do trabalho o modelo de identificação de palavras complexas, que ultrapassou o estado da arte para o corpus estudado, e o modelo de identificação de idade de crianças que ultrapassou os baselines utilizados, incluindo uma medida clássica de desenvolvimento linguístico. / Language acquisition and language performance is a process by which all the people experience. However, this process is not completely understood, which creates room for research in this area. Moreover, even after the acquisition process by a child is completed, there is still no guarantee of language proficiency in different modalities, specially reading and writing. Recently, in 2016, OECD/PIAAC released that 49,3% of Brazilian students do not have written and read proficiency in Portuguese. This is more important when we take into account the large number of available text, but they are not accessible by people with different types of language proficiency issues. In computational point of view, there are some studies which aim to model the language acquisition process and measure the speaker level. For that, we propose an computational approach independent of language to model language development level of different types of language users, children and adults. In that sense our proposal is highly based on linguistics features. Those features dependents of transcript oral corpora from children and adults. To achieve this model, we considered aim to identify attributes and values able to differentiate between leves of development by an individual, as well the desenvolvimento of a model able to indicate them. The attribute identification are based on statistical methods such as hypothesis testing and divergence distribution. Aiming to validate our approach, we performed experiments with the corpora that reflect at different stages of development of human language: (1) oral language acquisition by a child and (2) post-acquisition stage, through the perception of difficulty of written language. With this work, we obtained a large corpus of annotated language acquisition data that can contribute to the acquisition of other studies. We also build an attribute profile of the development levels. From all of our results we highlight the computer models that identify texts and language development level. In particular, the complex word identification model that exceeded the state of the art for the studied corpus, and the children age identifier model, who exceeded the baselines, including a classic measure of language development.
214

Reconhecimento de traços de personalidade com base em textos / Personality traits recognition through texts

Barbara Barbosa Claudino da Silva 27 February 2018 (has links)
Apresentamos uma pesquisa na área de Processamento de Linguagem Natural, para reconhecimento de personalidade com base em textos da língua portuguesa. Neste trabalho utilizamos textos provenientes da rede social Facebook, em conjunto com o modelo de personalidade dos Cinco Grandes Fatores, para construir um córpus rotulado com as personalidades de seus autores e, após a identificação das características mais relevantes para o reconhecimento de personalidade, construir modelos computacionais utilizando essas características. Utilizando-se métodos provenientes de léxicos, como o dicionário LIWC ou atributos psicolinguísticos, e métodos provenientes do próprio texto, como bag of words, representação distribuída de palavras e de documentos foram desenvolvidos modelos para reconhecimento de personalidade sem a necessidade de outros métodos mais comumente utilizados para essa tarefa, como inventários ou entrevistas com psicólogos. Os resultados dos métodos de representação distribuída são ligeiramente superiores do que os resultados utilizando o dicionário LIWC, com a vantagem de não exigirem recursos dependentes de um idioma específico / We present a research proposal in the Natural Language Processing field, to recognize personality through texts in the portuguese language. Using texts from the social network Facebook we built a corpus labeled with authors Big-5 personality traits, and after identifying the most relevant atributes to recognize personality, we built computational models based on those attributes. The model was expected to recognize personality without the help of any other methods commonly used in this task, such as inventories or interviews with psychologists. Using lexical methods such as the LIWC dictionary or psycholinguistic attributes, and methods from the text itself, such as bag of words, distributed representation of words and documents, we obtained models for personality recognition without the need of other methods most commonly used for this task. The results of distributed representation methods are slightly better than the results using the LIWC dictionary, with the advantage of not requiring features dependent on a specific language
215

Reescrita sentencial baseada em traços de personalidade / Text rewrite based on psychological profiles

Georges Basile Stávracas Neto 13 March 2018 (has links)
Sistemas de Geração de Língua Natural tentam produzir textos de maneira automatizada. Em sistemas desse tipo, é desejável produzir textos de forma realista - ou psicologicamente plausível - como forma de aumentar o engajamento do leitor. Uma das formas de alcançar esse objetivo é gerando textos de modo a refletir uma personalidade-alvo de interesse. Por exemplo, uma pessoa extrovertida usaria palavras mais simples e seus textos teriam mais interjeições e traços de oralidade. Esse trabalho tem o objetivo de desenvolver um modelo de reescrita sentencial para o português brasileiro com base em traços de personalidade de um locutor-alvo. Para isso, foi coletado um córpus de textos e inventários de personalidade e, com base em uma análise preliminar desses dados, foram encontrados fortes indícios de correlação entre os fatores de personalidade e as características observadas dos textos em português brasileiro. Foram gerados três modelos de lexicalização, referentes à adjetivos, substantivos e verbos. Esses modelos de lexicalização, então, foram utilizados na proposta de um modelo de reescrita sentencial para selecionar as palavras mais adequadas à personalidade-alvo. Os resultados demonstram que o uso de personalidade permite que o texto gerado seja mais próximo do desempenho humano se comparado a um sistema de baseline que faz escolhas lexicais mais frequentes / Natural Language Generation Systems attempt to produce texts in an automated fashion. In systems of this kind, it is desired to produce texts realisticaly - or at least psychologically plausible - as a way to increase reader\'s engagement. One way to achieve this goal is generating texts in such a way to reflect a target personality profile. For example, an extroverted individual would use simpler words and its texts would have more interjections and orality traces. This work proposes the development of a Brazilian Portuguese personality-based sentence rewrite model. To this end, a corpus with text samples and personality inventories has been collected, and, based on a preliminary analysis, strong correlations between personality and text features have been found. Three lexicalization models were generated, related to adjectives, nouns and verbs. These models were then used by the sentence rewrite model to select the most appropriate word for the target personality. Results show that the usage of personality allows the generated text to be closer to human performance when compared to a baseline system that makes lexical choices based on frequency
216

Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. / Knowledge extraction from reports of radiology thoracic using techniques of statistical processing of natural language.

Leandro Zerbinatti 15 April 2010 (has links)
Este trabalho promove um estudo em informática em saúde no qual se analisam laudos de radiologia torácica através de métodos de processamento estatístico de linguagem natural com o intuito de subsidiar a interoperabilidade entre sistemas de saúde. Foram utilizados 2000 laudos de radiologia do tórax para a extração de conhecimento identificando-se as palavras, n-gramas e frases que os compõem. Foi calculado o índice de Zipf e verificou-se que poucas palavras compõem a maioria dos laudos e que a maioria das palavras não tem representatividade estatística A partir dos termos identificados foi realizada a tradução e a comparação da existência desses em um vocabulário médico padronizado com terminologia internacional, o SNOMEDCT. Os termos que tinham uma relação completa e direta com os termos traduzidos foram incorporados nos termos de referência juntamente com a classe à qual o termo pertence e seu identificador. Foram selecionados outros 200 laudos de radiologia de tórax para realizar o experimento de rotulação dos termos em relação à referência. A eficiência obtida neste estágio, que é o percentual de rotulação dos laudos, foi de 45,55%. A partir de então foram incorporados aos termos de referência, sob a classe de conceito de ligação, artigos, preposições e pronomes. É importante ressaltar que esses termos não adicionam conhecimento de saúde ao texto. A eficiência obtida foi de 73,23%, aumentando significativamente a eficiência obtida anteriormente. Finalizamos o trabalho com algumas formas de aplicação dos laudos rotulados para a interoperabilidade de sistemas, utilizando para isto ontologias, o HL7 CDA (Clinical Documents Architecture) e o modelo de arquétipos da Fundação OpenEHR. / This work promotes a study in health informatics technology which analyses reports of chest X-ray through statistical natural language processing methods for the purpose of supporting the interoperability between health systems. Two thousand radiology reports were used for the extraction of knowledge by identifying the words, n-grams and phrases of reports. Zipfs constant was studied and it was determined that few words make up the majority of the reports and that most of the words do not have statistical significance. The translation and comparison with exisiting standardized medical vocabulary with international terminology, called SNOMED-CT, was done based on the terms identified. The terms that had a complete and direct correlation with the translated terms were incorporated into the reference terms along with its class and the word identifier. Another 200 reports of chest x-rays were selected to perform the terms tagging experiment of with respect to the reference. The efficiency obtained, which is the percentage of labeling of the reports, was 45.55%. Subsequentely, articles, prepositions and pronouns were incorporated into the terms of reference under the linkage concept of class. It is important to note that these terms do not carry health knowledge to the text. Thus, the efficiency ratio was 73.23%, significantly increasing the efficiency obtained previously. The study was concluded with some forms of application of the reports tagged for system interoperability, using different ontologies, the HL7 CDA (Clinical Documents Architecture) and the archetypes at OpenEHR Fondation.
217

Extração de informação e documentação de laudos médicos. / Information extraction and medical reports documentation.

Alice Shimada Bacic 09 May 2007 (has links)
Os sistemas de informação hospitalares geram diariamente uma quantidade significativa de dados em formato de texto livre, principalmente através de laudos médicos. Os laudos geralmente são recuperados do sistema através de informações associadas, como identificação do paciente, por datas ou profissional responsável. A recuperação da informação a partir do conteúdo descritivo é uma tarefa não trivial, pois os sistemas hospitalares em geral não são capazes de verificar o conteúdo de um texto livre em uma busca. Não havendo uma estrutura básica de organização, categorização ou indexação do texto livre armazenado nas bases hospitalares, uma grande quantidade de informação deixa de estar disponível para profissionais que necessitam delas, pois não sabem como recuperá-las. A capacidade de recuperação do conhecimento armazenado nestas bases de dados seria de grande valia para pesquisadores, estudantes ou mesmo para o estudo de casos clínicos. Segundo o contexto descrito, este trabalho propõe a criação de uma ferramenta de documentação automática que tem por objetivo gerar uma formatação associada ao texto livre de laudos em radiologia através da adição de informações obtidas a partir de sistemas de terminologias médicos padronizados. Com este procedimento, pretende-se facilitar a pesquisa pelo conhecimento armazenado em uma base de dados médicos através da informação adicional gerada. Para tanto o trabalho envolve pesquisas nas áreas de Ontologias e Extração deInformação, uma subárea do Processamento de linguagem Natural. As ontologias são importantes neste trabalho por tratarem o problema da padronização das terminologias usadas na escrita dos laudos, bem como para fornecer a organização e formatação necessária para que os laudos passem a ser partes de uma base de conhecimento. ) A Extração de Informação fornece os algoritmos e técnicas necessárias para que os laudos sejam documentados de forma automática, minimizando a necessidade de intervenção humana, normalmente muito custosa em termos de trabalho manual e tempo. Como resultado final obteve-se um conjunto de metodologias e ferramentas capazes de receber um laudo em texto livre e gerar um documento XML rotulado com códigos de conceitos definidos em um sistema de terminologias médico, como o UMLS ou o Radlex. Em todas as fases de processamento, até a obtenção do arquivo XML de saída, obteve-se valores de precisão superiores a 70%, um resultado bastante satisfatório se considerado que os algoritmos de PLN utilizados são todos baseados em regras. Em adição às ferramentas de PLN desenvolvidas, cita-se como resultados, os trabalhos desenvolvidos para avaliação de ontologias médicas segundo uma área médica prédefinido, a organização das ontologias em um formato útil para a utilização por algoritmos de PLN, a criação de um Corpus de laudos de Raio-X de Tórax em português para treinamento e testes de aplicações de PLN e um modelo de informação para documentação dos laudos. / Hospital Information Systems generate each day a significant amount of data in free text format, mainly as medical reports. Normally the reports are recovered from the system through associated information like patient identification, dates or responsible identification, for example. To recover a report by its content is not a trivial task since hospital systems are not capable of searching the free text content. Without a basic organizational structure, some categorization and indexing the free text stored on the hospital database is not accessible, since it cannot be recovered in the right context when it is needed. The ability of recovering the knowledge stored on these databases would be valuable for researchers, students or for the study of clinical cases. According to the described context, this work considers the creation of a tool for automatic documentation of medical reports written in free text. The main objective is to format radiological reports to achieve a more efficient way of recovering the knowledge stored in medical report\'s databases. To achieve this goal, information from medical terminology systems is added to the original report automatically. Such task requires some research in the field of Ontologies and Information Extraction, a sub field of Natural Language Processing. Ontologies are important in this work because they provide the standardization needed for the terminologies used in the written reports. It is important too forsupplying the organization necessary to format the reports in an adequate way to be stored on the knowledge base. Information Extraction supplies the algorithms and the necessary techniques to register in an automatic way the radiological reports, minimizing the human intervention, normally with a high cost in terms of handwork and time. ) The final result achieved was a set of methodologies and tools used to process a free text report, generating a XML document tagged with codes extracted from a medical terminology system. Considering all process steps, it was achieved a precision of at least 70%, in each step, a good score, if we consider that all the algorithms are rule based. In addiction to the NLP tools results, there are results concerning to medical ontologies evaluation for a pre-defined medical area, the organization need to make the ontologies usable by the NLP tools, the creation of a x-ray Corpus of reports in Portuguese and an information model used to document the reports. The Corpus could be used on the evaluation and test of NLP tools.
218

Reconhecimento semântico através de redes neurais artificiais / Semantic recognition through artificial neural nets

Muller, Daniel Nehme January 1996 (has links)
Um dos grandes desafios atuais da computação e ultrapassar o abismo existente entre o homem e a maquina. Para tanto, o desafio passa a ser a formalização de estados mentais e sua modelagem computacional. Isso e necessário, uma vez que o homem somente conseguira comunicar-se com uma maquina quando esta puder dar e receber informações sem que o homem precise aprender uma forma especial de comunicação. É necessário, portanto, que a maquina aprenda a comunicar-se como o homem. Neste sentido, o estudo da linguagem torna-se uma porta aberta para criar uma computação que se adapte ao homem e, ao mesmo tempo favoreça pesquisas que visem uma melhor compreensão do funcionamento do cérebro, da linguagem e do aprendizado do próprio homem. O presente trabalho mostra que o computador possui um potencial de comunicação ainda inexplorado. Por este motivo, em estudos anteriores procurou-se a verificação do atual estagio de modelagem de comunicação homem-máquina em comparação a evolução da linguagem humana. Constatou-se, então, que a maquina pode chegar a uma efetiva comunicação com o homem embora jamais espontânea. como se vê na ficção científica. O que e possível e a auto-organização pelo computador de sinais provenientes de seu meio, visando a realização de determinadas tarefas. Esses sinais do meio em que esta o computador são exatamente o que justifica suas ações, o que da significado ao que lhe e transmitido, assim como o que ocorre no homem. Para que se modele o reconhecimento semantico de frases necessário que se encontre uma forma de codificar os sinais do meio para que estes, acompanhando a frase, permitam o reconhecimento de seu significado. Porem, como o objetivo deste trabalho e a implementação do reconhecimento semântico e não a recepção de sinais, optou-se por uma codificação representativa dos sinais externos. Esta codificação permite que, através da tecnologia das Redes Neurais Artificiais, seja possível a implementação de relações semânticas entre palavras e entre frases, permitindo a classificação para posterior reconhecimento. A implementação computacional realizada permite o reconhecimento de frases, mesmo com alteração de palavras e numero de palavras. O protótipo aqui apresentado mostra que, mesmo com uma estrutura extremamente mais simples que outros sistemas de reconhecimento de língua natural, é possível uma adequada identificação de frases. / One of the great challenges of computation nowadays is to cross the abyss between man and machine. Thus, the challenge becomes the formalization of mental states and its computational modelling. This is necessary since man will only get to communicate with a machine when this machine is able to give and receive information without man needs to learn a special way to communicate. Therefore, it is necessary that the machine learns to communicate with man. In this sense, the study of the language becomes an open door in order to create a computation that may be adapted to man. and, at the same time, may help researches which aim at a better comprehension of the brain functioning of the language and of man's learning. This work shows that the computer has a potential for communication that has not been explored yet. For this reason, in prior studies we tried to verify the present stage of man-machine communication modelling in comparison with the human language evolution. We verified, then, that the machine can reach an effective communication with man, but never spontaneous, as we see in scientific fiction (Sci-Fi). What can be possible is the self-organization by computer of signals deriving from its own environment, aiming at realization of specifics tasks. Those signals of the computer environment are exactly what justifies its actions. what gives meaning to what is transmitted to it in the same way that happens with man. In order to mould the Semantic Recognition of phrases it is necessary to find out a way of codifying the signals of the environment so that these signals. accompanying a phrase, may permit recognition of its meaning. However, as the purpose of this work is the implementation of the Semantic Recognition, and not the reception of signals, we have opted for a representative codification of external signals. This codification allows that, through the Artificial Neural Nets technology, the implementation of semantic relations among words and phrases may be possible, permitting the classification for posterior recognition. The computational implementation realized permits the recognition of phrases, even with alteration of words and number of words. The prototype presented here shows that, even with one structure extremely simpler than other systems of Natural Language Recognition, an adequate identification of phrases is possible.
219

Extração de informação e documentação de laudos médicos. / Information extraction and medical reports documentation.

Bacic, Alice Shimada 09 May 2007 (has links)
Os sistemas de informação hospitalares geram diariamente uma quantidade significativa de dados em formato de texto livre, principalmente através de laudos médicos. Os laudos geralmente são recuperados do sistema através de informações associadas, como identificação do paciente, por datas ou profissional responsável. A recuperação da informação a partir do conteúdo descritivo é uma tarefa não trivial, pois os sistemas hospitalares em geral não são capazes de verificar o conteúdo de um texto livre em uma busca. Não havendo uma estrutura básica de organização, categorização ou indexação do texto livre armazenado nas bases hospitalares, uma grande quantidade de informação deixa de estar disponível para profissionais que necessitam delas, pois não sabem como recuperá-las. A capacidade de recuperação do conhecimento armazenado nestas bases de dados seria de grande valia para pesquisadores, estudantes ou mesmo para o estudo de casos clínicos. Segundo o contexto descrito, este trabalho propõe a criação de uma ferramenta de documentação automática que tem por objetivo gerar uma formatação associada ao texto livre de laudos em radiologia através da adição de informações obtidas a partir de sistemas de terminologias médicos padronizados. Com este procedimento, pretende-se facilitar a pesquisa pelo conhecimento armazenado em uma base de dados médicos através da informação adicional gerada. Para tanto o trabalho envolve pesquisas nas áreas de Ontologias e Extração deInformação, uma subárea do Processamento de linguagem Natural. As ontologias são importantes neste trabalho por tratarem o problema da padronização das terminologias usadas na escrita dos laudos, bem como para fornecer a organização e formatação necessária para que os laudos passem a ser partes de uma base de conhecimento. ) A Extração de Informação fornece os algoritmos e técnicas necessárias para que os laudos sejam documentados de forma automática, minimizando a necessidade de intervenção humana, normalmente muito custosa em termos de trabalho manual e tempo. Como resultado final obteve-se um conjunto de metodologias e ferramentas capazes de receber um laudo em texto livre e gerar um documento XML rotulado com códigos de conceitos definidos em um sistema de terminologias médico, como o UMLS ou o Radlex. Em todas as fases de processamento, até a obtenção do arquivo XML de saída, obteve-se valores de precisão superiores a 70%, um resultado bastante satisfatório se considerado que os algoritmos de PLN utilizados são todos baseados em regras. Em adição às ferramentas de PLN desenvolvidas, cita-se como resultados, os trabalhos desenvolvidos para avaliação de ontologias médicas segundo uma área médica prédefinido, a organização das ontologias em um formato útil para a utilização por algoritmos de PLN, a criação de um Corpus de laudos de Raio-X de Tórax em português para treinamento e testes de aplicações de PLN e um modelo de informação para documentação dos laudos. / Hospital Information Systems generate each day a significant amount of data in free text format, mainly as medical reports. Normally the reports are recovered from the system through associated information like patient identification, dates or responsible identification, for example. To recover a report by its content is not a trivial task since hospital systems are not capable of searching the free text content. Without a basic organizational structure, some categorization and indexing the free text stored on the hospital database is not accessible, since it cannot be recovered in the right context when it is needed. The ability of recovering the knowledge stored on these databases would be valuable for researchers, students or for the study of clinical cases. According to the described context, this work considers the creation of a tool for automatic documentation of medical reports written in free text. The main objective is to format radiological reports to achieve a more efficient way of recovering the knowledge stored in medical report\'s databases. To achieve this goal, information from medical terminology systems is added to the original report automatically. Such task requires some research in the field of Ontologies and Information Extraction, a sub field of Natural Language Processing. Ontologies are important in this work because they provide the standardization needed for the terminologies used in the written reports. It is important too forsupplying the organization necessary to format the reports in an adequate way to be stored on the knowledge base. Information Extraction supplies the algorithms and the necessary techniques to register in an automatic way the radiological reports, minimizing the human intervention, normally with a high cost in terms of handwork and time. ) The final result achieved was a set of methodologies and tools used to process a free text report, generating a XML document tagged with codes extracted from a medical terminology system. Considering all process steps, it was achieved a precision of at least 70%, in each step, a good score, if we consider that all the algorithms are rule based. In addiction to the NLP tools results, there are results concerning to medical ontologies evaluation for a pre-defined medical area, the organization need to make the ontologies usable by the NLP tools, the creation of a x-ray Corpus of reports in Portuguese and an information model used to document the reports. The Corpus could be used on the evaluation and test of NLP tools.
220

Descoberta de relacionamentos semânticos não taxonômicos entre termos ontológicos

Andrade, Arthur Morais de 14 February 2017 (has links)
Submitted by Aelson Maciera (aelsoncm@terra.com.br) on 2017-08-03T19:48:04Z No. of bitstreams: 1 DissAMA.pdf: 3949100 bytes, checksum: a7c504999039d0736a8629285dd87c12 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-08T18:37:14Z (GMT) No. of bitstreams: 1 DissAMA.pdf: 3949100 bytes, checksum: a7c504999039d0736a8629285dd87c12 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-08T18:37:20Z (GMT) No. of bitstreams: 1 DissAMA.pdf: 3949100 bytes, checksum: a7c504999039d0736a8629285dd87c12 (MD5) / Made available in DSpace on 2017-08-08T18:41:15Z (GMT). No. of bitstreams: 1 DissAMA.pdf: 3949100 bytes, checksum: a7c504999039d0736a8629285dd87c12 (MD5) Previous issue date: 2017-02-14 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Ontologies have become an important tool to structure knowledge. However, the construction of an ontology involves a careful process of defining representative terms of the domain and its relationships, which requires a lot of time from ontology engineers and domain experts. These relationships can be taxonomic (hyponymy and meronymy), representing a taxonomy of concepts, and non-taxonomic, referring to the other relationships that occur between the nodes of this taxonomy. The main difficulties of constructing an ontology are related to the time spent by domain specialists and the necessity of guaranteeing the quality and reliability of the ontologies create. In this way, we are welcome the efforts to elaborate approaches that aim to reduce the amount of time dedicated by specialists without reducing the quality of the ontology created. In this master's project, an approach was developed for the discovery of semantic relationships between non-taxonomic ontological terms from semi-structured documents written with informal vocabularies of the Brazilian Portuguese language. Thus, it aids ontology engineers and domain experts in the arduous task of discovering the relationships between ontological terms. After the discovery of semantic relationships, the relationships were converted into a conceptual structure, generated by the Formal Concept Analysis (FCA) method. This approach was validated in two experiments, with the help of domain experts in special education. The first experiment consisted of a comparison between manually extracted relationships and automatic extraction, presenting a good value of precision, coverage and measurement F, respectively, 92%, 95% and 93%. The second experiment evaluated the relationships extracted, automatically, in the structure generated by the FCA, it gets average accuracy 86,5%.These results prove the effectiveness of the semantic relationship discovery approach. / Ontologias têm se tornado um importante instrumento para a estruturação do conhecimento. Porém, a construção de uma ontologia envolve um cuidadoso processo de definição de termos representativos do domínio e seus relacionamentos, exigindo muito tempo dos engenheiros de ontologias em conjunto com especialistas de domínio. Esses relacionamentos podem ser taxonômicos (hiponímia e meronímia), representando uma taxonomia de conceitos, e não taxonômicos, referentes aos demais relacionamentos que ocorrem entre os nós dessa taxonomia. As principais dificuldades estão relacionadas ao tempo gasto pelos especialistas de domínio e às garantias necessárias para a qualidade das ontologias criadas, tornando-as confiáveis. Neste sentido, são bem-vindos os esforços para a elaboração de abordagens que visam diminuir o tempo de dedicação do especialista sem redução de qualidade da ontologia criada. Neste trabalho foi desenvolvida uma abordagem para a descoberta de relações semânticas não taxonômicas entre termos ontológicos, a partir de documentos semiestruturados redigidos com vocábulos informais do Português variante brasileira. A abordagem visa auxiliar engenheiros de ontologias e especialistas de domínio na árdua tarefa de descoberta dos relacionamentos entre termos ontológicos. Após a descoberta dos relacionamentos semânticos, estes foram convertidos em uma estrutura conceitual, gerada pelo método Formal Concept Analysis (FCA). Essa abordagem foi avaliada em dois experimentos, com auxílio de especialistas de domínio em Educação Especial. O primeiro experimento consistiu em uma comparação entre os relacionamentos extraídos de forma manual e a extração automática, apresentando um bom valor de precisão, cobertura e medida F, obtendo, respectivamente, 92%, 95% e 93%. Já o segundo experimento consistiu em avaliar os relacionamentos extraídos automaticamente na estrutura gerada pelo FCA, obtendo precisão média 86,5%. Esses resultados indicam a eficácia da abordagem de descoberta de relacionamentos semânticos.

Page generated in 0.0529 seconds