Global ETD Search

61	Método semi-automático de construção de ontologias parciais de domínio com base em textos. / Semi-automatic method for the construction of partial domain ontologies based on texts. Carvalheira, Luiz Carlos da Cruz 31 August 2007 (has links) Os recentes desenvolvimentos relacionados à gestão do conhecimento, à web semântica e à troca de informações eletrônicas por meio de agentes têm suscitado a necessidade de ontologias para descrever de modo formal conceituações compartilhadas à respeito dos mais variados domínios. Para que computadores e pessoas possam trabalhar em cooperação é necessário que as informações por eles utilizadas tenham significados bem definidos e compartilhados. Ontologias são instrumentos viabilizadores dessa cooperação. Entretanto, a construção de ontologias envolve um processo complexo e longo de aquisição de conhecimento, o que tem dificultado a utilização desse tipo de solução em mais larga escala. Este trabalho apresenta um método de criação semi-automática de ontologias a partir do uso de textos de um domínio qualquer para a extração dos conceitos e relações presentes nesses textos. Baseando-se na comparação da freqüência relativa dos termos extraídos com os escritos típicos da língua e na extração de padrões lingüísticos específicos, este método identifica termos candidatos a conceitos e relações existentes entre eles, apresenta-os a um ontologista para validação e, ao final, disponibiliza a ontologia ratificada para publicação e uso especificando-a na linguagem OWL. / The recent developments related to knowledge management, the semantic web and the exchange of electronic information through the use of agents have increased the need for ontologies to describe, in a formal way, shared understanding of a given domain. For computers and people to work in cooperation it is necessary that information have well defined and shared definitions. Ontologies are enablers of that cooperation. However, ontology construction remains a very complex and costly process, which has hindered its use in a wider scale. This work presents a method for the semi-automatic construction of ontologies using texts of any domain for the extraction of concepts and relations. By comparing the relative frequency of terms in the text with their expected use and extracting specific linguistic patterns, the method identifies concepts and relations and specifies the corresponding ontology using OWL for further use by other applications. Artificial intelligence Gestão do conhecimento Inteligência artificial Knowledge management Natural language processing Ontologias Ontology Processamento de linguagem natural
62	Modelo para sumarização computacional de textos científicos. / Scientific text computational summarization model. Tarafa Guzmán, Alejandro 07 March 2017 (has links) Neste trabalho, propõe-se um modelo para a sumarização computacional extrativa de textos de artigos técnico-cientificos em inglês. A metodologia utilizada baseia-se em um módulo de avaliação de similaridade semântica textual entre sentenças, desenvolvido especialmente para integrar o modelo de sumarização. A aplicação deste módulo de similaridade à extração de sentenças é feita por intermédio do conceito de uma janela deslizante de comprimento variável, que facilita a detecção de equivalência semântica entre frases do artigo e aquelas de um léxico de frases típicas, atribuíveis a uma estrutura básica dos artigos. Os sumários obtidos em aplicações do modelo apresentam qualidade razoável e utilizável, para os efeitos de antecipar a informação contida nos artigos. / In this work a model is proposed for the computational extractive summarization of scientific papers in English. Its methodology is based on a semantic textual similarity module, for the evaluation of equivalence between sentences, specially developed to integrate the summarization model. A variable width window facilitates the application of this module to detect semantic similarity between phrases in the article and those in a basic structure, assignable to the articles. Practical summaries obtained with the model show usable quality to anticipate the information found in the papers. Artigo científico Computational summarization Natural language processing Processamento de linguagem natural Scientific paper Semantic textual similarity
63	Exploração da mineração de texto em documentos da saúde em diferentes idiomas para acompanhamento médico de pacientes com doenças crônicas / Exploration of text mining in health documents in different languages for medical follow-up of patients with chronic diseases Cacheta, Ana Katariny de Souza 08 November 2018 (has links) O CleverCare é um framework para controle, gestão e orientação de pacientes que necessitam de acompanhamento médico contínuo. O sistema possui ferramentas de mineração de textos responsáveis por compreender o conteúdo das mensagens e integrar com serviços de mensagem para envio e recebimento das mesmas, onde inicia diálogos com o paciente para gerenciar atividades rotineiras personalizadas e permite, inclusive, ao paciente fazer perguntas a respeito de uma enfermidade ou condição clínica. Desta forma, a comunicação com o paciente é a base para o sucesso do CleverCare, o qual atualmente possui suporte para o português, atuando por meio de suporte e empoderando o paciente ao cuidado de sua saúde. Compreender as implicações lógicas e adaptações necessárias para a compreensão de textos em diferentes idiomas pode fornecer informações para a aplicação dos mesmos procedimentos a outros idiomas, correlacionando informações e estabelecendo lógicas para traduções e tratamento de termos específicos da área, permitindo atender a uma maior demanda de pacientes que necessitam de tratamento contínuo. Para o desenvolvimento do projeto foram utilizadas abordagens e técnicas visando a escalabilidade e expansão de idiomas de maneira dinâmica. Para isso além das decisões de alterações específicas do sistema foram utilizadas ferramentas como o NLTK para o aperfeiçoamento e realização das adaptações necessárias ao projeto, uma vez que essa ferramenta possui suporte a diversos idiomas e está em constante melhoria. Os resultados, analisados por meio de técnicas de acurácia, precisão e revocação, demonstram que a melhoria observada com as adaptações do sistema para suporte aos idiomas de interesse foram positivas e significativas, com aumento de 13% nos indicadores de revocação e acurácia e manutenção da precisão em 100%. Sendo assim, o CleverCare apresentou um bom desempenho e foi capaz de classificar corretamente as mensagens, permitindo ao sistema reconhecer e classificar corretamente diferentes idiomas. Esta solução permite ao sistema não apenas fazer o processamento de diálogos em português, inglês e espanhol, mas também ingressar no mercado internacional com a possibilidade de expansão e escalabilidade para outros idiomas / CleverCare is a framework for the control, management, and guidance of patients who need ongoing medical follow-up. The system has text-mining tools responsible for understanding the content of the messages and integrating with message services to send and receive messages, where it initiates dialogues with the patient to manage personalized routine activities and allows the patient to ask questions about them in relation to an illness or clinical condition. In this way, communication with the patient is the basis for the success of CleverCare, which currently has support for Portuguese, acting through support and empowering the patient to take care of their health. Understanding the logical implications and adaptations required for the understanding of texts in different languages can provide information for the application of the same procedures to other languages, correlating information and establishing logics for translations and treatment of specific terms of the area, allowing to supply a greater demand of patients who require continuous treatment. For the development of the project, it was used approaches and techniques aimed at scaling and language expansion in a dynamic way. For this in addition to the system-specific changes decisions tools like NLTK were used, aiming at the improvement and accomplishment of the necessary adaptations to the project, since this tool has support to several languages and is constantly improving. The results, analyzed using accuracy, precision and recall techniques, demonstrate that the improvement observed with the system adaptations to support the languages of interest were positive and significant, with an increase of 13% in recall and accuracy indicators and maintenance of 100% of precision. Thus, CleverCare performed well and was able to classify messages correctly, allowing the system to correctly recognize and classify different languages. This solution allows the system not only to process dialogues in Portuguese, English and Spanish, but also to enter the international market with the possibility of expansion and scalability for other languages Chronic diseases CleverCare CleverCare Doenças crônicas Natural language processing Processamento de linguagem natural
64	Exploração da mineração de texto em documentos da saúde em diferentes idiomas para acompanhamento médico de pacientes com doenças crônicas / Exploration of text mining in health documents in different languages for medical follow-up of patients with chronic diseases Ana Katariny de Souza Cacheta 08 November 2018 (has links) O CleverCare é um framework para controle, gestão e orientação de pacientes que necessitam de acompanhamento médico contínuo. O sistema possui ferramentas de mineração de textos responsáveis por compreender o conteúdo das mensagens e integrar com serviços de mensagem para envio e recebimento das mesmas, onde inicia diálogos com o paciente para gerenciar atividades rotineiras personalizadas e permite, inclusive, ao paciente fazer perguntas a respeito de uma enfermidade ou condição clínica. Desta forma, a comunicação com o paciente é a base para o sucesso do CleverCare, o qual atualmente possui suporte para o português, atuando por meio de suporte e empoderando o paciente ao cuidado de sua saúde. Compreender as implicações lógicas e adaptações necessárias para a compreensão de textos em diferentes idiomas pode fornecer informações para a aplicação dos mesmos procedimentos a outros idiomas, correlacionando informações e estabelecendo lógicas para traduções e tratamento de termos específicos da área, permitindo atender a uma maior demanda de pacientes que necessitam de tratamento contínuo. Para o desenvolvimento do projeto foram utilizadas abordagens e técnicas visando a escalabilidade e expansão de idiomas de maneira dinâmica. Para isso além das decisões de alterações específicas do sistema foram utilizadas ferramentas como o NLTK para o aperfeiçoamento e realização das adaptações necessárias ao projeto, uma vez que essa ferramenta possui suporte a diversos idiomas e está em constante melhoria. Os resultados, analisados por meio de técnicas de acurácia, precisão e revocação, demonstram que a melhoria observada com as adaptações do sistema para suporte aos idiomas de interesse foram positivas e significativas, com aumento de 13% nos indicadores de revocação e acurácia e manutenção da precisão em 100%. Sendo assim, o CleverCare apresentou um bom desempenho e foi capaz de classificar corretamente as mensagens, permitindo ao sistema reconhecer e classificar corretamente diferentes idiomas. Esta solução permite ao sistema não apenas fazer o processamento de diálogos em português, inglês e espanhol, mas também ingressar no mercado internacional com a possibilidade de expansão e escalabilidade para outros idiomas / CleverCare is a framework for the control, management, and guidance of patients who need ongoing medical follow-up. The system has text-mining tools responsible for understanding the content of the messages and integrating with message services to send and receive messages, where it initiates dialogues with the patient to manage personalized routine activities and allows the patient to ask questions about them in relation to an illness or clinical condition. In this way, communication with the patient is the basis for the success of CleverCare, which currently has support for Portuguese, acting through support and empowering the patient to take care of their health. Understanding the logical implications and adaptations required for the understanding of texts in different languages can provide information for the application of the same procedures to other languages, correlating information and establishing logics for translations and treatment of specific terms of the area, allowing to supply a greater demand of patients who require continuous treatment. For the development of the project, it was used approaches and techniques aimed at scaling and language expansion in a dynamic way. For this in addition to the system-specific changes decisions tools like NLTK were used, aiming at the improvement and accomplishment of the necessary adaptations to the project, since this tool has support to several languages and is constantly improving. The results, analyzed using accuracy, precision and recall techniques, demonstrate that the improvement observed with the system adaptations to support the languages of interest were positive and significant, with an increase of 13% in recall and accuracy indicators and maintenance of 100% of precision. Thus, CleverCare performed well and was able to classify messages correctly, allowing the system to correctly recognize and classify different languages. This solution allows the system not only to process dialogues in Portuguese, English and Spanish, but also to enter the international market with the possibility of expansion and scalability for other languages CleverCare Doenças crônicas Processamento de linguagem natural Chronic diseases CleverCare Natural language processing
65	Uma abordagem semi-autom?tica para identifica??o de estruturas ontol?gicas a partir de textos na l?ngua portuguesa do Brasil Bas?gio, T?lio Lima 05 January 2007 (has links) Made available in DSpace on 2015-04-14T14:49:07Z (GMT). No. of bitstreams: 1 403014.pdf: 1442012 bytes, checksum: 5c452e448ac645ff8803369f1459add6 (MD5) Previous issue date: 2007-01-05 / Para v?rias ?reas de aplica??o, a constru??o semi-autom?tica ou autom?tica de ontologias seria extremamente ?til. Abordagens semi-autom?ticas para a extra??o de ontologias a partir de textos t?m sido propostas na literatura, as quais sugerem a extra??o de conhecimento encontrado nos textos de um dom?nio, com o apoio de t?cnicas de processamento da l?ngua natural. Este trabalho prop?e uma abordagem para suportar algumas fases do processo de aquisi??o de estruturas ontol?gicas, mais especificamente as fases de extra??o de conceitos e rela??es taxon?micas, de modo a semi-automatizar os passos da constru??o de ontologias a partir de textos na l?ngua portuguesa do Brasil. O resultado obtido serve como ponto de partida ao engenheiro de ontologia. Para avalia??o da abordagem proposta, foi desenvolvido um prot?tipo que incorpora mecanismos de importa??o de corpus, identifica??o de termos relevantes, identifica??o de rela??es taxon?micas entre esses termos e gera??o da estrutura ontol?gica em OWL. Este prot?tipo foi utilizado num estudo de caso sobre o dom?nio do Turismo, possibilitando a avalia??o com rela??o a diferentes aspectos do processo de aquisi??o de conceitos e rela??es. INFORM?TICA WEB SEM?NTICA PROCESSAMENTO DA LINGUAGEM NATURAL ONTOLOGIA
66	Extra??o de estruturas ontol?gicas de dom?nio da Wikip?dia em l?ngua portuguesa Xavier, Clarissa Castell? 08 March 2010 (has links) Made available in DSpace on 2015-04-14T14:49:24Z (GMT). No. of bitstreams: 1 424692.pdf: 1937010 bytes, checksum: f88759e6fc1959ff14fdb14bd6afdae7 (MD5) Previous issue date: 2010-03-08 / A necessidade crescente por ontologias e a dificuldade em constru?-las manualmente v?m gerando iniciativas em busca de m?todos para a constru??o autom?tica e semi-autom?tica de ontologias. A Wikip?dia, contendo uma grande quantidade de conte?do organizado, livremente dispon?vel e cobrindo uma extensa faixa de assuntos, mostra-se uma fonte interessante para extra??o de estruturas ontol?gicas. Neste trabalho propomos um m?todo semi-autom?tico para a extra??o de estruturas ontol?gicas de dom?nio a partir da estrutura de categorias da Wikip?dia em portugu?s. Para validar o m?todo proposto, realizamos um estudo de caso no qual foi implementado um prot?tipo gerando uma estrutura ontol?gica do dom?nio Turismo. Os resultados obtidos foram avaliados atrav?s da compara??o da estrutura ontol?gica gerada com um mapeamento de refer?ncia, apresentando-se promissores, compar?veis aos encontrados na literatura para outros idiomas. INFORM?TICA ONTOLOGIA PROCESSAMENTO DA LINGUAGEM NATURAL WIKIP?DIA
67	Extra??o autom?tica de conceitos a partir de textos em l?ngua portuguesa Lopes, Lucelene 26 January 2012 (has links) Made available in DSpace on 2015-04-14T14:49:48Z (GMT). No. of bitstreams: 1 439085.pdf: 7508888 bytes, checksum: c69f67a5ec361212f83a17a4407866ce (MD5) Previous issue date: 2012-01-26 / This thesis describes a process to extract concepts from texts in portuguese language. The proposed process starts with linguistic annotated corpora from specific domains, and it generates lists of concepts for each corpus. The proposal of a linguistic oriented extraction procedure based on noun phrase detection, and a set of heuristics to improve the overall quality of concept candidate extraction is made. The improvement in precision and recall of extracted term list is from approximatively from 10% to more more than 60%. A new index (tf-dcf) based on contrastive corpora is proposed to sort the concept candidate terms according to the their relevance to their respective domain. The precision results achieved by this new index are superior to to the results achieved by indices proposed in similar works. Cut-off points are proposed in order to identify, among extracted concept candidate terms sorted according to their relevance, which of them will be considered concepts. A hybrid approach to choose cut-off points delivers reasonable F-measure values, and it brings quality to the concept identification process. Additionally, four applications are proposed in order to facilitate the comprehension, handling, and visualization of extracted terms and concepts. Such applications enlarge this thesis contributions available to a broader community of researchers and users of Natural Language Processing area. The proposed process is described in detail, and experiments empirically evaluate each process step. Besides the scientific contribution made with the process proposal, this thesis also delivers extracted concept lists for five different domain corpora, and the prototype of a software tool (EχATOLP) implementing all steps of the proposed process. / Essa tese descreve um processo para extrair conceitos de textos em l?ngua portuguesa. O processo proposto inicia com corpora de dom?nio linguisticamente anotados, e gera listas de conceitos dos dom?nios de cada corpus. Utiliza-se uma abordagem lingu?stica, que baseia-se na identifica??o de sintagmas nominais e um conjunto de heur?sticas que melhoram a qualidade da extra??o de candidatos a conceitos. Essa melhora ? expressa por incrementos aproximadamente de 10% para mais de 60% nos valores de precis?o e abrang?ncia das listas de termos extra?das. Prop?e-se um novo ?ndice (tf-dcf) baseado na compara??o com corpora contrastantes, para ordenar os termos candidatos a conceito extra?dos de acordo com suas relev?ncias para o corpus de dom?nio. Os resultados obtidos com esse novo ?ndice s?o superiores aos resultados obtidos com ?ndices propostos em trabalhos similares. Aplicam-se pontos de corte para identificar, dentre os termos candidatos classificados segundo sua relev?ncia, quais ser?o considerados conceitos. O uso de uma abordagem h?brida para escolha de pontos de corte fornece valores adequados de medida F, trazendo qualidade ao processo de identifica??o de conceitos. Adicionalmente. prop?em-se quatro aplica??es para facilitar a compreens?o, manipula??o e visualiza??o dos termos e conceitos extra?dos. Essas aplica??es tornam as contribui??es dessa tese acess?veis a um maior n?mero de pesquisadores e usu?rios da ?rea de Processamento de Linguagem Natural. Todo o processo proposto ? descrito em detalhe, e experimentos avaliam empiricamente cada passo. Al?m das contribui??es cient?ficas feitas com a proposta do processo, essa tese tamb?m apresenta listas de conceitos extra?dos para cinco diferentes corpora de dom?nio, e o prot?tipo de numa ferramenta de software (EXATOLP) que implementa todos os passos propostos. INFORM?TICA ONTOLOGIA PROCESSAMENTO DA LINGUAGEM NATURAL RECUPERA??O DA INFORMA??O
68	Uma proposta para descoberta autom?tica de rela??es n?o-taxon?micas a partir de corpus em l?ngua portuguesa Ferreira, Vinicius Hartmann 11 December 2012 (has links) Made available in DSpace on 2015-04-14T14:49:58Z (GMT). No. of bitstreams: 1 446187.pdf: 2000156 bytes, checksum: d69c6168cd6efd48f1f38ca794de2813 (MD5) Previous issue date: 2012-12-11 / The construction of ontologies is a complex process that includes steps such as extraction of domain concepts, as well as the extraction of taxonomic and non-taxonomic relations between these concepts. The step of extracting non-taxonomic relations is the most neglected, specially for texts in portuguese. This dissertation presents a proposal for extracting non-taxonomic relations from texts in portuguese (corpora). These texts are represented by a list of domain concepts and contextual informations extracted by the tool ExATOlp. An application of the proposed process was performed with corpora of five domains and analysis on the relevance of the concepts, the specificity of relations and relations extracted application was made. Through this analysis, the proposed process seemed to be relevant and is considered the main contribution of this dissertation. Additionally, a tool for visualizing the extracted non-taxonomic relations, useful for various linguistic applications, is also proposed. / A constru??o de ontologias ? um processo complexo que compreende etapas como a extra??o de conceitos de dom?nio, bem como a extra??o de rela??es taxon?micas e n?o-taxon?micas entre esses conceitos. A etapa de extra??o de rela??es n?o-taxon?micas ? a mais negligenciada, especialmente para textos na l?ngua portuguesa. Essa disserta??o apresenta uma proposta de extra??o de rela??es n?o-taxon?micas a partir de textos em l?ngua portuguesa (corpora). Esses textos s?o representados por uma lista de conceitos e informa??es contextuais automaticamente extra?dos pela ferramenta ExATOlp. Uma aplica??o do processo proposto foi realizada com corpora de cinco dom?nios e uma an?lise sobre a relev?ncia dos conceitos, a especifidade das rela??es e a aplica??o das rela??es extra?das foi realizada. Atrav?s dessa an?lise o processo proposto mostrou-se relevante, sendo considerado a principal contribui??o dessa disserta??o. Adicionalmente, uma ferramenta para visualiza??o das rela??es n?o-taxon?micas extra?das, ?til para diversas aplica??es lingu?sticas, tamb?m ? proposta. INFORM?TICA ONTOLOGIA PROCESSAMENTO DA LINGUAGEM NATURAL
69	Minera??o de opini?es aplicada a m?dias sociais Souza, Marlo Vieira dos Santos e 19 March 2012 (has links) Made available in DSpace on 2015-04-14T14:50:01Z (GMT). No. of bitstreams: 1 448645.pdf: 990116 bytes, checksum: 3ad832cb853385fcbb55975315370396 (MD5) Previous issue date: 2012-03-19 / The competitive environment has become more dynamic in the last few decades due to the great development of information and comunication technologies and to the globalization process.A company manager must, thus, always be well informed about the competitive landscape before making strategic decisions. In this sense, the Competitive Intelligence (CI) emerges as a discipline that aims to systematize the collection and analysis of information in the competitive environment willing to assist decision making. There is, however, an increasing amount of information being produced and released in Internet and traditional media, which become unwieldy. Associated with this, managers still suffer with time constraints to respond to the market stimuli and remain competitive. Thus, it is necessary to maintain a constant staff monitoring the competitive environment to be able to handle the amount of information from this various sources. We believe that the application Text Analysis techniques can help in various stages of such process. This work presents a proposal to use such techniques to aid the process of Competitive Intelligence. We discuss the use of Sentiment Analysis techniques coupled with Named Entity Recognition in texts from social media - especially Twitter - which helps in the analysis of the attitudes of the consumer market towards a brand. We also present a system implementing the proposed techniques, the evaluations made with it and present our conclusions. / O ambiente competitivo se tornou, nas ultimas d?cadas, mais din?mico gra?as ?s tecnologias de informa??o e comunica??o e ? globaliza??o. O gestor, assim, precisa estar sempre bem informado sobre o panorama competitivo antes de tomar decis?es estrat?gicas. Nessa dire??o, a Intelig?ncia Competitiva (IC) surge como uma disciplina que pretende sistematizar a obten??o e an?lise de informa??es do ambiente competitivo com fun??o de auxiliar a tomada de decis?o. H? entretanto uma quantidade crescente de informa??o sendo produzida e disponibilizada em meios como a Internet e m?dias tradicionais, as quais se tornam de dif?cil manejo. Associado a isso, os gestores sofrem ainda com restri??es temporais para responder ao est?mulo do mercado e manteremse competitivos. Dessa forma, ? necess?rio manter uma equipe de monitoramento constante do ambiente competitivo para que se possa lidar com a quantidade de informa??o proveniente de diversas fontes. Acreditamos que a aplica??o de t?cnicas de An?lise de Texto podem auxiliar nas diversas fases do processo de IC. O presente trabalho apresenta uma proposta de utiliza??o de tais t?cnicas para auxiliar o processo de Intelig?ncia Competitiva. Discutimos aqui a utiliza??o de um m?todo de An?lise de Sentimentos aliado ao Reconhecimento de Entidades Nomeadas em textos provenientes de m?dias sociais - particularmente o Twitter - que permitam analisar as atitudes do mercado consumidor quanto a uma determinada marca. S?o apresentados ainda o sistema desenvolvido, as avalia??es realizadas e as conclus?es que tiramos. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL RECUPERA??O DA INFORMA??O
70	Extra??o de rela??es do dom?nio de organiza??es para o portugu?s Abreu, Sandra Collovini de 16 January 2014 (has links) Made available in DSpace on 2015-04-14T14:50:10Z (GMT). No. of bitstreams: 1 457562.pdf: 2425407 bytes, checksum: fefac4edf439614aa48e880ee5b36971 (MD5) Previous issue date: 2014-01-16 / The task of Relation Extraction from texts is one of the main challenges in the area of Information Extraction, considering the required linguistic knowledge and the sophistication of the language processing techniques employed. This task aims at identifying and classifying semantic relations that occur between entities recognized in a given text. For example, the sentence Next Saturday, Ronaldo Lemos, director of Creative Commons, will participate in a debate [...]" expresses a institutionalbond" relation that occurs between the named entities Ronaldo Lemos" and Creative Commons". This thesis proposes a process for extraction of relation descriptors, which describes the explicit relations between named entities in the Organization domain (Person, Organization and Location) by applying, to texts in Portuguese, Conditional Random Fields (CRF), a probabilistic model that has been used in various tasks e⇥ciently in processing sequential text, including the task of Relation Extraction. In order to implement the proposed process, a reference corpus for extracting relations, necessary for learning, was manually annotated based on a reference corpus for named entities (HAREM). Based on an extensive literature review on the automatic extraction of relations task, features of different types were defined. An experimental evaluation was performed to evaluate the learned model utilizing the defined features. Different input feature configurations for CRF were evaluated. Among them, the highlight was the inclusion of the semantic feature based on the named entity category, since this feature could express, in a better way, the kind of relationship between the pair of named entities we want to identify. Finally, the best results correspond to the extraction of relations between the named entities of Organization and Person categories, in which the F -measure rates were 57% and 63%, considering the correct and partially correct extractions, respectively. / A tarefa de Extra??o de Rela??es a partir de textos ? um dos principais desafios da ?rea de Extra??o de Informa??o, tendo em vista o conhecimento lingu?stico exigido e a sofistica??o das t?cnicas de processamento da l?ngua empregados. Essa tarefa visa identificar e classificar rela??es sem?nticas que ocorrem entre entidades reconhecidas em um determinado texto. Por exemplo, o trecho No pr?ximo S?bado, Ronaldo Lemos, diretor da Creative Commons, ir? participar de um debate (...)" expressa uma rela??o de v?nculo-institucional" que ocorre entre as entidades nomeadas Ronaldo Lemos" e Creative Commons". Esta tese prop?e um processo para extra??o de descritores de rela??o, os quais descrevem rela??es expl?citas entre entidades nomeadas do dom?nio de Organiza??es (Pessoa, Organiza??o e Local) utilizando o modelo probabil?stico Conditional Random Fields (CRF), e sua aplica??o em textos da L?ngua Portuguesa. O modelo probabil?stico CRF tem sido aplicado eficientemente em diversas tarefas de processamento de texto sequencial, incluindo recentemente a tarefa de Extra??o de Rela??es. A fim de aplicar o processo proposto, um corpus de refer?ncia para extra??o de rela??es, necess?rio para o aprendizado, foi anotado manualmente, tomando como base um corpus de refer?ncia para entidades nomeadas (HAREM). Com base em uma extensa revis?o da literatura sobre a tarefa de extra??o autom?tica de rela??es, features de diferentes naturezas foram definidas. Uma avalia??o experimental foi realizada com o objetivo de avaliar o modelo aprendido utilizando as features definidas. Diferentes configura??es de features de entrada para o CRF foram avaliadas. Dentre elas, destacou-se a inclus?o da feature sem?ntica baseada na categoria da entidade nomeada, j? que essa feature conseguiu expressar melhor o tipo de rela??o que se deseja identificar entre o par de entidades nomeadas. Por fim, os melhores resultados obtidos correspondem ? extra??o de rela??es entre as entidades nomeadas das categorias Organiza??o e Pessoa, na qual as taxas de F-measure foram de 57% e 63%, considerando as extra??es corretas e parcialmente corretas, respectivamente. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL RECUPERA??O DA INFORMA??O ONTOLOGIA

Search results