• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 206
  • 26
  • 6
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 239
  • 239
  • 233
  • 116
  • 115
  • 82
  • 52
  • 51
  • 51
  • 47
  • 47
  • 37
  • 36
  • 35
  • 34
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
161

Modelo de reconhecimento de vinculação textual baseado em regras linguísticas e informações morfossintáticas voltado para ambientes virtuais de ensino e aprendizagem

Flores, Evandro Metz January 2014 (has links)
Submitted by Fabricia Fialho Reginato (fabriciar) on 2015-07-01T23:00:34Z No. of bitstreams: 1 EvandroFlores.pdf: 1289007 bytes, checksum: 44450c63dc59c23ca86b3e4fdbdcea30 (MD5) / Made available in DSpace on 2015-07-01T23:00:34Z (GMT). No. of bitstreams: 1 EvandroFlores.pdf: 1289007 bytes, checksum: 44450c63dc59c23ca86b3e4fdbdcea30 (MD5) Previous issue date: 2014 / CNPQ – Conselho Nacional de Desenvolvimento Científico e Tecnológico / GVDASA / A rápida evolução das tecnologias de informação e comunicação tem possibilitado o desenvolvimento de modalidades de ensino e educação, tais como a Educação a Distância, capazes de alcançar pessoas anteriormente impossibilitadas de frequentar o ensino superior. Um aspecto importante destas modalidades é o amplo uso de recursos de mediação digital, sendo que estes podem gerar um grande volume de dados o qual, por vezes, não é viável para utilização proveitosa de forma manual pelos professores envolvidos nesta interação. Este contexto gera a necessidade e oportunidade de definição de ferramentas que possam atuar para automatizar parte deste trabalho. Uma destas possibilidades é a verificação de correção de respostas textuais, onde o objetivo é identificar vinculações entre amostras textuais que podem ser, por exemplo, diferentes respostas textuais a uma pergunta. Embora sejam utilizadas com bons resultados, as técnicas atualmente aplicadas a este problema apresentam deficiências ou características que diminuem sua precisão ou adequação em diversos contextos. Poucos trabalhos são capazes de realizar a vinculação textual caso seja alterada a flexão verbal, outros não são capazes de identificar informações importantes ou em que posição na frase as informações se encontram. Além disso, poucos trabalhos são adaptados para a língua portuguesa. Este trabalho propõe um modelo de reconhecimento de vinculação textual baseado em regras linguísticas e informações morfossintáticas voltado para ambientes virtuais de ensino e aprendizagem, que busca contornar estes problemas apresentando uma nova abordagem através do uso combinado da análise sintática, morfológica, regras linguísticas, detecção da flexão de voz, tratamento de negação e do uso de sinônimos. O trabalho também apresenta um protótipo desenvolvido para avaliar o modelo proposto. Ao final são apresentados os resultados obtidos, que até o momento são promissores, permitindo a identificação da vinculação textual de diferentes amostras textuais com precisão e flexibilidade relevantes. / The fast evolution of information and communication technologies has enabled the development of modalities of teaching and learning, such as distance education, that allow to reach people previously unable to attend higher education. An important aspect of these modalities is the extensive use of digital mediation resources. These resources can generate a large volume of data that sometimes is not feasible for beneficial manual use by the teachers involved in this interaction. In this context there is a necessity and opportunity for defining tools and approaches that can act to automate part of this work. One of these possibilities is the verification of textual responses correctness, where the goal is to identify linkages between textual samples, which can be, for example, different textual answer to a question. Although presenting good results, techniques currently applied to this problem have deficiencies or characteristics that decrease their accuracy or suitability in several contexts. Few studies are able to perform textual entailment in case the verbal inflection was changed; others are not able to identify important information or position in the sentence where the information is found. Moreover, few works are adapted to Portuguese. This work proposes a model to recognition of textual entailment based on linguistic rules, which seeks to overcome these problems by presenting a new approach through the combined use of syntactic analysis, morphology, linguistic rules, detection of the bending voice, treatment of denial and the use of synonyms. This work also presents a prototype developed to evaluate the model proposed herein. The end results, which are promising, allow the identification of textual linking of different textual samples accurately and with flexibility.
162

Reconhecimento de entidades nomeadas e rela??es no dom?nio de privacidade e responsabiliza??o

Bruckschen, M?rian 20 December 2010 (has links)
Made available in DSpace on 2015-04-14T14:49:38Z (GMT). No. of bitstreams: 1 434166.pdf: 1758256 bytes, checksum: cc66addbe46b0c23f53ed7ab0e0c41a8 (MD5) Previous issue date: 2010-12-20 / O gerenciamento de grandes volumes de informa??o ? uma ?rea de crescente interesse e pesquisa, tanto na academia quanto na ind?stria. Diferentes mecanismos j? foram propostos com o objetivo de facilitar a cria??o, gerenciamento e manuten??o de bases de conhecimento, e recentemente ontologias t?m despontado como um forte candidato para tal fun??o. Ontologias s?o o principal mecanismo para representa??o do conhecimento em contextos tecnol?gicos atuais como o da Web Sem?ntica. Entretanto, a constru??o manual destas ontologias ? custosa, dado o montante de informa??o a ser processada para a execu??o desta tarefa. Com esta motiva??o, este trabalho prop?e que a confec??o de ontologias, mais especificamente a sua popula??o, pode ser automatizada pela tarefa de Reconhecimento de Entidades Nomeadas (REN). O trabalho compreende diferentes tarefas da ?rea de Processamento de Linguagem Natural: Reconhecimento de Entidades Nomeadas, Reconhecimento de Rela??es e Aprendizado de Ontologias. Para a execu??o da tarefa de popula??o de ontologias, foi constru?da manualmente uma ontologia do dom?nio de privacidade e posteriormente desenvolvido um m?todo para executar a sua popula??o atrav?s da tarefa de REN. Este m?todo compreende a popula??o da ontologia com inst?ncias e rela??es. Para validar este m?todo, foi desenvolvido um sistema que o implementa. Este sistema foi testado sobre um corpus montado pela autora deste trabalho. Este corpus ? composto por documentos da ?rea de privacidade e responsabiliza??o, e da legisla??o associada a este tema. S?o apresentados neste trabalho o m?todo, o sistema desenvolvido, as avalia??es a que este trabalho foi submetido e suas conclus?es
163

Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do Brasil

DOMINGUES, Miriam Lúcia Campos Serra 21 October 2011 (has links)
Submitted by Samira Prince (prince@ufpa.br) on 2012-06-01T13:27:50Z No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-01T13:28:30Z (GMT) No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-01T13:28:30Z (GMT). No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2011 / A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável. / Part-of-speech tagging is a basic task required by many applications of natural language processing, such as parsing and machine translation, and by applications of speech processing, for example, speech synthesis. This task consists of tagging words in a sentence with their grammatical categories. Although these applications require taggers with greater precision, the state of the art taggers still achieved accuracy of 96 to 97%. In this thesis, corpus and software resources are investigated for the development of a tagger with accuracy above of that of the state of the art for the Brazilian Portuguese language. Based on a hybrid solution that combines probabilistic tagging with rule-based tagging, the proposed thesis focuses on an exploratory study on the tagging method, size, quality, tag set, and the textual genre of the corpora available for training and testing, and evaluates the disambiguation of new or out-of-vocabulary words found in texts to be tagged. Four corpora were used in experiments: CETENFolha, Bosque CF 7.4, Mac-Morpho, and Selva Científica. The proposed tagging model was based on the use of the method of transformation-based learning (TBL) to which were added three strategies combined in a architecture that integrates the outputs (tagged texts) of two free tools, Treetagger and -TBL, with the modules that were added to the model. In the tagger model trained with Mac-Morpho corpus of journalistic genre, tagging accuracy rates of 98.05% on Mac-Morpho test set and 98.27% on Bosque CF 7.4 were achieved, both of journalistic genres. The performance of the proposed hybrid model tagger was also evaluated in the texts of Selva Científica Corpus, of the scientific genre. Needs of adjustments in the tagger and in corpora were identified and, as result, accuracy rates of 98.07% in Selva Científica, 98.06% in the text set of Mac-Morpho, and 98.30% in the texts of the Bosque CF 7.4 have been achieved. These results are significant because the accuracy rates achieved are higher than those of the state of the art, thus validating the proposed model to obtain a more reliable part-of-speech tagger.
164

Uma solução efetiva para aprendizagem de relacionamentos não taxonômicos de ontologias / An effective solution for learning non taxonomic relationships of ontologies

SERRA, Ivo José da Cunha Serra 28 March 2014 (has links)
Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-08-15T20:12:06Z No. of bitstreams: 1 IvoJoseCunha.pdf: 14173001 bytes, checksum: 931d704f4e5fdefacca2b8ab283f31c4 (MD5) / Made available in DSpace on 2017-08-15T20:12:06Z (GMT). No. of bitstreams: 1 IvoJoseCunha.pdf: 14173001 bytes, checksum: 931d704f4e5fdefacca2b8ab283f31c4 (MD5) Previous issue date: 2014-03-28 / Learngin Non-Taxonomic Relationship is a sub-field of ontology learning and is an approach to automate the extraction of these relationships from textual information sources. Techniques for learning non-taxonomic relationships just like others in the area of Ontology Learning are subject to a great amount of noise since the source of information from which the relationships are extract is unstructured. Therefore, customizable solutions are needed for theses techniques to be applicable to the wideste variety of situations. This Thesis presents TARNT, a Techinique for Learning for Non-Taxonomic Relationship of ontologies from texts in English that employs techniques from Natural Language Processing and statistics to structure text and to select relationship that should be recommended. The control over the execution of its extraction rules and consequently on the recall and precision in the phase "Extraction of candidate relationships", the "apostrophe rule", which gives particular treatment to extractions that have greater probability to be valid ones and "Bag of labels", a refinement technique that has the potential to achieve greater effectiveness than those that operate on relationships consisting of a pair of concepts and a label, are among its positive aspects. Experimental evaluations of TARNT were performed according to two procedures based on the principle of comparing the learned relationship consisting of a pair of concepts and a label, are among its positive aspects. Experimental evaluations of TARNT were performed according to two procedures based on the principle of comparing the learned relationships with reference ones. These experiments consisted in measuring with recall and precision, the effectiveness of the technique in learning non-taxonomic relationships from two corpora in the domains of biology and family law. The results were compared to thet of another approach that uses and algorithm for the extraction of association rules in the Refinement phase. This Thesis also demonstrate the hypothesis that solutions to the Refinement phase that use relationships composed of two ontology concepts and a label are less effective than those that refine relationships composed of only two concepts, since they tend to have lower values for the evaluation measures when considering the same corpus and reference ontology. The demonstration was conducted by a theoretical exposition that consisted of the generalization of the observations made on the results obtained by two techniques that refine relationships of the two types considered. / A Aprendizagem de Relacionamentos Não-Taxonômicos é um sub-campo da Aprendizagem de ontologia e constitui uma abordagem para automatizar a extração desses relacionamentos a partir de fontes de informações textuais. As técnicas de aprendizagem de relacionamentos não taxonômicos, da mesma forma que outras na área de Aprendizagem de Ontologias estão sujeitas a uma grande quantidade de ruído uma vez que a fonte de informação da qual extraem os relacionamentos ser desestruturada. Portanto, soluções customizáveis são necessárias para que essas técnicas sejam aplicáveis a maior variedade possível de situações. O presente trabalho apresentou TARNT, uma Técnica para a Aprendizagem de Relacionamentos Não-Taxonômicos de ontologias a partir de textos na língua inglesa que emprega técnicas de Processamento de Linguagem Natural e estatísticas para etiquetar o texto e selecionar os relacionamentos a serem recomendados. o controle sobre execução de suas regras de extração e consequentemente sobre o recall e precisão na fase "Extração de relacionamentos candidatos"; a "regra de apóstrofo", que confere tratamento particular às extrações que tem maior probabilidade de serem relacionamentos válidos e Bag of labels, solução para a fase de "Refinamento" que apresenta o potencial de obter maior efetividade que as que operam sore relacionamentos compostos por um par de conceitos e um rótulo, estão entre seus aspectos positivos. Avaliações experimentais de TARNT foram realizadas conforme dois procedimentos baseados no princípio de comparação dos relacionamentos aprendidos com os de referência. Esses experimentos consistiram em mensurar com as medidas de avaliação recall e precisão, a efetividade da técnica na aprendizagem de relacionamentos não-taxonômicos a partir de dois corpora nos domínio da biologia e o direito da família. Os resultados obtidos foram ainda comparados aos de outra abordagem que utiliza o algoritmo de extração de regras de associação na fase de "Refinamento". Esse trabalho demostrou ainda a hipótese de pesquisa de que: soluções para a fase de "Refinamento" que utilizam relacionamentos compostos por dois conceitos de uma ontologia e um rótulo são menos efetivas que as que refinam relacionamentos compostos apenas pro dois conceitos, uma vez que esses tendem a apresentar menores valores para as medidas de avaliação quando considerados os mesmos corpus e ontologia de referência. A demonstração foi realizada por meio de uma exposição teórica que consistiu na generalização das observações realizadas sobre os resultados obtidos por duas técnicas que refinam relacionamentos dos dois tipos considerados.
165

Um sistema baseado em conhecimento com interface em língua natural para o ensino de transformações geométricas

Miranda, Gina Magali Horvath 20 May 2009 (has links)
Made available in DSpace on 2016-04-27T16:58:53Z (GMT). No. of bitstreams: 1 Gina Magali Horvath Miranda.pdf: 13959367 bytes, checksum: 51898507e2b8817368b6662941298d4b (MD5) Previous issue date: 2009-05-20 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Our research subject is to develop a computational tool using NLP methods (Natural Language Processing) and insert didactics sequences on the field of Transformational Geometry on that tool, using as support the Theory of Didactical Situations in Mathematics, by Guy Brousseau and Registers of the Semiotics Representation, by Raymond Duval. The technological advances and the increasing interest in technology by the students make a perfect scenery to build a tool to help the proccess of teaching and learning in the context of mathematical education. The research is going to be developed based on the didactics engeneering principles, which one of its functions is to analyze didactics situations in the Theory of Didactical Situations in Mathematics. To develop the computational system we used ontological semantics, which supports, among others, applications such as translation and information extraction. We do not believe that the simple use of a computational tool can provide the learning, but that tool, associated with activities carefully constructed and supported by theories such as Brousseau s and Duval s, whose dedicate to the study of phenomena that intervene with the process of teaching and learning of the mathematics, we observe that our hypothesis is viable, since the students, whose did not possess knowledge of straight line segment, at the end of the use of the tool and appropriate didactics sequences were capable of giving the correct order to a demonstration from phrases already written / Esta pesquisa teve como objetivo desenvolver uma ferramenta computacional, utilizando técnicas de PLN (Processamento de Línguas Naturais) e inserir nesta ferramenta sequências didáticas no campo da Geometria das Transformações, empregando-se como embasamento a Teoria das Situações Didáticas de Guy Brousseau e os Registros de Representação Semiótica de Raymond Duval. Os avanços tecnológicos e o interesse cada vez maior por parte dos alunos pela tecnologia formam, ao que tudo indica, um cenário ideal dentro desse processo de construir uma ferramenta que possa ser utilizada como instrumento de ajuda no ensino e na aprendizagem no contexto da Educação Matemática. A pesquisa foi desenvolvida, usando os princípios da engenharia didática, nos quais uma das funções é analisar situações dentro do quadro teórico da didática matemática. Para desenvolver o sistema computacional, usou-se a semântica ontológica, que suporta aplicações como traduções e extração da informação entre outras. Acredita-se que a simples utilização de uma ferramenta computacional não possa proporcionar o aprendizado, mas, associada a atividades cuidadosamente construídas e apoiadas em teorias, como as de Brousseau e Duval que se dedicam a estudar fenômenos que interferem no processo de ensino e de aprendizagem da Matemática, observou-se que esta hipótese é viável, visto que os alunos que não possuíam conhecimento de segmento de reta, ao final do uso da ferramenta e suas sequências didáticas foram capazes de dar encadeamento necessário a uma demonstração a partir de frases já redigidas
166

Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina / Portuguese named entity recognition using machine learning

Carvalho, Wesley Seidel 24 February 2012 (has links)
O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina. / Named Entity Recognition (NER), a task related to information extraction, aims to classify textual elements according to predefined categories such as names, places, dates etc. This enables the execution of more advanced tasks. NER is a first step towards semantic textual analysis and is also a crucial task for systems of information extraction and other types of systems. In this thesis, I analyze some Machine Learning methods applied to NER tasks, including two methods applied to Portuguese language. I present three ways of evaluating these types of systems found in the literature. I also develop an NER system for the Portuguese language utilizing Machine Learning that entails working with a maximum entropy framework. The results are comparable to the best NER systems for the Portuguese language developed with other Machine Learning alternatives.
167

Tecnologias de codificação assistida para uma classificação internacional de doenças

Abreu, Carla Filipa Moura January 2013 (has links)
Estágio realizado na Fraunhofer - e orientado pela Dra. Liliana Ferreira / Tese de Mestrado Integrado. Engenharia Informática e Computação. Faculdade de Engenharia. Universidade do Porto. 2013
168

[en] DIRECT AND INDIRECT QUOTATION EXTRACTION FOR PORTUGUESE / [pt] EXTRAÇÃO DE CITAÇÕES DIRETAS E INDIRETAS PARA O PORTUGUÊS

RAFAEL DOS REIS SILVA 08 June 2017 (has links)
[pt] Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um Extrator de Citações Diretas e Indiretas para o Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas em diversos idiomas. Nossa proposta difere das anteriores, pois construímos um modelo de Aprendizado de Máquina que, além de indetificar citações diretas, também identifica as citações indiretas. Citações indiretas são difíceis de serem identificadas num texto por não conter delimitações explícitas. Porém, são mais frequentes do que as delimitadas e, por essa razão, possuem grande importância na extração de informação. Por utilizarmos um modelo baseado em Aprendizado de Máquina, podemos facilmente adaptá-lo para outras línguas, bastando apenas uma lista de verbos do dizer num dado idioma. Poucos foram os sistemas propostos anteriormente que atacaram o problema das citações indiretas e nenhum deles para o Português usando Aprendizado de Máquina. Nós construímos um Extrator de Citações usando um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, construímos o corpus QuoTrees 1.0. Nós anotamos este corpus a fim de atacar o problema das citações indiretas. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F1 igual a 66 por cento para o corpus QuoTrees 1.0. / [en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Direct and Indirect Quotation Extraction System for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work, because we build a Machine Learning model that, besides recognizing direct quotations, it also recognizes indirect ones in Portuguese. Indirect quotations are hard to be identified in a text, due to the lack of explicit delimitation. Nevertheless, they happen more often then the delimited ones and, for this reason, have an huge importance on information extraction. Due to the fact that we use a Machine Learning model based, we can easily adapt it to other languages, needing only a list of verbs of speech for a given language. Few were the previously proposed systems that tackled the task of indirect quotations and neither of them for Portuguese using a Machine Learning approach. We build a Quotation Extractor using a model for the Structured Perceptron algorithm. In order to train and evaluate the system, we build QuoTrees 1.0 corpus. We annotate it to tackle the indirect quotation problem. The Structured Perceptron based on weight interval scheduling obtains an F1 score of 66 percent for QuoTrees 1.0 corpus.
169

[en] AUTOMATIC INTERPRETATION OF EQUIPMENT OPERATION REPORTS / [pt] INTERPRETAÇÃO AUTOMÁTICA DE RELATÓRIOS DE OPERAÇÃO DE EQUIPAMENTOS

PEDRO HENRIQUE THOMPSON FURTADO 28 July 2017 (has links)
[pt] As unidades operacionais da área de Exploração e Produção (EeP) da PETROBRAS utilizam relatórios diários para o registro de situações e eventos em Unidades Estacionárias de Produção (UEPs), as conhecidas plataformas de produção de petróleo. Um destes relatórios, o SITOP (Situação Operacional das Unidades Marítimas), é um documento diário em texto livre que apresenta informações numéricas (índices de produção, algumas vazões, etc.) e, principalmente, informações textuais. A parte textual, apesar de não estruturada, encerra uma valiosíssima base de dados de histórico de eventos no ambiente de produção, tais como: quebras de válvulas, falhas em equipamentos de processo, início e término de manutenções, manobras executadas, responsabilidades etc. O valor destes dados é alto, mas o custo da busca de informações também o é, pois se demanda a atenção de técnicos da empresa na leitura de uma enorme quantidade de documentos. O objetivo do presente trabalho é o desenvolvimento de um modelo de processamento de linguagem natural para a identificação, nos textos dos SITOPs, de entidades nomeadas e extração de relações entre estas entidades, descritas formalmente em uma ontologia de domínio aplicada a eventos em unidades de processamento de petróleo e gás em ambiente offshore. Ter-se-á, portanto, um método de estruturação automática da informação presente nestes relatórios operacionais. Os resultados obtidos demonstram que a metodologia é útil para este caso, ainda que passível de melhorias em diferentes frentes. A extração de relações apresenta melhores resultados que a identificação de entidades, o que pode ser explicado pela diferença entre o número de classes das duas tarefas. Verifica-se também que o aumento na quantidade de dados é um dos fatores mais importantes para a melhoria do aprendizado e da eficiência da metodologia como um todo. / [en] The operational units at the Exploration and Production (E and P) area at PETROBRAS make use of daily reports to register situations and events from their Stationary Production Units (SPUs), the well-known petroleum production platforms. One of these reports, called SITOP (the Portuguese acronym for Offshore Unities Operational Situation), is a daily document in free text format that presents numerical information and, mainly, textual information about operational situation of offshore units. The textual section, although unstructured, stores a valuable database with historical events in the production environment, such as: valve breakages, failures in processing equipment, beginning and end of maintenance activities, actions executed, responsibilities, etc. The value of these data is high, as well as the costs of searching relevant information, consuming many hours of attention from technicians and engineers to read the large number of documents. The goal of this dissertation is to develop a model of natural language processing to recognize named entities and extract relations among them, described formally as a domain ontology applied to events in offshore oil and gas processing units. After all, there will be a method for automatic structuring of the information from these operational reports. Our results show that this methodology is useful in SITOP s case, also indicating some possible enhancements. Relation extraction showed better results than named entity recognition, what can be explained by the difference in the amount of classes in these tasks. We also verified that the increase in the amount of data was one of the most important factors for the improvement in learning and methodology efficiency as a whole.
170

Modelo empírico para analisar a robustez de redes semânticas

Rosa, Marcos Grilo 01 April 2016 (has links)
Submitted by Marcos Grilo Rosa (grilo@uefs.br) on 2017-01-05T19:11:59Z No. of bitstreams: 1 tesevsfinalMarcosGrilo.pdf: 11311408 bytes, checksum: 3ce07aff3fe0fb9dc534e80e667eeb5b (MD5) / Rejected by Maria Auxiliadora da Silva Lopes (silopes@ufba.br), reason: Prezado Marcos, Favor registrar os nomes completos dos participantes da banca; inserir o "abstract" e as "key words". Saudações, Maria Auxiliadora Lopes UFBA/Faced/Biblioteca on 2017-01-09T14:10:18Z (GMT) / Submitted by Marcos Grilo Rosa (grilo@uefs.br) on 2017-01-09T17:16:07Z No. of bitstreams: 1 tesevsfinalMarcosGrilo.pdf: 11311408 bytes, checksum: 3ce07aff3fe0fb9dc534e80e667eeb5b (MD5) / Approved for entry into archive by Maria Auxiliadora da Silva Lopes (silopes@ufba.br) on 2017-01-19T14:35:53Z (GMT) No. of bitstreams: 1 tesevsfinalMarcosGrilo.pdf: 11311408 bytes, checksum: 3ce07aff3fe0fb9dc534e80e667eeb5b (MD5) / Made available in DSpace on 2017-01-19T14:35:53Z (GMT). No. of bitstreams: 1 tesevsfinalMarcosGrilo.pdf: 11311408 bytes, checksum: 3ce07aff3fe0fb9dc534e80e667eeb5b (MD5) / No campo da inteligência artificial, redes semânticas são utilizadas para a representação de conhecimento e processamento de linguagem natural. Redes semânticas são sistemas de representação do conhecimento baseados em grafos cujos vértices são palavras e as arestas, os relacionamentos entre as palavras estabelecidos por alguma regra. Lidar com redes semânticas é uma atividade bastante complicada, principalmente, quando se manipula redes com milhares de palavras. Conjecturamos a possibilidade de se representar uma dada rede semântica baseada em títulos de artigos de periódicos científicos (RST) por meio de uma RST uniforme, de modo que esta possua a mesma estrutura topológica e reflita o vocabulário da RST original. O problema da nossa tese consiste em saber qual o menor tamanho de uma RST uniforme que pode ser obtida de uma dada RST. Esta pesquisa visa determinar o ponto crítico no qual ocorre uma mudança topológica de uma RST de modo que a rede obtida reflita o vocabulário da RST original. Realizamos um experimento que consistiu em submeter RST a estratégias de remoção de vértices. Os resultados apontam a existência de uma fração fp de vértices removidos aleatoriamente e uniformemente que mantém a estrutura topológica e reflita o vocabulário da RST original. Desta forma, RST podem ser representadas por RST uniformes mínimas. A representação do conhecimento é determinante em processos e cientes de busca de informações e difusão de conhecimento. Ademais, RST uniformes mínimas poderão auxiliar pesquisadores na busca mais e ciente de temas relacionados ao seu objeto de investigação. / Abstract In the field of artificial intelligence, semantic networks are used for knowledge representation and natural language processing. Semantic networks are graph-based knowledge representation systems whose vertices are words and edges, relationships between words set by a rule. Dealing with semantic networks is a very complicated activity, mainly, when it handles networks with thousands of words. We conjecture the possibility of representing a given semantic network based on titles of scientific papers (RST) by a uniform RST, so that this has the same topological structure and reflect the vocabulary of the original RST. The problem of our thesis is to know what a uniform smaller RST can be obtained from a given RST. This study aims to determine the critical point at which there is a topological change of a RST so that the network obtained reflect the vocabulary of the original RST. We conducted an experiment that it consists to submit RST removing vertices strategies. The results indicate the existence of a fraction fp vertices removed randomly and evenly preserving the topological structure and reflect the vocabulary of the original RST. Thus, RST may be represented by minimum uniform RST. The representation of knowledge is determinant in efficient processes search of information and diffusion of knowledge. In addition, minimum uniform RST can assist researchers in the most efficient search issues related to its investigation.

Page generated in 0.1279 seconds