Spelling suggestions: "subject:"linguagem batural"" "subject:"linguagem datural""
261 |
Uma abordagem semiautomática para identificação de elementos de processo de negócio em texto de linguagem natural / A semi-automatic approach to identify business process elements in natural language textFerreira, Renato César Borges January 2017 (has links)
Para permitir um efetivo gerenciamento de processos de negócio, o primeiro passo é o desenvolvimento de modelos de processo adequados aos objetivos das organizações. Tais modelos são utilizados para descreverem papéis e responsabilidades dos colaboradores nas organizações. Além disso, a modelagem de processos é de grande importância para documentar, entender e automatizar processos. As organizações, geralmente provêm documentos não estruturados e de difícil entendimento por parte dos analistas. Neste panorama, a modelagem de processos se torna demorada e de alto custo, podendo gerar modelos de processo que estão em desacordo com a realidade prevista pelas organizações. A extração de modelos ou fragmentos de processo a partir de descrições textuais pode contribuir para minimizar o esforço necessário à modelagem de processos. Neste contexto, esta dissertação propõe uma abordagem para identificar elementos de processo de negócio em texto em linguagem natural de forma semiautomática. Baseado no estudo de processamento de linguagem natural, foi definido um conjunto de regras de mapeamento para identificar elementos de processo em descrição textual Além disso, para avaliar as regras de mapeamento e viabilizar a abordagem proposta, foi desenvolvido um protótipo capaz de identificar elementos de processo em texto de forma semiautomática. Para medir o desempenho do protótipo proposto, foram utilizadas métricas de recuperação de informação, tais como precisão, revocação e medida-F. Além disso, foram aplicados dois questionários com o objetivo de verificar a aceitação perante os usuários. As avaliações apresentam resultados promissores. A análise de 70 textos, apresentou, em média, 73,61% de precisão, 70,15% de revocação e 71,82% de medida-F. Além disso, os resultados do primeiro e segundo questionários apresentaram, em média, 91,66% de aceitação dos participantes. A principal contribuição deste trabalho é propor regras de mapeamento para identificar elementos de processo em texto em linguagem natural para auxiliar e minimizar o tempo necessário à modelagem de processos realizada pelos analistas de processo. / To enable effective business process management, the first step is the design of appropriate process models to the organization’s objectives. These models are used to describe roles and responsibilities of the employees in an organizations. In addition, business process modeling is very important to report, understand and automate processes. However, the documentation existent in organizations about such processes is mostly unstructured and difficult to be understood by analysts. In this context, process modeling becomes highly time consuming and expensive, generating process models that do not comply with the reality of the organizations. The extracting of process models from textual descriptions may contribute to minimize the effort required in process modeling. In this context, this dissertation proposes a semi-automatic approach to identify process elements in natural language text. Based on the study of natural language processing, it was defined a set of mapping rules to identify process elements in text. In addition, in order to evaluate the mapping rules and to demonstrate the feasibility of the proposed approach, a prototype was developed able to identify process elements in text in a semiautomatic way To measure the performance of the proposed prototype metrics were used to retrieve information such as precision, recall, and F-measure. In addition, two surveys were developed with the purpose of verifying the acceptance of the users. The evaluations present promising results. The analyses of 70 texts presented, on average, 73.61% precision, 70.15% recall and 71.82% F-measure. In addition, the results of the first and second surveys presented on average 91.66% acceptance of the participants. The main contribution of this work is to provide mapping rules for identify process elements in natural language text to support and minimize the time required for process modeling performed by process analysts.
|
262 |
Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do BrasilDOMINGUES, Miriam Lúcia Campos Serra 21 October 2011 (has links)
Submitted by Samira Prince (prince@ufpa.br) on 2012-06-01T13:27:50Z
No. of bitstreams: 2
Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-01T13:28:30Z (GMT) No. of bitstreams: 2
Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-01T13:28:30Z (GMT). No. of bitstreams: 2
Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2011 / A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável. / Part-of-speech tagging is a basic task required by many applications of natural language processing, such as parsing and machine translation, and by applications of speech processing, for example, speech synthesis. This task consists of tagging words in a sentence with their grammatical categories. Although these applications require taggers with greater precision, the state of the art taggers still achieved accuracy of 96 to 97%. In this thesis, corpus and software resources are investigated for the development of a tagger with accuracy above of that of the state of the art for the Brazilian Portuguese language. Based on a hybrid solution that combines probabilistic tagging with rule-based tagging, the proposed thesis focuses on an exploratory study on the tagging method, size, quality, tag set, and the textual genre of the corpora available for training and testing, and evaluates the disambiguation of new or out-of-vocabulary words found in texts to be tagged. Four corpora were used in experiments: CETENFolha, Bosque CF 7.4, Mac-Morpho, and Selva Científica. The proposed tagging model was based on the use of the method of transformation-based learning (TBL) to which were added three strategies combined in a architecture that integrates the outputs (tagged texts) of two free tools, Treetagger and -TBL, with the modules that were added to the model. In the tagger model trained with Mac-Morpho corpus of journalistic genre, tagging accuracy rates of 98.05% on Mac-Morpho test set and 98.27% on Bosque CF 7.4 were achieved, both of journalistic genres. The performance of the proposed hybrid model tagger was also evaluated in the texts of Selva Científica Corpus, of the scientific genre. Needs of adjustments in the tagger and in corpora were identified and, as result, accuracy rates of 98.07% in Selva Científica, 98.06% in the text set of Mac-Morpho, and 98.30% in the texts of the Bosque CF 7.4 have been achieved. These results are significant because the accuracy rates achieved are higher than those of the state of the art, thus validating the proposed model to obtain a more reliable part-of-speech tagger.
|
263 |
SDIP: um ambiente inteligente para a localização de informações na internet / SDIP: an intelligent system to discover information on the internetFernandez, Luis Fernando Nunes January 1995 (has links)
A proposta do trabalho descrito detalhadamente neste texto é implementar um sistema inteligente, que seja capaz de auxiliar os seus usuários na tarefa de localizar e recuperar informações, dentro da rede Internet. Com o intuito de alcançar o objetivo proposto, construímos um sistema que oferece aos seus usuários duas formas distintas, porem integradas, de interfaces: língua natural e gráfica (baseada em menus, janelas etc.). Adicionalmente, a pesquisa das informações é realizada de maneira inteligente, ou seja, baseando-se no conhecimento gerenciado pelo sistema, o qual é construído e estruturado dinamicamente pelo próprio usuário. Em linhas gerais, o presente trabalho está estruturado logicamente em quatro partes, a saber: 1. Estudo introdutório dos mais difundidos sistemas de pesquisa e recuperação de informações, hoje existentes dentro da Internet. Com o crescimento desta rede, aumentaram enormemente a quantidade e a variedade das informações por ela mantidas, e disponibilizadas aos seus usuários. Concomitantemente, diversificaram-se os sistemas que permitem o acesso a este conjunto de informações, distribuídas em centenas de servidores por todo o mundo. Nesse sentido, com o intuito de situar e informar o leitor a respeito do tema, discutimos detidamente os sistemas Archie, gopher, WAIS e WWW; 2. Estudo introdutório a respeito da Discourse Representation Theory (DRT). Em linhas gerais, a DRT é um formalismo para a representação do discurso que faz use de modelos para a avaliação semântica das estruturas geradas, que o representam. Por se tratar de um estudo introdutório, neste trabalho discutiremos tão somente os aspectos relativos a representação do discurso que são propostos pela teoria, dando ênfase a, forma de se representar sentenças simples, notadamente aquelas de interesse do sistema; 3. Estudo detalhado da implementação, descrevendo cada um dos processos que formam o sistema. Neste estudo são abordados os seguintes módulos: Processo Archie: modulo onde está implementadas as facilidades que permitem ao sistema interagir com os servidores Archie; Processo FTP: permite ao SDIP recuperar arquivos remotos, utilizando o protocolo padrão da Internet FTP; Front-end e Interface SABI: possibilitam a realização de consultas bibliográficas ao sistema SABI, instalado na Universidade Federal do Rio Grande do Sul; Servidor de Correio Eletrônico: implementa uma interface alternativa para o acesso ao sistema, realizado, neste caso, por intermédio de mensagens do correio eletrônico; Interface Gráfica: oferece aos usuários um ambiente gráfico para a interação com o sistema; Processo Inteligente: Modulo onde está implementada a parte inteligente do sistema, provendo, por exemplo, as facilidades de interpretação de sentenças da língua portuguesa. 4. Finalmente, no epilogo deste trabalho, mostramos exemplos que ilustram a utilização das facilidades oferecidas pelo ambiente gráfico do SDIP. Descrevendo sucinta.mente o funcionamento do sistema, os comandos e consultas dos usuários podem ser formuladas de duas maneiras distintas. No primeiro caso, o sistema serve apenas como um intermediário para o acesso aos servidores Archie e SABI, oferecendo aos usuários um ambiente gráfico para a interação com estes dois sistemas. Na segunda modalidade, os usuários formulam as suas consultas ou comandos, utilizando-se de sentenças em língua natural. Neste Ultimo caso, quando se tratar de uma consulta, o sistema, utilizando-se de sua base de conhecimento, procurara aperfeiçoar a consulta efetuada pelo usuário, localizando, desta forma, as informações que melhor atendam as necessidades do mesmo. / The proposal of the work describe detailedly in this master dissertation is to implement an intelligent system that will be capable of to help of its users in the task of locate and retrieve informations, inside of the Internet. With the object of reach this goal, was builded a system that offer to its users two distincts types, however integrated, of interfaces: natural language and graphic ( based in menus, windows, etc ). Furthermore, the search of the informations is realized of intelligent way, based it in the knowledgement managed by system, which is builded and structured dinamically by the users. In general lines, the present work are structured logically in four parts, which are listed below: 1. Introdutory study of the most divulgated systems of search and retrieval of informations, today existent inside of the Internet. With growth of this net, increase greatfull the quantity and variety of the informations keeped and published for users by it. Beside it, has appeared to many systems that allow the access to this set of informations, distributed on hundreds of servers in the whole world. In these sense, with the intuit of situate and to inform the reader about the subject, we describe formally the systems archie, gopher, WAIS and WWW , respectively; 2. An Introdutory study of the Discourse Representation Theory (DRT). In this work, the DRT is the formalism utilized for the representation of the discourse that uses models to evaluate semanticly the structures generated, which represent it. In fact, we will discusse in this work so only the aspects relatives to discourse representation that are purposes by theory, given emphasis for the way to represent simple sentences, notory those recognized and important for the system ; 3. Detailed study of the implementation, describing each of the process that compose the system. In this study are described the following modules : Archie Process: Module where are implemented the facilities that allow the system to interact whit the Archie Servers in the Internet; FTP Process: it allows the SDIP to retrieve remote files, utilizing the standard protocol of the Internet, called FTP (File Transfer Protocol); Front-end and Interface SABI: these components are used by system to realize bibliographic queries to SABI manager, installed at Universidade Federal do Rio Grande do Sul; Eletronic Mail Server: it implements an alternative interface to access SDIP, realized in this case, throught eletronic mail messages, which transport firstly the user's query and secondly the system's response; Graphic Interface : it offers to the users a graphical environment for the interaction with the system ; Intelligent Process: module where are implemented the intelligent part of the system, providing, for instance, the facilities for interpretation of sentences wrote in portuguese language. 4. Finally, in the epilogue of this work, we show samples that illustrate the utilization of the facilities implemented at SDIP's graphical environment. Describing the functionability of the system, the users's commands and queries could be formulated of two disctincts ways. In the first case, the system serves only as the intermediary for the access to Archie servers and SABI, offering for its users a graphical environment for the interaction with these two others systems. In the second modality, the users formulate their queries or commands, utilizing sentences in natural language. In this last case, when it is a query, the system utilizing its base of knowledgement, will try to refine the user's question, localizing the set of information that better satisfies his needs.
|
264 |
Uma solução efetiva para aprendizagem de relacionamentos não taxonômicos de ontologias / An effective solution for learning non taxonomic relationships of ontologiesSERRA, Ivo José da Cunha Serra 28 March 2014 (has links)
Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-08-15T20:12:06Z
No. of bitstreams: 1
IvoJoseCunha.pdf: 14173001 bytes, checksum: 931d704f4e5fdefacca2b8ab283f31c4 (MD5) / Made available in DSpace on 2017-08-15T20:12:06Z (GMT). No. of bitstreams: 1
IvoJoseCunha.pdf: 14173001 bytes, checksum: 931d704f4e5fdefacca2b8ab283f31c4 (MD5)
Previous issue date: 2014-03-28 / Learngin Non-Taxonomic Relationship is a sub-field of ontology learning and is an approach to automate the extraction of these relationships from textual information sources. Techniques for learning non-taxonomic relationships just like others in the area of Ontology Learning are subject to a great amount of noise since the source of information from which the relationships are extract is unstructured. Therefore, customizable solutions are needed for theses techniques to be applicable to the wideste variety of situations. This Thesis presents TARNT, a Techinique for Learning for Non-Taxonomic Relationship of ontologies from texts in English that employs techniques from Natural Language Processing and statistics to structure text and to select relationship that should be recommended. The control over the execution of its extraction rules and consequently on the recall and precision in the phase "Extraction of candidate relationships", the "apostrophe rule", which gives particular treatment to extractions that have greater probability to be valid ones and "Bag of labels", a refinement technique that has the potential to achieve greater effectiveness than those that operate on relationships consisting of a pair of concepts and a label, are among its positive aspects. Experimental evaluations of TARNT were performed according to two procedures based on the principle of comparing the learned relationship consisting of a pair of concepts and a label, are among its positive aspects. Experimental evaluations of TARNT were performed according to two procedures based on the principle of comparing the learned relationships with reference ones. These experiments consisted in measuring with recall and precision, the effectiveness of the technique in learning non-taxonomic relationships from two corpora in the domains of biology and family law. The results were compared to thet of another approach that uses and algorithm for the extraction of association rules in the Refinement phase. This Thesis also demonstrate the hypothesis that solutions to the Refinement phase that use relationships composed of two ontology concepts and a label are less effective than those that refine relationships composed of only two concepts, since they tend to have lower values for the evaluation measures when considering the same corpus and reference ontology. The demonstration was conducted by a theoretical exposition that consisted of the generalization of the observations made on the results obtained by two techniques that refine relationships of the two types considered. / A Aprendizagem de Relacionamentos Não-Taxonômicos é um sub-campo da Aprendizagem de ontologia e constitui uma abordagem para automatizar a extração desses relacionamentos a partir de fontes de informações textuais. As técnicas de aprendizagem de relacionamentos não taxonômicos, da mesma forma que outras na área de Aprendizagem de Ontologias estão sujeitas a uma grande quantidade de ruído uma vez que a fonte de informação da qual extraem os relacionamentos ser desestruturada. Portanto, soluções customizáveis são necessárias para que essas técnicas sejam aplicáveis a maior variedade possível de situações. O presente trabalho apresentou TARNT, uma Técnica para a Aprendizagem de Relacionamentos Não-Taxonômicos de ontologias a partir de textos na língua inglesa que emprega técnicas de Processamento de Linguagem Natural e estatísticas para etiquetar o texto e selecionar os relacionamentos a serem recomendados. o controle sobre execução de suas regras de extração e consequentemente sobre o recall e precisão na fase "Extração de relacionamentos candidatos"; a "regra de apóstrofo", que confere tratamento particular às extrações que tem maior probabilidade de serem relacionamentos válidos e Bag of labels, solução para a fase de "Refinamento" que apresenta o potencial de obter maior efetividade que as que operam sore relacionamentos compostos por um par de conceitos e um rótulo, estão entre seus aspectos positivos. Avaliações experimentais de TARNT foram realizadas conforme dois procedimentos baseados no princípio de comparação dos relacionamentos aprendidos com os de referência. Esses experimentos consistiram em mensurar com as medidas de avaliação recall e precisão, a efetividade da técnica na aprendizagem de relacionamentos não-taxonômicos a partir de dois corpora nos domínio da biologia e o direito da família. Os resultados obtidos foram ainda comparados aos de outra abordagem que utiliza o algoritmo de extração de regras de associação na fase de "Refinamento". Esse trabalho demostrou ainda a hipótese de pesquisa de que: soluções para a fase de "Refinamento" que utilizam relacionamentos compostos por dois conceitos de uma ontologia e um rótulo são menos efetivas que as que refinam relacionamentos compostos apenas pro dois conceitos, uma vez que esses tendem a apresentar menores valores para as medidas de avaliação quando considerados os mesmos corpus e ontologia de referência. A demonstração foi realizada por meio de uma exposição teórica que consistiu na generalização das observações realizadas sobre os resultados obtidos por duas técnicas que refinam relacionamentos dos dois tipos considerados.
|
265 |
Um sistema baseado em conhecimento com interface em língua natural para o ensino de transformações geométricasMiranda, Gina Magali Horvath 20 May 2009 (has links)
Made available in DSpace on 2016-04-27T16:58:53Z (GMT). No. of bitstreams: 1
Gina Magali Horvath Miranda.pdf: 13959367 bytes, checksum: 51898507e2b8817368b6662941298d4b (MD5)
Previous issue date: 2009-05-20 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Our research subject is to develop a computational tool using NLP methods (Natural
Language Processing) and insert didactics sequences on the field of Transformational
Geometry on that tool, using as support the Theory of Didactical Situations in
Mathematics, by Guy Brousseau and Registers of the Semiotics Representation, by
Raymond Duval. The technological advances and the increasing interest in technology
by the students make a perfect scenery to build a tool to help the proccess of teaching
and learning in the context of mathematical education. The research is going to be
developed based on the didactics engeneering principles, which one of its functions is to
analyze didactics situations in the Theory of Didactical Situations in Mathematics. To
develop the computational system we used ontological semantics, which supports,
among others, applications such as translation and information extraction. We do not
believe that the simple use of a computational tool can provide the learning, but that
tool, associated with activities carefully constructed and supported by theories such as
Brousseau s and Duval s, whose dedicate to the study of phenomena that intervene with
the process of teaching and learning of the mathematics, we observe that our hypothesis
is viable, since the students, whose did not possess knowledge of straight line segment,
at the end of the use of the tool and appropriate didactics sequences were capable of
giving the correct order to a demonstration from phrases already written / Esta pesquisa teve como objetivo desenvolver uma ferramenta computacional,
utilizando técnicas de PLN (Processamento de Línguas Naturais) e inserir nesta
ferramenta sequências didáticas no campo da Geometria das Transformações,
empregando-se como embasamento a Teoria das Situações Didáticas de Guy Brousseau
e os Registros de Representação Semiótica de Raymond Duval. Os avanços
tecnológicos e o interesse cada vez maior por parte dos alunos pela tecnologia formam,
ao que tudo indica, um cenário ideal dentro desse processo de construir uma ferramenta
que possa ser utilizada como instrumento de ajuda no ensino e na aprendizagem no
contexto da Educação Matemática. A pesquisa foi desenvolvida, usando os princípios
da engenharia didática, nos quais uma das funções é analisar situações dentro do quadro
teórico da didática matemática. Para desenvolver o sistema computacional, usou-se a
semântica ontológica, que suporta aplicações como traduções e extração da informação
entre outras. Acredita-se que a simples utilização de uma ferramenta computacional não
possa proporcionar o aprendizado, mas, associada a atividades cuidadosamente
construídas e apoiadas em teorias, como as de Brousseau e Duval que se dedicam a
estudar fenômenos que interferem no processo de ensino e de aprendizagem da
Matemática, observou-se que esta hipótese é viável, visto que os alunos que não
possuíam conhecimento de segmento de reta, ao final do uso da ferramenta e suas
sequências didáticas foram capazes de dar encadeamento necessário a uma
demonstração a partir de frases já redigidas
|
266 |
Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina / Portuguese named entity recognition using machine learningCarvalho, Wesley Seidel 24 February 2012 (has links)
O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina. / Named Entity Recognition (NER), a task related to information extraction, aims to classify textual elements according to predefined categories such as names, places, dates etc. This enables the execution of more advanced tasks. NER is a first step towards semantic textual analysis and is also a crucial task for systems of information extraction and other types of systems. In this thesis, I analyze some Machine Learning methods applied to NER tasks, including two methods applied to Portuguese language. I present three ways of evaluating these types of systems found in the literature. I also develop an NER system for the Portuguese language utilizing Machine Learning that entails working with a maximum entropy framework. The results are comparable to the best NER systems for the Portuguese language developed with other Machine Learning alternatives.
|
267 |
Tecnologias de codificação assistida para uma classificação internacional de doençasAbreu, Carla Filipa Moura January 2013 (has links)
Estágio realizado na Fraunhofer - e orientado pela Dra. Liliana Ferreira / Tese de Mestrado Integrado. Engenharia Informática e Computação. Faculdade de Engenharia. Universidade do Porto. 2013
|
268 |
[en] DIRECT AND INDIRECT QUOTATION EXTRACTION FOR PORTUGUESE / [pt] EXTRAÇÃO DE CITAÇÕES DIRETAS E INDIRETAS PARA O PORTUGUÊSRAFAEL DOS REIS SILVA 08 June 2017 (has links)
[pt] Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um Extrator de Citações Diretas e Indiretas para o Português. A tarefa
de Extração de Citações já foi abordada usando diversas técnicas em diversos idiomas. Nossa proposta difere das anteriores, pois construímos um modelo de Aprendizado de Máquina que, além de indetificar citações diretas, também identifica as citações indiretas. Citações indiretas são difíceis de serem identificadas num texto por não conter delimitações explícitas. Porém, são mais frequentes do que as delimitadas e, por essa razão, possuem grande importância na extração de informação. Por utilizarmos um modelo baseado em Aprendizado de Máquina, podemos facilmente adaptá-lo para outras línguas, bastando apenas uma lista de verbos do dizer num dado idioma. Poucos foram os sistemas propostos anteriormente que atacaram o
problema das citações indiretas e nenhum deles para o Português usando Aprendizado de Máquina. Nós construímos um Extrator de Citações usando um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, construímos o corpus QuoTrees 1.0. Nós anotamos este corpus a fim de atacar o problema das citações indiretas. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F1 igual a 66 por cento para o corpus QuoTrees 1.0. / [en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Direct and Indirect Quotation Extraction System for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work, because we build a Machine Learning model that, besides recognizing direct quotations, it also recognizes indirect ones in Portuguese. Indirect quotations are hard to be identified in a text, due to the lack of explicit delimitation. Nevertheless, they happen more often then the delimited ones and, for this reason, have an huge importance on information extraction. Due to the fact that we use a Machine Learning model based, we can easily adapt it to other languages, needing only a list of verbs of speech for a given language. Few were the previously proposed systems that tackled the task of indirect quotations and neither of them for Portuguese using a Machine Learning approach. We build a Quotation Extractor using a model for the Structured Perceptron algorithm. In order to train and evaluate the system, we build QuoTrees 1.0 corpus. We annotate it to tackle the indirect quotation problem. The Structured Perceptron based on weight interval scheduling obtains an F1 score of 66 percent for QuoTrees 1.0 corpus.
|
269 |
[en] AUTOMATIC INTERPRETATION OF EQUIPMENT OPERATION REPORTS / [pt] INTERPRETAÇÃO AUTOMÁTICA DE RELATÓRIOS DE OPERAÇÃO DE EQUIPAMENTOSPEDRO HENRIQUE THOMPSON FURTADO 28 July 2017 (has links)
[pt] As unidades operacionais da área de Exploração e Produção (EeP) da PETROBRAS utilizam relatórios diários para o registro de situações e eventos em Unidades Estacionárias de Produção (UEPs), as conhecidas
plataformas de produção de petróleo. Um destes relatórios, o SITOP (Situação Operacional das Unidades Marítimas), é um documento diário em texto livre que apresenta informações numéricas (índices de produção, algumas vazões, etc.) e, principalmente, informações textuais. A parte textual, apesar de não estruturada, encerra uma valiosíssima base de dados de histórico de eventos no ambiente de produção, tais como: quebras de válvulas, falhas em equipamentos de processo, início e término de manutenções, manobras executadas, responsabilidades etc. O valor destes dados é alto, mas o custo da busca de informações também o é, pois se demanda a atenção de técnicos da empresa na leitura de uma enorme quantidade de documentos. O objetivo do presente trabalho é o desenvolvimento de um modelo de processamento de linguagem natural para a identificação, nos textos dos SITOPs, de entidades nomeadas e extração de relações entre estas entidades, descritas formalmente em uma ontologia de domínio aplicada a eventos em unidades de processamento de petróleo e gás em ambiente offshore. Ter-se-á, portanto, um método de estruturação automática da informação presente nestes relatórios operacionais. Os resultados obtidos demonstram que a metodologia é útil para este caso, ainda que passível de melhorias em diferentes frentes. A extração de relações apresenta melhores resultados que a identificação de entidades, o que pode ser explicado pela diferença entre o número de classes das duas tarefas. Verifica-se também que o aumento na quantidade de dados é um dos fatores mais importantes para a melhoria do aprendizado e da eficiência da metodologia como um todo. / [en] The operational units at the Exploration and Production (E and P) area at PETROBRAS make use of daily reports to register situations and events from their Stationary Production Units (SPUs), the well-known petroleum production platforms. One of these reports, called SITOP (the Portuguese acronym for Offshore Unities Operational Situation), is a daily document in free text format that presents numerical information and, mainly, textual information about operational situation of offshore units. The textual section, although unstructured, stores a valuable database with historical events in the production environment, such as: valve breakages, failures in processing equipment, beginning and end of maintenance activities, actions
executed, responsibilities, etc. The value of these data is high, as well as the costs of searching relevant information, consuming many hours of attention from technicians and engineers to read the large number of documents. The goal of this dissertation is to develop a model of natural language processing
to recognize named entities and extract relations among them, described formally as a domain ontology applied to events in offshore oil and gas processing units. After all, there will be a method for automatic structuring of the information from these operational reports. Our results show that this methodology is useful in SITOP s case, also indicating some possible enhancements. Relation extraction showed better results than named entity recognition, what can be explained by the difference in the amount of classes
in these tasks. We also verified that the increase in the amount of data was one of the most important factors for the improvement in learning and methodology efficiency as a whole.
|
270 |
Modelo empírico para analisar a robustez de redes semânticasRosa, Marcos Grilo 01 April 2016 (has links)
Submitted by Marcos Grilo Rosa (grilo@uefs.br) on 2017-01-05T19:11:59Z
No. of bitstreams: 1
tesevsfinalMarcosGrilo.pdf: 11311408 bytes, checksum: 3ce07aff3fe0fb9dc534e80e667eeb5b (MD5) / Rejected by Maria Auxiliadora da Silva Lopes (silopes@ufba.br), reason: Prezado Marcos,
Favor registrar os nomes completos dos participantes da banca; inserir o "abstract" e as "key words".
Saudações,
Maria Auxiliadora Lopes
UFBA/Faced/Biblioteca on 2017-01-09T14:10:18Z (GMT) / Submitted by Marcos Grilo Rosa (grilo@uefs.br) on 2017-01-09T17:16:07Z
No. of bitstreams: 1
tesevsfinalMarcosGrilo.pdf: 11311408 bytes, checksum: 3ce07aff3fe0fb9dc534e80e667eeb5b (MD5) / Approved for entry into archive by Maria Auxiliadora da Silva Lopes (silopes@ufba.br) on 2017-01-19T14:35:53Z (GMT) No. of bitstreams: 1
tesevsfinalMarcosGrilo.pdf: 11311408 bytes, checksum: 3ce07aff3fe0fb9dc534e80e667eeb5b (MD5) / Made available in DSpace on 2017-01-19T14:35:53Z (GMT). No. of bitstreams: 1
tesevsfinalMarcosGrilo.pdf: 11311408 bytes, checksum: 3ce07aff3fe0fb9dc534e80e667eeb5b (MD5) / No campo da inteligência artificial, redes semânticas são utilizadas para a representação de conhecimento e processamento de linguagem natural. Redes semânticas são sistemas de representação do conhecimento baseados em grafos cujos vértices são palavras e as arestas, os relacionamentos entre as palavras estabelecidos por alguma regra. Lidar com redes semânticas é uma atividade bastante complicada, principalmente, quando se manipula redes com milhares de palavras. Conjecturamos a possibilidade de se representar uma dada rede semântica baseada em títulos de artigos de periódicos científicos (RST) por meio de uma RST uniforme, de modo que esta possua a mesma estrutura topológica e reflita o vocabulário da RST original. O problema da nossa tese consiste em saber qual o menor tamanho de uma RST uniforme que pode ser obtida de uma dada RST. Esta pesquisa visa determinar o ponto crítico no qual ocorre uma mudança topológica de uma RST de modo que a rede obtida reflita o vocabulário da RST original. Realizamos um experimento que consistiu em submeter RST a estratégias de remoção de vértices. Os resultados apontam a existência de uma fração fp de vértices removidos aleatoriamente e uniformemente que mantém a estrutura topológica e reflita o vocabulário da RST original. Desta forma, RST podem ser representadas por RST uniformes mínimas. A representação do conhecimento é determinante em processos e cientes de busca de informações e difusão de conhecimento. Ademais, RST uniformes mínimas poderão auxiliar pesquisadores na busca mais e ciente de temas relacionados ao seu objeto de investigação. / Abstract
In the field of artificial intelligence, semantic networks are used for knowledge representation and natural language processing. Semantic networks are graph-based knowledge representation systems whose vertices are words and edges, relationships between words set by a rule. Dealing with semantic networks is a very complicated activity, mainly, when it handles networks with thousands of words. We conjecture the possibility of representing a given semantic network based on titles of scientific papers (RST) by a uniform RST, so that this has the same topological structure and reflect the vocabulary of the original RST. The problem of our thesis is to know what a uniform smaller RST can be obtained from a given RST. This study aims to determine the critical point at which there is a topological change of a RST so that the network obtained reflect the vocabulary of the original RST. We conducted an experiment that it consists to submit RST removing vertices strategies. The results indicate the existence of a fraction fp vertices removed randomly and evenly preserving the topological structure and reflect the vocabulary of the original RST. Thus, RST may be represented by minimum uniform RST. The representation of knowledge is determinant in efficient processes search of information and diffusion of knowledge. In addition, minimum uniform RST can assist researchers in the most efficient search issues related to its investigation.
|
Page generated in 0.0818 seconds