Global ETD Search

261	A study of the use of natural language processing for conversational agents Wilkens, Rodrigo Souza January 2016 (has links) linguagem é uma marca da humanidade e da consciência, sendo a conversação (ou diálogo) uma das maneiras de comunicacão mais fundamentais que aprendemos quando crianças. Por isso uma forma de fazer um computador mais atrativo para interação com usuários é usando linguagem natural. Dos sistemas com algum grau de capacidade de linguagem desenvolvidos, o chatterbot Eliza é, provavelmente, o primeiro sistema com foco em diálogo. Com o objetivo de tornar a interação mais interessante e útil para o usuário há outras aplicações alem de chatterbots, como agentes conversacionais. Estes agentes geralmente possuem, em algum grau, propriedades como: corpo (com estados cognitivos, incluindo crenças, desejos e intenções ou objetivos); incorporação interativa no mundo real ou virtual (incluindo percepções de eventos, comunicação, habilidade de manipular o mundo e comunicar com outros agentes); e comportamento similar ao humano (incluindo habilidades afetivas). Este tipo de agente tem sido chamado de diversos nomes como agentes animados ou agentes conversacionais incorporados. Um sistema de diálogo possui seis componentes básicos. (1) O componente de reconhecimento de fala que é responsável por traduzir a fala do usuário em texto. (2) O componente de entendimento de linguagem natural que produz uma representação semântica adequada para diálogos, normalmente utilizando gramáticas e ontologias. (3) O gerenciador de tarefa que escolhe os conceitos a serem expressos ao usuário. (4) O componente de geração de linguagem natural que define como expressar estes conceitos em palavras. (5) O gerenciador de diálogo controla a estrutura do diálogo. (6) O sintetizador de voz é responsável por traduzir a resposta do agente em fala. No entanto, não há consenso sobre os recursos necessários para desenvolver agentes conversacionais e a dificuldade envolvida nisso (especialmente em línguas com poucos recursos disponíveis). Este trabalho foca na influência dos componentes de linguagem natural (entendimento e gerência de diálogo) e analisa em especial o uso de sistemas de análise sintática (parser) como parte do desenvolvimento de agentes conversacionais com habilidades de linguagem mais flexível. Este trabalho analisa quais os recursos do analisador sintático contribuem para agentes conversacionais e aborda como os desenvolver, tendo como língua alvo o português (uma língua com poucos recursos disponíveis). Para isto, analisamos as abordagens de entendimento de linguagem natural e identificamos as abordagens de análise sintática que oferecem um bom desempenho. Baseados nesta análise, desenvolvemos um protótipo para avaliar o impacto do uso de analisador sintático em um agente conversacional. / Language is a mark of humanity and conscience, with the conversation (or dialogue) as one of the most fundamental manners of communication that we learn as children. Therefore one way to make a computer more attractive for interaction with users is through the use of natural language. Among the systems with some degree of language capabilities developed, the Eliza chatterbot is probably the first with a focus on dialogue. In order to make the interaction more interesting and useful to the user there are other approaches besides chatterbots, like conversational agents. These agents generally have, to some degree, properties like: a body (with cognitive states, including beliefs, desires and intentions or objectives); an interactive incorporation in the real or virtual world (including perception of events, communication, ability to manipulate the world and communicate with others); and behavior similar to a human (including affective abilities). This type of agents has been called by several terms, including animated agents or embedded conversational agents (ECA). A dialogue system has six basic components. (1) The speech recognition component is responsible for translating the user’s speech into text. (2) The Natural Language Understanding component produces a semantic representation suitable for dialogues, usually using grammars and ontologies. (3) The Task Manager chooses the concepts to be expressed to the user. (4) The Natural Language Generation component defines how to express these concepts in words. (5) The dialog manager controls the structure of the dialogue. (6) The synthesizer is responsible for translating the agents answer into speech. However, there is no consensus about the necessary resources for developing conversational agents and the difficulties involved (especially in resource-poor languages). This work focuses on the influence of natural language components (dialogue understander and manager) and analyses, in particular the use of parsing systems as part of developing conversational agents with more flexible language capabilities. This work analyses what kind of parsing resources contributes to conversational agents and discusses how to develop them targeting Portuguese, which is a resource-poor language. To do so we analyze approaches to the understanding of natural language, and identify parsing approaches that offer good performance, based on which we develop a prototype to evaluate the impact of using a parser in a conversational agent. Processamento : Linguagem natural Agentes inteligentes Inteligência artificial Natural language processing Conversational agents Natural language understanding Parser Combinatory categorial grammar Grammar acquisition Portuguese
262	Uma abordagem semiautomática para identificação de elementos de processo de negócio em texto de linguagem natural / A semi-automatic approach to identify business process elements in natural language text Ferreira, Renato César Borges January 2017 (has links) Para permitir um efetivo gerenciamento de processos de negócio, o primeiro passo é o desenvolvimento de modelos de processo adequados aos objetivos das organizações. Tais modelos são utilizados para descreverem papéis e responsabilidades dos colaboradores nas organizações. Além disso, a modelagem de processos é de grande importância para documentar, entender e automatizar processos. As organizações, geralmente provêm documentos não estruturados e de difícil entendimento por parte dos analistas. Neste panorama, a modelagem de processos se torna demorada e de alto custo, podendo gerar modelos de processo que estão em desacordo com a realidade prevista pelas organizações. A extração de modelos ou fragmentos de processo a partir de descrições textuais pode contribuir para minimizar o esforço necessário à modelagem de processos. Neste contexto, esta dissertação propõe uma abordagem para identificar elementos de processo de negócio em texto em linguagem natural de forma semiautomática. Baseado no estudo de processamento de linguagem natural, foi definido um conjunto de regras de mapeamento para identificar elementos de processo em descrição textual Além disso, para avaliar as regras de mapeamento e viabilizar a abordagem proposta, foi desenvolvido um protótipo capaz de identificar elementos de processo em texto de forma semiautomática. Para medir o desempenho do protótipo proposto, foram utilizadas métricas de recuperação de informação, tais como precisão, revocação e medida-F. Além disso, foram aplicados dois questionários com o objetivo de verificar a aceitação perante os usuários. As avaliações apresentam resultados promissores. A análise de 70 textos, apresentou, em média, 73,61% de precisão, 70,15% de revocação e 71,82% de medida-F. Além disso, os resultados do primeiro e segundo questionários apresentaram, em média, 91,66% de aceitação dos participantes. A principal contribuição deste trabalho é propor regras de mapeamento para identificar elementos de processo em texto em linguagem natural para auxiliar e minimizar o tempo necessário à modelagem de processos realizada pelos analistas de processo. / To enable effective business process management, the first step is the design of appropriate process models to the organization’s objectives. These models are used to describe roles and responsibilities of the employees in an organizations. In addition, business process modeling is very important to report, understand and automate processes. However, the documentation existent in organizations about such processes is mostly unstructured and difficult to be understood by analysts. In this context, process modeling becomes highly time consuming and expensive, generating process models that do not comply with the reality of the organizations. The extracting of process models from textual descriptions may contribute to minimize the effort required in process modeling. In this context, this dissertation proposes a semi-automatic approach to identify process elements in natural language text. Based on the study of natural language processing, it was defined a set of mapping rules to identify process elements in text. In addition, in order to evaluate the mapping rules and to demonstrate the feasibility of the proposed approach, a prototype was developed able to identify process elements in text in a semiautomatic way To measure the performance of the proposed prototype metrics were used to retrieve information such as precision, recall, and F-measure. In addition, two surveys were developed with the purpose of verifying the acceptance of the users. The evaluations present promising results. The analyses of 70 texts presented, on average, 73.61% precision, 70.15% recall and 71.82% F-measure. In addition, the results of the first and second surveys presented on average 91.66% acceptance of the participants. The main contribution of this work is to provide mapping rules for identify process elements in natural language text to support and minimize the time required for process modeling performed by process analysts. Processamento : Linguagem natural Processo de negócios Mapping rules Business process model and notation Business process management Process element Process model Natural language processing Process modeling
263	Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do Brasil DOMINGUES, Miriam Lúcia Campos Serra 21 October 2011 (has links) Submitted by Samira Prince (prince@ufpa.br) on 2012-06-01T13:27:50Z No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-01T13:28:30Z (GMT) No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-01T13:28:30Z (GMT). No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2011 / A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável. / Part-of-speech tagging is a basic task required by many applications of natural language processing, such as parsing and machine translation, and by applications of speech processing, for example, speech synthesis. This task consists of tagging words in a sentence with their grammatical categories. Although these applications require taggers with greater precision, the state of the art taggers still achieved accuracy of 96 to 97%. In this thesis, corpus and software resources are investigated for the development of a tagger with accuracy above of that of the state of the art for the Brazilian Portuguese language. Based on a hybrid solution that combines probabilistic tagging with rule-based tagging, the proposed thesis focuses on an exploratory study on the tagging method, size, quality, tag set, and the textual genre of the corpora available for training and testing, and evaluates the disambiguation of new or out-of-vocabulary words found in texts to be tagged. Four corpora were used in experiments: CETENFolha, Bosque CF 7.4, Mac-Morpho, and Selva Científica. The proposed tagging model was based on the use of the method of transformation-based learning (TBL) to which were added three strategies combined in a architecture that integrates the outputs (tagged texts) of two free tools, Treetagger and -TBL, with the modules that were added to the model. In the tagger model trained with Mac-Morpho corpus of journalistic genre, tagging accuracy rates of 98.05% on Mac-Morpho test set and 98.27% on Bosque CF 7.4 were achieved, both of journalistic genres. The performance of the proposed hybrid model tagger was also evaluated in the texts of Selva Científica Corpus, of the scientific genre. Needs of adjustments in the tagger and in corpora were identified and, as result, accuracy rates of 98.07% in Selva Científica, 98.06% in the text set of Mac-Morpho, and 98.30% in the texts of the Bosque CF 7.4 have been achieved. These results are significant because the accuracy rates achieved are higher than those of the state of the art, thus validating the proposed model to obtain a more reliable part-of-speech tagger. Etiquetagem morfossintática Linguística computacional Linguística de corpus
264	SDIP: um ambiente inteligente para a localização de informações na internet / SDIP: an intelligent system to discover information on the internet Fernandez, Luis Fernando Nunes January 1995 (has links) A proposta do trabalho descrito detalhadamente neste texto é implementar um sistema inteligente, que seja capaz de auxiliar os seus usuários na tarefa de localizar e recuperar informações, dentro da rede Internet. Com o intuito de alcançar o objetivo proposto, construímos um sistema que oferece aos seus usuários duas formas distintas, porem integradas, de interfaces: língua natural e gráfica (baseada em menus, janelas etc.). Adicionalmente, a pesquisa das informações é realizada de maneira inteligente, ou seja, baseando-se no conhecimento gerenciado pelo sistema, o qual é construído e estruturado dinamicamente pelo próprio usuário. Em linhas gerais, o presente trabalho está estruturado logicamente em quatro partes, a saber: 1. Estudo introdutório dos mais difundidos sistemas de pesquisa e recuperação de informações, hoje existentes dentro da Internet. Com o crescimento desta rede, aumentaram enormemente a quantidade e a variedade das informações por ela mantidas, e disponibilizadas aos seus usuários. Concomitantemente, diversificaram-se os sistemas que permitem o acesso a este conjunto de informações, distribuídas em centenas de servidores por todo o mundo. Nesse sentido, com o intuito de situar e informar o leitor a respeito do tema, discutimos detidamente os sistemas Archie, gopher, WAIS e WWW; 2. Estudo introdutório a respeito da Discourse Representation Theory (DRT). Em linhas gerais, a DRT é um formalismo para a representação do discurso que faz use de modelos para a avaliação semântica das estruturas geradas, que o representam. Por se tratar de um estudo introdutório, neste trabalho discutiremos tão somente os aspectos relativos a representação do discurso que são propostos pela teoria, dando ênfase a, forma de se representar sentenças simples, notadamente aquelas de interesse do sistema; 3. Estudo detalhado da implementação, descrevendo cada um dos processos que formam o sistema. Neste estudo são abordados os seguintes módulos: Processo Archie: modulo onde está implementadas as facilidades que permitem ao sistema interagir com os servidores Archie; Processo FTP: permite ao SDIP recuperar arquivos remotos, utilizando o protocolo padrão da Internet FTP; Front-end e Interface SABI: possibilitam a realização de consultas bibliográficas ao sistema SABI, instalado na Universidade Federal do Rio Grande do Sul; Servidor de Correio Eletrônico: implementa uma interface alternativa para o acesso ao sistema, realizado, neste caso, por intermédio de mensagens do correio eletrônico; Interface Gráfica: oferece aos usuários um ambiente gráfico para a interação com o sistema; Processo Inteligente: Modulo onde está implementada a parte inteligente do sistema, provendo, por exemplo, as facilidades de interpretação de sentenças da língua portuguesa. 4. Finalmente, no epilogo deste trabalho, mostramos exemplos que ilustram a utilização das facilidades oferecidas pelo ambiente gráfico do SDIP. Descrevendo sucinta.mente o funcionamento do sistema, os comandos e consultas dos usuários podem ser formuladas de duas maneiras distintas. No primeiro caso, o sistema serve apenas como um intermediário para o acesso aos servidores Archie e SABI, oferecendo aos usuários um ambiente gráfico para a interação com estes dois sistemas. Na segunda modalidade, os usuários formulam as suas consultas ou comandos, utilizando-se de sentenças em língua natural. Neste Ultimo caso, quando se tratar de uma consulta, o sistema, utilizando-se de sua base de conhecimento, procurara aperfeiçoar a consulta efetuada pelo usuário, localizando, desta forma, as informações que melhor atendam as necessidades do mesmo. / The proposal of the work describe detailedly in this master dissertation is to implement an intelligent system that will be capable of to help of its users in the task of locate and retrieve informations, inside of the Internet. With the object of reach this goal, was builded a system that offer to its users two distincts types, however integrated, of interfaces: natural language and graphic ( based in menus, windows, etc ). Furthermore, the search of the informations is realized of intelligent way, based it in the knowledgement managed by system, which is builded and structured dinamically by the users. In general lines, the present work are structured logically in four parts, which are listed below: 1. Introdutory study of the most divulgated systems of search and retrieval of informations, today existent inside of the Internet. With growth of this net, increase greatfull the quantity and variety of the informations keeped and published for users by it. Beside it, has appeared to many systems that allow the access to this set of informations, distributed on hundreds of servers in the whole world. In these sense, with the intuit of situate and to inform the reader about the subject, we describe formally the systems archie, gopher, WAIS and WWW , respectively; 2. An Introdutory study of the Discourse Representation Theory (DRT). In this work, the DRT is the formalism utilized for the representation of the discourse that uses models to evaluate semanticly the structures generated, which represent it. In fact, we will discusse in this work so only the aspects relatives to discourse representation that are purposes by theory, given emphasis for the way to represent simple sentences, notory those recognized and important for the system ; 3. Detailed study of the implementation, describing each of the process that compose the system. In this study are described the following modules : Archie Process: Module where are implemented the facilities that allow the system to interact whit the Archie Servers in the Internet; FTP Process: it allows the SDIP to retrieve remote files, utilizing the standard protocol of the Internet, called FTP (File Transfer Protocol); Front-end and Interface SABI: these components are used by system to realize bibliographic queries to SABI manager, installed at Universidade Federal do Rio Grande do Sul; Eletronic Mail Server: it implements an alternative interface to access SDIP, realized in this case, throught eletronic mail messages, which transport firstly the user's query and secondly the system's response; Graphic Interface : it offers to the users a graphical environment for the interaction with the system ; Intelligent Process: module where are implemented the intelligent part of the system, providing, for instance, the facilities for interpretation of sentences wrote in portuguese language. 4. Finally, in the epilogue of this work, we show samples that illustrate the utilization of the facilities implemented at SDIP's graphical environment. Describing the functionability of the system, the users's commands and queries could be formulated of two disctincts ways. In the first case, the system serves only as the intermediary for the access to Archie servers and SABI, offering for its users a graphical environment for the interaction with these two others systems. In the second modality, the users formulate their queries or commands, utilizing sentences in natural language. In this last case, when it is a query, the system utilizing its base of knowledgement, will try to refine the user's question, localizing the set of information that better satisfies his needs. Inteligência artificial Redes : Computadores Linguagem natural Representacao : Conhecimento Internet World Wide Web (WWW) Natural language Discourse representation Knowledge representation Archie Gopher WAIS
265	Uma solução efetiva para aprendizagem de relacionamentos não taxonômicos de ontologias / An effective solution for learning non taxonomic relationships of ontologies SERRA, Ivo José da Cunha Serra 28 March 2014 (has links) Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-08-15T20:12:06Z No. of bitstreams: 1 IvoJoseCunha.pdf: 14173001 bytes, checksum: 931d704f4e5fdefacca2b8ab283f31c4 (MD5) / Made available in DSpace on 2017-08-15T20:12:06Z (GMT). No. of bitstreams: 1 IvoJoseCunha.pdf: 14173001 bytes, checksum: 931d704f4e5fdefacca2b8ab283f31c4 (MD5) Previous issue date: 2014-03-28 / Learngin Non-Taxonomic Relationship is a sub-field of ontology learning and is an approach to automate the extraction of these relationships from textual information sources. Techniques for learning non-taxonomic relationships just like others in the area of Ontology Learning are subject to a great amount of noise since the source of information from which the relationships are extract is unstructured. Therefore, customizable solutions are needed for theses techniques to be applicable to the wideste variety of situations. This Thesis presents TARNT, a Techinique for Learning for Non-Taxonomic Relationship of ontologies from texts in English that employs techniques from Natural Language Processing and statistics to structure text and to select relationship that should be recommended. The control over the execution of its extraction rules and consequently on the recall and precision in the phase "Extraction of candidate relationships", the "apostrophe rule", which gives particular treatment to extractions that have greater probability to be valid ones and "Bag of labels", a refinement technique that has the potential to achieve greater effectiveness than those that operate on relationships consisting of a pair of concepts and a label, are among its positive aspects. Experimental evaluations of TARNT were performed according to two procedures based on the principle of comparing the learned relationship consisting of a pair of concepts and a label, are among its positive aspects. Experimental evaluations of TARNT were performed according to two procedures based on the principle of comparing the learned relationships with reference ones. These experiments consisted in measuring with recall and precision, the effectiveness of the technique in learning non-taxonomic relationships from two corpora in the domains of biology and family law. The results were compared to thet of another approach that uses and algorithm for the extraction of association rules in the Refinement phase. This Thesis also demonstrate the hypothesis that solutions to the Refinement phase that use relationships composed of two ontology concepts and a label are less effective than those that refine relationships composed of only two concepts, since they tend to have lower values for the evaluation measures when considering the same corpus and reference ontology. The demonstration was conducted by a theoretical exposition that consisted of the generalization of the observations made on the results obtained by two techniques that refine relationships of the two types considered. / A Aprendizagem de Relacionamentos Não-Taxonômicos é um sub-campo da Aprendizagem de ontologia e constitui uma abordagem para automatizar a extração desses relacionamentos a partir de fontes de informações textuais. As técnicas de aprendizagem de relacionamentos não taxonômicos, da mesma forma que outras na área de Aprendizagem de Ontologias estão sujeitas a uma grande quantidade de ruído uma vez que a fonte de informação da qual extraem os relacionamentos ser desestruturada. Portanto, soluções customizáveis são necessárias para que essas técnicas sejam aplicáveis a maior variedade possível de situações. O presente trabalho apresentou TARNT, uma Técnica para a Aprendizagem de Relacionamentos Não-Taxonômicos de ontologias a partir de textos na língua inglesa que emprega técnicas de Processamento de Linguagem Natural e estatísticas para etiquetar o texto e selecionar os relacionamentos a serem recomendados. o controle sobre execução de suas regras de extração e consequentemente sobre o recall e precisão na fase "Extração de relacionamentos candidatos"; a "regra de apóstrofo", que confere tratamento particular às extrações que tem maior probabilidade de serem relacionamentos válidos e Bag of labels, solução para a fase de "Refinamento" que apresenta o potencial de obter maior efetividade que as que operam sore relacionamentos compostos por um par de conceitos e um rótulo, estão entre seus aspectos positivos. Avaliações experimentais de TARNT foram realizadas conforme dois procedimentos baseados no princípio de comparação dos relacionamentos aprendidos com os de referência. Esses experimentos consistiram em mensurar com as medidas de avaliação recall e precisão, a efetividade da técnica na aprendizagem de relacionamentos não-taxonômicos a partir de dois corpora nos domínio da biologia e o direito da família. Os resultados obtidos foram ainda comparados aos de outra abordagem que utiliza o algoritmo de extração de regras de associação na fase de "Refinamento". Esse trabalho demostrou ainda a hipótese de pesquisa de que: soluções para a fase de "Refinamento" que utilizam relacionamentos compostos por dois conceitos de uma ontologia e um rótulo são menos efetivas que as que refinam relacionamentos compostos apenas pro dois conceitos, uma vez que esses tendem a apresentar menores valores para as medidas de avaliação quando considerados os mesmos corpus e ontologia de referência. A demonstração foi realizada por meio de uma exposição teórica que consistiu na generalização das observações realizadas sobre os resultados obtidos por duas técnicas que refinam relacionamentos dos dois tipos considerados. Ontologias Processamento da linguagem natural Aprendizagem de máquina Ontology Natural language processing Machine Learning Ciência da Computação
266	Um sistema baseado em conhecimento com interface em língua natural para o ensino de transformações geométricas Miranda, Gina Magali Horvath 20 May 2009 (has links) Made available in DSpace on 2016-04-27T16:58:53Z (GMT). No. of bitstreams: 1 Gina Magali Horvath Miranda.pdf: 13959367 bytes, checksum: 51898507e2b8817368b6662941298d4b (MD5) Previous issue date: 2009-05-20 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Our research subject is to develop a computational tool using NLP methods (Natural Language Processing) and insert didactics sequences on the field of Transformational Geometry on that tool, using as support the Theory of Didactical Situations in Mathematics, by Guy Brousseau and Registers of the Semiotics Representation, by Raymond Duval. The technological advances and the increasing interest in technology by the students make a perfect scenery to build a tool to help the proccess of teaching and learning in the context of mathematical education. The research is going to be developed based on the didactics engeneering principles, which one of its functions is to analyze didactics situations in the Theory of Didactical Situations in Mathematics. To develop the computational system we used ontological semantics, which supports, among others, applications such as translation and information extraction. We do not believe that the simple use of a computational tool can provide the learning, but that tool, associated with activities carefully constructed and supported by theories such as Brousseau s and Duval s, whose dedicate to the study of phenomena that intervene with the process of teaching and learning of the mathematics, we observe that our hypothesis is viable, since the students, whose did not possess knowledge of straight line segment, at the end of the use of the tool and appropriate didactics sequences were capable of giving the correct order to a demonstration from phrases already written / Esta pesquisa teve como objetivo desenvolver uma ferramenta computacional, utilizando técnicas de PLN (Processamento de Línguas Naturais) e inserir nesta ferramenta sequências didáticas no campo da Geometria das Transformações, empregando-se como embasamento a Teoria das Situações Didáticas de Guy Brousseau e os Registros de Representação Semiótica de Raymond Duval. Os avanços tecnológicos e o interesse cada vez maior por parte dos alunos pela tecnologia formam, ao que tudo indica, um cenário ideal dentro desse processo de construir uma ferramenta que possa ser utilizada como instrumento de ajuda no ensino e na aprendizagem no contexto da Educação Matemática. A pesquisa foi desenvolvida, usando os princípios da engenharia didática, nos quais uma das funções é analisar situações dentro do quadro teórico da didática matemática. Para desenvolver o sistema computacional, usou-se a semântica ontológica, que suporta aplicações como traduções e extração da informação entre outras. Acredita-se que a simples utilização de uma ferramenta computacional não possa proporcionar o aprendizado, mas, associada a atividades cuidadosamente construídas e apoiadas em teorias, como as de Brousseau e Duval que se dedicam a estudar fenômenos que interferem no processo de ensino e de aprendizagem da Matemática, observou-se que esta hipótese é viável, visto que os alunos que não possuíam conhecimento de segmento de reta, ao final do uso da ferramenta e suas sequências didáticas foram capazes de dar encadeamento necessário a uma demonstração a partir de frases já redigidas Processamento de línguas naturais Geometria das transformações Matematica -- Estudo e ensino Transformacoes (Matematica) Natural language processing Transformational geometry
267	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina / Portuguese named entity recognition using machine learning Carvalho, Wesley Seidel 24 February 2012 (has links) O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina. / Named Entity Recognition (NER), a task related to information extraction, aims to classify textual elements according to predefined categories such as names, places, dates etc. This enables the execution of more advanced tasks. NER is a first step towards semantic textual analysis and is also a crucial task for systems of information extraction and other types of systems. In this thesis, I analyze some Machine Learning methods applied to NER tasks, including two methods applied to Portuguese language. I present three ways of evaluating these types of systems found in the literature. I also develop an NER system for the Portuguese language utilizing Machine Learning that entails working with a maximum entropy framework. The results are comparable to the best NER systems for the Portuguese language developed with other Machine Learning alternatives. Aprendizado de Máquina Information Extraction Machine Learning Máxima Entropia Maximum Entropy Framework Named Entity Recognition Natural Language Processing. PLN Processamento de Linguagem Natural Reconhecimento de Entidades Mencionadas Reconhecimento de Entidades Nomeadas REM
268	Tecnologias de codificação assistida para uma classificação internacional de doenças Abreu, Carla Filipa Moura January 2013 (has links) Estágio realizado na Fraunhofer - e orientado pela Dra. Liliana Ferreira / Tese de Mestrado Integrado. Engenharia Informática e Computação. Faculdade de Engenharia. Universidade do Porto. 2013 Tecnologias de codificação Mineração de texto Estração de informação Reconhecimento de entidades mencionadas Processamento de linguagem natural Codificação assistida por computador Codificação automática
269	[en] DIRECT AND INDIRECT QUOTATION EXTRACTION FOR PORTUGUESE / [pt] EXTRAÇÃO DE CITAÇÕES DIRETAS E INDIRETAS PARA O PORTUGUÊS RAFAEL DOS REIS SILVA 08 June 2017 (has links) [pt] Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um Extrator de Citações Diretas e Indiretas para o Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas em diversos idiomas. Nossa proposta difere das anteriores, pois construímos um modelo de Aprendizado de Máquina que, além de indetificar citações diretas, também identifica as citações indiretas. Citações indiretas são difíceis de serem identificadas num texto por não conter delimitações explícitas. Porém, são mais frequentes do que as delimitadas e, por essa razão, possuem grande importância na extração de informação. Por utilizarmos um modelo baseado em Aprendizado de Máquina, podemos facilmente adaptá-lo para outras línguas, bastando apenas uma lista de verbos do dizer num dado idioma. Poucos foram os sistemas propostos anteriormente que atacaram o problema das citações indiretas e nenhum deles para o Português usando Aprendizado de Máquina. Nós construímos um Extrator de Citações usando um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, construímos o corpus QuoTrees 1.0. Nós anotamos este corpus a fim de atacar o problema das citações indiretas. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F1 igual a 66 por cento para o corpus QuoTrees 1.0. / [en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Direct and Indirect Quotation Extraction System for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work, because we build a Machine Learning model that, besides recognizing direct quotations, it also recognizes indirect ones in Portuguese. Indirect quotations are hard to be identified in a text, due to the lack of explicit delimitation. Nevertheless, they happen more often then the delimited ones and, for this reason, have an huge importance on information extraction. Due to the fact that we use a Machine Learning model based, we can easily adapt it to other languages, needing only a list of verbs of speech for a given language. Few were the previously proposed systems that tackled the task of indirect quotations and neither of them for Portuguese using a Machine Learning approach. We build a Quotation Extractor using a model for the Structured Perceptron algorithm. In order to train and evaluate the system, we build QuoTrees 1.0 corpus. We annotate it to tackle the indirect quotation problem. The Structured Perceptron based on weight interval scheduling obtains an F1 score of 66 percent for QuoTrees 1.0 corpus. [pt] EXTRACAO DE INFORMACAO [en] EXTRATION OF INFORMATION [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [pt] EXTRACAO DE CITACOES [en] QUOTATION EXTRACTION [pt] PERCEPTRON ESTRUTURADO [pt] AGENDAMENTO DE TAREFAS PONDERADO
270	[en] AUTOMATIC INTERPRETATION OF EQUIPMENT OPERATION REPORTS / [pt] INTERPRETAÇÃO AUTOMÁTICA DE RELATÓRIOS DE OPERAÇÃO DE EQUIPAMENTOS PEDRO HENRIQUE THOMPSON FURTADO 28 July 2017 (has links) [pt] As unidades operacionais da área de Exploração e Produção (EeP) da PETROBRAS utilizam relatórios diários para o registro de situações e eventos em Unidades Estacionárias de Produção (UEPs), as conhecidas plataformas de produção de petróleo. Um destes relatórios, o SITOP (Situação Operacional das Unidades Marítimas), é um documento diário em texto livre que apresenta informações numéricas (índices de produção, algumas vazões, etc.) e, principalmente, informações textuais. A parte textual, apesar de não estruturada, encerra uma valiosíssima base de dados de histórico de eventos no ambiente de produção, tais como: quebras de válvulas, falhas em equipamentos de processo, início e término de manutenções, manobras executadas, responsabilidades etc. O valor destes dados é alto, mas o custo da busca de informações também o é, pois se demanda a atenção de técnicos da empresa na leitura de uma enorme quantidade de documentos. O objetivo do presente trabalho é o desenvolvimento de um modelo de processamento de linguagem natural para a identificação, nos textos dos SITOPs, de entidades nomeadas e extração de relações entre estas entidades, descritas formalmente em uma ontologia de domínio aplicada a eventos em unidades de processamento de petróleo e gás em ambiente offshore. Ter-se-á, portanto, um método de estruturação automática da informação presente nestes relatórios operacionais. Os resultados obtidos demonstram que a metodologia é útil para este caso, ainda que passível de melhorias em diferentes frentes. A extração de relações apresenta melhores resultados que a identificação de entidades, o que pode ser explicado pela diferença entre o número de classes das duas tarefas. Verifica-se também que o aumento na quantidade de dados é um dos fatores mais importantes para a melhoria do aprendizado e da eficiência da metodologia como um todo. / [en] The operational units at the Exploration and Production (E and P) area at PETROBRAS make use of daily reports to register situations and events from their Stationary Production Units (SPUs), the well-known petroleum production platforms. One of these reports, called SITOP (the Portuguese acronym for Offshore Unities Operational Situation), is a daily document in free text format that presents numerical information and, mainly, textual information about operational situation of offshore units. The textual section, although unstructured, stores a valuable database with historical events in the production environment, such as: valve breakages, failures in processing equipment, beginning and end of maintenance activities, actions executed, responsibilities, etc. The value of these data is high, as well as the costs of searching relevant information, consuming many hours of attention from technicians and engineers to read the large number of documents. The goal of this dissertation is to develop a model of natural language processing to recognize named entities and extract relations among them, described formally as a domain ontology applied to events in offshore oil and gas processing units. After all, there will be a method for automatic structuring of the information from these operational reports. Our results show that this methodology is useful in SITOP s case, also indicating some possible enhancements. Relation extraction showed better results than named entity recognition, what can be explained by the difference in the amount of classes in these tasks. We also verified that the increase in the amount of data was one of the most important factors for the improvement in learning and methodology efficiency as a whole. [pt] GAS NATURAL [en] NATURAL GAS [pt] PETROLEO [en] PETROLEUM [pt] ONTOLOGIAS [en] ONTOLOGIES [pt] APRENDIZADO AUTOMATICO [en] AUTOMATIC LEARNING [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING

Search results