• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 291
  • 49
  • 6
  • 5
  • 5
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 348
  • 348
  • 281
  • 177
  • 151
  • 91
  • 62
  • 56
  • 55
  • 55
  • 52
  • 51
  • 50
  • 47
  • 47
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
331

Terminologia e tradução na localização de software : insumos para o processamento da linguagem natural

Silveira, Fausto Magalhães da January 2013 (has links)
Este trabalho centra-se no processo de QA (na sigla em inglês para quality assurance – ou garantia da qualidade em português) que é feito no setor da localização, visando a melhorar o trabalho do tradutor. Localização consiste em um processo e um campo de atuação profissio-nal que visam a adaptar produtos (geralmente de software) segundo o idioma e as convenções culturais de determinada localidade com o objetivo facilitar a entrada de um produto ou servi-ço em um país ou mercado. Com relação ao QA, uma de suas etapas consiste na validação da terminologia de um projeto de tradução. O QA terminológico envolve o uso de um software que verifica se a terminologia aplicável é usada na tradução. As ocorrências que o software considera incorretas são salvas em uma lista de validação terminológica, que é conferida nor-malmente por um tradutor ou editor. Itens que o tradutor considerar incorretos são corrigidos na tradução; os demais são descartados. Por ignorar aspectos linguísticos, o software gera muito ruído, ou falsos positivos, resultando em listas extensas, que não compensam o tempo dedicado a sua revisão. A fim de prover insumos para solucionar o problema, este trabalho emprega uma abordagem comunicativa, cognitiva e funcional à terminologia e à tradução para analisar uma lista de validação terminológica, em um projeto de localização real, no par de idiomas inglês dos Estados Unidos e português do Brasil. Para tal fim, foi gerada uma lista de validação por meio de um software de QA usado na área da localização. Ocorrências dessa lista foram analisadas e classificadas segundo critérios de base fraseológica, variacional e tra-dutória, além de morfológica e discursiva. O objetivo é oferecer subsídios que norteiem o desenvolvimento de aplicações computacionais linguisticamente motivadas que reduzam a incidência de ruído nestas listas. Os resultados mostram que a maior parte do ruído decorre de fatores linguísticos gerais, como morfológicos e discursivos, indicando também que 1/3 des-tes coocorrem com fenômenos fraseológicos, variacionais e tradutórios. / This paper focuses on the process of Quality Assurance (QA) that is undertaken by the Local-ization industry, aiming at improving the work of translators. Location consists of a process and a professional field whose purpose is to adapt goods or services (usually software-related) according to the language and cultural conventions of a particular locale in order to facilitate market penetration in a given country or market. One of the QA stages consists of validating the terminology on a translation project. The QA for terminology makes use of software to check if the applicable terminology is used in translation. Occurrences that the software iden-tifies as incorrect are saved in a list for terminology validation. The list is usually reviewed by a translator or an editor. The items considered incorrect by the translator are corrected in the translation, and the remaining entries are discarded. Because the software does not take lan-guage aspects into account, a good deal of noise is generated, resulting in large lists that are not cost-effective or time-efficient to review. With the purpose of providing input to solve the problem, this work employs a communicative, cognitive and functional approach to terminol-ogy and translation for the analysis of a terminology validation list in U.S. English and Brazil-ian Portuguese, on a genuine localization project. To complete this task, a list for validation was generated via a well-known QA software product used in the Localization field. Occur-rences from the generated list were analyzed and categorized according to phraseological, variational and translational criteria in addition to morphological and discursive criteria. The objective is providing input to drive the development of linguistically motivated computer applications that may reduce the incidence of noise on the lists. Results show that most of the noise is due to general linguistic factors, such as morphological and discourse aspects, also suggesting that 1/3 of that noise occurs simultaneously with phraseological, variational and translational phenomena.
332

Um sistema de disseminação seletiva da informação baseado em Cross-Document Structure Theory

Beltrame, Walber Antonio Ramos 30 August 2011 (has links)
Made available in DSpace on 2016-12-23T14:33:46Z (GMT). No. of bitstreams: 1 Dissertacao Walber.pdf: 1673761 bytes, checksum: 5ada541492a23b9653e4a80bea3aaa40 (MD5) Previous issue date: 2011-08-30 / A System for Selective Dissemination of Information is a type of information system that aims to harness new intellectual products, from any source, for environments where the probability of interest is high. The inherent challenge is to establish a computational model that maps specific information needs, to a large audience, in a personalized way. Therefore, it is necessary to mediate informational structure of unit, so that includes a plurality of attributes to be considered by process of content selection. In recent publications, systems are proposed based on text markup data (meta-data models), so that treatment of manifest information between computing semi-structured data and inference mechanisms on meta-models. Such approaches only use the data structure associated with the profile of interest. To improve this characteristic, this paper proposes construction of a system for selective dissemination of information based on analysis of multiple discourses through automatic generation of conceptual graphs from texts, introduced in solution also unstructured data (text). The proposed model is motivated by Cross-Document Structure Theory, introduced in area of Natural Language Processing, focusing on automatic generation of summaries. The model aims to establish correlations between semantic of discourse, for example, if there are identical information, additional or contradictory between multiple texts. Thus, an aspects discussed in this dissertation is that these correlations can be used in process of content selection, which had already been shown in other related work. Additionally, the algorithm of the original model is revised in order to make it easy to apply / Um Sistema de Disseminação Seletiva da Informação é um tipo de Sistema de Informação que visa canalizar novas produções intelectuais, provenientes de quaisquer fontes, para ambientes onde a probabilidade de interesse seja alta. O desafio computacional inerente é estabelecer um modelo que mapeie as necessidades específicas de informação, para um grande público, de modo personalizado. Para tanto, é necessário mediar à estruturação da unidade informacional, de maneira que contemple a pluralidade de atributos a serem considerados pelo processo de seleção de conteúdo. Em recentes publicações acadêmicas, são propostos sistemas baseados em marcação de dados sobre textos (modelos de meta-dados), de forma que o tratamento da informação manifesta-se entre computação de dados semi-estruturados e mecanismos de inferência sobre meta-modelos. Tais abordagens utilizam-se apenas da associação da estrutura de dados com o perfil de interesse. Para aperfeiçoar tal característica, este trabalho propõe a construção de um sistema de disseminação seletiva da informação baseado em análise de múltiplos discursos por meio da geração automática de grafos conceituais a partir de textos, concernindo à solução também os dados não estruturados (textos). A proposta é motivada pelo modelo Cross-Document Structure Theory, recentemente difundido na área de Processamento de Língua Natural, voltado para geração automática de resumos. O modelo visa estabelecer correlações de natureza semântica entre discursos, por exemplo, se existem informações idênticas, adicionais ou contraditórias entre múltiplos textos. Desse modo, um dos aspectos discutidos nesta dissertação é que essas correlações podem ser usadas no processo de seleção de conteúdo, o que já fora evidenciado em outros trabalhos correlatos. Adicionalmente, o algoritmo do modelo original é revisado, a fim de torná-lo de fácil aplicabilidade
333

Extrator de conhecimento coletivo : uma ferramenta para democracia participativa / Extractor Collective Knowledge : a tool for participatory democracy

Angelo, Tiago Novaes, 1983- 26 August 2018 (has links)
Orientadores: Ricardo Ribeiro Gudwin, Cesar José Bonjuani Pagan / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-26T04:03:32Z (GMT). No. of bitstreams: 1 Angelo_TiagoNovaes_M.pdf: 3900207 bytes, checksum: 2eed8dd66c9bdc37e4d58e9eac614c9d (MD5) Previous issue date: 2014 / Resumo: O surgimento das Tecnologias de Comunicação e Informação trouxe uma nova perspectiva para o fortalecimento da democracia nas sociedades modernas. A democracia representativa, modelo predominante nas sociedades atuais, atravessa uma crise de credibilidade cuja principal consequência é o afastamento do cidadão na participação política, enfraquecendo os ideais democráticos. Neste contexto, a tecnologia surge como possibilidade para construção de um novo modelo de participação popular que resgate uma cidadania mais ativa, inaugurando o que denomina-se de democracia digital. O objetivo desta pesquisa foi desenvolver e implementar uma ferramenta, denominada "Extrator de Conhecimento Coletivo", com o propósito de conhecer o que um coletivo pensa a respeito de sua realidade a partir de pequenos relatos de seus participantes, dando voz à população num processo de democracia participativa. Os fundamentos teóricos baseiam-se em métodos de mineração de dados, sumarizadores extrativos e redes complexas. A ferramenta foi implementada e testada usando um banco de dados formado por opiniões de clientes a respeito de suas estadias em um Hotel. Os resultados apresentaram-se satisfatórios. Para trabalhos futuros, a proposta é que o Extrator de Conhecimento Coletivo seja o núcleo de processamento de dados de um espaço virtual onde a população pode se expressar e exercer ativamente sua cidadania / Abstract: The emergence of Information and Communication Technologies brought a new perspective to the strengthening of democracy in modern societies. The representative democracy, prevalent model in today's societies, crosses a crisis of credibility whose main consequence is the removal of citizen participation in politics, weakening democratic ideals. In this context, technology emerges as a possibility for construction of a new model of popular participation to rescue more active citizenship, inaugurating what is called digital democracy. The objective of this research was to develop and implement a tool called "Collective Knowledge Extractor", with the purpose of knowing what the collective thinks about his reality through small reports of its participants, giving voice to the people in a process participatory democracy. The theoretical foundations are based on methods of data mining, extractive summarizers and complex networks. The tool was implemented and tested using a database consisting of customer reviews about their stay in a Hotel. The results were satisfactory. For future work, the proposal is that the Extractor Collective Knowledge be the core data processing of a virtual space where people can express themselves and actively exercise their citizenship / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
334

[en] THE BOOSTING AT START ALGORITHM AND ITS APPLICATIONS / [pt] O ALGORITMO BOOSTING AT START E SUAS APLICACOES

JULIO CESAR DUARTE 15 September 2017 (has links)
[pt] Boosting é uma técnica de aprendizado de máquina que combina diversos classificadores fracos com o objetivo de melhorar a acurácia geral. Em cada iteração, o algoritmo atualiza os pesos dos exemplos e constrói um classificador adicional. Um esquema simples de votação é utilizado para combinar os classificadores. O algoritmo mais famoso baseado em Boosting é o AdaBoost. Este algoritmo aumenta os pesos dos exemplos em que os classificadores anteriores cometeram erros. Assim, foca o classificador adicional nos exemplos mais difíceis. Inicialmente, uma distribuição uniforme de pesos é atribúda aos exemplos. Entretanto, não existe garantia que essa seja a melhor escolha para a distribuição inicial. Neste trabalho, apresentamos o Boosting at Start (BAS), uma nova abordagem de aprendizado de máquina baseada em Boosting. O BAS generaliza o AdaBoost permitindo a utilização de uma distribuição inicial arbitrária. Também apresentamos esquemas para determinação de tal distribuição. Além disso, mostramos como adaptar o BAS para esquemas de Aprendizado Semi-supervisionado. Adicionalmente, descrevemos a aplicação do BAS em diferentes problemas de classificação de dados e de texto, comparando o seu desempenho com o algoritmo AdaBoost original e alguns algoritmos do estado-da-arte para tais tarefas. Os resultados experimentais indicam que uma modelagem simples usando o algoritmo BAS gera classificadores eficazes. / [en] Boosting is a Machine Learning technique that combines several weak classifers with the goal of improving the overall accuracy. In each iteration, the algorithm updates the example weights and builds an additional classifer. A simple voting scheme is used to combine the classifers. The most famous Boosting-based algorithm is AdaBoost. This algorithm increases the weights of the examples that were misclassifed by the previous classifers. Thus, it focuses the additional classifer on the hardest examples. Initially, an uniform weight distribution is assigned to the examples. However, there is no guarantee that this is the best choice for the initial distribution. In this work, we present Boosting at Start (BAS), a new Machine Learning approach based on Boosting. BAS generalizes AdaBoost by allowing the use of an arbitrary initial distribution. We present schemes for the determination of such distribution. We also show how to adapt BAS to Semi-supervised learning schemes. Additionally, we describe the application of BAS in different problems of data and text classifcation, comparing its performance with the original AdaBoost algorithm and some state-of-the-art algorithms for such tasks. The experimental results indicate that a simple modelling using the BAS algorithm generates effective classifers.
335

Auxílio na prevenção de doenças crônicas por meio de mapeamento e relacionamento conceitual de informações em biomedicina / Support in the Prevention of Chronic Diseases by means of Mapping and Conceptual Relationship of Biomedical Information

Juliana Tarossi Pollettini 28 November 2011 (has links)
Pesquisas recentes em medicina genômica sugerem que fatores de risco que incidem desde a concepção de uma criança até o final de sua adolescência podem influenciar no desenvolvimento de doenças crônicas da idade adulta. Artigos científicos com descobertas e estudos inovadores sobre o tema indicam que a epigenética deve ser explorada para prevenir doenças de alta prevalência como doenças cardiovasculares, diabetes e obesidade. A grande quantidade de artigos disponibilizados diariamente dificulta a atualização de profissionais, uma vez que buscas por informação exata se tornam complexas e dispendiosas em relação ao tempo gasto na procura e análise dos resultados. Algumas tecnologias e técnicas computacionais podem apoiar a manipulação dos grandes repositórios de informações biomédicas, assim como a geração de conhecimento. O presente trabalho pesquisa a descoberta automática de artigos científicos que relacionem doenças crônicas e fatores de risco para as mesmas em registros clínicos de pacientes. Este trabalho também apresenta o desenvolvimento de um arcabouço de software para sistemas de vigilância que alertem profissionais de saúde sobre problemas no desenvolvimento humano. A efetiva transformação dos resultados de pesquisas biomédicas em conhecimento possível de ser utilizado para beneficiar a saúde pública tem sido considerada um domínio importante da informática. Este domínio é denominado Bioinformática Translacional (BUTTE,2008). Considerando-se que doenças crônicas são, mundialmente, um problema sério de saúde e lideram as causas de mortalidade com 60% de todas as mortes, o presente trabalho poderá possibilitar o uso direto dos resultados dessas pesquisas na saúde pública e pode ser considerado um trabalho de Bioinformática Translacional. / Genomic medicine has suggested that the exposure to risk factors since conception may influence gene expression and consequently induce the development of chronic diseases in adulthood. Scientific papers bringing up these discoveries indicate that epigenetics must be exploited to prevent diseases of high prevalence, such as cardiovascular diseases, diabetes and obesity. A large amount of scientific information burdens health care professionals interested in being updated, once searches for accurate information become complex and expensive. Some computational techniques might support management of large biomedical information repositories and discovery of knowledge. This study presents a framework to support surveillance systems to alert health professionals about human development problems, retrieving scientific papers that relate chronic diseases to risk factors detected on a patient\'s clinical record. As a contribution, healthcare professionals will be able to create a routine with the family, setting up the best growing conditions. According to Butte, the effective transformation of results from biomedical research into knowledge that actually improves public health has been considered an important domain of informatics and has been called Translational Bioinformatics. Since chronic diseases are a serious health problem worldwide and leads the causes of mortality with 60% of all deaths, this scientific investigation will probably enable results from bioinformatics researches to directly benefit public health.
336

Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural / A tool for clinical and epidemiological investigation in cardiology based on natural language processing

André Coutinho Castilla 13 September 2007 (has links)
O registro eletrônico do paciente (REP) está sendo gradativamente implantado no meio médico hospitalar. Grande parte das informações essenciais do REP está armazenada na forma de texto narrativo livre, dificultando operações de procura, análise e comparação de dados. O processamento de linguagem natural (PLN) refere-se a um conjunto de técnicas computacionais, cujo objetivo é a análise de texto através de conhecimentos léxicos, gramaticais e semânticos. O presente projeto propõe a criação de uma ferramenta computacional de investigação clínicoepidemiológica aplicada a textos narrativos médicos. Como metodologia propomos a utilização do processador de linguagem natural especializado em medicina MEDLEE desenvolvido para textos em Inglês. Para que seu uso seja possível textos médicos em Português são traduzidos ao Inglês automaticamente. A tradução automatizada (TA) é realizada utilizando o aplicativo baseado em regras SYSTRAN especialmente configurado para processar textos médicos através da incorporação de terminologias especializadas. O resultado desta seqüência de TA e PLN são informações conceituais que serão investigadas à procura de achados clínicos pré-definidos, atrvés de inferência lógica sobre uma ontologia. O objetivo experimental desta tese foi conduzir um estudo de recuperação de informações em um conjunto de 12.869 relatórios de radiografias torácicas à procura de vinte e dois achados clínicos e radiológicas. A sensibilidade e especificidade médias obtidas em comparação com referência formada pela opinião de três médicos radiologistas foram de 0,91 e 0,99 respectivamente. Os resultados obtidos indicam a viabilidade da procura de achados clínicos em relatórios de radiografias torácicas através desta metodologia de acoplamento da TA e PLN. Conseqüentemente em trabalhos futuros poderá ser ampliado o número de achados investigados, estendida a metodologia para textos de outras modalidades, bem como de outros idiomas / The Electronic Medical Record (EMR) is gradually replacing paper storage on clinical care settings. Most of essential information contained on EMR is stored as free narrative text, imposing several difficulties on automated data extraction and retrieval. Natural language processing (NLP) refers to computational linguistics tools, whose main objective is text analysis using lexical, grammatical and semantic knowledge. This project describes the creation of a computational tool for clinical and epidemiologic queries on narrative medical texts. The proposed methodology uses the specialized natural language processor MEDLEE developed for English language. To use this processor on Portuguese medical texts chest x-ray reports were Machine Translated into English. The machine translation (MT) was performed by SYSTRAN software, a rule based system customized with a specialized lexicon developed for this project. The result of serial coupling of MT an NLP is tagged text which needs further investigation for extracting clinical findings, whish was done by logical inference upon an ontolgy. The experimental objective of this thesis project was to investigate twenty-two clinical and radiological findings on 12.869 chest x-rays reports. Estimated sensitivity and specificity were 0.91 and 0.99 respectively. The gold standard reference was formed by the opinion of three radiologists. The obtained results indicate the viability of extracting clinical findings from chest x-ray reports using the proposed methodology through coupling MT and NLP. Consequently on future works the number of investigated conditions could be expanded. It is also possible to use this methodology on other medical texts, and on texts of other languages
337

[en] METHODOLOGIES FOR CHARACTERIZING AND DETECTING EMOTIONAL DESCRIPTION IN THE PORTUGUESE LANGUAGE / [pt] METODOLOGIAS PARA CARACTERIZAÇÃO E DETECÇÃO DA DESCRIÇÃO DE EMOÇÃO NA LÍNGUA PORTUGUESA

BARBARA CRISTINA MARQUES P RAMOS 29 May 2023 (has links)
[pt] O interesse desta tese recai sobre compreender como os falantes de língua portuguesa a utilizam para materializar a menção de emoção através de um trabalho, sobretudo, linguístico. O objetivo geral da pesquisa é criar recursos para aprimorar a anotação do campo semântico das emoções na língua portuguesa a partir do projeto AC/DC, projeto que reúne e disponibiliza publicamente corpora anotados e recursos para pesquisas na língua portuguesa, e do Emocionário, projeto de anotação semântica e léxico de emoções. Inicialmente, a pesquisa dá um panorama dos estudos de emoção; se alinha às perspectivas que refutam a universalidade das emoções e abordagens que postulam emoções básicas; e contrapõe seu interesse por menção de emoção à já consolidada área de Análise de Sentimento, contrastando cinco léxicos de sentimento e/ou polaridades em língua portuguesa e o Emocionário. A partir de uma ampla varredura nos corpora do AC/DC, três principais caminhos foram percorridos para investigar palavras de emoção: (i) uma análise dos vinte e quatro grupos de emoção que já existiam no léxico do Emocionário a fim de delinear características e desafios no estudo de emoção na língua portuguesa; (ii) a revisão completa um terço dos grupos do léxico do Emocionário; e (iii) buscas pelo padrão léxico-sintático sentimento de N e por expressões anotadas pelo projeto Esqueleto usadas para descrever emoção. A análise dos corpora à luz dos lemas previamente pertencentes aos grupos do léxico do Emocionário evidenciou, dentre outras características, a relevância de expressões lexicalizadas para a análise da descrição de emoção, dos tipos de argumentos de verbos e afixos que podem causar variação de sentido, e de variações de tempo e modo verbal que acarretam mudança de significado. Dentre os desafios estão palavras e expressões polissêmicas e a dificuldade na detecção de diferentes sentidos em palavras que compartilham da mesma classe gramatical, tendo como base somente informações morfossintáticas. Esta análise possibilitou a estruturação e documentação de uma metodologia de revisão que pode vir a ser aplicada nos demais grupos futuramente. As principais contribuições desta tese são decorrentes das análises e explorações em corpora: a limpeza de lemas com sentidos não-emocionais dos grupos do léxico do Emocionário; a criação dos grupos de emoção Ausência e Outra, enriquecendo o léxico; a detecção de mais de novecentos lemas e expressões provenientes das buscas pelo padrão sentimento de N e das conexões estabelecidas entre os campos semânticos de emoção e do corpo humano; além de descobertas de campos lexicais pouco mencionados na literatura sobre emoção, como coletividade, estranhamento, espiritualidade, parentesco e atos automotivados, que auxiliaram na investigação de como os falantes do português cristalizam emoções na língua. / [en] The interest of this thesis lies in understanding how Portuguese speakers use it to materialize the mention of emotion through a linguistic perspective. The general objective of the research is to create resources to improve the annotation of the semantic field of emotions in the Portuguese language based on the AC/DC project, which gathers and makes publicly available annotated corpora and tools for linguistic research on Portuguese language. and Emocionário, which is both a semantic annotation project and lexicon of emotions. Initially, the research gives an overview of emotion studies; aligning itself with perspectives that refute the universality of emotions and approaches that postulate basic emotions; and contrasts the interest in emotion description to the already consolidated area of Sentiment Analysis, comparing five lexicons of emotion and/or polarities in Portuguese to Emocionário. From a broad sweep of the AC/DC corpora, three main paths were taken towards investigating emotion words: (i) an analysis of the twenty-four emotion groups previously composing the Emocionário lexicon in order to delineate characteristics and challenges in the study of emotion description in the Portuguese language; (ii) a thorough revision of one-third of the Emocionário lexicon groups; and (iii) searches for the lexical-syntactic pattern sentimento de N and for expressions annotated by the Esqueleto project used to describe emotion. The corpora analysis in the light of the lemmas previously belonging to the Emocionário lexicon groups showed, amongst other characteristics, the relevance of lexicalized expressions for the analysis of the emotion description, the types of arguments of verbs and affixes that can cause variation in meaning, and variations in tense and verbal mode that lead to a change in meaning. Amongst the challenges are polysemous words and expressions and the difficulty in detecting different meanings in words that share the same grammatical class, based only on morphosyntactic information. This analysis enabled the structuring and documentation of a revision methodology that may be applied in other groups in the future. The main contributions of this thesis derive from the analyzes and explorations in corpora: the exclusion of lemmas with non-emotional meanings from the Emocionário lexicon groups; the creation of emotion groups Ausência and Outra, enriching the lexicon; the detection of more than nine hundred lemmas and expressions from the searches for the sentimento de N pattern and the connections established between the semantic fields of emotion and the human body; in addition to discoveries of lexical fields rarely mentioned in the literature on emotion, such as coletividade, estranhamento, espiritualidade, parentesco e atos automotivados, which helped in the investigation of how Portuguese speakers crystallize emotions in language.
338

[pt] APRENDIZADO ESTRUTURADO COM INDUÇÃO E SELEÇÃO INCREMENTAIS DE ATRIBUTOS PARA ANÁLISE DE DEPENDÊNCIA EM PORTUGUÊS / [en] STRUCTURED LEARNING WITH INCREMENTAL FEATURE INDUCTION AND SELECTION FOR PORTUGUESE DEPENDENCY PARSING

YANELY MILANES BARROSO 09 November 2016 (has links)
[pt] O processamento de linguagem natural busca resolver várias tarefas de complexidade crescente que envolvem o aprendizado de estruturas complexas, como grafos e sequências, para um determinado texto. Por exemplo, a análise de dependência envolve o aprendizado de uma árvore que descreve a estrutura sintática de uma sentença dada. Um método amplamente utilizado para melhorar a representação do conhecimento de domínio em esta tarefa é considerar combinações de atributos usando conjunções lógicas que codificam informação útil com um padrão não-linear. O número total de todas as combinações possíveis para uma conjunção dada cresce exponencialmente no número de atributos e pode resultar em intratabilidade computacional. Também, pode levar a overfitting. Neste cenário, uma técnica para evitar o superajuste e reduzir o conjunto de atributos faz-se necessário. Uma abordagem comum para esta tarefa baseia-se em atribuir uma pontuação a uma árvore de dependência, usando uma função linear do conjunto de atributos. Sabe-se que os modelos lineares esparsos resolvem simultaneamente o problema de seleção de atributos e a estimativa de um modelo linear, através da combinação de um pequeno conjunto de atributos. Neste caso, promover a esparsidade ajuda no controle do superajuste e na compactação do conjunto de atributos. Devido a sua exibilidade, robustez e simplicidade, o algoritmo de perceptron é um método linear discriminante amplamente usado que pode ser modificado para produzir modelos esparsos e para lidar com atributos não-lineares. Propomos a aprendizagem incremental da combinação de um modelo linear esparso com um procedimento de indução de variáveis não-lineares, num cénario de predição estruturada. O modelo linear esparso é obtido através de uma modificação do algoritmo perceptron. O método de indução é Entropy-Guided Feature Generation. A avaliação empírica é realizada usando o conjunto de dados para português da CoNLL 2006 Shared Task. O analisador resultante alcança 92,98 por cento de precisão, que é um desempenho competitivo quando comparado com os sistemas de estado- da-arte. Em sua versão regularizada, o analizador alcança uma precisão de 92,83 por cento , também mostra uma redução notável de 96,17 por cento do número de atributos binários e, reduz o tempo de aprendizagem em quase 90 por cento, quando comparado com a sua versão não regularizada. / [en] Natural language processing requires solving several tasks of increasing complexity, which involve learning to associate structures like graphs and sequences to a given text. For instance, dependency parsing involves learning of a tree that describes the dependency-based syntactic structure of a given sentence. A widely used method to improve domain knowledge representation in this task is to consider combinations of features, called templates, which are used to encode useful information with nonlinear pattern. The total number of all possible feature combinations for a given template grows exponentialy in the number of features and can result in computational intractability. Also, from an statistical point of view, it can lead to overfitting. In this scenario, it is required a technique that avoids overfitting and that reduces the feature set. A very common approach to solve this task is based on scoring a parse tree, using a linear function of a defined set of features. It is well known that sparse linear models simultaneously address the feature selection problem and the estimation of a linear model, by combining a small subset of available features. In this case, sparseness helps control overfitting and performs the selection of the most informative features, which reduces the feature set. Due to its exibility, robustness and simplicity, the perceptron algorithm is one of the most popular linear discriminant methods used to learn such complex representations. This algorithm can be modified to produce sparse models and to handle nonlinear features. We propose the incremental learning of the combination of a sparse linear model with an induction procedure of non-linear variables in a structured prediction scenario. The sparse linear model is obtained through a modifications of the perceptron algorithm. The induction method is the Entropy-Guided Feature Generation. The empirical evaluation is performed using the Portuguese Dependency Parsing data set from the CoNLL 2006 Shared Task. The resulting parser attains 92.98 per cent of accuracy, which is a competitive performance when compared against the state-of-art systems. On its regularized version, it accomplishes an accuracy of 92.83 per cent, shows a striking reduction of 96.17 per cent in the number of binary features and reduces the learning time in almost 90 per cent, when compared to its non regularized version.
339

[en] A QUESTION-ANSWERING CONVERSATIONAL AGENT WITH RECOMMENDATIONS BASED ON A DOMAIN ONTOLOGY / [pt] UM AGENTE CONVERSACIONAL PERGUNTA-RESPOSTA COM RECOMENDAÇÕES BASEADAS EM UMA ONTOLOGIA DE DOMÍNIO

JESSICA PALOMA SOUSA CARDOSO 05 November 2020 (has links)
[pt] A oferta de serviços por meio de interfaces conversacionais, ou chatbots, tem se tornado cada vez mais popular, com aplicações que variam de aplicativos de bancos e reserva de bilheteria a consultas em um banco de dados. No entanto, dado a quantidade massiva de dados disponível em alguns domínios, o usuário pode ter dificuldade em formular as consultas e recuperar as informações desejadas. Esta dissertação tem como objetivo investigar e avaliar o uso de recomendações na busca de informações numa base de dados de filmes através de chatbots. Neste trabalho, implementamos um chatbot por meio do uso de frameworks e técnicas da área de processamento de linguagem natural (NLP - Natural Language Processing). Para o reconhecimento de entidades e intenções, utilizamos o framework RASA NLU. Para a identificação das relações entre essas entidades, utilizamos as redes Transformers. Além disso, propomos diferentes estratégias para recomendações feitas a partir da ontologia de domínio. Para avaliação deste trabalho, conduzimos um estudo com usuários para avaliar o impacto das recomendações no uso do chatbot e aceitação da tecnologia por meio de um questionário baseado no Technology Acceptance Model (TAM). Por fim, discutimos os resultados do estudo, suas limitações e oportunidades de futuras melhorias. / [en] The offer of services provided through conversational interfaces, or chatbots, has become increasingly popular, with applications that range from bank applications and ticket booking to database queries. However, given the massive amount of data available in some domains, the user may find it difficult to formulate queries and retrieve the desired information. This dissertation investigates and evaluates the use of the recommendations in the search for information on a movie database through a chatbot. In this work, we implement a chatbot with the use of frameworks and techniques from the area of natural language processing (NLP). For the recognition of entities and intents, we use the RASA NLU framework. For the identification of relations between those entities, we use the Transformers networks. In addition, we propose different strategies for the recommendation from the domain ontology. To evaluate this work, we have conducted an empirical study with volunteer users to assess the impact of the recommendations on chatbot use and the acceptance of the technology through a survey based on the Technology Acceptance Model (TAM). Lastly, we discuss the results of this study, its limitations, and avenues for future improvements.
340

[en] ANALYSIS OF NATURAL LANGUAGE SCENARIOS / [pt] ANÁLISE DE CENÁRIOS EM LINGUAGEM NATURAL

EDGAR SARMIENTO CALISAYA 28 November 2016 (has links)
[pt] A análise de requisitos desempenha um papel fundamental no processo de desenvolvimento de software. Neste sentido, representações de cenários baseados em linguagem natural são muitas vezes utilizados para descrever especificações de requisitos de software (SRS). Cenários descritos usando linguagem natural podem ser ambíguos e, às vezes, imprecisos. Este problema é parcialmente devido ao fato de que os relacionamentos entre os cenários são raramente representados explicitamente. Como os cenários são utilizados como entrada para as actividades subsequentes do processo de desenvolvimento de software (SD), é muito importante facilitar a sua análise; especialmente para detectar defeitos devido a informações erradas ou falta de informação. Este trabalho propõe uma abordagem baseada em Redes de Petri e técnicas de Processamento de Linguagem Natural como uma forma eficaz para analisar os cenários adquiridos, e que toma descrições textuais de cenários (em conformidade com um metamodelo definido neste trabalho) como entrada e gera um relatório de análise como saída. Para facilitar a análise automática, os cenários são transformados em Redes de Petri (Lugar/Transição) equivalentes. Os cenários e suas Redes de Petri resultantes podem ser analisados automaticamente para avaliar algumas propriedades relacionadas à desambiguidade, completeza, consistência e corretude. Os defeitos identificados podem ser rastreados até os cenários, permitindo a sua revisão. Nós também discutimos como desambiguidade, completeza, consistência e corretude das SRSs baseadas em cenários podem ser decompostas em propriedades relacionadas, e definimos heurísticas para encontrar indicadores de defeitos que prejudicam estas propriedades. Avaliamos nosso trabalho, aplicando a nossa abordagem de análise em quatro estudos de caso. Essa avaliação compara os resultados obtidos pela nossa abordagem automatizada contra os resultados obtidos por um processo de inspeção e com trabalhos relacionados. / [en] Requirements analysis plays a key role in the software development process. Natural language-based scenario representations are often used for writing software requirements specifications (SRS). Scenarios written using natural language may be ambiguous, and, sometimes, inaccurate. This problem is partially due to the fact that relationships among scenarios are rarely represented explicitly. As scenarios are used as input to subsequent activities of the software development process (SD), it is very important to enable their analysis; especially to detect defects due to wrong information or missing information. This work proposes a Petri-Net and Natural Language Processing (NLP) based approach as an effective way to analyze the acquired scenarios, which takes textual description of scenarios (conform to a metamodel defined in this work) as input and generates an analysis report as output. To enable the automated analysis, scenarios are translated into equivalent Place/Transition Petri-Nets. Scenarios and their resulting Petri-Nets can be automatically analyzed to evaluate some properties related to unambiguity, completeness, consistency and correctness. The identified defects can be traced back to the scenarios, allowing their revision. We also discuss how unambiguity, completeness, consistency and correctness of scenario-based SRSs can be decomposed in related properties, and define heuristics for searching defect indicators that hurt these properties. We evaluate our work by applying our analysis approach to four case studies. The evaluation compares the results achieved by our tool-supported approach, with an inspection based approach and with related work.

Page generated in 0.0375 seconds