Spelling suggestions: "subject:"linguagem batural"" "subject:"linguagem datural""
331 |
Terminologia e tradução na localização de software : insumos para o processamento da linguagem naturalSilveira, Fausto Magalhães da January 2013 (has links)
Este trabalho centra-se no processo de QA (na sigla em inglês para quality assurance – ou garantia da qualidade em português) que é feito no setor da localização, visando a melhorar o trabalho do tradutor. Localização consiste em um processo e um campo de atuação profissio-nal que visam a adaptar produtos (geralmente de software) segundo o idioma e as convenções culturais de determinada localidade com o objetivo facilitar a entrada de um produto ou servi-ço em um país ou mercado. Com relação ao QA, uma de suas etapas consiste na validação da terminologia de um projeto de tradução. O QA terminológico envolve o uso de um software que verifica se a terminologia aplicável é usada na tradução. As ocorrências que o software considera incorretas são salvas em uma lista de validação terminológica, que é conferida nor-malmente por um tradutor ou editor. Itens que o tradutor considerar incorretos são corrigidos na tradução; os demais são descartados. Por ignorar aspectos linguísticos, o software gera muito ruído, ou falsos positivos, resultando em listas extensas, que não compensam o tempo dedicado a sua revisão. A fim de prover insumos para solucionar o problema, este trabalho emprega uma abordagem comunicativa, cognitiva e funcional à terminologia e à tradução para analisar uma lista de validação terminológica, em um projeto de localização real, no par de idiomas inglês dos Estados Unidos e português do Brasil. Para tal fim, foi gerada uma lista de validação por meio de um software de QA usado na área da localização. Ocorrências dessa lista foram analisadas e classificadas segundo critérios de base fraseológica, variacional e tra-dutória, além de morfológica e discursiva. O objetivo é oferecer subsídios que norteiem o desenvolvimento de aplicações computacionais linguisticamente motivadas que reduzam a incidência de ruído nestas listas. Os resultados mostram que a maior parte do ruído decorre de fatores linguísticos gerais, como morfológicos e discursivos, indicando também que 1/3 des-tes coocorrem com fenômenos fraseológicos, variacionais e tradutórios. / This paper focuses on the process of Quality Assurance (QA) that is undertaken by the Local-ization industry, aiming at improving the work of translators. Location consists of a process and a professional field whose purpose is to adapt goods or services (usually software-related) according to the language and cultural conventions of a particular locale in order to facilitate market penetration in a given country or market. One of the QA stages consists of validating the terminology on a translation project. The QA for terminology makes use of software to check if the applicable terminology is used in translation. Occurrences that the software iden-tifies as incorrect are saved in a list for terminology validation. The list is usually reviewed by a translator or an editor. The items considered incorrect by the translator are corrected in the translation, and the remaining entries are discarded. Because the software does not take lan-guage aspects into account, a good deal of noise is generated, resulting in large lists that are not cost-effective or time-efficient to review. With the purpose of providing input to solve the problem, this work employs a communicative, cognitive and functional approach to terminol-ogy and translation for the analysis of a terminology validation list in U.S. English and Brazil-ian Portuguese, on a genuine localization project. To complete this task, a list for validation was generated via a well-known QA software product used in the Localization field. Occur-rences from the generated list were analyzed and categorized according to phraseological, variational and translational criteria in addition to morphological and discursive criteria. The objective is providing input to drive the development of linguistically motivated computer applications that may reduce the incidence of noise on the lists. Results show that most of the noise is due to general linguistic factors, such as morphological and discourse aspects, also suggesting that 1/3 of that noise occurs simultaneously with phraseological, variational and translational phenomena.
|
332 |
Um sistema de disseminação seletiva da informação baseado em Cross-Document Structure TheoryBeltrame, Walber Antonio Ramos 30 August 2011 (has links)
Made available in DSpace on 2016-12-23T14:33:46Z (GMT). No. of bitstreams: 1
Dissertacao Walber.pdf: 1673761 bytes, checksum: 5ada541492a23b9653e4a80bea3aaa40 (MD5)
Previous issue date: 2011-08-30 / A System for Selective Dissemination of Information is a type of information system that aims to harness new intellectual products, from any source, for environments where the probability of interest is high. The inherent challenge is to establish a computational model that maps specific information needs, to a large audience, in a personalized way. Therefore, it is necessary to mediate informational structure of unit, so that includes a plurality of attributes to be considered by process of content selection. In recent publications, systems are proposed based on text markup data (meta-data models), so that treatment of manifest information between computing semi-structured data and inference mechanisms on meta-models. Such approaches only use the data structure associated with the profile of interest. To improve this characteristic, this paper proposes construction of a system for selective dissemination of information based on analysis of multiple discourses through automatic generation of conceptual graphs from texts, introduced in solution also unstructured data (text). The proposed model is motivated by Cross-Document Structure Theory, introduced in area of Natural Language Processing, focusing on automatic generation of summaries. The model aims to establish correlations between semantic of discourse, for example, if there are identical information, additional or contradictory between multiple texts. Thus, an aspects discussed in this dissertation is that these correlations can be used in process of content selection, which had already been shown in other related work. Additionally, the algorithm of the original model is revised in order to make it easy to apply / Um Sistema de Disseminação Seletiva da Informação é um tipo de Sistema de Informação que visa canalizar novas produções intelectuais, provenientes de quaisquer fontes, para ambientes onde a probabilidade de interesse seja alta. O desafio computacional inerente é estabelecer um modelo que mapeie as necessidades específicas de informação, para um grande público, de modo personalizado. Para tanto, é necessário mediar à estruturação da unidade informacional, de maneira que contemple a pluralidade de atributos a serem considerados pelo processo de seleção de conteúdo.
Em recentes publicações acadêmicas, são propostos sistemas baseados em marcação de dados sobre textos (modelos de meta-dados), de forma que o tratamento da informação manifesta-se entre computação de dados semi-estruturados e mecanismos de inferência sobre meta-modelos. Tais abordagens utilizam-se apenas da associação da estrutura de dados com o perfil de interesse. Para aperfeiçoar tal característica, este trabalho propõe a construção de um sistema de disseminação seletiva da informação baseado em análise de múltiplos discursos por meio da geração automática de grafos conceituais a partir de textos, concernindo à solução também os dados não estruturados (textos). A proposta é motivada pelo modelo Cross-Document Structure Theory, recentemente difundido na área de Processamento de Língua Natural, voltado para geração automática de resumos. O modelo visa estabelecer correlações de natureza semântica entre discursos, por exemplo, se existem informações idênticas, adicionais ou contraditórias entre múltiplos textos. Desse modo, um dos aspectos discutidos nesta dissertação é que essas correlações podem ser usadas no processo de seleção de conteúdo, o que já fora evidenciado em outros trabalhos correlatos. Adicionalmente, o algoritmo do modelo original é revisado, a fim de torná-lo de fácil aplicabilidade
|
333 |
Extrator de conhecimento coletivo : uma ferramenta para democracia participativa / Extractor Collective Knowledge : a tool for participatory democracyAngelo, Tiago Novaes, 1983- 26 August 2018 (has links)
Orientadores: Ricardo Ribeiro Gudwin, Cesar José Bonjuani Pagan / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-26T04:03:32Z (GMT). No. of bitstreams: 1
Angelo_TiagoNovaes_M.pdf: 3900207 bytes, checksum: 2eed8dd66c9bdc37e4d58e9eac614c9d (MD5)
Previous issue date: 2014 / Resumo: O surgimento das Tecnologias de Comunicação e Informação trouxe uma nova perspectiva para o fortalecimento da democracia nas sociedades modernas. A democracia representativa, modelo predominante nas sociedades atuais, atravessa uma crise de credibilidade cuja principal consequência é o afastamento do cidadão na participação política, enfraquecendo os ideais democráticos. Neste contexto, a tecnologia surge como possibilidade para construção de um novo modelo de participação popular que resgate uma cidadania mais ativa, inaugurando o que denomina-se de democracia digital. O objetivo desta pesquisa foi desenvolver e implementar uma ferramenta, denominada "Extrator de Conhecimento Coletivo", com o propósito de conhecer o que um coletivo pensa a respeito de sua realidade a partir de pequenos relatos de seus participantes, dando voz à população num processo de democracia participativa. Os fundamentos teóricos baseiam-se em métodos de mineração de dados, sumarizadores extrativos e redes complexas. A ferramenta foi implementada e testada usando um banco de dados formado por opiniões de clientes a respeito de suas estadias em um Hotel. Os resultados apresentaram-se satisfatórios. Para trabalhos futuros, a proposta é que o Extrator de Conhecimento Coletivo seja o núcleo de processamento de dados de um espaço virtual onde a população pode se expressar e exercer ativamente sua cidadania / Abstract: The emergence of Information and Communication Technologies brought a new perspective to the strengthening of democracy in modern societies. The representative democracy, prevalent model in today's societies, crosses a crisis of credibility whose main consequence is the removal of citizen participation in politics, weakening democratic ideals. In this context, technology emerges as a possibility for construction of a new model of popular participation to rescue more active citizenship, inaugurating what is called digital democracy. The objective of this research was to develop and implement a tool called "Collective Knowledge Extractor", with the purpose of knowing what the collective thinks about his reality through small reports of its participants, giving voice to the people in a process participatory democracy. The theoretical foundations are based on methods of data mining, extractive summarizers and complex networks. The tool was implemented and tested using a database consisting of customer reviews about their stay in a Hotel. The results were satisfactory. For future work, the proposal is that the Extractor Collective Knowledge be the core data processing of a virtual space where people can express themselves and actively exercise their citizenship / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
|
334 |
[en] THE BOOSTING AT START ALGORITHM AND ITS APPLICATIONS / [pt] O ALGORITMO BOOSTING AT START E SUAS APLICACOESJULIO CESAR DUARTE 15 September 2017 (has links)
[pt] Boosting é uma técnica de aprendizado de máquina que combina diversos classificadores fracos com o objetivo de melhorar a acurácia geral. Em cada iteração, o algoritmo atualiza os pesos dos exemplos e constrói um classificador adicional. Um esquema simples de votação é utilizado para combinar os classificadores. O algoritmo mais famoso baseado em Boosting é o AdaBoost. Este algoritmo aumenta os pesos dos exemplos em que os classificadores anteriores cometeram erros. Assim, foca o classificador adicional nos exemplos mais difíceis. Inicialmente, uma distribuição uniforme de pesos é atribúda aos exemplos. Entretanto, não existe garantia que essa seja a melhor escolha para a distribuição inicial. Neste trabalho, apresentamos o Boosting at Start (BAS), uma nova abordagem de aprendizado de máquina baseada em Boosting. O BAS generaliza o AdaBoost permitindo a utilização de uma distribuição inicial arbitrária. Também apresentamos esquemas para determinação de tal distribuição. Além disso, mostramos como adaptar o BAS para esquemas de Aprendizado Semi-supervisionado. Adicionalmente, descrevemos a aplicação do BAS em diferentes problemas de classificação de dados e de texto, comparando o seu desempenho com o algoritmo AdaBoost original e alguns algoritmos do estado-da-arte para tais tarefas. Os resultados experimentais indicam que uma modelagem simples usando o algoritmo BAS gera classificadores eficazes. / [en] Boosting is a Machine Learning technique that combines several weak classifers with the goal of improving the overall accuracy. In each iteration, the algorithm updates the example weights and builds an additional classifer. A simple voting scheme is used to combine the classifers. The most famous Boosting-based algorithm is AdaBoost. This algorithm increases the weights of the examples that were misclassifed by the previous classifers. Thus, it focuses the additional classifer on the hardest examples. Initially,
an uniform weight distribution is assigned to the examples. However, there is no guarantee that this is the best choice for the initial distribution. In this work, we present Boosting at Start (BAS), a new Machine Learning approach based on Boosting. BAS generalizes AdaBoost by allowing the use of an arbitrary initial distribution. We present schemes for the determination of such distribution. We also show how to adapt BAS to Semi-supervised learning schemes. Additionally, we describe the application of BAS in different problems of data and text classifcation, comparing its performance with the original AdaBoost algorithm and some state-of-the-art algorithms for such tasks. The experimental results indicate that a simple modelling using the BAS algorithm generates effective classifers.
|
335 |
Auxílio na prevenção de doenças crônicas por meio de mapeamento e relacionamento conceitual de informações em biomedicina / Support in the Prevention of Chronic Diseases by means of Mapping and Conceptual Relationship of Biomedical InformationJuliana Tarossi Pollettini 28 November 2011 (has links)
Pesquisas recentes em medicina genômica sugerem que fatores de risco que incidem desde a concepção de uma criança até o final de sua adolescência podem influenciar no desenvolvimento de doenças crônicas da idade adulta. Artigos científicos com descobertas e estudos inovadores sobre o tema indicam que a epigenética deve ser explorada para prevenir doenças de alta prevalência como doenças cardiovasculares, diabetes e obesidade. A grande quantidade de artigos disponibilizados diariamente dificulta a atualização de profissionais, uma vez que buscas por informação exata se tornam complexas e dispendiosas em relação ao tempo gasto na procura e análise dos resultados. Algumas tecnologias e técnicas computacionais podem apoiar a manipulação dos grandes repositórios de informações biomédicas, assim como a geração de conhecimento. O presente trabalho pesquisa a descoberta automática de artigos científicos que relacionem doenças crônicas e fatores de risco para as mesmas em registros clínicos de pacientes. Este trabalho também apresenta o desenvolvimento de um arcabouço de software para sistemas de vigilância que alertem profissionais de saúde sobre problemas no desenvolvimento humano. A efetiva transformação dos resultados de pesquisas biomédicas em conhecimento possível de ser utilizado para beneficiar a saúde pública tem sido considerada um domínio importante da informática. Este domínio é denominado Bioinformática Translacional (BUTTE,2008). Considerando-se que doenças crônicas são, mundialmente, um problema sério de saúde e lideram as causas de mortalidade com 60% de todas as mortes, o presente trabalho poderá possibilitar o uso direto dos resultados dessas pesquisas na saúde pública e pode ser considerado um trabalho de Bioinformática Translacional. / Genomic medicine has suggested that the exposure to risk factors since conception may influence gene expression and consequently induce the development of chronic diseases in adulthood. Scientific papers bringing up these discoveries indicate that epigenetics must be exploited to prevent diseases of high prevalence, such as cardiovascular diseases, diabetes and obesity. A large amount of scientific information burdens health care professionals interested in being updated, once searches for accurate information become complex and expensive. Some computational techniques might support management of large biomedical information repositories and discovery of knowledge. This study presents a framework to support surveillance systems to alert health professionals about human development problems, retrieving scientific papers that relate chronic diseases to risk factors detected on a patient\'s clinical record. As a contribution, healthcare professionals will be able to create a routine with the family, setting up the best growing conditions. According to Butte, the effective transformation of results from biomedical research into knowledge that actually improves public health has been considered an important domain of informatics and has been called Translational Bioinformatics. Since chronic diseases are a serious health problem worldwide and leads the causes of mortality with 60% of all deaths, this scientific investigation will probably enable results from bioinformatics researches to directly benefit public health.
|
336 |
Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural / A tool for clinical and epidemiological investigation in cardiology based on natural language processingAndré Coutinho Castilla 13 September 2007 (has links)
O registro eletrônico do paciente (REP) está sendo gradativamente implantado no meio médico hospitalar. Grande parte das informações essenciais do REP está armazenada na forma de texto narrativo livre, dificultando operações de procura, análise e comparação de dados. O processamento de linguagem natural (PLN) refere-se a um conjunto de técnicas computacionais, cujo objetivo é a análise de texto através de conhecimentos léxicos, gramaticais e semânticos. O presente projeto propõe a criação de uma ferramenta computacional de investigação clínicoepidemiológica aplicada a textos narrativos médicos. Como metodologia propomos a utilização do processador de linguagem natural especializado em medicina MEDLEE desenvolvido para textos em Inglês. Para que seu uso seja possível textos médicos em Português são traduzidos ao Inglês automaticamente. A tradução automatizada (TA) é realizada utilizando o aplicativo baseado em regras SYSTRAN especialmente configurado para processar textos médicos através da incorporação de terminologias especializadas. O resultado desta seqüência de TA e PLN são informações conceituais que serão investigadas à procura de achados clínicos pré-definidos, atrvés de inferência lógica sobre uma ontologia. O objetivo experimental desta tese foi conduzir um estudo de recuperação de informações em um conjunto de 12.869 relatórios de radiografias torácicas à procura de vinte e dois achados clínicos e radiológicas. A sensibilidade e especificidade médias obtidas em comparação com referência formada pela opinião de três médicos radiologistas foram de 0,91 e 0,99 respectivamente. Os resultados obtidos indicam a viabilidade da procura de achados clínicos em relatórios de radiografias torácicas através desta metodologia de acoplamento da TA e PLN. Conseqüentemente em trabalhos futuros poderá ser ampliado o número de achados investigados, estendida a metodologia para textos de outras modalidades, bem como de outros idiomas / The Electronic Medical Record (EMR) is gradually replacing paper storage on clinical care settings. Most of essential information contained on EMR is stored as free narrative text, imposing several difficulties on automated data extraction and retrieval. Natural language processing (NLP) refers to computational linguistics tools, whose main objective is text analysis using lexical, grammatical and semantic knowledge. This project describes the creation of a computational tool for clinical and epidemiologic queries on narrative medical texts. The proposed methodology uses the specialized natural language processor MEDLEE developed for English language. To use this processor on Portuguese medical texts chest x-ray reports were Machine Translated into English. The machine translation (MT) was performed by SYSTRAN software, a rule based system customized with a specialized lexicon developed for this project. The result of serial coupling of MT an NLP is tagged text which needs further investigation for extracting clinical findings, whish was done by logical inference upon an ontolgy. The experimental objective of this thesis project was to investigate twenty-two clinical and radiological findings on 12.869 chest x-rays reports. Estimated sensitivity and specificity were 0.91 and 0.99 respectively. The gold standard reference was formed by the opinion of three radiologists. The obtained results indicate the viability of extracting clinical findings from chest x-ray reports using the proposed methodology through coupling MT and NLP. Consequently on future works the number of investigated conditions could be expanded. It is also possible to use this methodology on other medical texts, and on texts of other languages
|
337 |
[en] METHODOLOGIES FOR CHARACTERIZING AND DETECTING EMOTIONAL DESCRIPTION IN THE PORTUGUESE LANGUAGE / [pt] METODOLOGIAS PARA CARACTERIZAÇÃO E DETECÇÃO DA DESCRIÇÃO DE EMOÇÃO NA LÍNGUA PORTUGUESABARBARA CRISTINA MARQUES P RAMOS 29 May 2023 (has links)
[pt] O interesse desta tese recai sobre compreender como os falantes de língua
portuguesa a utilizam para materializar a menção de emoção através de um
trabalho, sobretudo, linguístico. O objetivo geral da pesquisa é criar recursos para
aprimorar a anotação do campo semântico das emoções na língua portuguesa a
partir do projeto AC/DC, projeto que reúne e disponibiliza publicamente corpora
anotados e recursos para pesquisas na língua portuguesa, e do Emocionário,
projeto de anotação semântica e léxico de emoções. Inicialmente, a pesquisa dá
um panorama dos estudos de emoção; se alinha às perspectivas que refutam a
universalidade das emoções e abordagens que postulam emoções básicas; e
contrapõe seu interesse por menção de emoção à já consolidada área de Análise de
Sentimento, contrastando cinco léxicos de sentimento e/ou polaridades em língua
portuguesa e o Emocionário. A partir de uma ampla varredura nos corpora do
AC/DC, três principais caminhos foram percorridos para investigar palavras de
emoção: (i) uma análise dos vinte e quatro grupos de emoção que já existiam no
léxico do Emocionário a fim de delinear características e desafios no estudo de
emoção na língua portuguesa; (ii) a revisão completa um terço dos grupos do
léxico do Emocionário; e (iii) buscas pelo padrão léxico-sintático sentimento de
N e por expressões anotadas pelo projeto Esqueleto usadas para descrever
emoção. A análise dos corpora à luz dos lemas previamente pertencentes aos
grupos do léxico do Emocionário evidenciou, dentre outras características, a
relevância de expressões lexicalizadas para a análise da descrição de emoção, dos
tipos de argumentos de verbos e afixos que podem causar variação de sentido, e
de variações de tempo e modo verbal que acarretam mudança de significado.
Dentre os desafios estão palavras e expressões polissêmicas e a dificuldade na
detecção de diferentes sentidos em palavras que compartilham da mesma classe
gramatical, tendo como base somente informações morfossintáticas. Esta análise
possibilitou a estruturação e documentação de uma metodologia de revisão que
pode vir a ser aplicada nos demais grupos futuramente. As principais
contribuições desta tese são decorrentes das análises e explorações em corpora: a
limpeza de lemas com sentidos não-emocionais dos grupos do léxico do
Emocionário; a criação dos grupos de emoção Ausência e Outra,
enriquecendo o léxico; a detecção de mais de novecentos lemas e expressões
provenientes das buscas pelo padrão sentimento de N e das conexões
estabelecidas entre os campos semânticos de emoção e do corpo humano; além de
descobertas de campos lexicais pouco mencionados na literatura sobre emoção,
como coletividade, estranhamento, espiritualidade, parentesco e atos
automotivados, que auxiliaram na investigação de como os falantes do português
cristalizam emoções na língua. / [en] The interest of this thesis lies in understanding how Portuguese speakers use
it to materialize the mention of emotion through a linguistic perspective. The
general objective of the research is to create resources to improve the annotation
of the semantic field of emotions in the Portuguese language based on the AC/DC
project, which gathers and makes publicly available annotated corpora and tools
for linguistic research on Portuguese language. and Emocionário, which is both a
semantic annotation project and lexicon of emotions. Initially, the research gives
an overview of emotion studies; aligning itself with perspectives that refute the
universality of emotions and approaches that postulate basic emotions; and
contrasts the interest in emotion description to the already consolidated area of
Sentiment Analysis, comparing five lexicons of emotion and/or polarities in
Portuguese to Emocionário. From a broad sweep of the AC/DC corpora, three
main paths were taken towards investigating emotion words: (i) an analysis of the
twenty-four emotion groups previously composing the Emocionário lexicon in
order to delineate characteristics and challenges in the study of emotion
description in the Portuguese language; (ii) a thorough revision of one-third of the
Emocionário lexicon groups; and (iii) searches for the lexical-syntactic pattern
sentimento de N and for expressions annotated by the Esqueleto project used to
describe emotion. The corpora analysis in the light of the lemmas previously
belonging to the Emocionário lexicon groups showed, amongst other
characteristics, the relevance of lexicalized expressions for the analysis of the
emotion description, the types of arguments of verbs and affixes that can cause
variation in meaning, and variations in tense and verbal mode that lead to a
change in meaning. Amongst the challenges are polysemous words and
expressions and the difficulty in detecting different meanings in words that share
the same grammatical class, based only on morphosyntactic information. This
analysis enabled the structuring and documentation of a revision methodology that
may be applied in other groups in the future. The main contributions of this thesis
derive from the analyzes and explorations in corpora: the exclusion of lemmas
with non-emotional meanings from the Emocionário lexicon groups; the creation
of emotion groups Ausência and Outra, enriching the lexicon; the detection of
more than nine hundred lemmas and expressions from the searches for the
sentimento de N pattern and the connections established between the semantic
fields of emotion and the human body; in addition to discoveries of lexical fields
rarely mentioned in the literature on emotion, such as coletividade,
estranhamento, espiritualidade, parentesco e atos automotivados, which
helped in the investigation of how Portuguese speakers crystallize emotions in
language.
|
338 |
[pt] APRENDIZADO ESTRUTURADO COM INDUÇÃO E SELEÇÃO INCREMENTAIS DE ATRIBUTOS PARA ANÁLISE DE DEPENDÊNCIA EM PORTUGUÊS / [en] STRUCTURED LEARNING WITH INCREMENTAL FEATURE INDUCTION AND SELECTION FOR PORTUGUESE DEPENDENCY PARSINGYANELY MILANES BARROSO 09 November 2016 (has links)
[pt] O processamento de linguagem natural busca resolver várias tarefas de complexidade crescente que envolvem o aprendizado de estruturas complexas, como grafos e sequências, para um determinado texto. Por exemplo, a análise de dependência envolve o aprendizado de uma árvore que descreve a estrutura sintática de uma sentença dada. Um método amplamente utilizado para melhorar a representação do conhecimento de domínio em esta tarefa é considerar combinações de atributos usando conjunções lógicas que codificam informação útil com um padrão não-linear. O número total de todas as combinações possíveis para uma conjunção dada cresce exponencialmente no número de atributos e pode resultar em intratabilidade computacional. Também, pode levar a overfitting. Neste cenário, uma técnica para evitar o superajuste e reduzir o conjunto de atributos faz-se necessário. Uma abordagem comum para esta tarefa baseia-se em atribuir uma pontuação a uma árvore de dependência, usando uma função linear do conjunto de atributos. Sabe-se que os modelos lineares esparsos resolvem simultaneamente o problema de seleção de atributos e a estimativa de um modelo linear, através da combinação de um pequeno conjunto de atributos. Neste caso, promover a esparsidade ajuda no controle do superajuste e na compactação do conjunto de atributos. Devido a sua exibilidade, robustez e simplicidade, o algoritmo de perceptron é um método linear discriminante amplamente usado que pode ser modificado para produzir modelos esparsos e para lidar com atributos não-lineares. Propomos a aprendizagem incremental da combinação de um modelo linear esparso com um procedimento de indução de variáveis não-lineares, num cénario de predição estruturada. O modelo linear esparso é obtido através de uma modificação do algoritmo perceptron. O método de indução é Entropy-Guided Feature Generation. A avaliação empírica é realizada usando o conjunto de dados para português da CoNLL 2006 Shared Task. O analisador resultante alcança 92,98 por cento de precisão, que é um desempenho competitivo quando comparado com os sistemas de estado- da-arte. Em sua versão regularizada, o analizador alcança uma precisão de 92,83 por cento , também mostra uma redução notável de 96,17 por cento do número de atributos binários e, reduz o tempo de aprendizagem em quase 90 por cento, quando comparado com a sua versão não regularizada. / [en] Natural language processing requires solving several tasks of increasing
complexity, which involve learning to associate structures like graphs and
sequences to a given text. For instance, dependency parsing involves learning
of a tree that describes the dependency-based syntactic structure of a
given sentence. A widely used method to improve domain knowledge
representation in this task is to consider combinations of features, called
templates, which are used to encode useful information with nonlinear
pattern. The total number of all possible feature combinations for a given
template grows exponentialy in the number of features and can result in
computational intractability. Also, from an statistical point of view, it can
lead to overfitting. In this scenario, it is required a technique that avoids
overfitting and that reduces the feature set. A very common approach to
solve this task is based on scoring a parse tree, using a linear function
of a defined set of features. It is well known that sparse linear models
simultaneously address the feature selection problem and the estimation
of a linear model, by combining a small subset of available features. In
this case, sparseness helps control overfitting and performs the selection
of the most informative features, which reduces the feature set. Due to
its
exibility, robustness and simplicity, the perceptron algorithm is one of
the most popular linear discriminant methods used to learn such complex
representations. This algorithm can be modified to produce sparse models
and to handle nonlinear features. We propose the incremental learning of
the combination of a sparse linear model with an induction procedure of
non-linear variables in a structured prediction scenario. The sparse linear
model is obtained through a modifications of the perceptron algorithm. The
induction method is the Entropy-Guided Feature Generation. The empirical
evaluation is performed using the Portuguese Dependency Parsing data set
from the CoNLL 2006 Shared Task. The resulting parser attains 92.98 per cent of
accuracy, which is a competitive performance when compared against the
state-of-art systems. On its regularized version, it accomplishes an accuracy
of 92.83 per cent, shows a striking reduction of 96.17 per cent in the number of binary
features and reduces the learning time in almost 90 per cent, when compared to
its non regularized version.
|
339 |
[en] A QUESTION-ANSWERING CONVERSATIONAL AGENT WITH RECOMMENDATIONS BASED ON A DOMAIN ONTOLOGY / [pt] UM AGENTE CONVERSACIONAL PERGUNTA-RESPOSTA COM RECOMENDAÇÕES BASEADAS EM UMA ONTOLOGIA DE DOMÍNIOJESSICA PALOMA SOUSA CARDOSO 05 November 2020 (has links)
[pt] A oferta de serviços por meio de interfaces conversacionais, ou chatbots, tem se tornado cada vez mais popular, com aplicações que variam de aplicativos de bancos e reserva de bilheteria a consultas em um banco de dados. No entanto, dado a quantidade massiva de dados disponível em alguns domínios,
o usuário pode ter dificuldade em formular as consultas e recuperar as informações desejadas. Esta dissertação tem como objetivo investigar e avaliar o uso de recomendações na busca de informações numa base de dados de filmes através de chatbots. Neste trabalho, implementamos um chatbot por meio do
uso de frameworks e técnicas da área de processamento de linguagem natural (NLP - Natural Language Processing). Para o reconhecimento de entidades e intenções, utilizamos o framework RASA NLU. Para a identificação das relações entre essas entidades, utilizamos as redes Transformers. Além disso, propomos diferentes estratégias para recomendações feitas a partir da ontologia de domínio. Para avaliação deste trabalho, conduzimos um estudo com usuários para avaliar o impacto das recomendações no uso do chatbot e aceitação da tecnologia por meio de um questionário baseado no Technology Acceptance
Model (TAM). Por fim, discutimos os resultados do estudo, suas limitações e oportunidades de futuras melhorias. / [en] The offer of services provided through conversational interfaces, or chatbots, has become increasingly popular, with applications that range from bank applications and ticket booking to database queries. However, given the massive amount of data available in some domains, the user may find it difficult
to formulate queries and retrieve the desired information. This dissertation investigates and evaluates the use of the recommendations in the search for information on a movie database through a chatbot. In this work, we implement a chatbot with the use of frameworks and techniques from the area of natural language processing (NLP). For the recognition of entities and intents, we use the RASA NLU framework. For the identification of relations between those entities, we use the Transformers networks. In addition, we propose different strategies for the recommendation from the domain ontology. To evaluate this
work, we have conducted an empirical study with volunteer users to assess the impact of the recommendations on chatbot use and the acceptance of the technology through a survey based on the Technology Acceptance Model (TAM). Lastly, we discuss the results of this study, its limitations, and avenues for future improvements.
|
340 |
[en] ANALYSIS OF NATURAL LANGUAGE SCENARIOS / [pt] ANÁLISE DE CENÁRIOS EM LINGUAGEM NATURALEDGAR SARMIENTO CALISAYA 28 November 2016 (has links)
[pt] A análise de requisitos desempenha um papel fundamental no processo de
desenvolvimento de software. Neste sentido, representações de cenários baseados
em linguagem natural são muitas vezes utilizados para descrever especificações
de requisitos de software (SRS). Cenários descritos usando linguagem natural
podem ser ambíguos e, às vezes, imprecisos. Este problema é parcialmente devido
ao fato de que os relacionamentos entre os cenários são raramente representados
explicitamente. Como os cenários são utilizados como entrada para as actividades
subsequentes do processo de desenvolvimento de software (SD), é muito
importante facilitar a sua análise; especialmente para detectar defeitos devido a
informações erradas ou falta de informação. Este trabalho propõe uma abordagem
baseada em Redes de Petri e técnicas de Processamento de Linguagem Natural
como uma forma eficaz para analisar os cenários adquiridos, e que toma
descrições textuais de cenários (em conformidade com um metamodelo definido
neste trabalho) como entrada e gera um relatório de análise como saída. Para
facilitar a análise automática, os cenários são transformados em Redes de Petri
(Lugar/Transição) equivalentes. Os cenários e suas Redes de Petri resultantes
podem ser analisados automaticamente para avaliar algumas propriedades
relacionadas à desambiguidade, completeza, consistência e corretude. Os defeitos
identificados podem ser rastreados até os cenários, permitindo a sua revisão. Nós
também discutimos como desambiguidade, completeza, consistência e corretude
das SRSs baseadas em cenários podem ser decompostas em propriedades
relacionadas, e definimos heurísticas para encontrar indicadores de defeitos que
prejudicam estas propriedades. Avaliamos nosso trabalho, aplicando a nossa
abordagem de análise em quatro estudos de caso. Essa avaliação compara os
resultados obtidos pela nossa abordagem automatizada contra os resultados
obtidos por um processo de inspeção e com trabalhos relacionados. / [en] Requirements analysis plays a key role in the software development process.
Natural language-based scenario representations are often used for writing
software requirements specifications (SRS). Scenarios written using natural
language may be ambiguous, and, sometimes, inaccurate. This problem is
partially due to the fact that relationships among scenarios are rarely represented
explicitly. As scenarios are used as input to subsequent activities of the software
development process (SD), it is very important to enable their analysis; especially
to detect defects due to wrong information or missing information. This work
proposes a Petri-Net and Natural Language Processing (NLP) based approach as
an effective way to analyze the acquired scenarios, which takes textual description
of scenarios (conform to a metamodel defined in this work) as input and generates
an analysis report as output. To enable the automated analysis, scenarios are
translated into equivalent Place/Transition Petri-Nets. Scenarios and their
resulting Petri-Nets can be automatically analyzed to evaluate some properties
related to unambiguity, completeness, consistency and correctness. The identified
defects can be traced back to the scenarios, allowing their revision. We also
discuss how unambiguity, completeness, consistency and correctness of scenario-based SRSs can be decomposed in related properties, and define heuristics for
searching defect indicators that hurt these properties. We evaluate our work by
applying our analysis approach to four case studies. The evaluation compares the
results achieved by our tool-supported approach, with an inspection based
approach and with related work.
|
Page generated in 0.0632 seconds