Spelling suggestions: "subject:"processamento dde linguagem batural"" "subject:"processamento dde linguagem datural""
221 |
Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural / A tool for clinical and epidemiological investigation in cardiology based on natural language processingAndré Coutinho Castilla 13 September 2007 (has links)
O registro eletrônico do paciente (REP) está sendo gradativamente implantado no meio médico hospitalar. Grande parte das informações essenciais do REP está armazenada na forma de texto narrativo livre, dificultando operações de procura, análise e comparação de dados. O processamento de linguagem natural (PLN) refere-se a um conjunto de técnicas computacionais, cujo objetivo é a análise de texto através de conhecimentos léxicos, gramaticais e semânticos. O presente projeto propõe a criação de uma ferramenta computacional de investigação clínicoepidemiológica aplicada a textos narrativos médicos. Como metodologia propomos a utilização do processador de linguagem natural especializado em medicina MEDLEE desenvolvido para textos em Inglês. Para que seu uso seja possível textos médicos em Português são traduzidos ao Inglês automaticamente. A tradução automatizada (TA) é realizada utilizando o aplicativo baseado em regras SYSTRAN especialmente configurado para processar textos médicos através da incorporação de terminologias especializadas. O resultado desta seqüência de TA e PLN são informações conceituais que serão investigadas à procura de achados clínicos pré-definidos, atrvés de inferência lógica sobre uma ontologia. O objetivo experimental desta tese foi conduzir um estudo de recuperação de informações em um conjunto de 12.869 relatórios de radiografias torácicas à procura de vinte e dois achados clínicos e radiológicas. A sensibilidade e especificidade médias obtidas em comparação com referência formada pela opinião de três médicos radiologistas foram de 0,91 e 0,99 respectivamente. Os resultados obtidos indicam a viabilidade da procura de achados clínicos em relatórios de radiografias torácicas através desta metodologia de acoplamento da TA e PLN. Conseqüentemente em trabalhos futuros poderá ser ampliado o número de achados investigados, estendida a metodologia para textos de outras modalidades, bem como de outros idiomas / The Electronic Medical Record (EMR) is gradually replacing paper storage on clinical care settings. Most of essential information contained on EMR is stored as free narrative text, imposing several difficulties on automated data extraction and retrieval. Natural language processing (NLP) refers to computational linguistics tools, whose main objective is text analysis using lexical, grammatical and semantic knowledge. This project describes the creation of a computational tool for clinical and epidemiologic queries on narrative medical texts. The proposed methodology uses the specialized natural language processor MEDLEE developed for English language. To use this processor on Portuguese medical texts chest x-ray reports were Machine Translated into English. The machine translation (MT) was performed by SYSTRAN software, a rule based system customized with a specialized lexicon developed for this project. The result of serial coupling of MT an NLP is tagged text which needs further investigation for extracting clinical findings, whish was done by logical inference upon an ontolgy. The experimental objective of this thesis project was to investigate twenty-two clinical and radiological findings on 12.869 chest x-rays reports. Estimated sensitivity and specificity were 0.91 and 0.99 respectively. The gold standard reference was formed by the opinion of three radiologists. The obtained results indicate the viability of extracting clinical findings from chest x-ray reports using the proposed methodology through coupling MT and NLP. Consequently on future works the number of investigated conditions could be expanded. It is also possible to use this methodology on other medical texts, and on texts of other languages
|
222 |
[en] METHODOLOGIES FOR CHARACTERIZING AND DETECTING EMOTIONAL DESCRIPTION IN THE PORTUGUESE LANGUAGE / [pt] METODOLOGIAS PARA CARACTERIZAÇÃO E DETECÇÃO DA DESCRIÇÃO DE EMOÇÃO NA LÍNGUA PORTUGUESABARBARA CRISTINA MARQUES P RAMOS 29 May 2023 (has links)
[pt] O interesse desta tese recai sobre compreender como os falantes de língua
portuguesa a utilizam para materializar a menção de emoção através de um
trabalho, sobretudo, linguístico. O objetivo geral da pesquisa é criar recursos para
aprimorar a anotação do campo semântico das emoções na língua portuguesa a
partir do projeto AC/DC, projeto que reúne e disponibiliza publicamente corpora
anotados e recursos para pesquisas na língua portuguesa, e do Emocionário,
projeto de anotação semântica e léxico de emoções. Inicialmente, a pesquisa dá
um panorama dos estudos de emoção; se alinha às perspectivas que refutam a
universalidade das emoções e abordagens que postulam emoções básicas; e
contrapõe seu interesse por menção de emoção à já consolidada área de Análise de
Sentimento, contrastando cinco léxicos de sentimento e/ou polaridades em língua
portuguesa e o Emocionário. A partir de uma ampla varredura nos corpora do
AC/DC, três principais caminhos foram percorridos para investigar palavras de
emoção: (i) uma análise dos vinte e quatro grupos de emoção que já existiam no
léxico do Emocionário a fim de delinear características e desafios no estudo de
emoção na língua portuguesa; (ii) a revisão completa um terço dos grupos do
léxico do Emocionário; e (iii) buscas pelo padrão léxico-sintático sentimento de
N e por expressões anotadas pelo projeto Esqueleto usadas para descrever
emoção. A análise dos corpora à luz dos lemas previamente pertencentes aos
grupos do léxico do Emocionário evidenciou, dentre outras características, a
relevância de expressões lexicalizadas para a análise da descrição de emoção, dos
tipos de argumentos de verbos e afixos que podem causar variação de sentido, e
de variações de tempo e modo verbal que acarretam mudança de significado.
Dentre os desafios estão palavras e expressões polissêmicas e a dificuldade na
detecção de diferentes sentidos em palavras que compartilham da mesma classe
gramatical, tendo como base somente informações morfossintáticas. Esta análise
possibilitou a estruturação e documentação de uma metodologia de revisão que
pode vir a ser aplicada nos demais grupos futuramente. As principais
contribuições desta tese são decorrentes das análises e explorações em corpora: a
limpeza de lemas com sentidos não-emocionais dos grupos do léxico do
Emocionário; a criação dos grupos de emoção Ausência e Outra,
enriquecendo o léxico; a detecção de mais de novecentos lemas e expressões
provenientes das buscas pelo padrão sentimento de N e das conexões
estabelecidas entre os campos semânticos de emoção e do corpo humano; além de
descobertas de campos lexicais pouco mencionados na literatura sobre emoção,
como coletividade, estranhamento, espiritualidade, parentesco e atos
automotivados, que auxiliaram na investigação de como os falantes do português
cristalizam emoções na língua. / [en] The interest of this thesis lies in understanding how Portuguese speakers use
it to materialize the mention of emotion through a linguistic perspective. The
general objective of the research is to create resources to improve the annotation
of the semantic field of emotions in the Portuguese language based on the AC/DC
project, which gathers and makes publicly available annotated corpora and tools
for linguistic research on Portuguese language. and Emocionário, which is both a
semantic annotation project and lexicon of emotions. Initially, the research gives
an overview of emotion studies; aligning itself with perspectives that refute the
universality of emotions and approaches that postulate basic emotions; and
contrasts the interest in emotion description to the already consolidated area of
Sentiment Analysis, comparing five lexicons of emotion and/or polarities in
Portuguese to Emocionário. From a broad sweep of the AC/DC corpora, three
main paths were taken towards investigating emotion words: (i) an analysis of the
twenty-four emotion groups previously composing the Emocionário lexicon in
order to delineate characteristics and challenges in the study of emotion
description in the Portuguese language; (ii) a thorough revision of one-third of the
Emocionário lexicon groups; and (iii) searches for the lexical-syntactic pattern
sentimento de N and for expressions annotated by the Esqueleto project used to
describe emotion. The corpora analysis in the light of the lemmas previously
belonging to the Emocionário lexicon groups showed, amongst other
characteristics, the relevance of lexicalized expressions for the analysis of the
emotion description, the types of arguments of verbs and affixes that can cause
variation in meaning, and variations in tense and verbal mode that lead to a
change in meaning. Amongst the challenges are polysemous words and
expressions and the difficulty in detecting different meanings in words that share
the same grammatical class, based only on morphosyntactic information. This
analysis enabled the structuring and documentation of a revision methodology that
may be applied in other groups in the future. The main contributions of this thesis
derive from the analyzes and explorations in corpora: the exclusion of lemmas
with non-emotional meanings from the Emocionário lexicon groups; the creation
of emotion groups Ausência and Outra, enriching the lexicon; the detection of
more than nine hundred lemmas and expressions from the searches for the
sentimento de N pattern and the connections established between the semantic
fields of emotion and the human body; in addition to discoveries of lexical fields
rarely mentioned in the literature on emotion, such as coletividade,
estranhamento, espiritualidade, parentesco e atos automotivados, which
helped in the investigation of how Portuguese speakers crystallize emotions in
language.
|
223 |
[pt] APRENDIZADO ESTRUTURADO COM INDUÇÃO E SELEÇÃO INCREMENTAIS DE ATRIBUTOS PARA ANÁLISE DE DEPENDÊNCIA EM PORTUGUÊS / [en] STRUCTURED LEARNING WITH INCREMENTAL FEATURE INDUCTION AND SELECTION FOR PORTUGUESE DEPENDENCY PARSINGYANELY MILANES BARROSO 09 November 2016 (has links)
[pt] O processamento de linguagem natural busca resolver várias tarefas de complexidade crescente que envolvem o aprendizado de estruturas complexas, como grafos e sequências, para um determinado texto. Por exemplo, a análise de dependência envolve o aprendizado de uma árvore que descreve a estrutura sintática de uma sentença dada. Um método amplamente utilizado para melhorar a representação do conhecimento de domínio em esta tarefa é considerar combinações de atributos usando conjunções lógicas que codificam informação útil com um padrão não-linear. O número total de todas as combinações possíveis para uma conjunção dada cresce exponencialmente no número de atributos e pode resultar em intratabilidade computacional. Também, pode levar a overfitting. Neste cenário, uma técnica para evitar o superajuste e reduzir o conjunto de atributos faz-se necessário. Uma abordagem comum para esta tarefa baseia-se em atribuir uma pontuação a uma árvore de dependência, usando uma função linear do conjunto de atributos. Sabe-se que os modelos lineares esparsos resolvem simultaneamente o problema de seleção de atributos e a estimativa de um modelo linear, através da combinação de um pequeno conjunto de atributos. Neste caso, promover a esparsidade ajuda no controle do superajuste e na compactação do conjunto de atributos. Devido a sua exibilidade, robustez e simplicidade, o algoritmo de perceptron é um método linear discriminante amplamente usado que pode ser modificado para produzir modelos esparsos e para lidar com atributos não-lineares. Propomos a aprendizagem incremental da combinação de um modelo linear esparso com um procedimento de indução de variáveis não-lineares, num cénario de predição estruturada. O modelo linear esparso é obtido através de uma modificação do algoritmo perceptron. O método de indução é Entropy-Guided Feature Generation. A avaliação empírica é realizada usando o conjunto de dados para português da CoNLL 2006 Shared Task. O analisador resultante alcança 92,98 por cento de precisão, que é um desempenho competitivo quando comparado com os sistemas de estado- da-arte. Em sua versão regularizada, o analizador alcança uma precisão de 92,83 por cento , também mostra uma redução notável de 96,17 por cento do número de atributos binários e, reduz o tempo de aprendizagem em quase 90 por cento, quando comparado com a sua versão não regularizada. / [en] Natural language processing requires solving several tasks of increasing
complexity, which involve learning to associate structures like graphs and
sequences to a given text. For instance, dependency parsing involves learning
of a tree that describes the dependency-based syntactic structure of a
given sentence. A widely used method to improve domain knowledge
representation in this task is to consider combinations of features, called
templates, which are used to encode useful information with nonlinear
pattern. The total number of all possible feature combinations for a given
template grows exponentialy in the number of features and can result in
computational intractability. Also, from an statistical point of view, it can
lead to overfitting. In this scenario, it is required a technique that avoids
overfitting and that reduces the feature set. A very common approach to
solve this task is based on scoring a parse tree, using a linear function
of a defined set of features. It is well known that sparse linear models
simultaneously address the feature selection problem and the estimation
of a linear model, by combining a small subset of available features. In
this case, sparseness helps control overfitting and performs the selection
of the most informative features, which reduces the feature set. Due to
its
exibility, robustness and simplicity, the perceptron algorithm is one of
the most popular linear discriminant methods used to learn such complex
representations. This algorithm can be modified to produce sparse models
and to handle nonlinear features. We propose the incremental learning of
the combination of a sparse linear model with an induction procedure of
non-linear variables in a structured prediction scenario. The sparse linear
model is obtained through a modifications of the perceptron algorithm. The
induction method is the Entropy-Guided Feature Generation. The empirical
evaluation is performed using the Portuguese Dependency Parsing data set
from the CoNLL 2006 Shared Task. The resulting parser attains 92.98 per cent of
accuracy, which is a competitive performance when compared against the
state-of-art systems. On its regularized version, it accomplishes an accuracy
of 92.83 per cent, shows a striking reduction of 96.17 per cent in the number of binary
features and reduces the learning time in almost 90 per cent, when compared to
its non regularized version.
|
224 |
[en] A QUESTION-ANSWERING CONVERSATIONAL AGENT WITH RECOMMENDATIONS BASED ON A DOMAIN ONTOLOGY / [pt] UM AGENTE CONVERSACIONAL PERGUNTA-RESPOSTA COM RECOMENDAÇÕES BASEADAS EM UMA ONTOLOGIA DE DOMÍNIOJESSICA PALOMA SOUSA CARDOSO 05 November 2020 (has links)
[pt] A oferta de serviços por meio de interfaces conversacionais, ou chatbots, tem se tornado cada vez mais popular, com aplicações que variam de aplicativos de bancos e reserva de bilheteria a consultas em um banco de dados. No entanto, dado a quantidade massiva de dados disponível em alguns domínios,
o usuário pode ter dificuldade em formular as consultas e recuperar as informações desejadas. Esta dissertação tem como objetivo investigar e avaliar o uso de recomendações na busca de informações numa base de dados de filmes através de chatbots. Neste trabalho, implementamos um chatbot por meio do
uso de frameworks e técnicas da área de processamento de linguagem natural (NLP - Natural Language Processing). Para o reconhecimento de entidades e intenções, utilizamos o framework RASA NLU. Para a identificação das relações entre essas entidades, utilizamos as redes Transformers. Além disso, propomos diferentes estratégias para recomendações feitas a partir da ontologia de domínio. Para avaliação deste trabalho, conduzimos um estudo com usuários para avaliar o impacto das recomendações no uso do chatbot e aceitação da tecnologia por meio de um questionário baseado no Technology Acceptance
Model (TAM). Por fim, discutimos os resultados do estudo, suas limitações e oportunidades de futuras melhorias. / [en] The offer of services provided through conversational interfaces, or chatbots, has become increasingly popular, with applications that range from bank applications and ticket booking to database queries. However, given the massive amount of data available in some domains, the user may find it difficult
to formulate queries and retrieve the desired information. This dissertation investigates and evaluates the use of the recommendations in the search for information on a movie database through a chatbot. In this work, we implement a chatbot with the use of frameworks and techniques from the area of natural language processing (NLP). For the recognition of entities and intents, we use the RASA NLU framework. For the identification of relations between those entities, we use the Transformers networks. In addition, we propose different strategies for the recommendation from the domain ontology. To evaluate this
work, we have conducted an empirical study with volunteer users to assess the impact of the recommendations on chatbot use and the acceptance of the technology through a survey based on the Technology Acceptance Model (TAM). Lastly, we discuss the results of this study, its limitations, and avenues for future improvements.
|
225 |
[en] ANALYSIS OF NATURAL LANGUAGE SCENARIOS / [pt] ANÁLISE DE CENÁRIOS EM LINGUAGEM NATURALEDGAR SARMIENTO CALISAYA 28 November 2016 (has links)
[pt] A análise de requisitos desempenha um papel fundamental no processo de
desenvolvimento de software. Neste sentido, representações de cenários baseados
em linguagem natural são muitas vezes utilizados para descrever especificações
de requisitos de software (SRS). Cenários descritos usando linguagem natural
podem ser ambíguos e, às vezes, imprecisos. Este problema é parcialmente devido
ao fato de que os relacionamentos entre os cenários são raramente representados
explicitamente. Como os cenários são utilizados como entrada para as actividades
subsequentes do processo de desenvolvimento de software (SD), é muito
importante facilitar a sua análise; especialmente para detectar defeitos devido a
informações erradas ou falta de informação. Este trabalho propõe uma abordagem
baseada em Redes de Petri e técnicas de Processamento de Linguagem Natural
como uma forma eficaz para analisar os cenários adquiridos, e que toma
descrições textuais de cenários (em conformidade com um metamodelo definido
neste trabalho) como entrada e gera um relatório de análise como saída. Para
facilitar a análise automática, os cenários são transformados em Redes de Petri
(Lugar/Transição) equivalentes. Os cenários e suas Redes de Petri resultantes
podem ser analisados automaticamente para avaliar algumas propriedades
relacionadas à desambiguidade, completeza, consistência e corretude. Os defeitos
identificados podem ser rastreados até os cenários, permitindo a sua revisão. Nós
também discutimos como desambiguidade, completeza, consistência e corretude
das SRSs baseadas em cenários podem ser decompostas em propriedades
relacionadas, e definimos heurísticas para encontrar indicadores de defeitos que
prejudicam estas propriedades. Avaliamos nosso trabalho, aplicando a nossa
abordagem de análise em quatro estudos de caso. Essa avaliação compara os
resultados obtidos pela nossa abordagem automatizada contra os resultados
obtidos por um processo de inspeção e com trabalhos relacionados. / [en] Requirements analysis plays a key role in the software development process.
Natural language-based scenario representations are often used for writing
software requirements specifications (SRS). Scenarios written using natural
language may be ambiguous, and, sometimes, inaccurate. This problem is
partially due to the fact that relationships among scenarios are rarely represented
explicitly. As scenarios are used as input to subsequent activities of the software
development process (SD), it is very important to enable their analysis; especially
to detect defects due to wrong information or missing information. This work
proposes a Petri-Net and Natural Language Processing (NLP) based approach as
an effective way to analyze the acquired scenarios, which takes textual description
of scenarios (conform to a metamodel defined in this work) as input and generates
an analysis report as output. To enable the automated analysis, scenarios are
translated into equivalent Place/Transition Petri-Nets. Scenarios and their
resulting Petri-Nets can be automatically analyzed to evaluate some properties
related to unambiguity, completeness, consistency and correctness. The identified
defects can be traced back to the scenarios, allowing their revision. We also
discuss how unambiguity, completeness, consistency and correctness of scenario-based SRSs can be decomposed in related properties, and define heuristics for
searching defect indicators that hurt these properties. We evaluate our work by
applying our analysis approach to four case studies. The evaluation compares the
results achieved by our tool-supported approach, with an inspection based
approach and with related work.
|
226 |
[pt] EXTRAÇÃO DE INFORMAÇÕES DE SENTENÇAS JUDICIAIS EM PORTUGUÊS / [en] INFORMATION EXTRACTION FROM LEGAL OPINIONS IN BRAZILIAN PORTUGUESEGUSTAVO MARTINS CAMPOS COELHO 03 October 2022 (has links)
[pt] A Extração de Informação é uma tarefa importante no domínio jurídico.
Embora a presença de dados estruturados seja escassa, dados não estruturados na forma de documentos jurídicos, como sentenças, estão amplamente
disponíveis. Se processados adequadamente, tais documentos podem fornecer
informações valiosas sobre processos judiciais anteriores, permitindo uma melhor avaliação por profissionais do direito e apoiando aplicativos baseados em
dados. Este estudo aborda a Extração de Informação no domínio jurídico, extraindo valor de sentenças relacionados a reclamações de consumidores. Mais
especificamente, a extração de cláusulas categóricas é abordada através de
classificação, onde seis modelos baseados em diferentes estruturas são analisados. Complementarmente, a extração de valores monetários relacionados a
indenizações por danos morais é abordada por um modelo de Reconhecimento
de Entidade Nomeada. Para avaliação, um conjunto de dados foi criado, contendo 964 sentenças anotados manualmente (escritas em português) emitidas
por juízes de primeira instância. Os resultados mostram uma média de aproximadamente 97 por cento de acurácia na extração de cláusulas categóricas, e 98,9 por cento
na aplicação de NER para a extração de indenizações por danos morais. / [en] Information Extraction is an important task in the legal domain. While
the presence of structured and machine-processable data is scarce, unstructured data in the form of legal documents, such as legal opinions, is largely
available. If properly processed, such documents can provide valuable information with regards to past lawsuits, allowing better assessment by legal professionals and supporting data-driven applications. This study addresses Information Extraction in the legal domain by extracting value from legal opinions
related to consumer complaints. More specifically, the extraction of categorical
provisions is addressed by classification, where six models based on different
frameworks are analyzed. Moreover, the extraction of monetary values related
to moral damage compensations is addressed by a Named Entity Recognition
(NER) model. For evaluation, a dataset was constructed, containing 964 manually annotated legal opinions (written in Brazilian Portuguese) enacted by
lower court judges. The results show an average of approximately 97 percent of accuracy when extracting categorical provisions, and 98.9 percent when applying NER
for the extraction of moral damage compensations.
|
227 |
Avaliação automática de questões discursivas usando LSASANTOS, João Carlos Alves dos 05 February 2016 (has links)
Submitted by camilla martins (camillasmmartins@gmail.com) on 2017-01-27T15:50:37Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Tese_AvaliacaoAutomaticaQuestoes.pdf: 5106074 bytes, checksum: c401d50ce5e666c52948ece7af20b2c3 (MD5) / Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2017-01-30T13:02:31Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Tese_AvaliacaoAutomaticaQuestoes.pdf: 5106074 bytes, checksum: c401d50ce5e666c52948ece7af20b2c3 (MD5) / Made available in DSpace on 2017-01-30T13:02:31Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Tese_AvaliacaoAutomaticaQuestoes.pdf: 5106074 bytes, checksum: c401d50ce5e666c52948ece7af20b2c3 (MD5)
Previous issue date: 2016-02-05 / Este trabalho investiga o uso de um modelo usando Latent Semantic Analysis (LSA) na avaliação automática de respostas curtas, com média de 25 a 70 palavras, de questões discursivas. Com o surgimento de ambientes virtuais de aprendizagem, pesquisas sobre correção automática tornaram-se mais relevantes, pois permitem a correção mecânica com baixo custo para questões abertas. Além disso, a correção automática permite um feedback instantâneo e elimina o trabalho de correção manual. Isto possibilita criar turmas virtuais com grande quantidade de alunos (centenas ou milhares). Pesquisas sobre avaliação automática de textos estão sendo desenvolvidas desde a década de 60, mas somente na década atual estão alcançando a acurácia necessária para uso prático em instituições de ensino. Para que os usuários finais tenham confiança, o desafio de pesquisa é desenvolver sistemas de avaliação robustos e com acurácia próxima de avaliadores humanos. Apesar de alguns estudos apontarem nesta direção, existem ainda muitos pontos a serem explorados nas pesquisas. Um ponto é a utilização de bigramas com LSA, mesmo que não contribua muito com a acurácia, contribui com a robustez, que podemos definir como confiabilidade2, pois considera a ordem das palavras dentro do texto. Buscando aperfeiçoar um modelo LSA na direção de melhorar a acurácia e aumentar a robustez trabalhamos em quatro direções: primeira, incluímos bigramas de palavras no modelo LSA; segunda, combinamos modelos de co-ocorrência de unigrama e bigramas com uso de regressão linear múltipla; terceira, acrescentamos uma etapa de ajustes sobre a pontuação do modelo LSA baseados no número de palavras das respostas avaliadas; quarta, realizamos uma análise da distribuição das pontuações atribuídas pelo modelo LSA contra avaliadores humanos. Para avaliar os resultados comparamos a acurácia do sistema contra a acurácia de avaliadores humanos verificando o quanto o sistema se aproxima de um avaliador humano. Utilizamos um modelo LSA com cinco etapas: 1) pré- processamento, 2) ponderação, 3) decomposição a valores singulares, 4) classificação e 5) ajustes do modelo. Para cada etapa explorou-se estratégias alternativas que influenciaram na acurácia final. Nos experimentos obtivemos uma acurácia de 84,94% numa avaliação comparativa contra especialistas humanos, onde a correlação da acurácia entre especialistas humanos foi de 84,93%. No domínio estudado, a tecnologia de avaliação automática teve resultados próximos aos dos avaliadores humanos mostrando que esta alcançando um grau de maturidade para ser utilizada em sistemas de avaliação automática em ambientes virtuais de aprendizagem. / This work investigates the use of a model using Latent Semantic Analysis (LSA) In the automatic evaluation of short answers, with an average of 25 to 70 words, of questions Discursive With the emergence of virtual learning environments, research on Automatic correction have become more relevant as they allow the mechanical correction With low cost for open questions. In addition, automatic Feedback and eliminates manual correction work. This allows you to create classes With large numbers of students (hundreds or thousands). Evaluation research Texts have been developed since the 1960s, but only in the The current decade are achieving the necessary accuracy for practical use in teaching. For end users to have confidence, the research challenge is to develop Evaluation systems that are robust and close to human evaluators. despite Some studies point in this direction, there are still many points to be explored In the surveys. One point is the use of bigrasms with LSA, even if it does not contribute Very much with the accuracy, contributes with the robustness, that we can define as reliability2, Because it considers the order of words within the text. Seeking to perfect an LSA model In the direction of improving accuracy and increasing robustness we work in four directions: First, we include word bigrasms in the LSA model; Second, we combine models Co-occurrence of unigram and bigrams using multiple linear regression; third, We added a stage of adjustments on the LSA model score based on the Number of words of the responses evaluated; Fourth, we performed an analysis of the Of the scores attributed by the LSA model against human evaluators. To evaluate the We compared the accuracy of the system against the accuracy of human evaluators Verifying how close the system is to a human evaluator. We use a LSA model with five steps: 1) pre-processing, 2) weighting, 3) decomposition a Singular values, 4) classification and 5) model adjustments. For each stage it was explored Strategies that influenced the final accuracy. In the experiments we obtained An 84.94% accuracy in a comparative assessment against human Correlation among human specialists was 84.93%. In the field studied, the Evaluation technology had results close to those of the human evaluators Showing that it is reaching a degree of maturity to be used in Assessment in virtual learning environments. Google Tradutor para empresas:Google Toolkit de tradução para appsTradutor de sitesGlobal Market Finder.
|
228 |
Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos. / Creation of thematic vectors of domains for the polysemic disambiguation of terms.BISPO, Magna Celi Tavares. 01 August 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-01T17:34:31Z
No. of bitstreams: 1
MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) / Made available in DSpace on 2018-08-01T17:34:31Z (GMT). No. of bitstreams: 1
MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5)
Previous issue date: 2012-11-30 / A ambiguidade de termos é um dos fatores que dificulta o processo de indexação de
documentos e recuperação de informação desejada por um usuário. O presente trabalho
se baseia na hipótese de que parte deste problema pode ser minimizado sabendo-se de
antemão o domínio do documento que contém termos ambíguos. Para determinar este
domínio foram construídos vocabulários temáticos por meio da extração de termos de
documentos de domínios de conhecimento pré-determinados, com o uso de regras
sintáticas. A Wikipédia foi usada como base de consulta, por ser uma enciclopédia
digital contendo as categorias definidas semelhantes à Classificação Decimal Universal
(CDU), e cada categoria com uma vasta quantidade de documentos específicos, sendo
essa característica fundamental para formação de um vocabulário específico do
domínio de um conhecimento. A escolha das categorias foi baseada na CDU, composta
de 10 domínios e seus respectivos subdomínios. Os vocabulários obtidos, denominados
de Vetores Temáticos de Domínio (VTD), serviram de base para a classificação de
novos documentos. Para validação dos VTD's, foram realizados três tipos de
experimentos diferentes, o primeiro foi classificar novos documentos utilizando o
método vetorial, tendo o VTD como base de consulta. O segundo experimento foi uma
classificação utilizando outro classificador, o Intellexer Categorizer, e o terceiro
experimento, criou-se um vetor de termos através do Weka, o qual foi submetido a
servir de base de consulta para classificar novos documentos, utilizando o modelo
vetorial. Os resultados foram satisfatórios, pois mostrou que o VTD obteve uma
melhor classificação em relação aos outros métodos, dos 14 novos documentos,
classificou 10 corretamente e 4 errados, apresentando uma acurácia de 80%, contra a
acurácia de 57% do Intellexer Categorizer e de 50% da classificação utilizando o vetor
de termos criado pelo Weka. / Terms ambiguity is one of the factors that hinders the document indexation and
information retrieval processes desired by a user. This work is based on the hypothesis
that part of this problem can be minimized by knowing beforehand the field of the
document that contains ambiguous terms. To determine this domain, typical
vocabularies were created through the extraction of terms from documents of
predetermined knowledge domains, with the use of syntactical rules. Wikipedia was
used as a consultation base because it is a digital encyclopedia that contains the
categories defined similar to the Universal Decimal Classification (UDC), each
category containing a vast amount of specific documents, being this feature essential
for the formation of a domain-specific vocabulary. The choice of the categories was
based on the UDC, composed of 10 domains and their respective subdomains. The
vocabularies obtained, denominated as Thematic Domain Vectors (TDV), served as
the basis for the classification of new documents. For the validation of the TDVs,
three different types of experiments were performed: the first was to classify new
documents using the vectorial method, with the TDV as a basis of consultation. The
second experiment was a classification using another classifier, the Intellexer
Categorizer. For the third experiment was created a vector of terms through Weka,
which was submitted to serve as a a consultation base to classify new documents using
the vectorial model. The results were satisfactory, because they showed that the TDV
obtained a better classification relative to other methods. Of the 14 new documents,
properly it rated 10 and 4 incorrectly, with an accuracy of 80%, against 57% accuracy
of the Intellexer Categorizer program and 50% of the classification using the Weka
created vector of terms.
|
229 |
Um estudo comparativo de modelos baseados em estatísticas textuais, grafos e aprendizado de máquina para sumarização automática de textos em portuguêsLeite, Daniel Saraiva 21 December 2010 (has links)
Made available in DSpace on 2016-06-02T19:05:48Z (GMT). No. of bitstreams: 1
3512.pdf: 1897835 bytes, checksum: 598f309a846cb201fe8f13be0f2e37da (MD5)
Previous issue date: 2010-12-21 / Automatic text summarization has been of great interest in Natural Language Processing due to the need of processing a huge amount of information in short time, which is usually delivered through distinct media. Thus, large-scale methods are of utmost importance for synthesizing and making access to information simpler. They aim at preserving relevant content of the sources with little or no human intervention. Building upon the extractive summarizer SuPor and focusing on texts in Portuguese, this MsC work aimed at exploring varied features for automatic summarization. Computational methods especially driven towards textual statistics, graphs and machine learning have been explored. A meaningful extension of the SuPor system has resulted from applying such methods and new summarization models have thus been delineated. These are based either on each of the three methodologies in isolation, or are hybrid. In this dissertation, they are generically named after the original SuPor as SuPor-2. All of them have been assessed by comparing them with each other or with other, well-known, automatic summarizers for texts in Portuguese. The intrinsic evaluation tasks have been carried out entirely automatically, aiming at the informativeness of the outputs, i.e., the automatic extracts. They have also been compared with other well-known automatic summarizers for Portuguese. SuPor-2 results show a meaningful improvement of some SuPor-2 variations. The most promising models may thus be made available in the future, for generic use. They may also be embedded as tools for varied Natural Language Processing purposes. They may even be useful for other related tasks, such as linguistic studies. Portability to other languages is possible by replacing the resources that are language-dependent, namely, lexicons, part-of-speech taggers and stop words lists. Models that are supervised have been so far trained on news corpora. In spite of that, training for other genres may be carried out by interested users using the very same interfaces supplied by the systems. / A tarefa de Sumarização Automática de textos tem sido de grande importância dentro da área de Processamento de Linguagem Natural devido à necessidade de se processar gigantescos volumes de informação disponibilizados nos diversos meios de comunicação. Assim, mecanismos em larga escala para sintetizar e facilitar o acesso a essas informações são de extrema importância. Esses mecanismos visam à preservação do conteúdo mais relevante e com pouca ou nenhuma intervenção humana. Partindo do sumarizador extrativo SuPor e contemplando o Português, este trabalho de mestrado visou explorar variadas características de sumarização pela utilização de métodos computacionais baseados em estatísticas textuais, grafos e aprendizado de máquina. Esta exploração consistiu de uma extensão significativa do SuPor, pela definição de novos modelos baseados nessas três abordagens de forma individual ou híbrida. Por serem originários desse sistema, manteve-se a relação com seu nome, o que resultou na denominação genérica SuPor-2. Os diversos modelos propostos foram, então, comparados entre si em diversos experimentos, avaliando-se intrínseca e automaticamente a informatividade dos extratos produzidos. Foram realizadas também comparações com outros sistemas conhecidos para o Português. Os resultados obtidos evidenciam uma melhora expressiva de algumas variações do SuPor-2 em relação aos demais sumarizadores extrativos existentes para o Português. Os sistemas que se evidenciaram superiores podem ser disponibilizados no futuro para utilização geral por usuários comuns ou ainda para utilização como ferramentas em outras tarefas do Processamento de Língua Natural ou em áreas relacionadas. A portabilidade para outras línguas é possível com a substituição dos recursos dependentes de língua, como léxico, etiquetadores morfossintáticos e stoplist Os modelos supervisionados foram treinados com textos jornalísticos até o momento. O treino para outros gêneros pode ser feito pelos usuários interessados através dos próprios sistemas desenvolvidos
|
230 |
Tradução automática estatística baseada em sintaxe e linguagens de árvoresBeck, Daniel Emilio 19 June 2012 (has links)
Made available in DSpace on 2016-06-02T19:05:58Z (GMT). No. of bitstreams: 1
4541.pdf: 1339407 bytes, checksum: be0e2f3bb86e7d6b4c8d03f4f20214ef (MD5)
Previous issue date: 2012-06-19 / Universidade Federal de Minas Gerais / Machine Translation (MT) is one of the classic Natural Language Processing (NLP) applications. The state-of-the-art in MT is represented by statistical methods that aim to learn all necessary linguistic knowledge automatically through large collections of texts (corpora). However, while the quality of statistical MT systems had improved, nowadays these advances are not significant. For this reason, research in the area have sought to involve more explicit linguistic knowledge in these systems. One issue that purely statistical MT systems have is the lack of correct treatment of syntactic phenomena. Thus, one of the research directions when trying to incorporate linguistic knowledge in those systems is through the addition of syntactic rules. To accomplish this, many methods and formalisms with this goal in mind are studied. This text presents the investigation of methods which aim to advance the state-of-the-art in statistical MT through models that consider syntactic information. The methods and formalisms studied are those used to deal with tree languages, mainly Tree Substitution Grammars (TSGs) and Tree-to-String (TTS) Transducers. From this work, a greater understanding was obtained about the studied formalisms and their behavior when used in NLP applications. / A Tradução Automática (Machine Translation - MT) é uma das aplicações clássicas dentro do Processamento da Língua Natural (Natural Language Processing - NLP). O estado-da-arte em MT é representado por métodos estatísticos, que buscam aprender o conhecimento linguístico necessário de forma automática por meio de grandes coleções de textos (os corpora). Entretanto, ainda que se tenha avançado bastante em relação à qualidade de sistemas estatísticos de MT, hoje em dia esses avanços não estão sendo significativos. Por conta disso, as pesquisas na área têm buscado formas de envolver mais conhecimento linguístico explícito nesses sistemas. Um dos problemas que não é bem resolvido por sistemas de MT puramente estatísticos é o correto tratamento de fenômenos sintáticos. Assim, uma das direções que as pesquisas tomam na hora de incorporar conhecimento linguístico a esses sistemas é através da adição de regras sintáticas. Para isso, uma série de métodos e formalismos foram e são estudados até hoje. Esse texto apresenta a investigação de métodos que se utilizam de informação sintática na tentativa de avançar no estado-da-arte da MT estatística. Foram utilizados métodos e formalismos que lidam com linguagens de a´rvores, em especial as Gramáticas de Substituição de Árvores (Tree Substitution Grammars - TSGs) e os Transdutores Árvore-para-String (Tree-to-String - TTS). Desta investigação, obteve-se maior entendimento sobre os formalismos estudados e seu comportamento em aplicações de NLP.
|
Page generated in 0.1443 seconds