Spelling suggestions: "subject:"processamento dde linguagem batural"" "subject:"processamento dde linguagem datural""
191 |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO / [en] DEEP LEARNING APPLIED TO TEXT CHUNKINGMIGUEL MENDES DE BRITO 15 May 2019 (has links)
[pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87. / [en] Natural Language Processing is a research field that explores how computers can understand and manipulate natural language texts. Sequence tagging is amongst the most well-known tasks in NLP. Text Chunking is one of the problems that can be approached as a sequence tagging problem. Thus, we classify which words belong to a chunk, where each chunk represents a disjoint group of syntactically correlated words. This type of chunking has important applications in more complex tasks of natural language processing, such as dependency parsing, machine translation, semantic role labeling, clause identification and much more. The goal of this work is to present a deep neural network archtecture for the Portuguese text chunking problem. The corpus used in the experiments is the Bosque, from the Floresta Sintá(c)tica project. Based on recent work in the field, our approach surpass the state-of-the-art for Portuguese by achieving a F(beta)=1 of 90.51, which corresponds to an increase of 2.56 in comparison with the previous work. In addition, in order to attest the chunker effectiveness we use the tags obtained by our system as feature for the depedency parsing task. These features improved the accuracy of the parser by 0.87.
|
192 |
[pt] ARQUITETURA PROFUNDA PARA EXTRAÇÃO DE CITAÇÕES / [en] DEEP ARCHITECTURE FOR QUOTATION EXTRACTIONLUIS FELIPE MULLER DE OLIVEIRA HENRIQUES 28 July 2017 (has links)
[pt] A Extração e Atribuição de Citações é a tarefa de identificar citações de um texto e associá-las a seus autores. Neste trabalho, apresentamos um sistema de Extração e Atribuição de Citações para a língua portuguesa. A tarefa de Extração e Atribuição de Citações foi abordada anteriormente utilizando diversas técnicas e para uma variedade de linguagens e datasets. Os modelos tradicionais para a tarefa consistem em extrair manualmente um rico conjunto de atributos e usá-los para alimentar um classificador
raso. Neste trabalho, ao contrário da abordagem tradicional, evitamos usar atributos projetados à mão, usando técnicas de aprendizagem não supervisionadas e redes neurais profundas para automaticamente aprender atributos relevantes para resolver a tarefa. Ao evitar a criação manual de atributos, nosso modelo de aprendizagem de máquina tornou-se facilmente adaptável a outros domínios e linguagens. Nosso modelo foi treinado e avaliado no corpus GloboQuotes e sua métrica de desempenho F1 é igual a 89.43 por cento. / [en] Quotation Extraction and Attribution is the task of identifying quotations from a given text and associating them to their authors. In this work, we present a Quotation Extraction and Attribution system for the Portuguese language. The Quotation Extraction and Attribution task has been previously approached using various techniques and for a variety of languages and datasets. Traditional models to this task consist of extracting a rich set of hand-designed features and using them to feed a shallow classifier. In this work, unlike the traditional approach, we avoid using hand-designed features using unsupervised learning techniques and deep neural networks to automatically learn relevant features to solve the task. By avoiding design features by hand, our machine learning model became easily adaptable to other languages and domains. Our model is trained and evaluated at the GloboQuotes corpus, and its F1 performance metric is equal to 89.43 percent.
|
193 |
[pt] ANOTAÇÃO PROFUNDA DE PAPÉIS SEMÂNTICOS PARA O PORTUGUÊS / [en] DEEP SEMANTIC ROLE LABELING FOR PORTUGUESEGUILHERME SANT ANNA VARELA 06 August 2019 (has links)
[pt] Vivemos em um mundo complexo, no qual incontáveis fatores aparentemente desconexos – tais como a lei de Moore que dita um aumento exponencial da capacidade de processamento em um chip de silício, a queda do custo de espaço de armazenamento e a adoção em massa de smartphones colaboram para a formação de uma sociedade progressivamente interdependente. Todos os dias são criados 2,5 quintilhões de bytes de dados, de fato 90 por cento dos dados no mundo foram criados nos últimos dois anos. Domar os padrões salientes aos dados separando informação do caos torna-se uma necessidade iminente para a tomada de decisão dos indivíduos e para sobrevivência de organizações. Nesse cenário a melhor resposta dos pesquisadores de Processamento de Linguagem Natural encontra-se na tarefa de Anotação de Papéis
Semânticos. APS é a tarefa que tem o audacioso objetivo de compreender eventos, buscando determinar Quem fez o que e aonde, Quais foram os beneficiados? ou Qual o meio utilizado para atingir os fins. APS serve como tarefa intermediária para várias aplicações de alto nível e.g information extraction, question and answering e agentes conversacionais. Tradicionalmente, resultados satisfatórios eram obtidos apenas com alta dependência de conhecimento específico de domínio. Para o português, através desta abordagem,
o sistema estado da arte da tarefa para é de 79,6 por cento de pontuação F1. Sistemas mais recentes dependem de uma série de subtarefas, obtém 58 por cento de pontuação F1. Nessa dissertação, exploramos um novo paradigma utilizando redes neurais recorrentes, para o idioma do português do Brasil,
e sem subtarefas intermediárias obtendo uma pontuação de 66,23. / [en] We live in a complex world in which a myriad of seemingly unrelated factors – such as Moore s law which states that the processing capacity on a silicon wafer should increase exponentially, the fall of storage costs and mass adoption of smart-phones contribute to the formation of an increasingly inter-dependent society: 2.5 quintillion bytes of data are generated every day, in fact ninety percent of the world s data were created in the last few years. Harnessing the emerging patterns within the data, effectively separating information from chaos is crucial for both individual decision making as well as for the survival of organizations. In this scenario the best answer from Natural Language Processing researchers is the task
of Semantic Role Labeling. SRL is the task the concerns itself with the audacious goal of event understanding, which means determining Who did what to whom, Who was the beneficiary? or What were the means to achieve some goal. APS is also an intermediary task to high level applications such as information extraction, question and answering and chatbots. Traditionally, satisfactory results were obtained only by the introduction of highly specific domain knowledge. For Portuguese, this approach is able to yields a F1 score of 79.6 percent. Recent systems, rely on a pipeline of sub-tasks, yielding a F1 score of 58 percent. In this dissertation, we adopt a new paradigm using recurrent neural networks for the Brazilian Portuguese, that does not rely on a pipeline, our system obtains a score of 66.23 percent.
|
194 |
[en] PART-OF-SPEECH TAGGING FOR PORTUGUESE / [pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊSROMULO CESAR COSTA DE SOUSA 07 April 2020 (has links)
[pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra
de uma sentença com sua devida classe morfossintática (verbo, substantivo,
adjetivo e etc). POS tagging é considerada uma atividade fundamental no
processo de construção de aplicações de processamento de linguagem natural
(PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de
informação. Nesse trabalho, construímos um POS tagger para o Português
Contemporâneo e o Português Histórico, baseado em uma arquitetura de
rede neural recorrente. Tradicionalmente a construção dessas ferramentas
requer muitas features específicas do domínio da linguagem e dados externos
ao conjunto de treino, mas nosso POS tagger não usa esses requisitos.
Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que
se beneficia das representações de word embeddings e character embeddings
das palavras, para atividade de classificação morfossintática. Testamos nosso
POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe.
Nós obtemos um desempenho ligeiramente melhor que os sistemas estado
da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original,
97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para
Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para
a medida de acurácia fora do vocabulário, uma acurácia especial calculada
somente sobre as palavras desconhecidas do conjunto de treino. Realizamos
ainda um estudo comparativo para verificar qual dentre os mais populares
algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec
e Glove), é mais adequado para a atividade POS tagging em Português. O
modelo de Wang2Vec mostrou um desempenho superior. / [en] Part-of-speech (POS) tagging is a process of labeling each word
in a sentence with a morphosyntactic class (verb, noun, adjective and
etc). POS tagging is a fundamental part of the linguistic pipeline, most
natural language processing (NLP) applications demand, at some step,
part-of-speech information. In this work, we constructed a POS tagger
for Contemporary Portuguese and Historical Portuguese, using a recurrent
neural network architecture. Traditionally the development of these tools
requires many handcraft features and external data, our POS tagger does
not use these elements. We trained a Bidirectional Long short-term memory
(BLSTM) network that benefits from the word embeddings and character
embeddings representations of the words, for morphosyntactic classification.
We tested our POS tagger on three different corpora: the original version
of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus,
and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for
the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus,
97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the
Tycho Brahe corpus. We also achieved an improvement in the three corpora
in out-of-vocabulary accuracy, that is the accuracy on words not seen in
training sentences. We also performed a comparative study to test which
different types of word embeddings (Word2Vec, FastText, Wang2Vec, and
Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model
showed higher performance.
|
195 |
[en] AN END-TO-END MODEL FOR JOINT ENTITY AND RELATION EXTRACTION IN PORTUGUESE / [pt] MODELO END-TO-END PARA EXTRAÇÃO DE ENTIDADES E RELAÇÕES DE FORMA CONJUNTA EM PORTUGUÊSLUCAS AGUIAR PAVANELLI 24 October 2022 (has links)
[pt] As técnicas de processamento de linguagem natural (NLP) estão se tornando
populares recentemente. A gama de aplicativos que se beneficiam de
NLP é extensa, desde criar sistemas de tradução automática até ajudar no
marketing de um produto. Dentro de NLP, o campo de Extração de Informações
(IE) é difundido; concentra-se no processamento de textos para recuperar
informações específicas sobre uma determinada entidade ou conceito. Ainda
assim, a comunidade de pesquisa se concentra principalmente na construção
de modelos para dados na língua inglesa. Esta tese aborda três tarefas no
domínio do IE: Reconhecimento de Entidade Nomeada, Extração de Relações
Semânticas e Extração Conjunta de Entidade e Relação. Primeiro, criamos um
novo conjunto de dados em português no domínio biomédico, descrevemos o
processo de anotação e medimos suas propriedades. Além disso, desenvolvemos
um novo modelo para a tarefa de Extração Conjunta de Entidade e Relação,
verificando que o mesmo é competitivo em comparação com outros modelos.
Finalmente, avaliamos cuidadosamente os modelos propostos em textos de idiomas
diferentes do inglês e confirmamos a dominância de modelos baseados
em redes neurais. / [en] Natural language processing (NLP) techniques are becoming popular recently.
The range of applications that benefit from NLP is extensive, from
building machine translation systems to helping market a product. Within
NLP, the Information Extraction (IE) field is widespread; it focuses on processing
texts to retrieve specific information about a particular entity or concept.
Still, the research community mainly focuses on building models for English
data. This thesis addresses three tasks in the IE domain: Named Entity Recognition, Relation Extraction, and Joint Entity and Relation Extraction. First,
we created a novel Portuguese dataset in the biomedical domain, described the
annotation process, and measured its properties. Also, we developed a novel
model for the Joint Entity and Relation Extraction task, verifying that it is
competitive compared to other models. Finally, we carefully evaluated proposed
models on non-English language datasets and confirmed the dominance of
neural-based models.
|
196 |
Uma gramÃtica LFG-XLE para o processamento sintÃtico profunda do portuguÃs / A LFG-XLE grammar for Brazilian Portuguese deep parserAndrÃa Feitosa dos Santos 19 December 2014 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / A presente tese descreve a elaboraÃÃo de uma gramÃtica da frase do PortuguÃs Brasileiro, desenvolvida no quadro de um modelo teÃrico de sofisticado formalismo computacional, a Lexical Functional Grammar (LFG) e implementada no sistema que constitui o estado da arte em ambiente de processamento sintÃtico profundo no modelo gerativo da LFG, o robusto Xerox Linguistic Environment (XLE). A principal caracterÃstica da gramÃtica à que adota o sistema de anotaÃÃo do ParGram e a metodologia convencionada por desenvolvedores de gramÃtica XLE. No fragmento de gramÃtica estÃo modelados diversificados elementos da sintaxe frasal. Em nossa gramÃtica, foram modelados constituintes oracionais como IP e CP, elementos que encabeÃam as sentenÃas do portuguÃs. TambÃm foram modelados determinados aspectos da subcategorizaÃÃo verbal e da estrutura argumental. Dos elementos verbais, nossa gramÃtica contempla alguns casos de complexos verbais constituÃdos de verbos modais e verbos de controle. Os elementos nominais tratados na gramÃtica, de modo central, foram os pronomes expletivos e reflexivos, e os casos de sintagmas nominais e determinantes com pronomes demonstrativos e interrogativos. Os demais aspectos modelados na gramÃtica sÃo os sintagmas preposicionados, cuja complexidade se dà na distinÃÃo entre preposiÃÃes semÃnticas e nÃo semÃnticas; os sintagmas adjetivais, cuja projeÃÃo na sentenÃa pode ocorrer a partir de formas adjetivais atributivas, de formas ordinais ou cardinais e na forma de intensificadores; e os sintagmas adverbiais, cuja estrutura interna foi modelada levando-se em consideraÃÃo tanto advÃrbios intransitivos quanto transitivos com complemento PP. A nossa avaliaÃÃo demonstra que das 40 sentenÃas testadas, a nossa gramÃtica atribui, para todas elas, anÃlises consistentes e bem fundamentadas, ao passo que o parser Palavras, o atual estado da arte em processamento sintÃtico profundo do portuguÃs, atribui, a 9 sentenÃas, anÃlises incorretas. Uma outra avaliaÃÃo demonstra que, das 20 sentenÃas agramaticais testadas tanto em nossa gramÃtica, quanto no Palavras, somente 2 receberam anÃlises por parte de nossa gramÃtica, enquanto o Palavras fornece anÃlises para 19 sentenÃas. O trabalho tem, essencialmente, o objetivo de fazer uma descriÃÃo formal e fundamentada de um amplo leque de fenÃmenos do portuguÃs brasileiro, mas, sobretudo, tem o objetivo de contribuir com uma gramÃtica nÃo trivial da frase do portuguÃs no formalismo LFG-XLE, disponibilizando efetivamente um recurso gramatical do portuguÃs voltado para o processamento de linguagem natural. / The present thesis describes the development of a Brazilian Portuguese sentence grammar, developed in the framework of a sophisticated computational formalism, named Lexical Functional Grammar, and implemented on a system that is state of the art in deep parsing environment in LFG generative model, the robust XLE. The main feature of the grammar is that it adopts the ParGram annotation system and the methodology agreed by XLE grammar developers. In the grammar fragment are modeled diverse elements of phrasal syntax. In our grammar were modeled constituents as IP and CP, elements that are head the sentences of the Portuguese. Also were modeled certain aspects of verbal subcategorization and argument structure. In terms of verbal elements, our grammar includes some cases of verbal complex made up of modal verbs and control verbs. The nominal elements treated in grammar, centrally, were the expletives and reflexive pronouns, and cases of nominal and determiners phrases with demonstrative pronouns and interrogative. The other aspects modeled in the grammar are PPs, whose complexity is given the distinction between semantic and nonstandard prepositions; the adjectival phrases, whose projection in the sentence can occur from attributive adjectival forms of ordinal or cardinal forms and as intensifiers; and adverbial phrases, whose internal structure was modeled taking into account both adverbs as intransitive and as transitive, with PP complement. Our evaluation shows that of the 40 tested sentences, our grammar assigns, for all of them, consistent and well-founded analysis, while the parser Palavras, the current state of the art in deep syntactic processing of Portuguese, assigns incorrect analysis for 9 sentences. Another evaluation shows that, of the 20 ungrammatical sentences tested both in our grammar, as in Palavras, only 2 received analysis by our grammar, while the Palavras provides analysis to 19 sentences. The work has essentially the goal of making a formal and grounded description in a broad range of phenomena in Brazilian Portuguese, but mainly aims to collaborate with a not trivial grammar of the sentence in the LFG-XLE formalism, effectively contributing to a grammatical resource turned to the natural language processing.
|
197 |
[en] REQUIREMENTS VERIFICATION AND VALIDATION: NATURAL LANGUAGE PROCESSING AND SOFTWARE AGENTS / [pt] VERIFICAÇÃO E VALIDAÇÃO EM REQUISITOS: PROCESSAMENTO DA LINGUAGEM NATURAL E AGENTESMIRIAM SAYAO 30 November 2007 (has links)
[pt] No processo de desenvolvimento do software, atividades
relacionadas ao
Processo de Requisitos envolvem elicitação, modelagem,
verificação e validação
dos requisitos. O uso da linguagem natural no registro dos
requisitos facilita a
comunicação entre os participantes do processo, além de
possibilitar que clientes e
usuários validem requisitos sem necessitar de conhecimento
extra. Por outro lado,
na economia globalizada atual, o desenvolvimento de
software por equipes
geograficamente distribuídas está se tornando uma norma.
Nesse cenário,
atividades de verificação e validação de requisitos para um
software de média ou
alta complexidade podem envolver o tratamento de centenas
ou milhares de
requisitos. Com essa ordem de complexidade é importante que
o engenheiro de
software tenha apoio computacional para o desempenho
adequado das atividades
de aferição de qualidade. Neste trabalho estamos propondo
uma estratégia que
combina técnicas de processamento da linguagem natural
(PLN) e agentes de
software para apoiar as atividades de análise dos
requisitos. Geramos visões
textuais ou gráficas de grupos de requisitos relacionados;
visões apóiam a análise
de completude, a identificação de duplicidades e de
dependências entre requisitos.
Utilizamos técnicas de análise de conteúdo para apoiar a
identificação de
omissões em requisitos não funcionais. Também propomos uma
estratégia para a
construção ou atualização do léxico da aplicação,
utilizando técnicas de PLN.
Utilizamos agentes de software para implementar serviços
que incorporam as
estratégias referidas, e também para atuar como
representantes dos participantes
do projeto em desenvolvimento. / [en] In software development process, initial activities can
involve requirements elicitation, modeling and analysis
(verification and validation). The use of natural language
in the register of the requirements facilitates the
communication among stakeholders, besides offering
possibilities to customers and users to validate
requirements without extra knowledge. On the other hand, in
the current global economy, software development for teams
geographically distributed is becoming a rule. In this
scenario, requirements verification and validation for
medium or high complexity software can involve the
treatment of hundreds or even thousand requirements. With
this complexity order it is important to provide
computational support for the software engineer execute
quality activities. In this work we propose a strategy
which combines natural language processing (NLP) techniques
and software agents to support analysis activities. We have
generated textual or graphical visions from groups of
related requirements; visions help completeness analysis,
identification of duplicities and dependences among
requirements. We use content analysis techniques to support
the identification of omissions in nonfunctional
requirements. Also, we propose a strategy to construct the
lexicon, using NLP techniques. We use software agents to
implement web services that incorporate the related
strategies, and also agents to act as personal assistants
for stakeholders of the software project.
|
198 |
Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb / THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETERLondero, Eduardo Bauer 29 March 2011 (has links)
Made available in DSpace on 2016-03-22T17:26:45Z (GMT). No. of bitstreams: 1
Dissertacao_Eduardo_Revisado.pdf: 3489154 bytes, checksum: 3c327ee0bc47d79cd4af46e065105650 (MD5)
Previous issue date: 2011-03-29 / Text retrieved from the Internet through Google and Yahoo queries are evaluated
using Flesch-Kincaid Grade Level, a simple assessment measure of text readability. This
kind of metrics were created to help writers to evaluate their text, and recently in automatic
text simplification for undercapable readers. In this work we apply these metrics
to documents freely retrieved from the Internet, seeking to find correlations between legibility
and relevance acknowledged to then by search engines. The initial premise guiding
the comparison between readability and relevance is the statement known as Occam s
Principle, or Principle of Economy. This study employs Flesch-Kincaid Grade Level in
text documents retrieved from the Internet through search-engines queries and correlate
it with the position. It was found a centralist trend in the texts recovered. The centralist
tendency mean that the average spacing of groups of files from the average of the
category they belong is meaningfull. With this measure is possible to establish a correlation
between relevance and legibility, and also, to detect diferences in the way both
search engines derive their relevance calculation. A subsequent experiment seeks to determine
whether the measure of legibility can be employed to assist him or her choosing
a document combined with original search engine ranking and if it is useful as advance
information for choice and user navigation. In a final experiment, based on previously
obtained knowledge, a comparison between Wikipedia and Britannica encyclopedias by
employing the metric of understandability Flesch-Kincaid / Textos recuperados da Internet por interm´edio de consultas ao Google e Yahoo
s ao analisados segundo uma m´etrica simples de avaliac¸ ao de inteligibilidade textual. Tais
m´etricas foram criadas para orientar a produc¸ ao textual e recentemente tamb´em foram
empregadas em simplificadores textuais autom´aticos experimentais para leitores inexperientes.
Nesse trabalho aplicam-se essas m´etricas a texto originais livres, recuperados da
Internet, para buscar correlacionar o grau de inteligibilidade textual com a relev ancia que
lhes ´e conferida pelos buscadores utilizados. A premissa inicial a estimular a comparac¸ ao
entre inteligibilidade e relev ancia ´e o enunciado conhecido como Princ´ıpio de Occam,
ou princ´ıpio da economia. Observa-se uma tend encia centralista que ocorre a partir do
pequeno afastamento m´edio dos grupos de arquivos melhor colocados no ranking em
relac¸ ao `a m´edia da categoria a que pertencem. ´E com a medida do afastamento m´edio que
se consegue verificar correlac¸ ao com a posic¸ ao do arquivo no ranking e ´e tamb´em com
essa medida que se consegue registrar diferenc¸as entre o m´etodo de calcular a relev ancia
do Google e do Yahoo. Um experimento que decorre do primeiro estudo procura determinar
se a medida de inteligibilidade pode ser empregada para auxiliar o usu´ario da Internet
a escolher arquivos mais simples ou se a sua indicac¸ ao junto `a listagem de links recuperados
´e ´util e informativa para a escolha e navegac¸ ao do usu´ario. Em um experimento
final, embasado no conhecimento previamente obtido, s ao comparadas as enciclop´edias
Brit anica eWikip´edia por meio do emprego da m´etrica de inteligibilidade Flesch-Kincaid
Grade Level
|
199 |
Modelos e Métodos para interação homem-computador usando gestos manuais / Models and Methods for Human-Computer Interaction Using Hands GesturesCordeiro Junior, Albino Adriano Alves 24 July 2009 (has links)
Made available in DSpace on 2015-03-04T18:51:17Z (GMT). No. of bitstreams: 1
thesisAlbino.pdf: 7858077 bytes, checksum: c060d6e1ca39e253884a9704701bd989 (MD5)
Previous issue date: 2009-07-24 / This thesis addresses the problem of algorithmic understanding of digital video applied to the design of Human-Computer Interaction (HCI) systems based on hand posture and motion. Such systems are often referred as a type of Perceptual User Interface (PUI), which is an interface that enables the computer to detect and recognize users' actions in an active way. PUI is believed to be a paradigm that is going to supplement the current standard Graphical User Interfaces(GUI), that are based on mice and keyboards for user input.
The main motivation of the research done in hand-gesture HCI is to enable people to interact in a more natural way with computational devices, for example, by letting the users manipulate computer programs, files and folders in a way that resembles the handling of familiar physical objects.
In this work a toolset is proposed for hand tracking -position and in-plane rotation- as well as posture recognition from hand contours. A novel approach to pixel-level processing based on machine learning forms the fundamental building block of a level set contour tracking method, as well as for the measurement module of the tracker, which is formulated as a filtering problem in state-spaces where the dynamics is modeled with Markov jumps linear systems. Low error rates are achieved for posture classification using a shape descriptor based on 2D moments invariant measures. / Esta tese aborda o problema de entender videos digitais algoritmicamente aplicado ao design de sistemas de Interação Homem-Computador (HCI do Inglês: Human-Computer Interaction) baseados na postura e movimento da mão. Tais sistemas são frequentemente referidos como um tipo de Interface Perceptual com o usuário (PUI do Inglês: Perceptual User Interface), que é uma interface que habilita o computador a detectar e reconhecer ações dos usuários de forma ativa. Acredita-se que PUI é um paradigma que irá suplementar o padrão atual, as Interfaces Gráficas com o Usuário (GUI do Inglês: Graphical User Interfaces), que são baseadas em mouses e teclados para entrada do usuário.
A principal motivação da pesquisa feita em HCI por gestos manuais é habilitar as pessoas a interagir de uma forma mais natural com dispositivos computacionais, por exemplo, ao permitir que usuários manipulem programas, arquivos e pastas de computador de uma forma similar ao manuseio de objetos físicos familiares.
Neste trabalho é proposto um ferramental para rastreamento da mão --posição e rotação no plano-- assim como para reconhecimento de postura da mão a partir dos contornos da mão. Uma nova abordagem de processamento de pixels baseada em aprendizagem de máquina forma o bloco fundamental para um método level set de extração de contornos, tão bem como para um módulo de mensuração do rastreador, que é formulado como um problema de filtragem em espaço de estados onde a dinâmica do sistema é modelada com sistemas lineares com saltos markovianos. Baixas taxas de erro de classificação de postura são alcançadas com o uso de um descritor de formas baseados em medidas invariantes de momentos bidimensionais.
|
200 |
O uso de recursos linguísticos para mensurar a semelhança semântica entre frases curtas através de uma abordagem híbridaSilva, Allan de Barcelos 14 December 2017 (has links)
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2018-04-04T11:46:54Z
No. of bitstreams: 1
Allan de Barcelos Silva_.pdf: 2298557 bytes, checksum: dc876b1dd44e7a7095219195e809bb88 (MD5) / Made available in DSpace on 2018-04-04T11:46:55Z (GMT). No. of bitstreams: 1
Allan de Barcelos Silva_.pdf: 2298557 bytes, checksum: dc876b1dd44e7a7095219195e809bb88 (MD5)
Previous issue date: 2017-12-14 / Nenhuma / Na área de Processamento de Linguagem Natural, a avaliação da similaridade semântica textual é considerada como um elemento importante para a construção de recursos em diversas frentes de trabalho, tais como a recuperação de informações, a classificação de textos, o agrupamento de documentos, as aplicações de tradução, a interação através de diálogos, entre outras. A literatura da área descreve aplicações e técnicas voltadas, em grande parte, para a língua inglesa. Além disso, observa-se o uso prioritário de recursos probabilísticos, enquanto os aspectos linguísticos são utilizados de forma incipiente. Trabalhos na área destacam que a linguística possui um papel fundamental na avaliação de similaridade semântica textual, justamente por ampliar o potencial dos métodos exclusivamente probabilísticos e evitar algumas de suas falhas, que em boa medida são resultado da falta de tratamento mais aprofundado de aspectos da língua. Este contexto é potencializado no tratamento de frases curtas, que consistem no maior campo de utilização das técnicas de similaridade semântica textual, pois este tipo de sentença é composto por um conjunto reduzido de informações, diminuindo assim a capacidade de tratamento probabilístico eficiente. Logo, considera-se vital a identificação e aplicação de recursos a partir do estudo mais aprofundado da língua para melhor compreensão dos aspectos que definem a similaridade entre sentenças. O presente trabalho apresenta uma abordagem para avaliação da similaridade semântica textual em frases curtas no idioma português brasileiro. O principal diferencial apresentado é o uso de uma abordagem híbrida, na qual tanto os recursos de representação distribuída como os aspectos léxicos e linguísticos são utilizados. Para a consolidação do estudo, foi definida uma metodologia que permite a análise de diversas combinações de recursos, possibilitando a avaliação dos ganhos que são introduzidos com a ampliação de aspectos linguísticos e também através de sua combinação com o conhecimento gerado por outras técnicas. A abordagem proposta foi avaliada com relação a conjuntos de dados conhecidos na literatura (evento PROPOR 2016) e obteve bons resultados. / One of the areas of Natural language processing (NLP), the task of assessing the Semantic Textual Similarity (STS) is one of the challenges in NLP and comes playing an increasingly important role in related applications. The STS is a fundamental part of techniques and approaches in several areas, such as information retrieval, text classification, document clustering, applications in the areas of translation, check for duplicates and others. The literature describes the experimentation with almost exclusive application in the English language, in addition to the priority use of probabilistic resources, exploring the linguistic ones
in an incipient way. Since the linguistic plays a fundamental role in the analysis of semantic textual similarity between short sentences, because exclusively probabilistic works fails in some way (e.g. identification of far or close related sentences, anaphora) due to lack of understanding of the language. This fact stems from the few non-linguistic information in short sentences. Therefore, it is vital to identify and apply linguistic resources for better understand what make two or more sentences similar or not. The current work presents a hybrid approach, in which are used both of distributed, lexical and linguistic aspects for an evaluation of semantic textual similarity between short sentences in Brazilian Portuguese. We evaluated proposed approach with well-known and respected datasets in the literature (PROPOR 2016) and obtained good results.
|
Page generated in 0.2252 seconds