Global ETD Search

191	[pt] ANOTAÇÃO MORFOSSINTÁTICA A PARTIR DO CONTEXTO MORFOLÓGICO / [en] MORPHOSYNTACTIC ANNOTATION BASED ON MORPHOLOGICAL CONTEXT EDUARDO DE JESUS COELHO REIS 20 December 2016 (has links) [pt] Rotular as classes gramaticais ao longo de uma sentença - part-ofspeech tagging - é uma das primeiras tarefas de processamento de linguagem natural, fornecendo atributos importantes para realizar tarefas de alta complexidade. A representação de texto a nível de palavra tem sido amplamente adotada, tanto através de uma codificação esparsa convencional, e.g. bagofwords; quanto por uma representação distribuída, como os sofisticados modelos de word-embedding usados para descrever informações sintáticas e semânticas. Um problema importante desse tipo de codificação é a carência de aspectos morfológicos. Além disso, os sistemas atuais apresentam uma precisão por token em torno de 97 por cento. Contudo, quando avaliados por sentença, apresentam um resultado mais modesto com uma taxa de acerto em torno de 55−57 por cento. Neste trabalho, nós demonstramos como utilizar n-grams para derivar automaticamente atributos esparsos e morfológicos para processamento de texto. Essa representação permite que redes neurais realizem a tarefa de POS-Tagging a partir de uma representação a nível de caractere. Além disso, introduzimos uma estratégia de regularização capaz de selecionar atributos específicos para cada neurônio. A utilização de regularização embutida em nossos modelos produz duas variantes. A primeira compartilha os n-grams selecionados globalmente entre todos os neurônios de uma camada; enquanto que a segunda opera uma seleção individual para cada neurônio, de forma que cada neurônio é sensível apenas aos n-grams que mais o estimulam. Utilizando a abordagem apresentada, nós geramos uma alta quantidade de características que representam afeições morfossintáticas relevantes baseadas a nível de caractere. Nosso POS tagger atinge a acurácia de 96, 67 por cento no corpus Mac-Morpho para o Português. / [en] Part-of-speech tagging is one of the primary stages in natural language processing, providing useful features for performing higher complexity tasks. Word level representations have been largely adopted, either through a conventional sparse codification, such as bag-of-words, or through a distributed representation, like the sophisticated word embedded models used to describe syntactic and semantic information. A central issue on these codifications is the lack of morphological aspects. In addition, recent taggers present per-token accuracies around 97 percent. However, when using a persentence metric, the good taggers show modest accuracies, scoring around 55-57 percent. In this work, we demonstrate how to use n-grams to automatically derive morphological sparse features for text processing. This representation allows neural networks to perform POS tagging from a character-level input. Additionally, we introduce a regularization strategy capable of selecting specific features for each layer unit. As a result, regarding n-grams selection, using the embedded regularization in our models produces two variants. The first one shares globally selected features among all layer units, whereas the second operates individual selections for each layer unit, so that each unit is sensible only to the n-grams that better stimulate it. Using the proposed approach, we generate a high number of features which represent relevant morphosyntactic affection based on a character-level input. Our POS tagger achieves the accuracy of 96.67 percent in the Mac-Morpho corpus for Portuguese. [pt] REDE NEURAL [pt] REGULARIZACAO ESPARSA [pt] N GRAMS [pt] REPRESENTACAO MORFOLOGICA [pt] PART OF SPEECH TAGGING [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] NEURAL NETWORKS [en] NATURAL LANGUAGE PROCESSING
192	[en] AN END-TO-END MODEL FOR JOINT ENTITY AND RELATION EXTRACTION IN PORTUGUESE / [pt] MODELO END-TO-END PARA EXTRAÇÃO DE ENTIDADES E RELAÇÕES DE FORMA CONJUNTA EM PORTUGUÊS LUCAS AGUIAR PAVANELLI 24 October 2022 (has links) [pt] As técnicas de processamento de linguagem natural (NLP) estão se tornando populares recentemente. A gama de aplicativos que se beneficiam de NLP é extensa, desde criar sistemas de tradução automática até ajudar no marketing de um produto. Dentro de NLP, o campo de Extração de Informações (IE) é difundido; concentra-se no processamento de textos para recuperar informações específicas sobre uma determinada entidade ou conceito. Ainda assim, a comunidade de pesquisa se concentra principalmente na construção de modelos para dados na língua inglesa. Esta tese aborda três tarefas no domínio do IE: Reconhecimento de Entidade Nomeada, Extração de Relações Semânticas e Extração Conjunta de Entidade e Relação. Primeiro, criamos um novo conjunto de dados em português no domínio biomédico, descrevemos o processo de anotação e medimos suas propriedades. Além disso, desenvolvemos um novo modelo para a tarefa de Extração Conjunta de Entidade e Relação, verificando que o mesmo é competitivo em comparação com outros modelos. Finalmente, avaliamos cuidadosamente os modelos propostos em textos de idiomas diferentes do inglês e confirmamos a dominância de modelos baseados em redes neurais. / [en] Natural language processing (NLP) techniques are becoming popular recently. The range of applications that benefit from NLP is extensive, from building machine translation systems to helping market a product. Within NLP, the Information Extraction (IE) field is widespread; it focuses on processing texts to retrieve specific information about a particular entity or concept. Still, the research community mainly focuses on building models for English data. This thesis addresses three tasks in the IE domain: Named Entity Recognition, Relation Extraction, and Joint Entity and Relation Extraction. First, we created a novel Portuguese dataset in the biomedical domain, described the annotation process, and measured its properties. Also, we developed a novel model for the Joint Entity and Relation Extraction task, verifying that it is competitive compared to other models. Finally, we carefully evaluated proposed models on non-English language datasets and confirmed the dominance of neural-based models. [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] EXTRACAO DE RELACOES SEMANTICAS [pt] APRENDIZAGEM PROFUNDA [en] NATURAL LANGUAGE PROCESSING [en] RELATION EXTRACTION [en] NAMED ENTITY RECOGNITION [en] DEEP LEARNING
193	[pt] O IMPACTO DA POLÍTICA MONETÁRIA SOBRE PREÇOS DE ATIVO: UMA ABORDAGEM DE ALTA FREQUÊNCIA APLICADA AO BRASIL / [en] THE IMPACT OF MONETARY POLICY ON ASSET PRICES: A HIGH-FREQUENCY APPROACH FOR BRAZIL THOMAS GLEIZER FEIBERT 10 January 2023 (has links) [pt] Neste artigo estudamos o impacto de surpresas monetárias sobre um conjunto de preços de ativo no mercado financeiro Brasileiro. Devido a fatores institucionais que impedem a identificação deste impacto através de associações entre o choque monetário e variações de preços de ativos em pequenos intervalos ao redor de anúncios de política monetária, utilizamos uma abordagem de estudo de eventos em frequência diária, controlando por fatores domésticos e externos que afetam os preços de ativos relevantes. Os resultados indicam que a surpresa monetária contracionista possui um impacto negativo significativo sobre retornos da bolsa de valores, e o impacto sobre a curva de juros é positivo, atingindo um máximo ao vértice de 6 meses. Diferente de grande parte da literatura focada ao Brasil, os resultados apontam a uma apreciação do Real em reação a esta surpresa monetária contracionista, o que é consistente com reações de moedas de países desenvolvidos a surpresas monetárias. Por mais que obtenhamos um regime no qual a taxa de câmbio não reage significativamente à surpresa monetária, não há forte evidência de que a causa por trás deste regime é de natureza fiscal. / [en] In this paper we study the impact of monetary surprises on a class of asset prices in the Brazilian financial market. Due to institutional factors that prevent identification of this impact through the association between the monetary surprise and asset price movements in short windows around monetary policy announcements, we use an event study framework at daily frequency, controlling for both domestic and foreign factors that may affect the asset prices under analysis. We find that a surprise monetary tightening has a strong negative impact on stock market returns, and its effect on the yield curve is positive and hump-shaped, reaching a maximum on the 6 months yield. Unlike most of the previous literature focused on Brazil, we find that the Brazilian Real appreciates in response to this monetary tightening, which is consistent with the reactions found for currencies of developed economies. Moreover, while we obtain a regime in which the exchange rate is irresponsive to the monetary surprise, the evidence supporting a fiscal cause behind this regime is not strong. [pt] RISCO SOBERANO [pt] CHOQUE MONETARIO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] PRECOS DE ATIVOS [pt] ESTUDO DE EVENTOS [en] SOVEREIGN RISK [en] MONETARY SHOCK [en] NATURAL LANGUAGE PROCESSING [en] ASSET PRICES [en] EVENT STUDY
194	[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO / [en] DEEP LEARNING APPLIED TO TEXT CHUNKING MIGUEL MENDES DE BRITO 15 May 2019 (has links) [pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87. / [en] Natural Language Processing is a research field that explores how computers can understand and manipulate natural language texts. Sequence tagging is amongst the most well-known tasks in NLP. Text Chunking is one of the problems that can be approached as a sequence tagging problem. Thus, we classify which words belong to a chunk, where each chunk represents a disjoint group of syntactically correlated words. This type of chunking has important applications in more complex tasks of natural language processing, such as dependency parsing, machine translation, semantic role labeling, clause identification and much more. The goal of this work is to present a deep neural network archtecture for the Portuguese text chunking problem. The corpus used in the experiments is the Bosque, from the Floresta Sintá(c)tica project. Based on recent work in the field, our approach surpass the state-of-the-art for Portuguese by achieving a F(beta)=1 of 90.51, which corresponds to an increase of 2.56 in comparison with the previous work. In addition, in order to attest the chunker effectiveness we use the tags obtained by our system as feature for the depedency parsing task. These features improved the accuracy of the parser by 0.87. [pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO PROFUNDO [pt] SEGMENTACAO TEXTUAL [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] DEEP LEARNING [en] TEXT CHUNKING [en] NATURAL LANGUAGE PROCESSING
195	[en] PART-OF-SPEECH TAGGING FOR PORTUGUESE / [pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊS ROMULO CESAR COSTA DE SOUSA 07 April 2020 (has links) [pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra de uma sentença com sua devida classe morfossintática (verbo, substantivo, adjetivo e etc). POS tagging é considerada uma atividade fundamental no processo de construção de aplicações de processamento de linguagem natural (PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de informação. Nesse trabalho, construímos um POS tagger para o Português Contemporâneo e o Português Histórico, baseado em uma arquitetura de rede neural recorrente. Tradicionalmente a construção dessas ferramentas requer muitas features específicas do domínio da linguagem e dados externos ao conjunto de treino, mas nosso POS tagger não usa esses requisitos. Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que se beneficia das representações de word embeddings e character embeddings das palavras, para atividade de classificação morfossintática. Testamos nosso POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe. Nós obtemos um desempenho ligeiramente melhor que os sistemas estado da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original, 97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para a medida de acurácia fora do vocabulário, uma acurácia especial calculada somente sobre as palavras desconhecidas do conjunto de treino. Realizamos ainda um estudo comparativo para verificar qual dentre os mais populares algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec e Glove), é mais adequado para a atividade POS tagging em Português. O modelo de Wang2Vec mostrou um desempenho superior. / [en] Part-of-speech (POS) tagging is a process of labeling each word in a sentence with a morphosyntactic class (verb, noun, adjective and etc). POS tagging is a fundamental part of the linguistic pipeline, most natural language processing (NLP) applications demand, at some step, part-of-speech information. In this work, we constructed a POS tagger for Contemporary Portuguese and Historical Portuguese, using a recurrent neural network architecture. Traditionally the development of these tools requires many handcraft features and external data, our POS tagger does not use these elements. We trained a Bidirectional Long short-term memory (BLSTM) network that benefits from the word embeddings and character embeddings representations of the words, for morphosyntactic classification. We tested our POS tagger on three different corpora: the original version of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus, and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus, 97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the Tycho Brahe corpus. We also achieved an improvement in the three corpora in out-of-vocabulary accuracy, that is the accuracy on words not seen in training sentences. We also performed a comparative study to test which different types of word embeddings (Word2Vec, FastText, Wang2Vec, and Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model showed higher performance. [pt] APRENDIZADO DE MAQUINA [pt] INCORPORACAO DE PALAVRAS [pt] APRENDIZAGEM PROFUNDA [pt] ANOTACAO MORFOSSINTATICA [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] WORD EMBEDDING [en] DEEP LEARNING [en] PART-OF-SPEECH TAGGING [en] NATURAL LANGUAGE PROCESSING
196	Uma gramÃtica LFG-XLE para o processamento sintÃtico profunda do portuguÃs / A LFG-XLE grammar for Brazilian Portuguese deep parser AndrÃa Feitosa dos Santos 19 December 2014 (has links) CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / A presente tese descreve a elaboraÃÃo de uma gramÃtica da frase do PortuguÃs Brasileiro, desenvolvida no quadro de um modelo teÃrico de sofisticado formalismo computacional, a Lexical Functional Grammar (LFG) e implementada no sistema que constitui o estado da arte em ambiente de processamento sintÃtico profundo no modelo gerativo da LFG, o robusto Xerox Linguistic Environment (XLE). A principal caracterÃstica da gramÃtica Ã que adota o sistema de anotaÃÃo do ParGram e a metodologia convencionada por desenvolvedores de gramÃtica XLE. No fragmento de gramÃtica estÃo modelados diversificados elementos da sintaxe frasal. Em nossa gramÃtica, foram modelados constituintes oracionais como IP e CP, elementos que encabeÃam as sentenÃas do portuguÃs. TambÃm foram modelados determinados aspectos da subcategorizaÃÃo verbal e da estrutura argumental. Dos elementos verbais, nossa gramÃtica contempla alguns casos de complexos verbais constituÃdos de verbos modais e verbos de controle. Os elementos nominais tratados na gramÃtica, de modo central, foram os pronomes expletivos e reflexivos, e os casos de sintagmas nominais e determinantes com pronomes demonstrativos e interrogativos. Os demais aspectos modelados na gramÃtica sÃo os sintagmas preposicionados, cuja complexidade se dÃ na distinÃÃo entre preposiÃÃes semÃnticas e nÃo semÃnticas; os sintagmas adjetivais, cuja projeÃÃo na sentenÃa pode ocorrer a partir de formas adjetivais atributivas, de formas ordinais ou cardinais e na forma de intensificadores; e os sintagmas adverbiais, cuja estrutura interna foi modelada levando-se em consideraÃÃo tanto advÃrbios intransitivos quanto transitivos com complemento PP. A nossa avaliaÃÃo demonstra que das 40 sentenÃas testadas, a nossa gramÃtica atribui, para todas elas, anÃlises consistentes e bem fundamentadas, ao passo que o parser Palavras, o atual estado da arte em processamento sintÃtico profundo do portuguÃs, atribui, a 9 sentenÃas, anÃlises incorretas. Uma outra avaliaÃÃo demonstra que, das 20 sentenÃas agramaticais testadas tanto em nossa gramÃtica, quanto no Palavras, somente 2 receberam anÃlises por parte de nossa gramÃtica, enquanto o Palavras fornece anÃlises para 19 sentenÃas. O trabalho tem, essencialmente, o objetivo de fazer uma descriÃÃo formal e fundamentada de um amplo leque de fenÃmenos do portuguÃs brasileiro, mas, sobretudo, tem o objetivo de contribuir com uma gramÃtica nÃo trivial da frase do portuguÃs no formalismo LFG-XLE, disponibilizando efetivamente um recurso gramatical do portuguÃs voltado para o processamento de linguagem natural. / The present thesis describes the development of a Brazilian Portuguese sentence grammar, developed in the framework of a sophisticated computational formalism, named Lexical Functional Grammar, and implemented on a system that is state of the art in deep parsing environment in LFG generative model, the robust XLE. The main feature of the grammar is that it adopts the ParGram annotation system and the methodology agreed by XLE grammar developers. In the grammar fragment are modeled diverse elements of phrasal syntax. In our grammar were modeled constituents as IP and CP, elements that are head the sentences of the Portuguese. Also were modeled certain aspects of verbal subcategorization and argument structure. In terms of verbal elements, our grammar includes some cases of verbal complex made up of modal verbs and control verbs. The nominal elements treated in grammar, centrally, were the expletives and reflexive pronouns, and cases of nominal and determiners phrases with demonstrative pronouns and interrogative. The other aspects modeled in the grammar are PPs, whose complexity is given the distinction between semantic and nonstandard prepositions; the adjectival phrases, whose projection in the sentence can occur from attributive adjectival forms of ordinal or cardinal forms and as intensifiers; and adverbial phrases, whose internal structure was modeled taking into account both adverbs as intransitive and as transitive, with PP complement. Our evaluation shows that of the 40 tested sentences, our grammar assigns, for all of them, consistent and well-founded analysis, while the parser Palavras, the current state of the art in deep syntactic processing of Portuguese, assigns incorrect analysis for 9 sentences. Another evaluation shows that, of the 20 ungrammatical sentences tested both in our grammar, as in Palavras, only 2 received analysis by our grammar, while the Palavras provides analysis to 19 sentences. The work has essentially the goal of making a formal and grounded description in a broad range of phenomena in Brazilian Portuguese, but mainly aims to collaborate with a not trivial grammar of the sentence in the LFG-XLE formalism, effectively contributing to a grammatical resource turned to the natural language processing. GramÃtica LFG-XLE AnÃlise sintÃtica profunda LinguÃstica computacional Processamento de linguagem natural ParGram GramÃtica LFG-XLE AnÃlise sintÃtica profunda LinguÃstica computacional Processamento de linguagem natural ParGram LFG-XLE Grammar AnÃlise sintÃtica profunda ParGram Computational linguistics Natural Language Processing LFG-XLE Grammar AnÃlise sintÃtica profunda ParGram Computational linguistics Natural Language Processing LINGUISTICA APLICADA LINGUISTICA APLICADA
197	[en] REQUIREMENTS VERIFICATION AND VALIDATION: NATURAL LANGUAGE PROCESSING AND SOFTWARE AGENTS / [pt] VERIFICAÇÃO E VALIDAÇÃO EM REQUISITOS: PROCESSAMENTO DA LINGUAGEM NATURAL E AGENTES MIRIAM SAYAO 30 November 2007 (has links) [pt] No processo de desenvolvimento do software, atividades relacionadas ao Processo de Requisitos envolvem elicitação, modelagem, verificação e validação dos requisitos. O uso da linguagem natural no registro dos requisitos facilita a comunicação entre os participantes do processo, além de possibilitar que clientes e usuários validem requisitos sem necessitar de conhecimento extra. Por outro lado, na economia globalizada atual, o desenvolvimento de software por equipes geograficamente distribuídas está se tornando uma norma. Nesse cenário, atividades de verificação e validação de requisitos para um software de média ou alta complexidade podem envolver o tratamento de centenas ou milhares de requisitos. Com essa ordem de complexidade é importante que o engenheiro de software tenha apoio computacional para o desempenho adequado das atividades de aferição de qualidade. Neste trabalho estamos propondo uma estratégia que combina técnicas de processamento da linguagem natural (PLN) e agentes de software para apoiar as atividades de análise dos requisitos. Geramos visões textuais ou gráficas de grupos de requisitos relacionados; visões apóiam a análise de completude, a identificação de duplicidades e de dependências entre requisitos. Utilizamos técnicas de análise de conteúdo para apoiar a identificação de omissões em requisitos não funcionais. Também propomos uma estratégia para a construção ou atualização do léxico da aplicação, utilizando técnicas de PLN. Utilizamos agentes de software para implementar serviços que incorporam as estratégias referidas, e também para atuar como representantes dos participantes do projeto em desenvolvimento. / [en] In software development process, initial activities can involve requirements elicitation, modeling and analysis (verification and validation). The use of natural language in the register of the requirements facilitates the communication among stakeholders, besides offering possibilities to customers and users to validate requirements without extra knowledge. On the other hand, in the current global economy, software development for teams geographically distributed is becoming a rule. In this scenario, requirements verification and validation for medium or high complexity software can involve the treatment of hundreds or even thousand requirements. With this complexity order it is important to provide computational support for the software engineer execute quality activities. In this work we propose a strategy which combines natural language processing (NLP) techniques and software agents to support analysis activities. We have generated textual or graphical visions from groups of related requirements; visions help completeness analysis, identification of duplicities and dependences among requirements. We use content analysis techniques to support the identification of omissions in nonfunctional requirements. Also, we propose a strategy to construct the lexicon, using NLP techniques. We use software agents to implement web services that incorporate the related strategies, and also agents to act as personal assistants for stakeholders of the software project. [pt] ANALISE DE REQUISITOS [en] REQUIREMENTS ANALYSIS [pt] AGRUPAMENTO DE REQUISITOS [en] REQUIREMENTS CLUSTERING [pt] PROCESSAMENTO DA LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [pt] VERIFICACAO EM REQUISITOS [en] REQUIREMENTS VERIFICATION [pt] VALIDACAO EM REQUISITOS [en] REQUIREMENTS VALIDATION
198	Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb / THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETER Londero, Eduardo Bauer 29 March 2011 (has links) Made available in DSpace on 2016-03-22T17:26:45Z (GMT). No. of bitstreams: 1 Dissertacao_Eduardo_Revisado.pdf: 3489154 bytes, checksum: 3c327ee0bc47d79cd4af46e065105650 (MD5) Previous issue date: 2011-03-29 / Text retrieved from the Internet through Google and Yahoo queries are evaluated using Flesch-Kincaid Grade Level, a simple assessment measure of text readability. This kind of metrics were created to help writers to evaluate their text, and recently in automatic text simplification for undercapable readers. In this work we apply these metrics to documents freely retrieved from the Internet, seeking to find correlations between legibility and relevance acknowledged to then by search engines. The initial premise guiding the comparison between readability and relevance is the statement known as Occam s Principle, or Principle of Economy. This study employs Flesch-Kincaid Grade Level in text documents retrieved from the Internet through search-engines queries and correlate it with the position. It was found a centralist trend in the texts recovered. The centralist tendency mean that the average spacing of groups of files from the average of the category they belong is meaningfull. With this measure is possible to establish a correlation between relevance and legibility, and also, to detect diferences in the way both search engines derive their relevance calculation. A subsequent experiment seeks to determine whether the measure of legibility can be employed to assist him or her choosing a document combined with original search engine ranking and if it is useful as advance information for choice and user navigation. In a final experiment, based on previously obtained knowledge, a comparison between Wikipedia and Britannica encyclopedias by employing the metric of understandability Flesch-Kincaid / Textos recuperados da Internet por interm´edio de consultas ao Google e Yahoo s ao analisados segundo uma m´etrica simples de avaliac¸ ao de inteligibilidade textual. Tais m´etricas foram criadas para orientar a produc¸ ao textual e recentemente tamb´em foram empregadas em simplificadores textuais autom´aticos experimentais para leitores inexperientes. Nesse trabalho aplicam-se essas m´etricas a texto originais livres, recuperados da Internet, para buscar correlacionar o grau de inteligibilidade textual com a relev ancia que lhes ´e conferida pelos buscadores utilizados. A premissa inicial a estimular a comparac¸ ao entre inteligibilidade e relev ancia ´e o enunciado conhecido como Princ´ıpio de Occam, ou princ´ıpio da economia. Observa-se uma tend encia centralista que ocorre a partir do pequeno afastamento m´edio dos grupos de arquivos melhor colocados no ranking em relac¸ ao `a m´edia da categoria a que pertencem. ´E com a medida do afastamento m´edio que se consegue verificar correlac¸ ao com a posic¸ ao do arquivo no ranking e ´e tamb´em com essa medida que se consegue registrar diferenc¸as entre o m´etodo de calcular a relev ancia do Google e do Yahoo. Um experimento que decorre do primeiro estudo procura determinar se a medida de inteligibilidade pode ser empregada para auxiliar o usu´ario da Internet a escolher arquivos mais simples ou se a sua indicac¸ ao junto `a listagem de links recuperados ´e ´util e informativa para a escolha e navegac¸ ao do usu´ario. Em um experimento final, embasado no conhecimento previamente obtido, s ao comparadas as enciclop´edias Brit anica eWikip´edia por meio do emprego da m´etrica de inteligibilidade Flesch-Kincaid Grade Level Recuperação de Informações Textuais Processamento de Linguagem Natural
199	Modelos e Métodos para interação homem-computador usando gestos manuais / Models and Methods for Human-Computer Interaction Using Hands Gestures Cordeiro Junior, Albino Adriano Alves 24 July 2009 (has links) Made available in DSpace on 2015-03-04T18:51:17Z (GMT). No. of bitstreams: 1 thesisAlbino.pdf: 7858077 bytes, checksum: c060d6e1ca39e253884a9704701bd989 (MD5) Previous issue date: 2009-07-24 / This thesis addresses the problem of algorithmic understanding of digital video applied to the design of Human-Computer Interaction (HCI) systems based on hand posture and motion. Such systems are often referred as a type of Perceptual User Interface (PUI), which is an interface that enables the computer to detect and recognize users' actions in an active way. PUI is believed to be a paradigm that is going to supplement the current standard Graphical User Interfaces(GUI), that are based on mice and keyboards for user input. The main motivation of the research done in hand-gesture HCI is to enable people to interact in a more natural way with computational devices, for example, by letting the users manipulate computer programs, files and folders in a way that resembles the handling of familiar physical objects. In this work a toolset is proposed for hand tracking -position and in-plane rotation- as well as posture recognition from hand contours. A novel approach to pixel-level processing based on machine learning forms the fundamental building block of a level set contour tracking method, as well as for the measurement module of the tracker, which is formulated as a filtering problem in state-spaces where the dynamics is modeled with Markov jumps linear systems. Low error rates are achieved for posture classification using a shape descriptor based on 2D moments invariant measures. / Esta tese aborda o problema de entender videos digitais algoritmicamente aplicado ao design de sistemas de Interação Homem-Computador (HCI do Inglês: Human-Computer Interaction) baseados na postura e movimento da mão. Tais sistemas são frequentemente referidos como um tipo de Interface Perceptual com o usuário (PUI do Inglês: Perceptual User Interface), que é uma interface que habilita o computador a detectar e reconhecer ações dos usuários de forma ativa. Acredita-se que PUI é um paradigma que irá suplementar o padrão atual, as Interfaces Gráficas com o Usuário (GUI do Inglês: Graphical User Interfaces), que são baseadas em mouses e teclados para entrada do usuário. A principal motivação da pesquisa feita em HCI por gestos manuais é habilitar as pessoas a interagir de uma forma mais natural com dispositivos computacionais, por exemplo, ao permitir que usuários manipulem programas, arquivos e pastas de computador de uma forma similar ao manuseio de objetos físicos familiares. Neste trabalho é proposto um ferramental para rastreamento da mão --posição e rotação no plano-- assim como para reconhecimento de postura da mão a partir dos contornos da mão. Uma nova abordagem de processamento de pixels baseada em aprendizagem de máquina forma o bloco fundamental para um método level set de extração de contornos, tão bem como para um módulo de mensuração do rastreador, que é formulado como um problema de filtragem em espaço de estados onde a dinâmica do sistema é modelada com sistemas lineares com saltos markovianos. Baixas taxas de erro de classificação de postura são alcançadas com o uso de um descritor de formas baseados em medidas invariantes de momentos bidimensionais. Interação homem-máquina Sistemas lineares Human-Computer Interaction Linear Systems
200	O uso de recursos linguísticos para mensurar a semelhança semântica entre frases curtas através de uma abordagem híbrida Silva, Allan de Barcelos 14 December 2017 (has links) Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2018-04-04T11:46:54Z No. of bitstreams: 1 Allan de Barcelos Silva_.pdf: 2298557 bytes, checksum: dc876b1dd44e7a7095219195e809bb88 (MD5) / Made available in DSpace on 2018-04-04T11:46:55Z (GMT). No. of bitstreams: 1 Allan de Barcelos Silva_.pdf: 2298557 bytes, checksum: dc876b1dd44e7a7095219195e809bb88 (MD5) Previous issue date: 2017-12-14 / Nenhuma / Na área de Processamento de Linguagem Natural, a avaliação da similaridade semântica textual é considerada como um elemento importante para a construção de recursos em diversas frentes de trabalho, tais como a recuperação de informações, a classificação de textos, o agrupamento de documentos, as aplicações de tradução, a interação através de diálogos, entre outras. A literatura da área descreve aplicações e técnicas voltadas, em grande parte, para a língua inglesa. Além disso, observa-se o uso prioritário de recursos probabilísticos, enquanto os aspectos linguísticos são utilizados de forma incipiente. Trabalhos na área destacam que a linguística possui um papel fundamental na avaliação de similaridade semântica textual, justamente por ampliar o potencial dos métodos exclusivamente probabilísticos e evitar algumas de suas falhas, que em boa medida são resultado da falta de tratamento mais aprofundado de aspectos da língua. Este contexto é potencializado no tratamento de frases curtas, que consistem no maior campo de utilização das técnicas de similaridade semântica textual, pois este tipo de sentença é composto por um conjunto reduzido de informações, diminuindo assim a capacidade de tratamento probabilístico eficiente. Logo, considera-se vital a identificação e aplicação de recursos a partir do estudo mais aprofundado da língua para melhor compreensão dos aspectos que definem a similaridade entre sentenças. O presente trabalho apresenta uma abordagem para avaliação da similaridade semântica textual em frases curtas no idioma português brasileiro. O principal diferencial apresentado é o uso de uma abordagem híbrida, na qual tanto os recursos de representação distribuída como os aspectos léxicos e linguísticos são utilizados. Para a consolidação do estudo, foi definida uma metodologia que permite a análise de diversas combinações de recursos, possibilitando a avaliação dos ganhos que são introduzidos com a ampliação de aspectos linguísticos e também através de sua combinação com o conhecimento gerado por outras técnicas. A abordagem proposta foi avaliada com relação a conjuntos de dados conhecidos na literatura (evento PROPOR 2016) e obteve bons resultados. / One of the areas of Natural language processing (NLP), the task of assessing the Semantic Textual Similarity (STS) is one of the challenges in NLP and comes playing an increasingly important role in related applications. The STS is a fundamental part of techniques and approaches in several areas, such as information retrieval, text classification, document clustering, applications in the areas of translation, check for duplicates and others. The literature describes the experimentation with almost exclusive application in the English language, in addition to the priority use of probabilistic resources, exploring the linguistic ones in an incipient way. Since the linguistic plays a fundamental role in the analysis of semantic textual similarity between short sentences, because exclusively probabilistic works fails in some way (e.g. identification of far or close related sentences, anaphora) due to lack of understanding of the language. This fact stems from the few non-linguistic information in short sentences. Therefore, it is vital to identify and apply linguistic resources for better understand what make two or more sentences similar or not. The current work presents a hybrid approach, in which are used both of distributed, lexical and linguistic aspects for an evaluation of semantic textual similarity between short sentences in Brazilian Portuguese. We evaluated proposed approach with well-known and respected datasets in the literature (PROPOR 2016) and obtained good results. Processamento de linguagem natural Similaridade semântica textual Linguística Aprendizagem de máquina Support vector machines Word embeddings Principal component analysis Natural language processing Semantic textual similarity Linguistic Machine learning Support vector machines Word embeddings Principal component analysis

Search results