Spelling suggestions: "subject:"linguagem batural"" "subject:"linguagem datural""
171 |
Extração multilíngue de termos multipalavra em corpora comparáveisPrestes, Kassius Vargas January 2015 (has links)
Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês. / This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English.
|
172 |
Identificação e tratamento de expressões multipalavras aplicado à recuperação de informação / Identification and treatment of multiword expressions applied to information retrievalAcosta, Otavio Costa January 2011 (has links)
A vasta utilização de Expressões Multipalavras em textos de linguagem natural requer atenção para um estudo aprofundado neste assunto, para que posteriormente seja possível a manipulação e o tratamento, de forma robusta, deste tipo de expressão. Uma Expressão Multipalavra costuma transmitir precisamente conceitos e ideias que geralmente não podem ser expressos por apenas uma palavra e estima-se que sua frequência, em um léxico de um falante nativo, seja semelhante à quantidade de palavras simples. A maioria das aplicações reais simplesmente ignora ou lista possíveis termos compostos, porém os identifica e trata seus itens lexicais individualmente e não como uma unidade de conceito. Para o sucesso de uma aplicação de Processamento de Linguagem Natural, que envolva processamento semântico, é necessário um tratamento diferenciado para essas expressões. Com o devido tratamento, é investigada a hipótese das Expressões Multipalavras possibilitarem uma melhora nos resultados de uma aplicação, tal como os sistemas de Recuperação de Informação. Os objetivos desse trabalho estão voltados ao estudo de técnicas de descoberta automática de Expressões Multipalavras, permitindo a criação de dicionários, para fins de indexação, em um mecanismo de Recuperação de Informação. Resultados experimentais apontaram melhorias na recuperação de documentos relevantes, ao identificar Expressões Multipalavras e tratá-las como uma unidade de indexação única. / The use of Multiword Expressions (MWE) in natural language texts requires a detailed study, to further support in manipulating and processing, robustly, these kinds of expression. A MWE typically gives concepts and ideas that usually cannot be expressed by a single word and it is estimated that the number of MWEs in the lexicon of a native speaker is similar to the number of single words. Most real applications simply ignore them or create a list of compounds, treating and identifying them as isolated lexical items and not as an individual unit. For the success of a Natural Language Processing (NLP) application, involving semantic processing, adequate treatment for these expressions is required. In this work we investigate the hypothesis that an appropriate identification of Multiword Expressions provide better results in an application, such as Information Retrieval (IR). The objectives of this work are to compare techniques of MWE extraction for creating MWE dictionaries, to be used for indexing purposes in IR. Experimental results show qualitative improvements on the retrieval of relevant documents when identifying MWEs and treating them as a single indexing unit.
|
173 |
Em favor do comum : estudo sobre a formação da 'filosofia da linguagem comum'Rocha, Ronai Pires da January 2013 (has links)
Este trabalho aborda o surgimento do movimento filosófico conhecido como “filosofia da linguagem comum”. O objetivo é oferecer uma nova perspectiva sobre as origens e a formação desse movimento, a partir das críticas de Wittgenstein a alguns divulgadores da ciência no Livro Azul. Apresento a seguir, as principais polêmicas ocorridas entre os que simpatizavam com as ideias de Wittgenstein, nos anos quarenta, e alguns críticos que denunciavam as aparentes fragilidades conceituais dos filósofos que defendiam usos comuns da língua. Nessas polêmicas um dos pontos mais complexos diz respeito às possíveis relações entre uma atitude de consideração à língua natural, a linguagem comum, e uma “defesa do senso comum”. O tema é examinado na convergência de ideias entre Wittgenstein, Norman Malcolm e G. E. Moore. Finalmente, apresentado a polêmica entre Benson Mates e Stanley Cavell sobre o status dos enunciados filosóficos feitos a partir de um apelo à linguagem comum; os dois filósofos preservam na polêmica que mantiveram alguns vestígios da querela iniciada no Livro Azul e com isso fecham um ciclo de discussões. / This study addresses the emergence of the philosophical movement known as "ordinary language philosophy". The aim here is to offer a new perspective on the origins and formation of the movement, considering some criticisms that Wittgenstein adressed to science communicators in the Blue Book. The main controversy occurred among those who sympathized with the ideas of Wittgenstein, in the forties, and critics who denounced the apparent conceptual weaknesses of philosophers who advocated common uses of language. In these controversies one of the most complex subjects concerns the possible relationship between an attitude of consideration to natural language, and a "defense of common sense." The subject is examined in the convergence of ideas among Wittgenstein, Norman Malcolm and G. E. Moore. Finally, I present the controversy between Benson Mates and Stanley Cavell on the status of philosophical statements made from an appeal to ordinary language; the two philosophers preserve the controversy that kept some traces of the quarrel started in the Blue Book and it closes a cycle of discussions.
|
174 |
Redução de dimensionalidade aplicada à diarização de locutor / Dimensionality reduction applied to speaker diarizationSilva, Sérgio Montazzolli January 2013 (has links)
Atualmente existe uma grande quantidade de dados multimídia sendo geradas todos os dias. Estes dados são oriundos de diversas fontes, como transmissões de rádio ou televisão, gravações de palestras, encontros, conversas telefônicas, vídeos e fotos capturados por celular, entre outros. Com isto, nos últimos anos o interesse pela transcrição de dados multimídia tem crescido, onde, no processamento de voz, podemos destacar as áreas de Reconhecimento de Locutor, Reconhecimento de Fala, Diarização de Locutor e Rastreamento de Locutores. O desenvolvimento destas áreas vem sendo impulsionado e direcionado pelo NIST, que periodicamente realiza avaliações sobre o estado-da-arte. Desde 2000, a tarefa de Diarização de Locutor tem se destacado como uma das principáis frentes de pesquisa em transcrição de dados de voz, tendo sido avaliada pelo NIST por diversas vezes na última década. O objetivo desta tarefa é encontrar o número de locutores presentes em um áudio, e rotular seus respectivos trechos de fala, sem que nenhuma informação tenha sido previamente fornecida. Em outras palavras, costuma-se dizer que o objetivo é responder a questão "Quem falou e quando?". Um dos grandes problemas nesta área é se conseguir obter um bom modelo para cada locutor presente no áudio, dada a pouca quantidade de informações e a alta dimensionalidade dos dados. Neste trabalho, além da criação de um Sistema de Diarização de Locutor, iremos tratar este problema mediante à redução de dimensionalidade através de análises estatísticas. Usaremos a Análise de Componentes Principáis, a Análise de Discriminantes Lineares e a recém apresentada Análise de Semi-Discriminantes Lineares. Esta última utiliza um método de inicialização estático, iremos propor o uso de um método dinâmico, através da detecção de pontos de troca de locutor. Também investigaremos o comportamento destas análises sob o uso simultâneo de múltiplas parametrizações de curto prazo do sinal acústico. Os resultados obtidos mostram que é possível preservar - ou até melhorar - o desempenho do sistema, mesmo reduzindo substâncialmente o número de dimensões. Isto torna mais rápida a execução de algoritmos de Aprendizagem de Máquina e reduz a quantidade de memória necessária para armezenar os dados. / Currently, there is a large amount of multimedia data being generated everyday. These data come from various sources, such as radio or television, recordings of lectures and meetings, telephone conversations, videos and photos captured by mobile phone, among others. Because of this, interest in automatic multimedia data transcription has grown in recent years, where, for voice processing, we can highlight the areas of Speaker Recognition, Speech Recognition, Speaker Diarization and Speaker Tracking. The development of such areas is being conducted by NIST, which periodically promotes state-of-the-art evaluations. Since 2000, the task of Speaker Diarization has emerged as one of the main research fields in voice data transcription, having been evaluated by NIST several times in the last decade. The objective of this task is to find the number of speakers in an audio recording, and properly label their speech segments without the use of any training information. In other words , it is said that the goal of Speaker Diarization is to answer the question "Who spoke when?". A major problem in this area is to obtain a good speaker model from the audio, given the limited amount of information available and the high dimensionality of the data. In the current work, we will describe how our Speaker Diarization System was built, and we will address the problem mentioned by lowering the dimensionality of the data through statistical analysis. We will use the Principal Component Analysis, the Linear Discriminant Analysis and the newly presented Fisher Linear Semi-Discriminant Analysis. The latter uses a static method for initialization, and here we propose the use of a dynamic method by the use of a speaker change points detection algorithm. We also investigate the behavior of these data analysis techniques under the simultaneous use of multiple short term features. Our results show that it is possible to maintain - and even improve - the system performance, by substantially reducing the number of dimensions. As a consequence, the execution of Machine Learning algorithms is accelerated while reducing the amount of memory required to store the data.
|
175 |
Modelos neurais modulares para aquisição de linguagem naturalBASSANI, Hansenclever de França 31 January 2014 (has links)
Submitted by Nayara Passos (nayara.passos@ufpe.br) on 2015-03-12T12:37:26Z
No. of bitstreams: 2
TESE Hansenclever de França Bassani.pdf: 9567180 bytes, checksum: 8eb27b4c1a42cecddb5a47330b207277 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:13:33Z (GMT) No. of bitstreams: 2
TESE Hansenclever de França Bassani.pdf: 9567180 bytes, checksum: 8eb27b4c1a42cecddb5a47330b207277 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:13:33Z (GMT). No. of bitstreams: 2
TESE Hansenclever de França Bassani.pdf: 9567180 bytes, checksum: 8eb27b4c1a42cecddb5a47330b207277 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014 / CNPq / A produção e utilização de linguagem natural é uma das mais marcantes habilidades humanas.
Ela permite trocar ideias, conhecimento e emoções de maneira eficaz. Desvendar os mecanismos
que tornam seres humanos capazes de lidar com linguagem, pode trazer avanços em inúmeras
áreas do conhecimento, possibilitando ainda aplicações práticas que melhorem a interação
humano-computador. Porém, apesar dos esforços da comunidade científica, a maneira como os
seres humanos processam linguagem ainda é pouco compreendida.
A abordagem proposta pela robótica desenvolvimentista sugere que a linguagem natural
pode ser aprendida por agentes incorporados através de suas interações com o ambiente e com
seus instrutores. Estas interações poderiam proporcionar ao agente a possibilidade de aprender
continuamente sobre a linguagem, associando estímulos do ambiente com palavras.
Esta Tese apresenta uma arquitetura modular de aquisição de linguagem natural por agentes
incorporados. No centro desta arquitetura encontra-se um conjunto de módulos neurais com
aprendizagem não-supervisionada, que realiza funções essenciais para a aquisição de linguagem
natural, tais como a aprendizagem de conceitos, contextos, palavras e das associações entre
esses elementos. Estes módulos foram propostos consolidando evidências de três áreas do
conhecimento e validados através da reprodução de padrões de aprendizagem reportados em três
importantes estudos realizados com pessoas. O modelo proposto pode ser aplicado na proposição
e teste de novas hipóteses e paradigmas experimentais, contribuindo para compreensão dos
mecanismos envolvidos na aprendizagem, e pode servir como base para o desenvolvimento de
agentes incorporados que aprendem linguagem natural.
|
176 |
Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesaSilva, Tiago José da 28 March 2014 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-04-10T17:22:32Z
No. of bitstreams: 2
DISSERTAÇÃO Tiago José da Silva.pdf: 3122636 bytes, checksum: 4141cd54437a53496b7f98822722032e (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-04-10T17:22:33Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Tiago José da Silva.pdf: 3122636 bytes, checksum: 4141cd54437a53496b7f98822722032e (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-03-28 / Objetiva fazer um levantamento do estado da arte da indexação automática por sintagmas nominais para textos em português. Para tanto, identifica e sintetiza os fundamentos teóricos, metodologias e ferramentas da indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa, levando em conta publicações científicas nas áreas da Ciência da Informação, Ciência da Computação, Terminologia e Linguística. Discute as metodologias para indexação automática através de sintagmas nominais em textos em língua portuguesa, no intuito de apontar critérios para extração e seleção de sintagmas que possam ser usados como descritores documentais. Avalia e compara ferramentas de extração automática de sintagmas nominais como o parser PALAVRAS, OGMA e LX-Parser, usando como referência a extração manual de sintagmas nominais. Percebe que os trabalhos produzidos depois do ano de 2000 e que trabalham com a extração automática de termos fazem referências ao parser PALAVRAS, tendo-o como um bom etiquetador e analisador sintático. Na comparação entre as referidas ferramentas automáticas, percebe-se que apesar do LX-Parser ter tido melhor desempenho em alguns aspectos como extrair um maior número de SNs do que o PALAVRAS, esse ainda consegue ser melhor pelo número menor de erros e a possibilidade de submeter um texto completo à análise do programa, ação que o LX-Parser não permite realizar. Quanto ao levantamento do estado da arte, pode-se dizer que as pesquisas ainda não atingiram um grau de amadurecimento elevado, pois os resultados apresentados pela literatura não alcançam uma taxa de precisão elevada para todos os tipos de corpus. Conclui que os resultados das pesquisas que trabalham com a extração automática de sintagmas nominais devem ser comparados entre si para que se possam detectar os problemas existentes quanto às metodologias e às ferramentas de extração destes sintagmas nominais em língua portuguesa. Tendo, dessa maneira, as ferramentas e as metodologias melhoradas para que efetivamente possam ser aplicadas em sistemas de recuperação de informação, fazendo a seleção de sintagmas nominais que possam ser usados como descritores documentais no intuito de satisfazer as necessidades informacionais do usuário. Sugere, então, algumas possíveis soluções para os problemas de identificação de sintagmas nominais enfrentados pelas ferramentas automáticas.
|
177 |
Uma plataforma para sumarização automática de textos independente de idiomaCABRAL, Luciano de Souza 27 February 2015 (has links)
Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-01-22T17:09:48Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
lsc_tese_corrigida_rdl_versaoDigital.pdf: 5021349 bytes, checksum: f2a6ae799a13a092eef7727f6cc66e9e (MD5) / Made available in DSpace on 2016-01-22T17:09:48Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
lsc_tese_corrigida_rdl_versaoDigital.pdf: 5021349 bytes, checksum: f2a6ae799a13a092eef7727f6cc66e9e (MD5)
Previous issue date: 2015-02-27 / A Sumarização Automática de Textos é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar ou gerar sentenças relevantes a partir de documentos textuais. Claramente, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento, em sua maioria suportando o idioma inglês, com poucas variações de suporte a mais um idioma. A presente tese propõe uma plataforma de sumarização multi-idioma na qual, fornece 17 opções de algoritmos de sumarização, assim como a possibilidade de combinação dentre eles. Tais algoritmos são uma mescla de técnicas de sumarização extrativa utilizando modelos estatísticos (e.g. TF-IDF) e modelos linguísticos (PLN com WordNet). Além disso, a plataforma é 100% não-supervisionada, o que significa que não depende do ser humano em nenhuma parte de seu processamento, ainda possui um módulo de identificação de idiomas além de um processo de tradução intermediária, os quais provêm suporte a 25 idiomas até o momento. Os resultados obtidos nos experimentos sugerem que a plataforma apresenta bons níveis de sumarização com corpora relacionados com textos jornalísticos (CNN e Temário) em diferentes idiomas (Inglês, Espanhol e Português). Efetuando uma comparação com métodos conhecidos, e.g. SuPor e TextRank, a plataforma obteve 45% de
melhoria nos resultados para o corpus Temário no idioma português, se manteve dentre os melhores com o corpus CNN em inglês e resultados semelhantes com o corpus CNN em espanhol, no qual é novo e não possui resultados de outros sistemas até o momento. Além desses resultados, o seu tempo processamento é competitivo, atingindo-se em média 0,11 segundos por documento em inglês e 0,28 s para outras línguas. Desenvolvida em Java, a plataforma pode ser facilmente portável e reusada em pesquisas futuras, as quais podem ser direcionadas para preencher a lacuna da sumarização abstrativa, a qual é pouco explorada até o momento pela comunidade, tendo assim, muito a ser estudada e pesquisada. / Automatic Text Summarization is the branch of information retrieval that uses techniques and algorithms to identify, collect or generate relevant sentences from text documents. The use of Natural Language Processing (NLP) techniques has proven to be beneficial to the summarization process, especially when processing unstructured documents. Extractive summarization techniques are the best studied to date, mostly supporting the English language, with a few variations to support another language. This thesis proposes a multi-language summarization platform which implements 17 algorithms, as well as the possibility of combining them. Such extractive summarization techniques are based on statistical models (e.g. TF-IDF) or language models (e.g. N.L.P. with WordNet). Furthermore, the platform is 100% unsupervised, this means that processing does not need human interference. There is a module for language identification and an intermediate translation process, in which provides support to 25 languages, so far. The experimental results obtained suggest that the platform reached acceptable summarization levels tested on news text corpora (CNN and Temário) in English, Spanish and Portuguese. Comparing with known methods, e.g. SuPor and TextRank, the platform obtained an improvement of 45% in the results for the TeMário corpus in Portuguese language remained among the best in the CNN corpus in English and similar results with the CNN corpus in Spanish, which is new and not have results of competitors yet. In addition to these results, its processing time is competitive,
reaching an average of 0.11 seconds per document in English and 0.28 for the other languages tested. The platform was developed in Java, thus it is portable and can be easily reused in future research in abstractive summarization, a research area still little explored.
|
178 |
Explorando informação relacional para análise de sentimentos em redes sociaisRABELO, Juliano Cícero Bitu 25 August 2015 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-04-07T15:49:01Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
tese_jcbr_201511.pdf: 2348357 bytes, checksum: 5ab9955a4ce8849c92d0631d6674d12e (MD5) / Made available in DSpace on 2016-04-07T15:49:01Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
tese_jcbr_201511.pdf: 2348357 bytes, checksum: 5ab9955a4ce8849c92d0631d6674d12e (MD5)
Previous issue date: 2015-08-25 / CNPq / A web, inicialmente um mero repositório de informações estáticas, transformou-se numa enorme fonte de aplicações diversas, proporcionando ou fomentando entretenimento, negócios e relacionamentos. Com essa evolução, a web passou a conter uma enorme quantidade de informações valiosas sobre produtos e serviços, especialmente em sites de compra, sites específicos para avaliação de produtos e até mesmo em redes sociais. Com as ferramentas adequadas, é possível monitorar opiniões ou mensurar a aceitação de um objeto qualquer a partir de dados disponíveis online, ao invés de realizar pesquisas de opinião usuais, que são demoradas, trabalhosas, tem alto custo e alcançam um número bastante restrito de pessoas. Com o monitoramento online, todo o processo de consolidação de opiniões pode ser realizado de forma automática, oferecendo um feedback imediato e mais representativo sobre o objeto avaliado. O problema geral desta proposta de tese é a classificação dos usuários de acordo com suas opiniões sobre um objeto de interesse. Comumente, a classificação das opiniões emitidas por um dado usuário é feita através da classificação de sentimentos expressos em textos, postagens ou comentários. Se a classificação de opiniões, no entanto, for realizada em ambientes nos quais haja conexões entre seus usuários (como as redes sociais), uma nova dimensão de informação se apresenta: através da análise dos relacionamentos, é possível inferir as opiniões de usuários a partir da opinião de seus contatos. A abordagem proposta neste trabalho para realização de análise de sentimento em redes sociais é baseada no princípio da assortatividade, que estabelece que indivíduos tendem a se conectar a outros com os quais apresentam alto grau de semelhança. A partir desse conceito, são aplicadas técnicas de classificação coletiva sobre o grafo que representa a rede social. A intenção é explorar o fato de que a classificação coletiva não utiliza apenas as características locais dos nós no processo de inferência, mas também as características e classes dos nós relacionados. Além disso, a classificação é executada de forma simultânea sobre todas as instâncias, o que permite considerar as influências que cada instância exerce sobre outras às quais está relacionada. Para avaliação da viabilidade do método proposto, foi implementado um protótipo que usa um algoritmo de relaxation labeling para a classificação coletiva de opiniões de usuários, e foi desenvolvido um estudo de caso para predição de preferência política de usuários do Twitter, que alcançou resultados promissores. / The web, which was initially a mere repository for static information, has turned into a huge source of different applications, containing not only information but also promoting entertainment, business and relationships. Thus, the web currently has plenty of valuable information on products and services, especially in shopping, product evaluation and social networks websites. With the proper tools, it is possible to monitor opinions or to measure acceptance of a given object from data available online, instead of running usual polls, which are time and labor consuming, expensive and have limited reach. With online monitoring, the opinion consolidation process may be done automatically, offering an immediate, representative feedback on the evaluated object. This thesis proposal general problem is the classification of users according to his/her opinions given a target object. Commonly, the user opinion classification is performed through the use of text classifiers over his/her texts, comments or posts. If this opinion classification process takes place in environments where there are connections among its users (like social networks), a new information dimension shows up: through analysis of users relationships, it is possible to infer users opinions by using his/her contacts opinions. The approach proposed here to social networks sentiment analysis is based on the homophily principle, which states that users are more likely to connect to similar others. Using that concept, we apply collective classification techniques on the graph that represents the social network. The intention is to leverage the fact that collective classification uses not only the local node features in the inference process, but also the features and classes of the neighborhood. Besides, the classification is executed simultaneously on all nodes, which allows considering the influences of each node on its neighbors. To evaluate the proposed method, we implemented a prototype which uses a relaxation labeling algorithm for the collective classification of users opinions, and developed a case study to predict the political preference of users in Twitter, achieving promising results.
|
179 |
Geração de especificação formal de sistemas a partir de documento de requisitosda Fonseca Limaverde Cabral, Gustavo January 2007 (has links)
Made available in DSpace on 2014-06-12T15:59:36Z (GMT). No. of bitstreams: 2
arquivo5340_1.pdf: 1555764 bytes, checksum: d3735403fc535c9dd852536b0afde205 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2007 / A escrita de requisitos, dentro do processo de desenvolvimento de sistemas, está sujeita a falhas,
uma vez que os requisitos são escritos em Linguagem Natural, como Inglês, que pode conter
definições ambíguas ou de difícil entendimento. Por outro lado, Linguagem Natural é a opção
mais simples e flexível para se especificar um sistema, e é a linguagem de entendimento comum
entre clientes e contratados. Desta forma, para minimizar a existência de erros nos documentos
de requisitos, técnicas de validação com inspeção ou revisão de documentos são utilizadas.
Entretanto, o custo de se realizar este tipo de validação é alto e sua eficácia é questionável;
erros podem persistir. Além disso, requisitos escritos usando de linguagem natural são de
difícil processamento, dificultando a geração de outros artefatos a partir do mesmo.
Esta dissertação define uma estratégia que utiliza templates de especificação de casos de
use e uma Linguagem Natural Controlada (LNC) para descrever requisitos. Os templates de
casos de uso asseguram a estruturação correta do documento de requisitos e a LNC garante
a exatidão da gramática do texto que especifica o comportamento do sistema. Foram criados
dois templates de casos de uso, cada um com uma visão diferente do sistema. A visão mais
abstrata se chama visão do usuário e a visão mais detalhada se chama visão de componentes.
A partir dessa estruturação dos requisitos torna-se, possível definir uma estratégia de geração
automática de uma especificação formal da aplicação em questão.
A geração automática de especificação formal de sistemas reduz custo e necessidade de
mão de obra especializada em projetos de desenvolvimento de software. Ou seja, uma vez que
é possível realizar a geração automática do modelo formal de sistemas podemos fazer uso do
mesmo na validação de propriedades do sistema. Além disso, artefatos como casos de teste e
diagramas UML podem ser gerados a partir deste. Em particular, esta dissertação define uma
estratégia para gerar modelos formais na álgebra de processo CSP a partir das duas visões de
caso de uso, mantendo a consistência entre os artefatos. Também foi definida uma relação de
refinamento entre os modelos gerados garantindo a consistência entre as visões.
Finalmente, todo o processo foi automatizado através de ferramentas. Estas foram vali-
dadas através de experimentos realizados no contexto de aplicação para celulares da Motorola,
empresa parceira e financiadora do projeto de pesquisa com o CIn/UFPE
|
180 |
Semantic enrichment of American English corpora through automatic semantic annotation based on top-level ontologies using the CRF clas- sification model / Enriquecimento semântico de corpora do Inglês americano através de anotação semântica automática baseada em ontologias de nível topo uti- lizando o modelo de classificação CRFAndrade, Guidson Coelho de 26 April 2018 (has links)
Submitted by MARCOS LEANDRO TEIXEIRA DE OLIVEIRA (marcosteixeira@ufv.br) on 2018-09-05T12:51:49Z
No. of bitstreams: 1
texto completo.pdf: 1357733 bytes, checksum: 0b0fc46e7358bfaa6996ea4bcbd760d0 (MD5) / Made available in DSpace on 2018-09-05T12:51:49Z (GMT). No. of bitstreams: 1
texto completo.pdf: 1357733 bytes, checksum: 0b0fc46e7358bfaa6996ea4bcbd760d0 (MD5)
Previous issue date: 2018-04-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O significado de bases de dados textuais é de fácil percepção para as pessoas, mas de difícil interpretação por parte dos computadores. Para que as máquinas possam compreender a semântica associada aos textos e não somente a sintaxe, é necessário a adição de informações extras a esses corpora. A anotação semântica é a tarefa que incorpora essas informações por meio da adição de metadados aos itens lex- icais. Essas informações podem ser conceitos ontológicos que ajudam a definir a natureza da palavra a fim de atribuir-lhe algum significado. No entanto, anotar textos segundo uma determinada ontologia ainda é uma tarefa que demanda tempo e esforço de anotadores treinados para esse fim. Outra abordagem a ser consid- erada é o desenvolvimento de ferramentas de anotação semântica automática que utilizem técnicas de aprendizado de máquina para classificar os termos anotados. Essa abordagem demanda uma base de dados para treinamento dos algoritmos que nesse caso são corpora pré-anotados segundo a dimensão semântica a ser explorada. Entretanto, essa linhagem metodológica dispõe de recursos limitados para suprir as necessidades dos métodos de aprendizado. Existe uma grande carência de corpora anotados semanticamente e, particularmente, uma ausência ainda maior de corpora ontologicamente anotados, dificultando o avanço da área de anotação semântica au- tomática. O objetivo do presente trabalho é auxiliar no enriquecimento semântico de textos do Inglês americano, anotando-os de forma automática baseando-se em ontologia de nível topo através do modelo de aprendizagem supervisionada Condi- tional Random Fields (CRF). Após a seleção do Open American National Corpus como base de dados linguística e da Schema.org como ontologia, o trabalho teve sua estrutura dividida em duas etapas. Primeiramente, o corpus pré-processado e corrigido foi submetido a uma anotação híbrida, com um anotador baseado em re- gras e, posteriormente, uma anotação complementar manual. Ambas as tarefas de anotação foram dirigidas pelos conceitos e definições das oito classes provenientes do nível topo da ontologia selecionada. De posse do corpus anotado ontologicamente, iniciou-se o processo de anotação automática via uso do método de aprendizagem CRF. O modelo de predição levou em consideração as características linguísticas e estruturais dos termos para classificá-los sob os oito tipos ontológicos. Os resulta- dos obtidos durante a avaliação do modelo foram muito satisfatórios e atingiram o objetivo da pesquisa. O trabalho, embora seja uma nova abordagem de anotação semântica e com pouca margem de comparação, apresentou resultados promissores para o avanço da pesquisa na área de enriquecimento semântico automático baseado em ontologias de nível topo. / Textual databases carry with them human-perceived meanings, but those meanings are difficult to be interpreted by computers. In order for the machines to understand the semantics attached to texts, and not only their syntax, it is necessary to add extra information to these corpora. Semantic annotation is the task of incorporat- ing this information by adding metadata to lexical items. This information can be ontological concepts that help define the nature of the word in order to give it some meaning. However, annotating texts according to an ontology is still a task that requires time and effort from annotators trained for this purpose. Another approach to be considered is the use of automatic semantic annotation tools that use machine learning techniques to classify annotated terms. This approach demands a database for training the algorithms that in this case are corpora pre-annotated according to the semantic dimension to be explored. However, this methodological lineage has limited resources to meet the needs of learning methods. There is a large lack of semantically annotated corpora and an even larger absence of ontologically anno- tated corpora, hindering the advance of the area of automatic semantic annotation. The purpose of the present work is to assist in the semantic enrichment of Amer- ican English texts by automatically annotating them based on top-level ontology through the Conditional Random Fields (CRF) supervised learning model. After the selection of the Open American National Corpus as a linguistic database and Schema.org as an ontology, the work had its structure divided into two stages. First, the pre-processed and corrected corpus was submitted to a hybrid annotation, with a rule-based annotator, and later manually. Both annotation tasks were driven by the concepts and definitions of the eight classes from the top-level of the selected ontology. Once the corpus was written ontologically, the automatic annotation pro- cess was started using the CRF learning method. The prediction model took into account the linguistic and structural features of the terms to classify them under the eight ontological types. The results obtained during the evaluation of the model were very satisfactory and reached the objective of the research. The work, although it is a new approach of semantic annotation and with little margin of comparison, presented promising results for the advance of the research in the area of automatic semantic enrichment based on top-level ontologies.
|
Page generated in 0.0746 seconds