Spelling suggestions: "subject:"recuperacao"" "subject:"recuperaçao""
151 |
Agrupamento personalizado de pontos em web maps usando um modelo multidimensional - APPWM / Multidimensional model for cluster points in web mapsBigolin, Marcio January 2014 (has links)
Com o avanço da geração de informação georeferenciada torna-se extremamente importante desenvolver técnicas que auxiliem na melhora da visualização dessas informações. Neste sentido os web maps tornam-se cada vez mais comuns na difusão dessas informações. Esses sistemas permitem ao usuário explorar tendências geográficas de forma rápida e sem necessidade de muito conhecimento técnico em cartografia e softwares específicos. As áreas do mapa onde ocorre um mesmo evento com maior incidência geram visualizações confusas e que não possibilitam uma adequada tomada de decisão. Essas áreas, quando representadas através de pontos (o que é bastante comum), provocará uma sobreposição massiva de dados, devido à densidade de informações. Esta dissertação propõe uma técnica que utiliza um modelo de dados multidimensional para auxiliar a exibição das informações em um web map, de acordo com o contexto do usuário. Esse modelo organiza os dados por níveis geográficos e permite assim uma melhor compreensão da informação exibida. Os experimentos desenvolvidos mostraram que a técnica foi considerada de fácil utilização e de uma necessidade pequena de conhecimento para a execução das tarefas. Isso pode ser visto que das 59 consultas propostas para serem geradas apenas 7 precisam de mudanças significativas para serem executadas. Esses resultados permitem comprovar que o modelo se apresenta como uma boa alternativa para a tomada de decisão sobre mapas produzidos em ambiente web. / The advancement of generation of geo-referenced information becomes extremely important to develop techniques that help in improving the display of this information. In this sense the web maps become increasingly common in the dissemination of such information. These systems allow the user to explore geographical trends quickly and without much technical knowledge in cartography and specific software . The map areas where there is a single event with a higher incidence generate confusing views and not allow proper decision making. These areas , as represented by points (which is quite common) , will cause a massive overlay data , due to the density of information. This work proposes a technique that uses a multidimensional data model to support the display of information on a web map, according to the user's context . This model organizes data by geographical levels and thus allows a better understanding of the information displayed. Developed experiments showed that the technique was considered easy to use and a small need for knowledge to perform the tasks. It can be seen that the 59 queries proposals to be generated only 7 significant changes need to be executed. These results allow to prove that the model is presented as a good alternative for decision-making on maps produced in a web environment.
|
152 |
[en] HIPERBOLIC PROGRAMMING IN 0-1 VARIABLES AND BIBLIOGRAPHIC DATABASES SEARCH OPTIMIZATION / [pt] PROGRAMAÇÃO HIPERBÓLICA EM VARIÁVEIS 0-1 E OTIMIZAÇÃO DE CONSULTAS A BANCOS DE DADOS BIBLIOGRAFICOSMARCUS VINICIUS SOLEDADE POGGI DE ARAGAO 31 August 2009 (has links)
[pt] Neste trabalho estuda-se a resolução de problemas de otimização e síntese de consultas para recuperação de informações de bancos de dados bibliográficos, através da sua formulação como problemas de programação matemática em variáveis 0-1. Primeiramente é estudado o problema de programação hiperbólica, para o qual foram desenvolvidos algoritmos de complexidade linear. O segundo problema estudado trata de uma extensão do anterior, sendo chamado neste texto de problema de soma hiperbólica. Para este problema são desenvolvidas heurísticas dos tipos simulated annealing e steepest ascent mildest descent (tabu search), além de algoritmos exatos do tipo pesquisa arborescente. Todos os métodos descritos acima foram implementados e são apresentados resultados numéricos. Quanto à otimização de consultas, foram estudados dois problemas básicos: consultas periódicas e síntese de novas, que são formulados como problemas de programação hiperbólica e soma hiperbólica, respectivamente. Foram feitas aplicações considerando-se um banco de dados do Centro de Informações Nucleares da CNEN (Comissão Nacional de Energia Nuclear). / [en] In this work we study the solution of problems arising in the field of queries optimization in information retrieval from classical databases, through their formulation as mathematical problems in 0-1 variables. The first problem studied is the hyperbolic programming problem in 0-1 variables, for which we developed exact linear-time algorithms. The second problem studied is an extension of the former, here named as hyperbolic sum problem. For this problem we developed simulated annealing and steepest ascent-mildest descent (tabu search) heuristics, as well as exact branch-and-bound algorithms. All these methods were implemented and numerical results are presented.
Concerning the problem of queries optimization, two basic problems were studied: periodical query and synthesis of new queries, which are formulated respectively as an hyperbolic programming problem and an hyperbolic sum problem. We have also done applications involving these problems, considering real data gathered from a database of Center of Nuclear Information from CNEN (Brazilian National Comission of Nucler Energy)
|
153 |
Detecting contrastive sentences for sentiment analysis / Detecção de sentenças contrastantes através de análise de sentimentosVargas, Danny Suarez January 2016 (has links)
A análise de contradições é uma área relativamente nova, multidisciplinar e complexa que tem por objetivo principal identificar pedaços contraditórios de texto. Ela pode ser abordada a partir das perspectivas de diferentes áreas de pesquisa, tais como processamento de linguagem natural, mineração de opinioes, recuperação de informações e extração de Informações. Este trabalho foca no problema de detectar contradições em textos – mais especificamente, nas contradições que são o resultado da diversidade de sentimentos entre as sentenças de um determinado texto. Ao contrário de outros tipos de contradições, a detecção de contradições baseada em sentimentos pode ser abordada como uma etapa de pós-processamento na tarefa tradicional de análise de sentimentos. Neste contexto, este trabalho apresenta duas contribuições principais. A primeira é um estudo exploratório da tarefa de classificação, na qual identificamos e usamos diferentes ferramentas e recursos. A segunda contribuição é a adaptação e a extensão de um framework de análise contradição existente, filtrando seus resultados para remover os comentários erroneamente rotulados como contraditórios. O método de filtragem baseia-se em dois algoritmos simples de similaridade entre palavras. Uma avaliação experimental em comentários sobre produtos reais mostrou melhorias proporcionais de até 30 % na acurácia da classificação e 26 % na precisão da detecção de contradições. / Contradiction Analysis is a relatively new multidisciplinary and complex area with the main goal of identifying contradictory pieces of text. It can be addressed from the perspectives of different research areas such as Natural Language Processing, Opinion Mining, Information Retrieval, and Information Extraction. This work focuses on the problem of detecting sentiment-based contradictions which occur in the sentences of a given review text. Unlike other types of contradictions, the detection of sentiment-based contradictions can be tackled as a post-processing step in the traditional sentiment analysis task. In this context, we make two main contributions. The first is an exploratory study of the classification task, in which we identify and use different tools and resources. Our second contribution is adapting and extending an existing contradiction analysis framework by filtering its results to remove the reviews that are erroneously labeled as contradictory. The filtering method is based on two simple term similarity algorithms. An experimental evaluation on real product reviews has shown proportional improvements of up to 30% in classification accuracy and 26% in the precision of contradiction detection.
|
154 |
Um ambiente de Business Intelligence para apoio a decisões sobre o ciclo de vida de serviços / A business intelligence environment to support decisions on the service lifecycleSilva, Ernando Eduardo da January 2013 (has links)
Com o crescimento da demanda por aplicações orientadas a serviços, a complexidade da gestão de mudanças em serviços aumenta cada vez mais. Nesse contexto, provedores de portfólios de serviços têm como objetivo a minimização do impacto de tais mudanças para os seus clientes. Os trabalhos existentes abordam essencialmente a mudança sob o viés técnico, lidando com técnicas de versionamento e determinação de compatibilidade. No entanto, os provedores possuem dilemas de decisão que vão além dos aspectos técnicos, abrangendo o impacto na perspectiva de negócios, considerando clientes afetados, receitas, custos, violações de SLA, entre outros. Este trabalho faz parte de um framework voltado para a análise da evolução de serviços considerando a perspectiva de uso dos mesmos. O presente trabalho propõe o uso de técnicas de Business Intelligence e Data Warehousing para apoiar a tomada de decisões orientadas a negócios na gestão do ciclo de vida de serviços. Em tal contexto, considera-se o cenário de portfólio de serviços e mudanças profundas, abrangendo cadeias de serviços e clientes diretos/indiretos. Este trabalho identifica e analisa requisitos de decisão, juntamente com indicadores financeiros e de uso relacionados à provisão de serviços. Um data warehouse é modelado para prover uma visão unificada e integrada de tais indicadores, de acordo com diferentes perspectivas de análise. Uma arquitetura para a extração, transformação e carga dos dados também é apresentada com a proposição de alternativas para lidar com a integração e heterogeneidade das fontes de dados. Através de um estudo de caso inspirado em um cenário real, demonstra-se como a análise do impacto é analisada através da abordagem proposta. / With the growing demand for service-oriented applications, the complexity of service change management is increasing. In this context, service providers aim at the minimal impact of changes to its clients. Existing work essentially addresses change decisions from a technical perspective, with versioning techniques and compatibility assessments. However, providers have decisional dilemmas that go beyond the technical aspects, addressing the business impact in terms of clients affected, revenues, costs, SLA penalties, among others. This work integrates a framework addressing the service evolution analysis based on service usage perspective. We propose the use of Business Intelligence and Data Warehousing techniques to support business-oriented decisions on the service life-cycle management. Our approach covers service portfolios and the deep change context, i.e. services consumed in large scale and direct/indirect clients. This work is centered on the identification and analysis of decisional requirements and financial and usage indicators related to the service provision business. A data warehouse is modeled to provide a unified and integrated view of these indicators, according to different analysis perspectives. An architecture to extract, transform and loading data also is presented, proposing alternatives to lead with the integration and the heterogeneity of the data sources. Through a case study inspired by a real world scenario, we demonstrate how change impact is analyzed according our approach.
|
155 |
Descoberta de perfis de uso de web services / Web services usage profiles discoveryVollino, Bruno Winiemko January 2013 (has links)
Durante o ciclo de vida de um web service, diversas mudanças são feitas na sua interface, eventualmente causando incompatibilidades em relação aos seus clientes e ocasionando a quebra de suas aplicações. Os provedores precisam tomar decisões sobre mudanças em seus serviços frequentemente, muitas vezes sem um bom entendimento a respeito do efeito destas mudanças sobre seus clientes. Os trabalhos e ferramentas existentes não fornecem ao provedor um conhecimento adequado a respeito do uso real das funcionalidades da interface de um serviço, considerando os diferentes tipos de consumidores, o que impossibilita avaliar o impacto das mudanças. Este trabalho apresenta um framework para a descoberta de perfis de uso de serviços web, os quais constituem um modelo descritivo dos padrões de uso dos diferentes grupos de clientes do serviço, com relação ao uso das funcionalidades em sua interface. O framework auxilia no processo de descoberta de conhecimento através de tarefas semiautomáticas e parametrizáveis para a preparação e análise de dados de uso, minimizando a necessidade de intervenção do usuário. O framework engloba o monitoramento de interações de web services, a carga de dados de uso pré-processados em uma base de dados unificada, e a geração de perfis de uso. Técnicas de mineração de dados são utilizadas para agrupar clientes de acordo com seus padrões de uso de funcionalidades, e esses grupos são utilizados na construção de perfis de uso de serviços. Todo o processo é configurado através de parâmetros, permitindo que o usuário determine o nível de detalhe das informações sobre o uso incluídas nos perfis e os critérios para avaliar a similaridade entre clientes. A proposta é validada por meio de experimentos com dados sintéticos, simulados de acordo com características esperadas no comportamento de clientes de um serviço real. Os resultados dos experimentos demonstram que o framework proposto permite a descoberta de perfis de uso de serviço úteis, e fornecem evidências a respeito da parametrização adequada do framework. / During the life cycle of a web service, several changes are made in its interface, which possibly are incompatible with regard to current usage and may break client applications. Providers must make decisions about changes on their services, most often without insight on the effect these changes will have over their customers. Existing research and tools fail to input provider with proper knowledge about the actual usage of the service interface’s features, considering the distinct types of customers, making it impossible to assess the actual impact of changes. This work presents a framework for the discovery of web service usage profiles, which constitute a descriptive model of the usage patterns found in distinct groups of clients, concerning the usage of service interface features. The framework supports a user in the process of knowledge discovery over service usage data through semi-automatic and configurable tasks, which assist the preparation and analysis of usage data with the minimum user intervention possible. The framework performs the monitoring of web services interactions, loads pre-processed usage data into a unified database, and supports the generation of usage profiles. Data mining techniques are used to group clients according to their usage patterns of features, and these groups are used to build service usage profiles. The entire process is configured via parameters, which allows the user to determine the level of detail of the usage information included in the profiles, and the criteria for evaluating the similarity between client applications. The proposal is validated through experiments with synthetic data, simulated according to features expected in the use of a real service. The experimental results demonstrate that the proposed framework allows the discovery of useful service usage profiles, and provide evidences about the proper parameterization of the framework.
|
156 |
Um método para deduplicação de metadados bibliográficos baseado no empilhamento de classificadores / A method for bibliographic metadata deduplication based on stacked generalizationBorges, Eduardo Nunes January 2013 (has links)
Metadados bibliográficos duplicados são registros que correspondem a referências bibliográficas semanticamente equivalentes, ou seja, que descrevem a mesma publicação. Identificar metadados bibliográficos duplicados em uma ou mais bibliotecas digitais é uma tarefa essencial para garantir a qualidade de alguns serviços como busca, navegação e recomendação de conteúdo. Embora diversos padrões de metadados tenham sido propostos, eles não resolvem totalmente os problemas de interoperabilidade porque mesmo que exista um mapeamento entre diferentes esquemas de metadados, podem existir variações na representação do conteúdo. Grande parte dos trabalhos propostos para identificar duplicatas aplica uma ou mais funções sobre o conteúdo de determinados campos no intuito de captar a similaridade entre os registros. Entretanto, é necessário escolher um limiar que defina se dois registros são suficientemente similares para serem considerados semanticamente equivalentes ou duplicados. Trabalhos mais recentes tratam a deduplicação de registros como um problema de classificação de dados, em que um modelo preditivo é treinado para estimar a que objeto do mundo real um registro faz referência. O objetivo principal desta tese é o desenvolvimento de um método efetivo e automático para identificar metadados bibliográficos duplicados, combinando o aprendizado de múltiplos classificadores supervisionados, sem a necessidade de intervenção humana na definição de limiares de similaridade. Sobre o conjunto de treinamento são aplicadas funções de similaridade desenvolvidas especificamente para o contexto de bibliotecas digitais e com baixo custo computacional. Os escores produzidos pelas funções são utilizados para treinar múltiplos modelos de classificação heterogêneos, ou seja, a partir de algoritmos de diversos tipos: baseados em árvores, regras, redes neurais artificiais e probabilísticos. Os classificadores aprendidos são combinados através da estratégia de empilhamento visando potencializar o resultado da deduplicação a partir do conhecimento heterogêneo adquirido individualmente pelos algoritmo de aprendizagem. O modelo de classificação final é aplicado aos pares candidatos ao casamento retornados por uma estratégia de blocagem de dois níveis bastante eficiente. A solução proposta é baseada na hipótese de que o empilhamento de classificadores supervisionados pode aumentar a qualidade da deduplicação quando comparado a outras estratégias de combinação. A avaliação experimental mostra que a hipótese foi confirmada quando o método proposto é comparado com a escolha do melhor classificador e com o voto da maioria. Ainda são analisados o impacto da diversidade dos classificadores no resultado do empilhamento e os casos de falha do método proposto. / Duplicated bibliographic metadata are semantically equivalent records, i.e., references that describe the same publication. Identifying duplicated bibliographic metadata in one or more digital libraries is an essential task to ensure the quality of some services such as search, navigation, and content recommendation. Although many metadata standards have been proposed, they do not completely solve interoperability problems because even if there is a mapping between different metadata schemas, there may be variations in the content representation. Most of work proposed to identify duplicated records uses one or more functions on some fields in order to capture the similarity between the records. However, we need to choose a threshold that defines whether two records are sufficiently similar to be considered semantically equivalent or duplicated. Recent studies deal with record deduplication as a data classification problem, in which a predictive model is trained to estimate the real-world object to which a record refers. The main goal of this thesis is the development of an effective and automatic method to identify duplicated bibliographic metadata, combining multiple supervised classifiers, without any human intervention in the setting of similarity thresholds. We have applied on the training set cheap similarity functions specifically designed for the context of digital libraries. The scores returned by these functions are used to train multiple and heterogeneous classification models, i.e., using learning algorithms based on trees, rules, artificial neural networks and probabilistic models. The learned classifiers are combined by stacked generalization strategy to improve the deduplication result through heterogeneous knowledge acquired by each learning algorithm. The final model is applied to pairs of records that are candidate to matching. These pairs are defined by an efficient two phase blocking strategy. The proposed solution is based on the hypothesis that stacking supervised classifiers can improve the quality of deduplication when compared to other combination strategies. The experimental evaluation shows that the hypothesis has been confirmed by comparing the proposed method to selecting the best classifier or the majority vote technique. We also have analyzed the impact of classifiers diversity on the stacking results and the cases for which the proposed method fails.
|
157 |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada / A supervised learning approach for noise discovery in web pages found in the hidden webLutz, João Adolfo Froede January 2013 (has links)
Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas. / One of the problems of data extraction from web pages is the identification of noise in pages. This task aims at identifying non-informative elements in pages, such as headers, menus, or advertisement. The presence of noise may hinder the performance of search engines and web mining tasks. In this paper we tackle the problem of discovering noise in web pages found in the hidden web, i.e., that part of the web that is only accessible by filling web forms. In hidden web processing, data extraction is usually preceeded by a form filling step, in which the query forms that give access to the hidden web pages are automatically or semi-automatically filled. During form filling relevant data about the queried domain are collected, as field names and field values. Our proposal combines this type of data with syntactic information about the nodes that compose the page. We show empirically that this combination achieves better results than an approach that is based solely on syntactic information. Keywords:
|
158 |
Descoberta de cross-language links ausentes na wikipédia / Identifying missing cross-language links in wikipediaMoreira, Carlos Eduardo Manzoni January 2014 (has links)
A Wikipédia é uma enciclopédia pública composta por milhões de artigos editados diariamente por uma comunidade de autores de diferentes regiões do mundo. Os artigos que constituem a Wikipédia possuem um tipo de link chamado de Cross-language Link que relaciona artigos correspondentes em idiomas diferentes. O objetivo principal dessa estrutura é permitir a navegação dos usuários por diferentes versões de um mesmo artigo em busca da informação desejada. Além disso, por permitir a obtenção de corpora comparáveis, os Cross-language Links são extremamente importantes para aplicações que trabalham com tradução automática e recuperação de informações multilíngues. Visto que os Cross-language Links são inseridos manualmente pelos autores dos artigos, quando o autor não reconhece o seu correspondente em determinado idioma ocorre uma situação de Cross-language Links ausente. Sendo assim, é importante o desenvolvimento de uma abordagem que realize a descoberta de Cross-language Links entre artigos que são correspondentes, porém, não estão conectados por esse tipo link. Nesta dissertação, é apresentado o CLLFinder, uma abordagem para a descoberta de Cross-language Links ausentes. A nossa abordagem utiliza o relacionamento entre as categorias e a indexação e consulta do conteúdo dos artigos para realizar a seleção do conjunto de candidatos. Para a identificação do artigo correspondente, são utilizados atributos que exploram a transitividade de Cross-language Links entre outros idiomas bem como características textuais dos artigos. Os resultados demonstram a criação de um conjunto de candidatos com 84,3% de presença do artigo correspondente, superando o trabalho utilizado como baseline. A avaliação experimental com mais de dois milhões de pares de artigos aponta uma precisão de 99,2% e uma revocação geral de 78,9%, superando, também, o baseline. Uma inspeção manual dos resultados do CLLFinder aplicado em um cenário real indica que 73,6% dos novos Cross-language Links sugeridos pela nossa abordagem eram de fato correspondentes. / Wikipedia is a public encyclopedia composed of millions of articles written daily by volunteer authors from different regions of the world. The articles contain links called Cross-language Links which relate corresponding articles across different languages. This feature is extremely useful for applications that work with automatic translation and multilingual information retrieval as it allows the assembly of comparable corpora. Since these links are created manually, in many occasions, the authors fail to do so. Thus, it is important to have a mechanism that automatically creates such links. This has been motivating the development of techniques to identify missing cross-language links. In this work, we present CLLFinder, an approach for finding missing cross-language links. The approach makes use of the links between categories and an index of the content of the articles to select candidates. In order to identify corresponding articles, the method uses the transitivity between existing cross-language links in other languages as well as textual features extracted from the articles. Experiments on over two million pairs of articles from the English and Portuguese Wikipedias show that our approach has a recall of 78.9% and a precision of 99.2%, outperforming the baseline system.A manual inspection of the results of CLLFinder applied to a real situation indicates that our approach was able to identify the Cross-language Link correctly 73.6% of the time.
|
159 |
A framework for event classification in Tweets based on hybrid semantic enrichment / Um framework para classificação de eventos em tweets baseado em enriquecimento semântico híbridoRomero, Simone Aparecida Pinto January 2017 (has links)
As plataformas de Mídias Sociais se tornaram um meio essencial para a disponibilização de informações. Dentre elas, o Twitter tem se destacado, devido ao grande volume de mensagens que são compartilhadas todos os dias, principalmente mencionando eventos ao redor do mundo. Tais mensagens são uma importante fonte de informação e podem ser utilizadas em diversas aplicações. Contudo, a classificação de texto em tweets é uma tarefa não trivial. Além disso, não há um consenso quanto à quais tarefas devem ser executadas para Identificação e Classificação de Eventos em tweets, uma vez que as abordagens existentes trabalham com tipos específicos de eventos e determinadas suposições, que dificultam a reprodução e a comparação dessas abordagens em eventos de natureza distinta. Neste trabalho, nós elaboramos um framework para a classificação de eventos de natureza distinta. O framework possui os seguintes elementos chave: a) enriquecimento externo a partir da exploração de páginas web relacionadas, como uma forma de complementar a extração de features conceituais do conteúdo dos tweets; b) enriquecimento semântico utilizando recursos da Linked Open Data cloud para acrescentar features semânticas relacionadas; e c) técnica de poda para selecionar as features semânticas mais discriminativas Nós avaliamos o framework proposto através de um vasto conjunto de experimentos, que incluem: a) sete eventos alvos de natureza distinta; b) diferentes combinações das features conceituais propostas (i.e. entidades, vocabulário, e a combinação de ambos); c) estratégias distintas para a extração de features (i.e. a partir do conteúdo dos tweets e das páginas web); d) diferentes métodos para a seleção das features semânticas mais relevantes de acordo com o domínio (i.e. poda, seleção de features, e a combinação de ambos); e) dois algoritmos de classificação. Nós também comparamos o desempenho do framework em relação a outro método utilização para o enriquecimento contextual, o qual tem como base word embeddings. Os resultados mostraram as vantagens da utilização do framework proposto e que a nossa solução é factível e generalizável, dando suporte a classificação de diferentes tipos de eventos. / Social Media platforms have become key as a means of spreading information, opinions or awareness about real-world events. Twitter stands out due to the huge volume of messages about all sorts of topics posted every day. Such messages are an important source of useful information about events, presenting many useful applications (e.g. the detection of breaking news, real-time awareness, updates about events). However, text classification on Twitter is by no means a trivial task that can be handled by conventional Natural Language Processing techniques. In addition, there is no consensus about the definition of which kind of tasks are executed in the Event Identification and Classification in tweets, since existing approaches often focus on specific types of events, based on specific assumptions, which makes it difficult to reproduce and compare these approaches in events of distinct natures. In this work, we aim at building a unifying framework that is suitable for the classification of events of distinct natures. The framework has as key elements: a) external enrichment using related web pages for extending the conceptual features contained within the tweets; b) semantic enrichment using the Linked Open Data cloud to add related semantic features; and c) a pruning technique that selects the semantic features with discriminative potential We evaluated our proposed framework using a broad experimental setting, that includes: a) seven target events of different natures; b) different combinations of the conceptual features proposed (i.e. entities, vocabulary and their combination); c) distinct feature extraction strategies (i.e. from tweet text and web related documents); d) different methods for selecting the discriminative semantic features (i.e. pruning, feature selection, and their combination); and e) two classification algorithms. We also compared the proposed framework against another kind of contextual enrichment based on word embeddings. The results showed the advantages of using the proposed framework, and that our solution is a feasible and generalizable method to support the classification of distinct event types.
|
160 |
Detecção não supervisionada de posicionamento em textos de tweets / Unsupervised stance detection in texts of tweetsDias, Marcelo dos Santos January 2017 (has links)
Detecção de posicionamento é a tarefa de automaticamente identificar se o autor de um texto é favorável, contrário, ou nem favorável e nem contrário a uma dada proposição ou alvo. Com o amplo uso do Twitter como plataforma para expressar opiniões e posicionamentos, a análise automatizada deste conteúdo torna-se de grande valia para empresas, organizações e figuras públicas. Em geral, os trabalhos que exploram tal tarefa adotam abordagens supervisionadas ou semi-supervisionadas. O presente trabalho propõe e avalia um processo não supervisionado de detecção de posicionamento em textos de tweets que tem como entrada apenas o alvo e um conjunto de tweets a rotular e é baseado em uma abordagem híbrida composta por 2 etapas: a) rotulação automática de tweets baseada em um conjunto de heurísticas e b) classificação complementar baseada em aprendizado supervisionado de máquina. A proposta tem êxito quando aplicada a figuras públicas, superando o estado-da-arte. Além disso, são avaliadas alternativas no intuito de melhorar seu desempenho quando aplicada a outros domínios, revelando a possibilidade de se empregar estratégias tais como o uso de alvos e perfis semente dependendo das características de cada domínio. / Stance Detection is the task of automatically identifying if the author of a text is in favor of the given target, against the given target, or whether neither inference is likely. With the wide use of Twitter as a platform to express opinions and stances, the automatic analysis of this content becomes of high regard for companies, organizations and public figures. In general, works that explore such task adopt supervised or semi-supervised approaches. The present work proposes and evaluates a non-supervised process to detect stance in texts of tweets that has as entry only the target and a set of tweets to classify and is based on a hybrid approach composed by 2 stages: a) automatic labelling of tweets based on a set of heuristics and b) complementary classification based on supervised machine learning. The proposal succeeds when applied to public figures, overcoming the state-of-the-art. Beyond that, some alternatives are evaluated with the intention of increasing the performance when applied to other domains, revealing the possibility of use of strategies such as using seed targets and profiles depending on each domain characteristics.
|
Page generated in 0.0567 seconds