Spelling suggestions: "subject:"mineracao : dados"" "subject:"mineracao : lados""
31 |
Análise de sentimentos baseada em aspectos e atribuições de polaridade / Aspect-based sentiment analysis and polarity assignmentKauer, Anderson Uilian January 2016 (has links)
Com a crescente expansão da Web, cada vez mais usuários compartilham suas opiniões sobre experiências vividas. Essas opiniões estão, na maioria das vezes, representadas sob a forma de texto não estruturado. A Análise de Sentimentos (ou Mineração de Opinião) é a área dedicada ao estudo computacional das opiniões e sentimentos expressos em textos, tipicamente classificando-os de acordo com a sua polaridade (i.e., como positivos ou negativos). Ao mesmo tempo em que sites de vendas e redes sociais tornam-se grandes fontes de opiniões, cresce a busca por ferramentas que, de forma automática, classifiquem as opiniões e identifiquem a qual aspecto da entidade avaliada elas se referem. Neste trabalho, propomos métodos direcionados a dois pontos fundamentais para o tratamento dessas opiniões: (i) análise de sentimentos baseada em aspectos e (ii) atribuição de polaridade. Para a análise de sentimentos baseada em aspectos, desenvolvemos um método que identifica expressões que mencionem aspectos e entidades em um texto, utilizando ferramentas de processamento de linguagem natural combinadas com algoritmos de aprendizagem de máquina. Para a atribuição de polaridade, desenvolvemos um método que utiliza 24 atributos extraídos a partir do ranking gerado por um motor de busca e para gerar modelos de aprendizagem de máquina. Além disso, o método não depende de recursos linguísticos e pode ser aplicado sobre dados com ruídos. Experimentos realizados sobre datasets reais demonstram que, em ambas as contribuições, conseguimos resultados próximos aos dos baselines mesmo com um número pequeno de atributos. Ainda, para a atribuição de polaridade, os resultados são comparáveis aos de métodos do estado da arte que utilizam técnicas mais complexas. / With the growing expansion of the Web, more and more users share their views on experiences they have had. These views are, in most cases, represented in the form of unstructured text. The Sentiment Analysis (or Opinion Mining) is a research area dedicated to the computational study of the opinions and feelings expressed in texts, typically categorizing them according to their polarity (i.e., as positive or negative). As on-line sales and social networking sites become great sources of opinions, there is a growing need for tools that classify opinions and identify to which aspect of the evaluated entity they refer to. In this work, we propose methods aimed at two key points for the treatment of such opinions: (i) aspect-based sentiment analysis and (ii) polarity assignment. For aspect-based sentiment analysis, we developed a method that identifies expressions mentioning aspects and entities in text, using natural language processing tools combined with machine learning algorithms. For the identification of polarity, we developed a method that uses 24 attributes extracted from the ranking generated by a search engine to generate machine learning models. Furthermore, the method does not rely on linguistic resources and can be applied to noisy data. Experiments on real datasets show that, in both contributions, our results using a small number of attributes were similar to the baselines. Still, for assigning polarity, the results are comparable to prior art methods that use more complex techniques.
|
32 |
A probabilistic and incremental model for online classification of documents : DV-INBCRodrigues, Thiago Fredes January 2016 (has links)
Recentemente, houve um aumento rápido na criação e disponibilidade de repositórios de dados, o que foi percebido nas áreas de Mineração de Dados e Aprendizagem de Máquina. Este fato deve-se principalmente à rápida criação de tais dados em redes sociais. Uma grande parte destes dados é feita de texto, e a informação armazenada neles pode descrever desde perfis de usuários a temas comuns em documentos como política, esportes e ciência, informação bastante útil para várias aplicações. Como muitos destes dados são criados em fluxos, é desejável a criação de algoritmos com capacidade de atuar em grande escala e também de forma on-line, já que tarefas como organização e exploração de grandes coleções de dados seriam beneficiadas por eles. Nesta dissertação um modelo probabilístico, on-line e incremental é apresentado, como um esforço em resolver o problema apresentado. O algoritmo possui o nome DV-INBC e é uma extensão ao algoritmo INBC. As duas principais características do DV-INBC são: a necessidade de apenas uma iteração pelos dados de treino para criar um modelo que os represente; não é necessário saber o vocabulário dos dados a priori. Logo, pouco conhecimento sobre o fluxo de dados é necessário. Para avaliar a performance do algoritmo, são apresentados testes usando datasets populares. / Recently the fields of Data Mining and Machine Learning have seen a rapid increase in the creation and availability of data repositories. This is mainly due to its rapid creation in social networks. Also, a large part of those data is made of text documents. The information stored in such texts can range from a description of a user profile to common textual topics such as politics, sports and science, information very useful for many applications. Besides, since many of this data are created in streams, scalable and on-line algorithms are desired, because tasks like organization and exploration of large document collections would be benefited by them. In this thesis an incremental, on-line and probabilistic model for document classification is presented, as an effort of tackling this problem. The algorithm is called DV-INBC and is an extension to the INBC algorithm. The two main characteristics of DV-INBC are: only a single scan over the data is necessary to create a model of it; the data vocabulary need not to be known a priori. Therefore, little knowledge about the data stream is needed. To assess its performance, tests using well known datasets are presented.
|
33 |
Detecting contrastive sentences for sentiment analysis / Detecção de sentenças contrastantes através de análise de sentimentosVargas, Danny Suarez January 2016 (has links)
A análise de contradições é uma área relativamente nova, multidisciplinar e complexa que tem por objetivo principal identificar pedaços contraditórios de texto. Ela pode ser abordada a partir das perspectivas de diferentes áreas de pesquisa, tais como processamento de linguagem natural, mineração de opinioes, recuperação de informações e extração de Informações. Este trabalho foca no problema de detectar contradições em textos – mais especificamente, nas contradições que são o resultado da diversidade de sentimentos entre as sentenças de um determinado texto. Ao contrário de outros tipos de contradições, a detecção de contradições baseada em sentimentos pode ser abordada como uma etapa de pós-processamento na tarefa tradicional de análise de sentimentos. Neste contexto, este trabalho apresenta duas contribuições principais. A primeira é um estudo exploratório da tarefa de classificação, na qual identificamos e usamos diferentes ferramentas e recursos. A segunda contribuição é a adaptação e a extensão de um framework de análise contradição existente, filtrando seus resultados para remover os comentários erroneamente rotulados como contraditórios. O método de filtragem baseia-se em dois algoritmos simples de similaridade entre palavras. Uma avaliação experimental em comentários sobre produtos reais mostrou melhorias proporcionais de até 30 % na acurácia da classificação e 26 % na precisão da detecção de contradições. / Contradiction Analysis is a relatively new multidisciplinary and complex area with the main goal of identifying contradictory pieces of text. It can be addressed from the perspectives of different research areas such as Natural Language Processing, Opinion Mining, Information Retrieval, and Information Extraction. This work focuses on the problem of detecting sentiment-based contradictions which occur in the sentences of a given review text. Unlike other types of contradictions, the detection of sentiment-based contradictions can be tackled as a post-processing step in the traditional sentiment analysis task. In this context, we make two main contributions. The first is an exploratory study of the classification task, in which we identify and use different tools and resources. Our second contribution is adapting and extending an existing contradiction analysis framework by filtering its results to remove the reviews that are erroneously labeled as contradictory. The filtering method is based on two simple term similarity algorithms. An experimental evaluation on real product reviews has shown proportional improvements of up to 30% in classification accuracy and 26% in the precision of contradiction detection.
|
34 |
Análise de sentimentos em tíquetes para o suporte de TI / Sentiment Analysis in Tickets for IT SupportBlaz, Cássio Castaldi Araújo January 2017 (has links)
Análise de Sentimentos/Mineração de Opinião é adotada na engenharia de software para questões como usabilidade e sentimentos de desenvolvedores em projetos. Este trabalho propõe métodos para avaliar os sentimentos presentes em tíquetes abertos à área de suporte de TI. Há diversos tipos de tíquetes abertos à TI (e.g. infraestrutura, software), que envolvem erros, incidentes, requisições, etc. O maior desafio é automaticamente distinguir entre a necessidade em si, a qual é intrinsecamente negativa (por exemplo, a descrição de um erro), de um sentimento embutido na descrição. Nossa abordagem automaticamente cria um dicionário de domínio que contém termos que expressam sentimentos no contexto de TI, utilizados para filtrar expressões em um tíquete para análise de sentimentos. Nós criamos e avaliamos três métodos de classificação para calcular a polaridade em tíquetes. Nosso estudo utilizou 34.895 tíquetes de cinco organizações. Para polaridade, 2.333 tíquetes foram selecionados aleatoriamente para compor nosso gold standard. Nossos melhores resultados apresentam uma precisão e revocação de 82,83% e 88,42%, respectivamente, o que supera outras soluções de análise de sentimentos comparadas. De forma complementar, emoções em tíquetes foram estudadas considerando os modelos de Ekman e VAD. Um dos três métodos de classificação criados foi adaptado para também identificar emoções nos tíquetes. Possíveis correlações entre polaridade e emoções foram verificadas via regras de associação. Resultados correlacionam tíquetes positivos com valência e dominância altas e excitação baixa, além de presença de alegria e surpresa e ausência de medo. Tíquetes negativos correlacionam com valência, excitação e dominância neutras, além de ausência de alegria e presença de medo. Contudo os resultados para a polaridade negativa não são precisos. / Sentiment Analysis/Opinion Mining has been adopted in software engineering for problems such as software usability and sentiment of developers in projects. This work proposes methods to evaluate the sentiment contained in tickets for IT (Information Technology) support. IT tickets are broad in coverage (e.g. infrastructure, software), and involve errors, incidents, requests, etc. The main challenge is to automatically distinguish between factual information, which is intrinsically negative (e.g. error description), from the sentiment embedded in the description. Our approach is to automatically create a domain dictionary that contains terms with sentiment in IT context, used to filter terms in tickets for sentiment analysis. We created and evaluate three classification methods for calculating the polarity of terms in tickets. Our study was developed using 34,895 tickets from five organizations. For polarity, we randomly selected 2.333 tickets to compose a gold standard. Our best results display an average precision and recall of 82.83% and 88.42%, respectively, which outperforms the compared sentiment analysis solutions. Complementarily, emotions in tickets were studied considering the models of Ekman and VAD. One of the three classification methods created has been adapted to also identify emotions in the tickets. Possible correlations between polarity and emotions were verified through association rules. Results correlate positive tickets with valence and dominance high and low excitation, besides presence of joy and surprise and absence of fear. Negative tickets correlate with valence, neutral excitement and dominance, besides absence of joy and presence of fear. However the results for negative polarity are not accurate.
|
35 |
Access Miner : uma proposta para a extração de regras de associação aplicada à mineração do uso da webBrusso, Marcos Jose January 2000 (has links)
Este trabalho é dedicado ao estudo e à aplicação da mineração de regras de associação a fim de descobrir padrões de navegação no ambiente Web. As regras de associação são padrões descritivos que representam a probabilidade de um conjunto de itens aparecer em uma transação visto que outro conjunto está presente. Dentre as possibilidades de aplicação da mineração de dados na Web, a mineração do seu uso consiste na extração de regras e padrões que descrevam o perfil dos visitantes aos sites e o seu comportamento navegacional. Neste contexto, alguns trabalhos já foram propostos, contudo diversos pontos foram deixados em aberto por seus autores. O objetivo principal deste trabalho é a apresentação de um modelo para a extração de regras de associação aplicado ao uso da Web. Este modelo, denominado Access Miner, caracteriza-se por enfocar as etapas do processo de descoberta do conhecimento desde a obtenção dos dados até a apresentação das regras obtidas ao analista. Características específicas do domínio foram consideradas, como a estrutura do site, para o pósprocessamento das regras mineradas a fim de selecionar as potencialmente mais interessantes e reduzir a quantidade de regras a serem apreciadas. O projeto possibilitou a implementação de uma ferramenta para a automação das diversas etapas do processo, sendo consideradas, na sua construção, as características de interatividade e iteratividade, necessárias para a descoberta e consolidação do conhecimento. Finalmente, alguns resultados foram obtidos a partir da aplicação desta ferramenta em dois casos, de forma que o modelo proposto pôde ser validado.
|
36 |
Utilização de técnicas de mineração de dados considerando aspectos temporaisLucas, Anelise de Macedo January 2002 (has links)
Atualmente, o enorme volume de informações armazenadas em bancos de dados de organizações ultrapassa a capacidade dos tradicionais métodos de análise dos dados baseados em consultas, pois eles se tornaram insuficientes para analisar o conteúdo quanto a algum conhecimento implícito e importante na grande massa de dados. A partir disto, a mineração de dados tem-se transformado em um tópico importante de pesquisa, porque provê um conjunto de técnicas e ferramentas capazes de inteligente e automaticamente assistir o ser humano na análise de uma enorme quantidade de dados à procura de conhecimento relevante e que está encoberto pelos demais dados. O presente trabalho se propõe a estudar e a utilizar a mineração de dados considerando os aspectos temporais. Através de um experimento realizado sobre os dados da Secretaria da Saúde do Estado do Rio Grande do Sul, com a aplicação de uma metodologia para a mineração de dados temporais, foi possível identificar padrões seqüenciais nos dados. Este experimento procurou descobrir padrões seqüenciais de comportamento em internações médicas, objetivando obter modelos de conhecimento dos dados temporais e representá-los na forma de regras temporais. A descoberta destes padrões seqüenciais permitiu comprovar tradicionais comportamentos dos tratamentos médicos efetuados, detectar situações anômalas, bem como, acompanhar a evolução das doenças existentes.
|
37 |
Extração de metadados utilizando uma ontologia de domínio / Metadata extraction using a domain ontologyOliveira, Luis Henrique Gonçalves de January 2009 (has links)
O objetivo da Web Semântica é prover a descrição semântica dos recursos através de metadados processáveis por máquinas. Essa camada semântica estende a Web já existente agregando facilidades para a execução de pesquisas, filtragem, resumo ou intercâmbio de conhecimento de maior complexidade. Dentro deste contexto, as bibliotecas digitais são as aplicações que estão iniciando o processo de agregar anotações semânticas às informações disponíveis na Web. Uma biblioteca digital pode ser definida como uma coleção de recursos digitais selecionados segundo critérios determinados, com alguma organização lógica e de modo acessível para recuperação distribuída em rede. Para facilitar o processo de recuperação são utilizados metadados para descrever o conteúdo armazenado. Porém, a geração manual de metadados é uma tarefa complexa e que demanda tempo, além de sujeita a falhas. Portanto a extração automática ou semi-automática desses metadados seria de grande ajuda para os autores, subtraindo uma tarefa do processo de publicação de documentos. A pesquisa realizada nesta dissertação visou abordar esse problema, desenvolvendo um extrator de metadados que popula uma ontologia de documentos e classifica o documento segundo uma hierarquia pré-definida. A ontologia de documentos OntoDoc foi criada para armazenar e disponibilizar os metadados extraídos, assim como a classificação obtida para o documento. A implementação realizada focou-se em artigos científicos de Ciência da Computação e utilizou a classificação das áreas da ACM na tarefa de classificação dos documentos. Um conjunto de exemplos retirados da Biblioteca Digital da ACM foi gerado para a realização do treinamento e de experimentos sobre a implementação. As principais contribuições desta pesquisa são o modelo de extração de metadados e classificação de documentos de forma integrada e a descrição dos documentos através de metadados armazenados em um ontologia, a OntoDoc. / The main purpose of the Semantic Web is to provide machine processable metadata that describes the semantics of resources to facilitate the search, filter, condense, or negotiate knowledge for their human users. In this context, digital libraries are applications where the semantic annotation process of information available in the Web is beginning. Digital library can be defined as a collection of digital resources selected by some criteria, with some organization and available through distributed network retrieval. To facilitate the retrieval process, metadata are applied to describe stored content. However, manual metadata generation is a complex task, time-consuming and error-prone. Thus, automatic or semiautomatic metadata generation would be great help to the authors, subtracting this task from the document publishing process. The research in this work approached this problem through the developing of a metadata extractor that populates a document ontology and classify the document according to a predefined hierarchy. The document ontology OntoDoc was created to store and to make available all the extracted metadata, as well as the obtained document classification. The implementation aimed on Computer Science papers and used the ACM Computing Classification system in the document classification task. A sample set extracted from the ACM Digital Libray was generated for implementation training and validation. The main contributions of this work are the integrated metadata extraction and classification model and the description of documents through a metadata stored in an ontology.
|
38 |
Detecting contrastive sentences for sentiment analysis / Detecção de sentenças contrastantes através de análise de sentimentosVargas, Danny Suarez January 2016 (has links)
A análise de contradições é uma área relativamente nova, multidisciplinar e complexa que tem por objetivo principal identificar pedaços contraditórios de texto. Ela pode ser abordada a partir das perspectivas de diferentes áreas de pesquisa, tais como processamento de linguagem natural, mineração de opinioes, recuperação de informações e extração de Informações. Este trabalho foca no problema de detectar contradições em textos – mais especificamente, nas contradições que são o resultado da diversidade de sentimentos entre as sentenças de um determinado texto. Ao contrário de outros tipos de contradições, a detecção de contradições baseada em sentimentos pode ser abordada como uma etapa de pós-processamento na tarefa tradicional de análise de sentimentos. Neste contexto, este trabalho apresenta duas contribuições principais. A primeira é um estudo exploratório da tarefa de classificação, na qual identificamos e usamos diferentes ferramentas e recursos. A segunda contribuição é a adaptação e a extensão de um framework de análise contradição existente, filtrando seus resultados para remover os comentários erroneamente rotulados como contraditórios. O método de filtragem baseia-se em dois algoritmos simples de similaridade entre palavras. Uma avaliação experimental em comentários sobre produtos reais mostrou melhorias proporcionais de até 30 % na acurácia da classificação e 26 % na precisão da detecção de contradições. / Contradiction Analysis is a relatively new multidisciplinary and complex area with the main goal of identifying contradictory pieces of text. It can be addressed from the perspectives of different research areas such as Natural Language Processing, Opinion Mining, Information Retrieval, and Information Extraction. This work focuses on the problem of detecting sentiment-based contradictions which occur in the sentences of a given review text. Unlike other types of contradictions, the detection of sentiment-based contradictions can be tackled as a post-processing step in the traditional sentiment analysis task. In this context, we make two main contributions. The first is an exploratory study of the classification task, in which we identify and use different tools and resources. Our second contribution is adapting and extending an existing contradiction analysis framework by filtering its results to remove the reviews that are erroneously labeled as contradictory. The filtering method is based on two simple term similarity algorithms. An experimental evaluation on real product reviews has shown proportional improvements of up to 30% in classification accuracy and 26% in the precision of contradiction detection.
|
39 |
Mineração de regras de associação aplicada a dados da Secretaria Municipal de Saúde de Londrina PR / Mining of Association Rules Applied to Londrina´s Health City Department – PRSilva, Glauco Carlos January 2004 (has links)
Com o grande crescimento dos volumes de dados que as organizações vêm registrando e a diversidade das fontes destes dados, o fato de se aproveitar informações contidas nessas massas de dados se tornou uma necessidade. Surgiu então uma área denominada Descoberta de Conhecimento em Bases de Dados (DCBD). Tal área utiliza alguns modelos, técnicas e algoritmos que realizam operações de extração de conhecimento útil de grandes volumes de dados. Entre as principais técnicas utilizadas para minerar os dados está a de Regras de Associação. A técnica de Regras de Associação se propõe a encontrar todas as associações relevantes entre um conjunto de itens aplicados a outros itens, e utiliza alguns algoritmos para realizar seu objetivo. Este estudo apresenta alguns algoritmos para a aplicação da técnica de Regras de Associação, também, busca abranger um pouco da tecnologia de Data Warehouse, muito útil para que o processo de mineração de dados possa ser realizado com maior sucesso. Neste trabalho são aplicadas técnicas de descoberta de conhecimento na área de saúde, vinculando dados referentes à situação socioeconômica do paciente com os procedimentos que foram realizados nas internações hospitalares a que foi submetido. Devido ao grande número de regras que poderiam se geradas resultantes das inúmeras possibilidades da base de dados, foi construído um protótipo de uma ferramenta para extração de regras de associação, que não só é baseado no suporte e confiança, mas também utiliza os conceitos de lift e improvement os quais ajudam na diminuição de regras triviais. Foram realizadas minerações com a base de dados de pacientes da Secretaria Municipal de Saúde de Londrina-PR, para análise da utilidade dos dados minerados. / The increasing amount of data that organization have been registering and the diversity of data sources have generate the necessity of extract knowledge from this mass of data. Based on this necessity a new area has emerged which is named Knowledge Discovery in Data Base (KDD). In this work apply the association rule mining technique in the public health area, linking social economic situation of patients which were attended in our hospitals. Because of large number of rules that can be produce we developed a prototype of a tool for extract association rules, not only based on support and confidence, but using too the measures lift and improvement in order to reduce the number of rules. Experiments were performed with the “Secretaria Municipal de Saúde de Londrina – PR” database
|
40 |
Aplicando algoritmos de mineração de regras de associação para recuperação de informações multilíngues. / Cross-language information retrieval using algorithms for mining association rulesGeraldo, André Pinto January 2009 (has links)
Este trabalho propõe a utilização de algoritmos de mineração de regras de associação para a Recuperação de Informações Multilíngues. Esses algoritmos têm sido amplamente utilizados para analisar transações de registro de vendas. A ideia é mapear o problema de encontrar associações entre itens vendidos para o problema de encontrar termos equivalentes entre idiomas diferentes em um corpus paralelo. A proposta foi validada por meio de experimentos com diferentes idiomas, conjuntos de consultas e corpora. Os resultados mostram que a eficácia da abordagem proposta é comparável ao estado da arte, ao resultado monolíngue e à tradução automática de consultas, embora este utilize técnicas mais complexas de processamento de linguagem natural. Foi criado um protótipo que faz consultas à Web utilizando o método proposto. O sistema recebe palavras-chave em português, as traduz para o inglês e submete a consulta a diversos sites de busca. / This work proposes the use of algorithms for mining association rules as an approach for Cross-Language Information Retrieval. These algorithms have been widely used to analyze market basket data. The idea is to map the problem of finding associations between sales items to the problem of finding term translations over a parallel corpus. The proposal was validated by means of experiments using different languages, queries and corpora. The results show that the performance of our proposed approach is comparable to the performance of the monolingual baseline and to query translation via machine translation, even though these systems employ more complex Natural Language Processing techniques. A prototype for cross-language web querying was implemented to test the proposed method. The system accepts keywords in Portuguese, translates them into English and submits the query to several web-sites that provide search functionalities.
|
Page generated in 0.0411 seconds