Spelling suggestions: "subject:"mineracao : dados"" "subject:"mineracao : lados""
71 |
Mineração de regras de associação aplicada a dados da Secretaria Municipal de Saúde de Londrina PR / Mining of Association Rules Applied to Londrina´s Health City Department – PRSilva, Glauco Carlos January 2004 (has links)
Com o grande crescimento dos volumes de dados que as organizações vêm registrando e a diversidade das fontes destes dados, o fato de se aproveitar informações contidas nessas massas de dados se tornou uma necessidade. Surgiu então uma área denominada Descoberta de Conhecimento em Bases de Dados (DCBD). Tal área utiliza alguns modelos, técnicas e algoritmos que realizam operações de extração de conhecimento útil de grandes volumes de dados. Entre as principais técnicas utilizadas para minerar os dados está a de Regras de Associação. A técnica de Regras de Associação se propõe a encontrar todas as associações relevantes entre um conjunto de itens aplicados a outros itens, e utiliza alguns algoritmos para realizar seu objetivo. Este estudo apresenta alguns algoritmos para a aplicação da técnica de Regras de Associação, também, busca abranger um pouco da tecnologia de Data Warehouse, muito útil para que o processo de mineração de dados possa ser realizado com maior sucesso. Neste trabalho são aplicadas técnicas de descoberta de conhecimento na área de saúde, vinculando dados referentes à situação socioeconômica do paciente com os procedimentos que foram realizados nas internações hospitalares a que foi submetido. Devido ao grande número de regras que poderiam se geradas resultantes das inúmeras possibilidades da base de dados, foi construído um protótipo de uma ferramenta para extração de regras de associação, que não só é baseado no suporte e confiança, mas também utiliza os conceitos de lift e improvement os quais ajudam na diminuição de regras triviais. Foram realizadas minerações com a base de dados de pacientes da Secretaria Municipal de Saúde de Londrina-PR, para análise da utilidade dos dados minerados. / The increasing amount of data that organization have been registering and the diversity of data sources have generate the necessity of extract knowledge from this mass of data. Based on this necessity a new area has emerged which is named Knowledge Discovery in Data Base (KDD). In this work apply the association rule mining technique in the public health area, linking social economic situation of patients which were attended in our hospitals. Because of large number of rules that can be produce we developed a prototype of a tool for extract association rules, not only based on support and confidence, but using too the measures lift and improvement in order to reduce the number of rules. Experiments were performed with the “Secretaria Municipal de Saúde de Londrina – PR” database
|
72 |
Mineração de opiniões em aspectos em fontes de opiniões fracamente estruturadas / Aspect-based opinion mining in weakly structured opinion sourcesSápiras, Leonardo Augusto January 2015 (has links)
Na WEB, são encontradas postagens sobre assuntos variados, notícias de celebridades, produtos e serviços. Tal conteúdo contém emoções positivas, negativas ou neutras. Minerar o sentimento da população sobre candidatos a eleições e seus aspectos em mídias virtuais pode ser realizado por meio de técnicas de Mineração de Opiniões. Existem soluções para fontes de opinião fortemente estruturadas, tais como revisões de produtos e serviços, no entanto o problema que se apresenta é realizar a mineração de opiniões em nível de aspecto em fontes de opiniões fracamente estruturadas. Além de avaliar conceitos relacionados à mineração de opiniões, o presente trabalho descreve a realização de um estudo de caso, o qual analisa fontes de opiniões fracamente estruturadas e propõe uma abordagem para minerar opiniões em nível de aspecto, utilizando como fontes de opinião comentários de leitores de jornais. O estudo de caso contribui (i) na concepção de uma abordagem para identificação da opinião em nível de aspecto sobre entidades eleitorais em comentários de notícias políticas, (ii) na aplicação de um método baseado em aprendizagem de máquina para classificar a opinião sobre entidades e seus aspectos em três classes (positivo, negativo e neutro), (iii) na representação da sumarização visual de opinião sobre entidades e seus aspectos. São descritos experimentos para identificar comentários que mencionam os aspectos saúde e educação, utilizando co-ocorrência, em que foram obtidos resultados satisfatórios utilizando as técnicas Expected Mutual Information Measure e phi-squared. Já para a polarização de sentenças, são realizados experimentos com duas abordagens de classificação: uma que classifica sentenças em três classes e outra que realiza classificações binárias em duas etapas. / In the WEB are found posts about various subjects like celebrity news, products and services. Such content has positive, negative or neutral emotions. Mining the population’s sentiments about elections candidates and their aspects in virtual media can be performed using Opinion Mining techniques. There are solutions for highly structured opinion sources, such as reviews of products and services, however the problem is how to perform aspect-based opinion mining in less structured opinions sources. Besides evaluating concepts related to opinion mining, this work describes a case study which analyzes weakly structured sources and proposes an approach to mine aspect-based opinions using as sources of sentiment reviews of newspaper readers. The case study contributes (i) designing an approach to identify the aspect-based opinion about electoral candidates in news political comments, (ii) to the application of a machine learning-based method to classify the opinion about entities and their aspects in three classes (positive, negative and neutral) (iii) to the representation of a visual summarization review of entities and their aspects. It describes experiments to identify comments about health and education aspects using co-occurrence where satisfactory results were obtained using the techniques Expected Mutual Information Measure and phi-squared. In which regards sentences polarization, experiments are performed with two classification approaches, one that classifies sentences in three classes and another that performs binary classifications in two stages.
|
73 |
Uma abordagem incremental para mineração de processos de negócio / Incremental approach to business process miningKalsing, André Cristiano January 2012 (has links)
Até os dias de hoje, diversos algoritmos de mineração de modelos de processos já foram propostos para extrair conhecimento a partir de logs de eventos. O conhecimento que tais algoritmos são capazes de obter incluem modelos de processos de negócio, assim como aspectos da estrutura organizacional, como atores e papéis. A mineração de processos pode se beneficiar de uma estratégia incremental, especialmente quando as informações sobre um ou mais processos de negócio presentes no código fonte de um sistema de informação são logicamente complexas (diversas ramificações e atividades paralelas e/ou alternativas). Neste cenário, são necessárias muitas execuções da aplicação para a coleta de um grande conjunto de dados no arquivo de log, a fim de que o algoritmo de mineração possa descobrir e apresentar o processo de negócio completo. Outra situação que torna necessária a mineração incremental é a constante evolução dos processos de negócio, ocasionada geralmente por alterações nas regras de negócio de uma ou mais aplicações. Neste caso, o log pode apresentar novos fluxos de atividades, ou fluxos alterados ou simplesmente fluxos que não são mais executados. Estas mudanças devem ser refletidas no modelo do processo a fim de garantir a sincronização entre a aplicação (processo executado) e o modelo. A mineração incremental de processos pode ainda ser útil quando se faz necessária a extração gradual de um modelo de processo completo, extraindo modelos parciais (fragmentos de processo com início e fim) em um primeiro passo e integrando conhecimento adicional ao modelo em etapas até a obtenção do modelo completo. Contudo, os algoritmos atuais de mineração incremental de processos não apresentam total efetividade quanto aos aspectos acima citados, apresentando algumas limitações. Dentre elas podemos citar a não remoção de elementos obsoletos do modelo de processo descoberto, gerados após a atualização do processo executado, e também a descoberta de informações da estrutura organizacional associada ao processo como, por exemplo, os atores que executam as atividades. Este trabalho propõe um algoritmo incremental para a mineração de processos de negócio a partir de logs de execução. Ele permite a atualização completa de um modelo existente, bem como o incremento de um modelo de processo na medida em que novas instâncias são adicionadas ao log. Desta forma, podemos manter ambos, modelo de processo e o processo executado sincronizados, além de diminuirmos o tempo total de processamento uma vez que apenas novas instâncias de processo devem ser consideradas. Por fim, com este algoritmo é possível extrair modelos com acurácia igual ou superior aqueles que podem ser extraídos pelos algoritmos incrementais atuais. / Even today, several process mining algorithms have been proposed to extract knowledge from event logs of applications. The knowledge that such algorithms are able to discovery includes business process models, business rules, as well as aspects of organizational structure, such actors and roles of processes. These process mining algorithms can be divided into two: non-incremental and incremental. The mining process can benefit from an incremental strategy, especially when information about the process structure available in the system source code is logically complex (several branches and parallel activities). In this scenario, its necessary several executions of the application, to collect a large set of log data, so that the mining algorithm can discover and present the complete business process. Another use case where incremental mining is usefull is during the changing structure of the process, caused by the change in the business logic of an application. In this case, the log may provide new traces of activities, modified traces or simply traces that are no longer running. These changes must be reflected in the process model being generated to ensure synchronization between the application and model. The incremental process mining can also be useful when it is necessary to extract a complete process model in a gradual way, extracting partial models (process fragments with begin and end) in a first step and integrating additional knowledge to the model in stages to obtain the complete model. However, existing incremental process mining algorithms are not effective to all aspects mentioned above. All of them have limitations with respect to certain aspects of incremental mining, such as deletion of elements in the process model (process model update). Additionally, most of them do not extract all the information present in the structure of the process, such as the actors who perform the activities. This paper proposes an incremental process mining algorithm from execution logs of information systems. The new algorithm allows the full update (adding and removing elements) of an existing model, as well as the increment of a process model as new records are added to the log. Thus, we can keep process models and process execution syncronized, while reducting the total processing time, since only new process instances must be processed. Finally, are expected the extraction of process models with similar or higher accuracy compared to current incremental mining algorithms.
|
74 |
Um método para deduplicação de metadados bibliográficos baseado no empilhamento de classificadores / A method for bibliographic metadata deduplication based on stacked generalizationBorges, Eduardo Nunes January 2013 (has links)
Metadados bibliográficos duplicados são registros que correspondem a referências bibliográficas semanticamente equivalentes, ou seja, que descrevem a mesma publicação. Identificar metadados bibliográficos duplicados em uma ou mais bibliotecas digitais é uma tarefa essencial para garantir a qualidade de alguns serviços como busca, navegação e recomendação de conteúdo. Embora diversos padrões de metadados tenham sido propostos, eles não resolvem totalmente os problemas de interoperabilidade porque mesmo que exista um mapeamento entre diferentes esquemas de metadados, podem existir variações na representação do conteúdo. Grande parte dos trabalhos propostos para identificar duplicatas aplica uma ou mais funções sobre o conteúdo de determinados campos no intuito de captar a similaridade entre os registros. Entretanto, é necessário escolher um limiar que defina se dois registros são suficientemente similares para serem considerados semanticamente equivalentes ou duplicados. Trabalhos mais recentes tratam a deduplicação de registros como um problema de classificação de dados, em que um modelo preditivo é treinado para estimar a que objeto do mundo real um registro faz referência. O objetivo principal desta tese é o desenvolvimento de um método efetivo e automático para identificar metadados bibliográficos duplicados, combinando o aprendizado de múltiplos classificadores supervisionados, sem a necessidade de intervenção humana na definição de limiares de similaridade. Sobre o conjunto de treinamento são aplicadas funções de similaridade desenvolvidas especificamente para o contexto de bibliotecas digitais e com baixo custo computacional. Os escores produzidos pelas funções são utilizados para treinar múltiplos modelos de classificação heterogêneos, ou seja, a partir de algoritmos de diversos tipos: baseados em árvores, regras, redes neurais artificiais e probabilísticos. Os classificadores aprendidos são combinados através da estratégia de empilhamento visando potencializar o resultado da deduplicação a partir do conhecimento heterogêneo adquirido individualmente pelos algoritmo de aprendizagem. O modelo de classificação final é aplicado aos pares candidatos ao casamento retornados por uma estratégia de blocagem de dois níveis bastante eficiente. A solução proposta é baseada na hipótese de que o empilhamento de classificadores supervisionados pode aumentar a qualidade da deduplicação quando comparado a outras estratégias de combinação. A avaliação experimental mostra que a hipótese foi confirmada quando o método proposto é comparado com a escolha do melhor classificador e com o voto da maioria. Ainda são analisados o impacto da diversidade dos classificadores no resultado do empilhamento e os casos de falha do método proposto. / Duplicated bibliographic metadata are semantically equivalent records, i.e., references that describe the same publication. Identifying duplicated bibliographic metadata in one or more digital libraries is an essential task to ensure the quality of some services such as search, navigation, and content recommendation. Although many metadata standards have been proposed, they do not completely solve interoperability problems because even if there is a mapping between different metadata schemas, there may be variations in the content representation. Most of work proposed to identify duplicated records uses one or more functions on some fields in order to capture the similarity between the records. However, we need to choose a threshold that defines whether two records are sufficiently similar to be considered semantically equivalent or duplicated. Recent studies deal with record deduplication as a data classification problem, in which a predictive model is trained to estimate the real-world object to which a record refers. The main goal of this thesis is the development of an effective and automatic method to identify duplicated bibliographic metadata, combining multiple supervised classifiers, without any human intervention in the setting of similarity thresholds. We have applied on the training set cheap similarity functions specifically designed for the context of digital libraries. The scores returned by these functions are used to train multiple and heterogeneous classification models, i.e., using learning algorithms based on trees, rules, artificial neural networks and probabilistic models. The learned classifiers are combined by stacked generalization strategy to improve the deduplication result through heterogeneous knowledge acquired by each learning algorithm. The final model is applied to pairs of records that are candidate to matching. These pairs are defined by an efficient two phase blocking strategy. The proposed solution is based on the hypothesis that stacking supervised classifiers can improve the quality of deduplication when compared to other combination strategies. The experimental evaluation shows that the hypothesis has been confirmed by comparing the proposed method to selecting the best classifier or the majority vote technique. We also have analyzed the impact of classifiers diversity on the stacking results and the cases for which the proposed method fails.
|
75 |
Um método para descoberta semi-automática de processos de negócio codificados em sistemas legados / A semi-automatic method to discovery business processes encoded in legacy systemsNascimento, Gleison Samuel do January 2014 (has links)
Há mais de uma década, BPM vem sendo introduzida nas organizações devido suas vantagens tais como documentação, gerenciamento, monitoração e melhoria contínua de seus processos de negócio. Na abordagem BPM, normalmente, os processos de negócio da organização são executados sob o controle de um Sistema Gerenciador de Processos de Negócio. Estes sistemas executam os processos de negócio, coletando informações úteis para organização. Por exemplo, através destes sistemas é possível identificar as atividades que mais demoram ou consomem mais recursos humanos. Desta forma, é possível redesenhar os processos de maneira ágil, garantido a evolução contínua do negócio. Entretanto, para se beneficiar da tecnologia BPM, a organização deve mapear seus processos de negócio e modelá-los no Sistema Gerenciador de Processos de Negócio. Normalmente, esse trabalho é realizado por especialistas humanos, que observam e identificam o funcionamento da organização, definindo, em detalhes, os fluxos de trabalho realizados para cumprir determinadas metas de negócio. Contudo, na maior parte das organizações os processos de negócio encontram-se implementados em sistemas de informações legados. Tais sistemas possuem pouca documentação, foram desenvolvidos com uso de tecnologias obsoletas e os processos de negócio, neles contidos, foram programados implicitamente no seu código fonte. Deste modo, além das entrevistas com usuários-chave da organização, os analistas precisam também entender o funcionamento dos sistemas legados a fim de identificar os processos de negócio da organização. Geralmente, os analistas de negócio fazem este trabalho manualmente, interpretando os algoritmos escritos no código fonte legado e identificando os fluxos de trabalho nele escritos. Esse trabalho é complexo, demorado e suscetível a erros, pois depende do nível de conhecimento que os analistas de negócio têm sobre o código fonte legado. Pensando neste problema, essa tese apresenta um método que automatiza a descoberta de processos de negócio implementados implicitamente no código fonte de sistemas legados. O método propõe uma técnica híbrida, que usa análise estática do código fonte e análise dinâmica (mineração de processos) para descobrir os processos de negócio codificados em sistemas legados. A tese apresenta os passos para aplicação do método, definindo para cada passo, um conjunto de ferramentas capazes de automatizar a descoberta de informações no código fonte legado. Este trabalho também mostra três estudos de caso, onde o método foi aplicado com sucesso e comparado a outras técnicas existentes na literatura. / For over a decade, BPM is being introduced in organizations due to its advantages such as documentation, management, monitoring and continuous improvement of its business processes. In BPM approach, business processes of the organization are executed under the control of a Business Processes Management System. These systems monitor the execution of the processes and measuring the operational efficiency of the organization through, for example, of the identification of activities those are slower or consume more resources. Thus, the organization can redesign their business processes in an agile and fast mode, thereby ensuring the continued evolution of your business. However, to take advantage of BPM technology, the organization must map their business processes and model them in the Business Processes Management System. Typically, organizations execute the business process mapping through manual techniques, such as interviews, meetings with users, questionnaires, document analysis and observations of the organizational environment. However, in most organizations business processes are executed in legacy systems information. Such systems have not documentation, have been developed with obsolete technologies and the business processes are programmed implicitly in its source code. Thus, in addition to interviews with expert users of the organization, analysts must also understand the working of legacy systems in order to identify the business processes of the organization. Generally, business analysts do this work manually, interpreting algorithms written in legacy source code and identifying workflows written in the source code. This work is complex, time consuming and error prone, since it depends on the knowledge level that business analysts have about the legacy source code. Thinking about this problem, this thesis presents a method that automates the discovery of business processes implemented implicitly in the source code of legacy systems. The method proposes a hybrid technique that uses static analysis of the source code and dynamic analysis (mining process) to discover business processes encoded in legacy systems. The thesis presents the steps for applying the method, defining for each step, a set of tools that automate the discovery of information in the legacy source code. This work also shows three case studies where the method was successfully applied and compared to other existing techniques in the literature.
|
76 |
Experimentos comparativos combinando aprendizado supervisionado e tradução automática para mineração de emoçoes em textos multilíngues / Comparative experiments combining supervised learning and machine translation for multilingual emotion miningSantos, Aline Graciela Lermen dos January 2016 (has links)
Com o avanço da Internet pelo mundo, as pessoas passaram a interagir cada vez mais com a Web, principalmente após o surgimento das redes sociais, criando conteúdo que pode ser explorado de diversas formas. Esse aumento de usuários tem sido global, ou seja, pessoas de diversos países passaram a produzir textos de diversos idiomas. Esses textos compõem um rico conteúdo para Análise de Sentimentos Multilíngue. A maior parte dos trabalhos da área se foca em Mineração de Opinião, analisando o sentimento através da polaridade. Outro tipo de sentimento que tem atraído atenção é a emoção, embora não seja amplamente explorada a Análise de Sentimentos Multilíngue usando emoção. Este trabalho utiliza técnicas geralmente usadas para Mineração de Opinião e polaridade para Análise de Sentimentos Multilíngues usando emoção. O objetivo deste trabalho é comparar diferentes combinações de aprendizado de máquina supervisionado e tradução automática para criar corpora em diferentes idiomas a partir de corpora anotados já existentes. As duas formas de utilizar as traduções comparadas são: criando classificadores de emoção separados por idiomas, chamados monolíngues, e criando um classificador composto do idioma original e das traduções, chamado multilíngue. É feito ainda um experimento cruzando dois corpora, visando avaliar o uso da tradução de um corpus com os textos originais do outro. Os resultados dos experimentos mostram não apenas o sucesso de analisar emoção usando aprendizado supervisionado e tradução automática, mas que o classificador multilíngue supera os classificadores monolíngues. O experimento cruzando os corpora mostra que para algumas emoções os corpora estão alinhados, mas que para outras é preciso que haja maior similaridade nos textos. / With the growth of the Internet around the world, people began to interact more and more with the Web, especially after the emergence of social networks, creating content that can be exploited in several ways. This increase in the number of users has been global, that is, people from different countries started producing texts in several languages. These texts comprise a rich content for Multilingual Sentiment Analysis. Most of the work in the area focus in Opinion Mining, analyzing the feeling through polarity. Another type of feeling that has attracted attention is emotion, although not extensively explored in Multilingual Sentiment Analysis. This work uses techniques commonly used for Opinion Mining and polarity for Multilingual Sentiment Analysis using emotion. The objective of this study is to compare different combinations of supervised machine learning and automatic translation to create corpora in different languages from existing annotated corpora. The two ways to use the translations compared are: creating emotion classifiers separated by languages, called monolingual, and creating a composed classifier, with the original language and it’s translations, called multilingual. An experiment crossing the two corpora used is made, to evaluate the use of the translation of one corpus with the original texts of the other. The results of the experiments show not only the success of analysing emotion using supervised machine learning and automatic translation, but that the multilingual classifier exceeds the monolingual classifiers. The experiment crossing the corpora shows that to some emotions the corpora are aligned, but for others there needs to be greater similarity in the texts.
|
77 |
Tell me why : uma arquitetura para fornecer explicações sobre revisões / Tell me why : an architecture to provide rich review explanationsWoloszyn, Vinicius January 2015 (has links)
O que as outras pessoas pensam sempre foi uma parte importante do processo de tomada de decisão. Por exemplo, as pessoas costumam consultar seus amigos para obter um parecer sobre um livro ou um filme ou um restaurante. Hoje em dia, os usuários publicam suas opiniões em sites de revisão colaborativa, como IMDB para filmes, Yelp para restaurantes e TripAdiviser para hotéis. Ao longo do tempo, esses sites têm construído um enorme banco de dados que conecta usuários, artigos e opiniões expressas por uma classificação numérica e um comentário de texto livre que explicam por que eles gostam ou não gostam de um item. Mas essa vasta quantidade de dados pode prejudicar o usuário a obter uma opinião. Muitos trabalhos relacionados fornecem uma interpretações de revisões para os usuários. Eles oferecem vantagens diferentes para vários tipos de resumos. No entanto, todos eles têm a mesma limitação: eles não fornecem resumos personalizados nem contrastantes comentários escritos por diferentes segmentos de colaboradores. Compreeder e contrastar comentários escritos por diferentes segmentos de revisores ainda é um problema de pesquisa em aberto. Assim, nosso trabalho propõe uma nova arquitetura, chamado Tell Me Why. TMW é um projeto desenvolvido no Laboratório de Informática Grenoble em cooperação com a Universidade Federal do Rio Grande do Sul para fornecer aos usuários uma melhor compreensão dos comentários. Propomos uma combinação de análise de texto a partir de comentários com a mineração de dados estruturado resultante do cruzamento de dimensões do avaliador e item. Além disso, este trabalho realiza uma investigação sobre métodos de sumarização utilizados na revisão de produtos. A saída de nossa arquitetura consiste em declarações personalizadas de texto usando Geração de Linguagem Natural composto por atributos de itens e comentários resumidos que explicam a opinião das pessoas sobre um determinado assunto. Os resultados obtidos a partir de uma avaliação comparativa com a Revisão Mais Útil da Amazon revelam que é uma abordagem promissora e útil na opinião do usuário. / What other people think has been always an important part of the process of decision-making. For instance, people usually consult their friends to get an opinion about a book, or a movie or a restaurant. Nowadays, users publish their opinions on collaborative reviewing sites such as IMDB for movies, Yelp for restaurants and TripAdvisor for hotels. Over the time, these sites have built a massive database that connects users, items and opinions expressed by a numeric rating and a free text review that explain why they like or dislike a specific item. But this vast amount of data can hamper the user to get an opinion. Several related work provide a review interpretations to the users. They offer different advantages for various types of summaries. However, they all have the same limitation: they do not provide personalized summaries nor contrasting reviews written by different segments of reviewers. Understanding and contrast reviews written by different segments of reviewers is still an open research problem. Our work proposes a new architecture, called Tell Me Why, which is a project developed at Grenoble Informatics Laboratory in cooperation with Federal University of Rio Grande do Sul to provide users a better understanding of reviews. We propose a combination of text analysis from reviews with mining structured data resulting from crossing reviewer and item dimensions. Additionally, this work performs an investigation of summarization methods utilized in review domain. The output of our architecture consists of personalized statement using Natural Language Generation that explain people’s opinion about a particular item. The evaluation reveal that it is a promising approach and useful in user’s opinion.
|
78 |
Experimentos comparativos combinando aprendizado supervisionado e tradução automática para mineração de emoçoes em textos multilíngues / Comparative experiments combining supervised learning and machine translation for multilingual emotion miningSantos, Aline Graciela Lermen dos January 2016 (has links)
Com o avanço da Internet pelo mundo, as pessoas passaram a interagir cada vez mais com a Web, principalmente após o surgimento das redes sociais, criando conteúdo que pode ser explorado de diversas formas. Esse aumento de usuários tem sido global, ou seja, pessoas de diversos países passaram a produzir textos de diversos idiomas. Esses textos compõem um rico conteúdo para Análise de Sentimentos Multilíngue. A maior parte dos trabalhos da área se foca em Mineração de Opinião, analisando o sentimento através da polaridade. Outro tipo de sentimento que tem atraído atenção é a emoção, embora não seja amplamente explorada a Análise de Sentimentos Multilíngue usando emoção. Este trabalho utiliza técnicas geralmente usadas para Mineração de Opinião e polaridade para Análise de Sentimentos Multilíngues usando emoção. O objetivo deste trabalho é comparar diferentes combinações de aprendizado de máquina supervisionado e tradução automática para criar corpora em diferentes idiomas a partir de corpora anotados já existentes. As duas formas de utilizar as traduções comparadas são: criando classificadores de emoção separados por idiomas, chamados monolíngues, e criando um classificador composto do idioma original e das traduções, chamado multilíngue. É feito ainda um experimento cruzando dois corpora, visando avaliar o uso da tradução de um corpus com os textos originais do outro. Os resultados dos experimentos mostram não apenas o sucesso de analisar emoção usando aprendizado supervisionado e tradução automática, mas que o classificador multilíngue supera os classificadores monolíngues. O experimento cruzando os corpora mostra que para algumas emoções os corpora estão alinhados, mas que para outras é preciso que haja maior similaridade nos textos. / With the growth of the Internet around the world, people began to interact more and more with the Web, especially after the emergence of social networks, creating content that can be exploited in several ways. This increase in the number of users has been global, that is, people from different countries started producing texts in several languages. These texts comprise a rich content for Multilingual Sentiment Analysis. Most of the work in the area focus in Opinion Mining, analyzing the feeling through polarity. Another type of feeling that has attracted attention is emotion, although not extensively explored in Multilingual Sentiment Analysis. This work uses techniques commonly used for Opinion Mining and polarity for Multilingual Sentiment Analysis using emotion. The objective of this study is to compare different combinations of supervised machine learning and automatic translation to create corpora in different languages from existing annotated corpora. The two ways to use the translations compared are: creating emotion classifiers separated by languages, called monolingual, and creating a composed classifier, with the original language and it’s translations, called multilingual. An experiment crossing the two corpora used is made, to evaluate the use of the translation of one corpus with the original texts of the other. The results of the experiments show not only the success of analysing emotion using supervised machine learning and automatic translation, but that the multilingual classifier exceeds the monolingual classifiers. The experiment crossing the corpora shows that to some emotions the corpora are aligned, but for others there needs to be greater similarity in the texts.
|
79 |
Tell me why : uma arquitetura para fornecer explicações sobre revisões / Tell me why : an architecture to provide rich review explanationsWoloszyn, Vinicius January 2015 (has links)
O que as outras pessoas pensam sempre foi uma parte importante do processo de tomada de decisão. Por exemplo, as pessoas costumam consultar seus amigos para obter um parecer sobre um livro ou um filme ou um restaurante. Hoje em dia, os usuários publicam suas opiniões em sites de revisão colaborativa, como IMDB para filmes, Yelp para restaurantes e TripAdiviser para hotéis. Ao longo do tempo, esses sites têm construído um enorme banco de dados que conecta usuários, artigos e opiniões expressas por uma classificação numérica e um comentário de texto livre que explicam por que eles gostam ou não gostam de um item. Mas essa vasta quantidade de dados pode prejudicar o usuário a obter uma opinião. Muitos trabalhos relacionados fornecem uma interpretações de revisões para os usuários. Eles oferecem vantagens diferentes para vários tipos de resumos. No entanto, todos eles têm a mesma limitação: eles não fornecem resumos personalizados nem contrastantes comentários escritos por diferentes segmentos de colaboradores. Compreeder e contrastar comentários escritos por diferentes segmentos de revisores ainda é um problema de pesquisa em aberto. Assim, nosso trabalho propõe uma nova arquitetura, chamado Tell Me Why. TMW é um projeto desenvolvido no Laboratório de Informática Grenoble em cooperação com a Universidade Federal do Rio Grande do Sul para fornecer aos usuários uma melhor compreensão dos comentários. Propomos uma combinação de análise de texto a partir de comentários com a mineração de dados estruturado resultante do cruzamento de dimensões do avaliador e item. Além disso, este trabalho realiza uma investigação sobre métodos de sumarização utilizados na revisão de produtos. A saída de nossa arquitetura consiste em declarações personalizadas de texto usando Geração de Linguagem Natural composto por atributos de itens e comentários resumidos que explicam a opinião das pessoas sobre um determinado assunto. Os resultados obtidos a partir de uma avaliação comparativa com a Revisão Mais Útil da Amazon revelam que é uma abordagem promissora e útil na opinião do usuário. / What other people think has been always an important part of the process of decision-making. For instance, people usually consult their friends to get an opinion about a book, or a movie or a restaurant. Nowadays, users publish their opinions on collaborative reviewing sites such as IMDB for movies, Yelp for restaurants and TripAdvisor for hotels. Over the time, these sites have built a massive database that connects users, items and opinions expressed by a numeric rating and a free text review that explain why they like or dislike a specific item. But this vast amount of data can hamper the user to get an opinion. Several related work provide a review interpretations to the users. They offer different advantages for various types of summaries. However, they all have the same limitation: they do not provide personalized summaries nor contrasting reviews written by different segments of reviewers. Understanding and contrast reviews written by different segments of reviewers is still an open research problem. Our work proposes a new architecture, called Tell Me Why, which is a project developed at Grenoble Informatics Laboratory in cooperation with Federal University of Rio Grande do Sul to provide users a better understanding of reviews. We propose a combination of text analysis from reviews with mining structured data resulting from crossing reviewer and item dimensions. Additionally, this work performs an investigation of summarization methods utilized in review domain. The output of our architecture consists of personalized statement using Natural Language Generation that explain people’s opinion about a particular item. The evaluation reveal that it is a promising approach and useful in user’s opinion.
|
80 |
Experimentos comparativos combinando aprendizado supervisionado e tradução automática para mineração de emoçoes em textos multilíngues / Comparative experiments combining supervised learning and machine translation for multilingual emotion miningSantos, Aline Graciela Lermen dos January 2016 (has links)
Com o avanço da Internet pelo mundo, as pessoas passaram a interagir cada vez mais com a Web, principalmente após o surgimento das redes sociais, criando conteúdo que pode ser explorado de diversas formas. Esse aumento de usuários tem sido global, ou seja, pessoas de diversos países passaram a produzir textos de diversos idiomas. Esses textos compõem um rico conteúdo para Análise de Sentimentos Multilíngue. A maior parte dos trabalhos da área se foca em Mineração de Opinião, analisando o sentimento através da polaridade. Outro tipo de sentimento que tem atraído atenção é a emoção, embora não seja amplamente explorada a Análise de Sentimentos Multilíngue usando emoção. Este trabalho utiliza técnicas geralmente usadas para Mineração de Opinião e polaridade para Análise de Sentimentos Multilíngues usando emoção. O objetivo deste trabalho é comparar diferentes combinações de aprendizado de máquina supervisionado e tradução automática para criar corpora em diferentes idiomas a partir de corpora anotados já existentes. As duas formas de utilizar as traduções comparadas são: criando classificadores de emoção separados por idiomas, chamados monolíngues, e criando um classificador composto do idioma original e das traduções, chamado multilíngue. É feito ainda um experimento cruzando dois corpora, visando avaliar o uso da tradução de um corpus com os textos originais do outro. Os resultados dos experimentos mostram não apenas o sucesso de analisar emoção usando aprendizado supervisionado e tradução automática, mas que o classificador multilíngue supera os classificadores monolíngues. O experimento cruzando os corpora mostra que para algumas emoções os corpora estão alinhados, mas que para outras é preciso que haja maior similaridade nos textos. / With the growth of the Internet around the world, people began to interact more and more with the Web, especially after the emergence of social networks, creating content that can be exploited in several ways. This increase in the number of users has been global, that is, people from different countries started producing texts in several languages. These texts comprise a rich content for Multilingual Sentiment Analysis. Most of the work in the area focus in Opinion Mining, analyzing the feeling through polarity. Another type of feeling that has attracted attention is emotion, although not extensively explored in Multilingual Sentiment Analysis. This work uses techniques commonly used for Opinion Mining and polarity for Multilingual Sentiment Analysis using emotion. The objective of this study is to compare different combinations of supervised machine learning and automatic translation to create corpora in different languages from existing annotated corpora. The two ways to use the translations compared are: creating emotion classifiers separated by languages, called monolingual, and creating a composed classifier, with the original language and it’s translations, called multilingual. An experiment crossing the two corpora used is made, to evaluate the use of the translation of one corpus with the original texts of the other. The results of the experiments show not only the success of analysing emotion using supervised machine learning and automatic translation, but that the multilingual classifier exceeds the monolingual classifiers. The experiment crossing the corpora shows that to some emotions the corpora are aligned, but for others there needs to be greater similarity in the texts.
|
Page generated in 0.0659 seconds