Global ETD Search

81	Um método para deduplicação de metadados bibliográficos baseado no empilhamento de classificadores / A method for bibliographic metadata deduplication based on stacked generalization Borges, Eduardo Nunes January 2013 (has links) Metadados bibliográficos duplicados são registros que correspondem a referências bibliográficas semanticamente equivalentes, ou seja, que descrevem a mesma publicação. Identificar metadados bibliográficos duplicados em uma ou mais bibliotecas digitais é uma tarefa essencial para garantir a qualidade de alguns serviços como busca, navegação e recomendação de conteúdo. Embora diversos padrões de metadados tenham sido propostos, eles não resolvem totalmente os problemas de interoperabilidade porque mesmo que exista um mapeamento entre diferentes esquemas de metadados, podem existir variações na representação do conteúdo. Grande parte dos trabalhos propostos para identificar duplicatas aplica uma ou mais funções sobre o conteúdo de determinados campos no intuito de captar a similaridade entre os registros. Entretanto, é necessário escolher um limiar que defina se dois registros são suficientemente similares para serem considerados semanticamente equivalentes ou duplicados. Trabalhos mais recentes tratam a deduplicação de registros como um problema de classificação de dados, em que um modelo preditivo é treinado para estimar a que objeto do mundo real um registro faz referência. O objetivo principal desta tese é o desenvolvimento de um método efetivo e automático para identificar metadados bibliográficos duplicados, combinando o aprendizado de múltiplos classificadores supervisionados, sem a necessidade de intervenção humana na definição de limiares de similaridade. Sobre o conjunto de treinamento são aplicadas funções de similaridade desenvolvidas especificamente para o contexto de bibliotecas digitais e com baixo custo computacional. Os escores produzidos pelas funções são utilizados para treinar múltiplos modelos de classificação heterogêneos, ou seja, a partir de algoritmos de diversos tipos: baseados em árvores, regras, redes neurais artificiais e probabilísticos. Os classificadores aprendidos são combinados através da estratégia de empilhamento visando potencializar o resultado da deduplicação a partir do conhecimento heterogêneo adquirido individualmente pelos algoritmo de aprendizagem. O modelo de classificação final é aplicado aos pares candidatos ao casamento retornados por uma estratégia de blocagem de dois níveis bastante eficiente. A solução proposta é baseada na hipótese de que o empilhamento de classificadores supervisionados pode aumentar a qualidade da deduplicação quando comparado a outras estratégias de combinação. A avaliação experimental mostra que a hipótese foi confirmada quando o método proposto é comparado com a escolha do melhor classificador e com o voto da maioria. Ainda são analisados o impacto da diversidade dos classificadores no resultado do empilhamento e os casos de falha do método proposto. / Duplicated bibliographic metadata are semantically equivalent records, i.e., references that describe the same publication. Identifying duplicated bibliographic metadata in one or more digital libraries is an essential task to ensure the quality of some services such as search, navigation, and content recommendation. Although many metadata standards have been proposed, they do not completely solve interoperability problems because even if there is a mapping between different metadata schemas, there may be variations in the content representation. Most of work proposed to identify duplicated records uses one or more functions on some fields in order to capture the similarity between the records. However, we need to choose a threshold that defines whether two records are sufficiently similar to be considered semantically equivalent or duplicated. Recent studies deal with record deduplication as a data classification problem, in which a predictive model is trained to estimate the real-world object to which a record refers. The main goal of this thesis is the development of an effective and automatic method to identify duplicated bibliographic metadata, combining multiple supervised classifiers, without any human intervention in the setting of similarity thresholds. We have applied on the training set cheap similarity functions specifically designed for the context of digital libraries. The scores returned by these functions are used to train multiple and heterogeneous classification models, i.e., using learning algorithms based on trees, rules, artificial neural networks and probabilistic models. The learned classifiers are combined by stacked generalization strategy to improve the deduplication result through heterogeneous knowledge acquired by each learning algorithm. The final model is applied to pairs of records that are candidate to matching. These pairs are defined by an efficient two phase blocking strategy. The proposed solution is based on the hypothesis that stacking supervised classifiers can improve the quality of deduplication when compared to other combination strategies. The experimental evaluation shows that the hypothesis has been confirmed by comparing the proposed method to selecting the best classifier or the majority vote technique. We also have analyzed the impact of classifiers diversity on the stacking results and the cases for which the proposed method fails. Banco : Dados Mineracao : Dados Metadados Recuperacao : Informacao Deduplication Approximate matching Similariry Supervised learning Stacked generalization
82	Um método para descoberta semi-automática de processos de negócio codificados em sistemas legados / A semi-automatic method to discovery business processes encoded in legacy systems Nascimento, Gleison Samuel do January 2014 (has links) Há mais de uma década, BPM vem sendo introduzida nas organizações devido suas vantagens tais como documentação, gerenciamento, monitoração e melhoria contínua de seus processos de negócio. Na abordagem BPM, normalmente, os processos de negócio da organização são executados sob o controle de um Sistema Gerenciador de Processos de Negócio. Estes sistemas executam os processos de negócio, coletando informações úteis para organização. Por exemplo, através destes sistemas é possível identificar as atividades que mais demoram ou consomem mais recursos humanos. Desta forma, é possível redesenhar os processos de maneira ágil, garantido a evolução contínua do negócio. Entretanto, para se beneficiar da tecnologia BPM, a organização deve mapear seus processos de negócio e modelá-los no Sistema Gerenciador de Processos de Negócio. Normalmente, esse trabalho é realizado por especialistas humanos, que observam e identificam o funcionamento da organização, definindo, em detalhes, os fluxos de trabalho realizados para cumprir determinadas metas de negócio. Contudo, na maior parte das organizações os processos de negócio encontram-se implementados em sistemas de informações legados. Tais sistemas possuem pouca documentação, foram desenvolvidos com uso de tecnologias obsoletas e os processos de negócio, neles contidos, foram programados implicitamente no seu código fonte. Deste modo, além das entrevistas com usuários-chave da organização, os analistas precisam também entender o funcionamento dos sistemas legados a fim de identificar os processos de negócio da organização. Geralmente, os analistas de negócio fazem este trabalho manualmente, interpretando os algoritmos escritos no código fonte legado e identificando os fluxos de trabalho nele escritos. Esse trabalho é complexo, demorado e suscetível a erros, pois depende do nível de conhecimento que os analistas de negócio têm sobre o código fonte legado. Pensando neste problema, essa tese apresenta um método que automatiza a descoberta de processos de negócio implementados implicitamente no código fonte de sistemas legados. O método propõe uma técnica híbrida, que usa análise estática do código fonte e análise dinâmica (mineração de processos) para descobrir os processos de negócio codificados em sistemas legados. A tese apresenta os passos para aplicação do método, definindo para cada passo, um conjunto de ferramentas capazes de automatizar a descoberta de informações no código fonte legado. Este trabalho também mostra três estudos de caso, onde o método foi aplicado com sucesso e comparado a outras técnicas existentes na literatura. / For over a decade, BPM is being introduced in organizations due to its advantages such as documentation, management, monitoring and continuous improvement of its business processes. In BPM approach, business processes of the organization are executed under the control of a Business Processes Management System. These systems monitor the execution of the processes and measuring the operational efficiency of the organization through, for example, of the identification of activities those are slower or consume more resources. Thus, the organization can redesign their business processes in an agile and fast mode, thereby ensuring the continued evolution of your business. However, to take advantage of BPM technology, the organization must map their business processes and model them in the Business Processes Management System. Typically, organizations execute the business process mapping through manual techniques, such as interviews, meetings with users, questionnaires, document analysis and observations of the organizational environment. However, in most organizations business processes are executed in legacy systems information. Such systems have not documentation, have been developed with obsolete technologies and the business processes are programmed implicitly in its source code. Thus, in addition to interviews with expert users of the organization, analysts must also understand the working of legacy systems in order to identify the business processes of the organization. Generally, business analysts do this work manually, interpreting algorithms written in legacy source code and identifying workflows written in the source code. This work is complex, time consuming and error prone, since it depends on the knowledge level that business analysts have about the legacy source code. Thinking about this problem, this thesis presents a method that automates the discovery of business processes implemented implicitly in the source code of legacy systems. The method proposes a hybrid technique that uses static analysis of the source code and dynamic analysis (mining process) to discover business processes encoded in legacy systems. The thesis presents the steps for applying the method, defining for each step, a set of tools that automate the discovery of information in the legacy source code. This work also shows three case studies where the method was successfully applied and compared to other existing techniques in the literature. Sistemas : Informacao gerencial Mineracao : Dados BPM Business processes Business rules Mining processes Legacy systems
83	Análise de sentimentos baseada em aspectos e atribuições de polaridade / Aspect-based sentiment analysis and polarity assignment Kauer, Anderson Uilian January 2016 (has links) Com a crescente expansão da Web, cada vez mais usuários compartilham suas opiniões sobre experiências vividas. Essas opiniões estão, na maioria das vezes, representadas sob a forma de texto não estruturado. A Análise de Sentimentos (ou Mineração de Opinião) é a área dedicada ao estudo computacional das opiniões e sentimentos expressos em textos, tipicamente classificando-os de acordo com a sua polaridade (i.e., como positivos ou negativos). Ao mesmo tempo em que sites de vendas e redes sociais tornam-se grandes fontes de opiniões, cresce a busca por ferramentas que, de forma automática, classifiquem as opiniões e identifiquem a qual aspecto da entidade avaliada elas se referem. Neste trabalho, propomos métodos direcionados a dois pontos fundamentais para o tratamento dessas opiniões: (i) análise de sentimentos baseada em aspectos e (ii) atribuição de polaridade. Para a análise de sentimentos baseada em aspectos, desenvolvemos um método que identifica expressões que mencionem aspectos e entidades em um texto, utilizando ferramentas de processamento de linguagem natural combinadas com algoritmos de aprendizagem de máquina. Para a atribuição de polaridade, desenvolvemos um método que utiliza 24 atributos extraídos a partir do ranking gerado por um motor de busca e para gerar modelos de aprendizagem de máquina. Além disso, o método não depende de recursos linguísticos e pode ser aplicado sobre dados com ruídos. Experimentos realizados sobre datasets reais demonstram que, em ambas as contribuições, conseguimos resultados próximos aos dos baselines mesmo com um número pequeno de atributos. Ainda, para a atribuição de polaridade, os resultados são comparáveis aos de métodos do estado da arte que utilizam técnicas mais complexas. / With the growing expansion of the Web, more and more users share their views on experiences they have had. These views are, in most cases, represented in the form of unstructured text. The Sentiment Analysis (or Opinion Mining) is a research area dedicated to the computational study of the opinions and feelings expressed in texts, typically categorizing them according to their polarity (i.e., as positive or negative). As on-line sales and social networking sites become great sources of opinions, there is a growing need for tools that classify opinions and identify to which aspect of the evaluated entity they refer to. In this work, we propose methods aimed at two key points for the treatment of such opinions: (i) aspect-based sentiment analysis and (ii) polarity assignment. For aspect-based sentiment analysis, we developed a method that identifies expressions mentioning aspects and entities in text, using natural language processing tools combined with machine learning algorithms. For the identification of polarity, we developed a method that uses 24 attributes extracted from the ranking generated by a search engine to generate machine learning models. Furthermore, the method does not rely on linguistic resources and can be applied to noisy data. Experiments on real datasets show that, in both contributions, our results using a small number of attributes were similar to the baselines. Still, for assigning polarity, the results are comparable to prior art methods that use more complex techniques. Textos : Análise Mineracao : Dados Emoções Opinion mining Sentiment analysis Aspect extraction Text classification
84	A probabilistic and incremental model for online classification of documents : DV-INBC Rodrigues, Thiago Fredes January 2016 (has links) Recentemente, houve um aumento rápido na criação e disponibilidade de repositórios de dados, o que foi percebido nas áreas de Mineração de Dados e Aprendizagem de Máquina. Este fato deve-se principalmente à rápida criação de tais dados em redes sociais. Uma grande parte destes dados é feita de texto, e a informação armazenada neles pode descrever desde perfis de usuários a temas comuns em documentos como política, esportes e ciência, informação bastante útil para várias aplicações. Como muitos destes dados são criados em fluxos, é desejável a criação de algoritmos com capacidade de atuar em grande escala e também de forma on-line, já que tarefas como organização e exploração de grandes coleções de dados seriam beneficiadas por eles. Nesta dissertação um modelo probabilístico, on-line e incremental é apresentado, como um esforço em resolver o problema apresentado. O algoritmo possui o nome DV-INBC e é uma extensão ao algoritmo INBC. As duas principais características do DV-INBC são: a necessidade de apenas uma iteração pelos dados de treino para criar um modelo que os represente; não é necessário saber o vocabulário dos dados a priori. Logo, pouco conhecimento sobre o fluxo de dados é necessário. Para avaliar a performance do algoritmo, são apresentados testes usando datasets populares. / Recently the fields of Data Mining and Machine Learning have seen a rapid increase in the creation and availability of data repositories. This is mainly due to its rapid creation in social networks. Also, a large part of those data is made of text documents. The information stored in such texts can range from a description of a user profile to common textual topics such as politics, sports and science, information very useful for many applications. Besides, since many of this data are created in streams, scalable and on-line algorithms are desired, because tasks like organization and exploration of large document collections would be benefited by them. In this thesis an incremental, on-line and probabilistic model for document classification is presented, as an effort of tackling this problem. The algorithm is called DV-INBC and is an extension to the INBC algorithm. The two main characteristics of DV-INBC are: only a single scan over the data is necessary to create a model of it; the data vocabulary need not to be known a priori. Therefore, little knowledge about the data stream is needed. To assess its performance, tests using well known datasets are presented. Mineracao : Dados Aprendizagem eletrônica Topic modeling Document classification Online learning Incremental learning
85	Mineração de opiniões em aspectos em fontes de opiniões fracamente estruturadas / Aspect-based opinion mining in weakly structured opinion sources Sápiras, Leonardo Augusto January 2015 (has links) Na WEB, são encontradas postagens sobre assuntos variados, notícias de celebridades, produtos e serviços. Tal conteúdo contém emoções positivas, negativas ou neutras. Minerar o sentimento da população sobre candidatos a eleições e seus aspectos em mídias virtuais pode ser realizado por meio de técnicas de Mineração de Opiniões. Existem soluções para fontes de opinião fortemente estruturadas, tais como revisões de produtos e serviços, no entanto o problema que se apresenta é realizar a mineração de opiniões em nível de aspecto em fontes de opiniões fracamente estruturadas. Além de avaliar conceitos relacionados à mineração de opiniões, o presente trabalho descreve a realização de um estudo de caso, o qual analisa fontes de opiniões fracamente estruturadas e propõe uma abordagem para minerar opiniões em nível de aspecto, utilizando como fontes de opinião comentários de leitores de jornais. O estudo de caso contribui (i) na concepção de uma abordagem para identificação da opinião em nível de aspecto sobre entidades eleitorais em comentários de notícias políticas, (ii) na aplicação de um método baseado em aprendizagem de máquina para classificar a opinião sobre entidades e seus aspectos em três classes (positivo, negativo e neutro), (iii) na representação da sumarização visual de opinião sobre entidades e seus aspectos. São descritos experimentos para identificar comentários que mencionam os aspectos saúde e educação, utilizando co-ocorrência, em que foram obtidos resultados satisfatórios utilizando as técnicas Expected Mutual Information Measure e phi-squared. Já para a polarização de sentenças, são realizados experimentos com duas abordagens de classificação: uma que classifica sentenças em três classes e outra que realiza classificações binárias em duas etapas. / In the WEB are found posts about various subjects like celebrity news, products and services. Such content has positive, negative or neutral emotions. Mining the population’s sentiments about elections candidates and their aspects in virtual media can be performed using Opinion Mining techniques. There are solutions for highly structured opinion sources, such as reviews of products and services, however the problem is how to perform aspect-based opinion mining in less structured opinions sources. Besides evaluating concepts related to opinion mining, this work describes a case study which analyzes weakly structured sources and proposes an approach to mine aspect-based opinions using as sources of sentiment reviews of newspaper readers. The case study contributes (i) designing an approach to identify the aspect-based opinion about electoral candidates in news political comments, (ii) to the application of a machine learning-based method to classify the opinion about entities and their aspects in three classes (positive, negative and neutral) (iii) to the representation of a visual summarization review of entities and their aspects. It describes experiments to identify comments about health and education aspects using co-occurrence where satisfactory results were obtained using the techniques Expected Mutual Information Measure and phi-squared. In which regards sentences polarization, experiments are performed with two classification approaches, one that classifies sentences in three classes and another that performs binary classifications in two stages. Mineracao : Dados Sistemas : Informação Sistemas eleitorais Opinion mining Sentiment analysis Aspect identification Opinion summarization
86	Mineração de regras de associação aplicada a dados da Secretaria Municipal de Saúde de Londrina PR / Mining of Association Rules Applied to Londrina´s Health City Department – PR Silva, Glauco Carlos January 2004 (has links) Com o grande crescimento dos volumes de dados que as organizações vêm registrando e a diversidade das fontes destes dados, o fato de se aproveitar informações contidas nessas massas de dados se tornou uma necessidade. Surgiu então uma área denominada Descoberta de Conhecimento em Bases de Dados (DCBD). Tal área utiliza alguns modelos, técnicas e algoritmos que realizam operações de extração de conhecimento útil de grandes volumes de dados. Entre as principais técnicas utilizadas para minerar os dados está a de Regras de Associação. A técnica de Regras de Associação se propõe a encontrar todas as associações relevantes entre um conjunto de itens aplicados a outros itens, e utiliza alguns algoritmos para realizar seu objetivo. Este estudo apresenta alguns algoritmos para a aplicação da técnica de Regras de Associação, também, busca abranger um pouco da tecnologia de Data Warehouse, muito útil para que o processo de mineração de dados possa ser realizado com maior sucesso. Neste trabalho são aplicadas técnicas de descoberta de conhecimento na área de saúde, vinculando dados referentes à situação socioeconômica do paciente com os procedimentos que foram realizados nas internações hospitalares a que foi submetido. Devido ao grande número de regras que poderiam se geradas resultantes das inúmeras possibilidades da base de dados, foi construído um protótipo de uma ferramenta para extração de regras de associação, que não só é baseado no suporte e confiança, mas também utiliza os conceitos de lift e improvement os quais ajudam na diminuição de regras triviais. Foram realizadas minerações com a base de dados de pacientes da Secretaria Municipal de Saúde de Londrina-PR, para análise da utilidade dos dados minerados. / The increasing amount of data that organization have been registering and the diversity of data sources have generate the necessity of extract knowledge from this mass of data. Based on this necessity a new area has emerged which is named Knowledge Discovery in Data Base (KDD). In this work apply the association rule mining technique in the public health area, linking social economic situation of patients which were attended in our hospitals. Because of large number of rules that can be produce we developed a prototype of a tool for extract association rules, not only based on support and confidence, but using too the measures lift and improvement in order to reduce the number of rules. Experiments were performed with the “Secretaria Municipal de Saúde de Londrina – PR” database Armazenamento da informação Banco : Dados Mineracao : Dados Regras : Associacao Associations Rules Data Mining
87	Aplicando algoritmos de mineração de regras de associação para recuperação de informações multilíngues. / Cross-language information retrieval using algorithms for mining association rules Geraldo, André Pinto January 2009 (has links) Este trabalho propõe a utilização de algoritmos de mineração de regras de associação para a Recuperação de Informações Multilíngues. Esses algoritmos têm sido amplamente utilizados para analisar transações de registro de vendas. A ideia é mapear o problema de encontrar associações entre itens vendidos para o problema de encontrar termos equivalentes entre idiomas diferentes em um corpus paralelo. A proposta foi validada por meio de experimentos com diferentes idiomas, conjuntos de consultas e corpora. Os resultados mostram que a eficácia da abordagem proposta é comparável ao estado da arte, ao resultado monolíngue e à tradução automática de consultas, embora este utilize técnicas mais complexas de processamento de linguagem natural. Foi criado um protótipo que faz consultas à Web utilizando o método proposto. O sistema recebe palavras-chave em português, as traduz para o inglês e submete a consulta a diversos sites de busca. / This work proposes the use of algorithms for mining association rules as an approach for Cross-Language Information Retrieval. These algorithms have been widely used to analyze market basket data. The idea is to map the problem of finding associations between sales items to the problem of finding term translations over a parallel corpus. The proposal was validated by means of experiments using different languages, queries and corpora. The results show that the performance of our proposed approach is comparable to the performance of the monolingual baseline and to query translation via machine translation, even though these systems employ more complex Natural Language Processing techniques. A prototype for cross-language web querying was implemented to test the proposed method. The system accepts keywords in Portuguese, translates them into English and submits the query to several web-sites that provide search functionalities. Recuperacao : Informacao Banco : Dados Mineracao : Dados Information retrieval Cross-language information retrieval Association rules
88	Cross-language plagiarism detection / Detecção de plágio multilíngue Pereira, Rafael Corezola January 2010 (has links) Plágio é um dos delitos mais graves no meio acadêmico. É definido como “o uso do trabalho de uma pessoa sem a devida referência ao trabalho original”. Em contrapartida a esse problema, existem diversos métodos que tentam detectar automaticamente plágio entre documentos. Nesse contexto, esse trabalho propõe um novo método para Análise de Plágio Multilíngue. O objetivo do método é detectar casos de plágio em documentos suspeitos baseado em uma coleção de documentos ditos originais. Para realizar essa tarefa, é proposto um método de detecção de plágio composto por cinco fases principais: normalização do idioma, recuperação dos documentos candidatos, treinamento do classificador, análise de plágio, pós-processamento. Uma vez que o método é projetado para detectar plágio entre documentos escritos em idiomas diferentes, nós usamos um language guesser para identificar o idioma de cada documento e um tradutor automático para traduzir todos os documentos para um idioma comum (para que eles possam ser analisados de uma mesma forma). Após a normalização, nós aplicamos um algoritmo de classificação com o objetivo de construir um modelo que consiga diferenciar entre um trecho plagiado e um trecho não plagiado. Após a fase de treinamento, os documentos suspeitos podem ser analisados. Um sistema de recuperação é usado para buscar, baseado em trechos extraídos de cada documento suspeito, os trechos dos documentos originais que são mais propensos de terem sido utilizados como fonte de plágio. Somente após os trechos candidatos terem sido retornados, a análise de plágio é realizada. Por fim, uma técnica de pós-processamento é aplicada nos resultados da detecção a fim de juntar os trechos plagiados que estão próximos um dos outros. Nós avaliamos o métodos utilizando três coleções de testes disponíveis. Duas delas foram criadas para as competições PAN (PAN’09 e PAN’10), que são competições internacionais de detecção de plágio. Como apenas um pequeno percentual dos casos de plágio dessas coleções era multilíngue, nós criamos uma coleção com casos de plágio multilíngue artificiais. Essa coleção foi chamada de ECLaPA (Europarl Cross-Language Plagiarism Analysis). Os resultados alcançados ao analisar as três coleções de testes mostraram que o método proposto é uma alternativa viável para a tarefa de detecção de plágio multilíngue. / Plagiarism is one of the most serious forms of academic misconduct. It is defined as “the use of another person's written work without acknowledging the source”. As a countermeasure to this problem, there are several methods that attempt to automatically detect plagiarism between documents. In this context, this work proposes a new method for Cross-Language Plagiarism Analysis. The method aims at detecting external plagiarism cases, i.e., it tries to detect the plagiarized passages in the suspicious documents (the documents to be investigated) and their corresponding text fragments in the source documents (the original documents). To accomplish this task, we propose a plagiarism detection method composed by five main phases: language normalization, retrieval of candidate documents, classifier training, plagiarism analysis, and postprocessing. Since the method is designed to detect cross-language plagiarism, we used a language guesser to identify the language of the documents and an automatic translation tool to translate all the documents in the collection into a common language (so they can be analyzed in a uniform way). After language normalization, we applied a classification algorithm in order to build a model that is able to differentiate a plagiarized text passage from a non-plagiarized one. Once the classifier is trained, the suspicious documents can be analyzed. An information retrieval system is used to retrieve, based on passages extracted from each suspicious document, the passages from the original documents that are more likely to be the source of plagiarism. Only after the candidate passages are retrieved, the plagiarism analysis is performed. Finally, a postprocessing technique is applied in the reported results in order to join the contiguous plagiarized passages. We evaluated our method using three freely available test collections. Two of them were created for the PAN competitions (PAN’09 and PAN’10), which are international competitions on plagiarism detection. Since only a small percentage of these two collections contained cross-language plagiarism cases, we also created an artificial test collection especially designed to contain this kind of offense. We named the test collection ECLaPA (Europarl Cross-Language Plagiarism Analysis). The results achieved while analyzing these collections showed that the proposed method is a viable approach to the task of cross-language plagiarism analysis. Recuperacao : Informacao Banco : Dados Mineracao : Dados Plagiarism Cross-language plagiarism detection Plagiarism test collections
89	Mineração de regras de associação aplicada a dados da Secretaria Municipal de Saúde de Londrina PR / Mining of Association Rules Applied to Londrina´s Health City Department – PR Silva, Glauco Carlos January 2004 (has links) Com o grande crescimento dos volumes de dados que as organizações vêm registrando e a diversidade das fontes destes dados, o fato de se aproveitar informações contidas nessas massas de dados se tornou uma necessidade. Surgiu então uma área denominada Descoberta de Conhecimento em Bases de Dados (DCBD). Tal área utiliza alguns modelos, técnicas e algoritmos que realizam operações de extração de conhecimento útil de grandes volumes de dados. Entre as principais técnicas utilizadas para minerar os dados está a de Regras de Associação. A técnica de Regras de Associação se propõe a encontrar todas as associações relevantes entre um conjunto de itens aplicados a outros itens, e utiliza alguns algoritmos para realizar seu objetivo. Este estudo apresenta alguns algoritmos para a aplicação da técnica de Regras de Associação, também, busca abranger um pouco da tecnologia de Data Warehouse, muito útil para que o processo de mineração de dados possa ser realizado com maior sucesso. Neste trabalho são aplicadas técnicas de descoberta de conhecimento na área de saúde, vinculando dados referentes à situação socioeconômica do paciente com os procedimentos que foram realizados nas internações hospitalares a que foi submetido. Devido ao grande número de regras que poderiam se geradas resultantes das inúmeras possibilidades da base de dados, foi construído um protótipo de uma ferramenta para extração de regras de associação, que não só é baseado no suporte e confiança, mas também utiliza os conceitos de lift e improvement os quais ajudam na diminuição de regras triviais. Foram realizadas minerações com a base de dados de pacientes da Secretaria Municipal de Saúde de Londrina-PR, para análise da utilidade dos dados minerados. / The increasing amount of data that organization have been registering and the diversity of data sources have generate the necessity of extract knowledge from this mass of data. Based on this necessity a new area has emerged which is named Knowledge Discovery in Data Base (KDD). In this work apply the association rule mining technique in the public health area, linking social economic situation of patients which were attended in our hospitals. Because of large number of rules that can be produce we developed a prototype of a tool for extract association rules, not only based on support and confidence, but using too the measures lift and improvement in order to reduce the number of rules. Experiments were performed with the “Secretaria Municipal de Saúde de Londrina – PR” database Armazenamento da informação Banco : Dados Mineracao : Dados Regras : Associacao Associations Rules Data Mining
90	Mineração de opiniões em aspectos em fontes de opiniões fracamente estruturadas / Aspect-based opinion mining in weakly structured opinion sources Sápiras, Leonardo Augusto January 2015 (has links) Na WEB, são encontradas postagens sobre assuntos variados, notícias de celebridades, produtos e serviços. Tal conteúdo contém emoções positivas, negativas ou neutras. Minerar o sentimento da população sobre candidatos a eleições e seus aspectos em mídias virtuais pode ser realizado por meio de técnicas de Mineração de Opiniões. Existem soluções para fontes de opinião fortemente estruturadas, tais como revisões de produtos e serviços, no entanto o problema que se apresenta é realizar a mineração de opiniões em nível de aspecto em fontes de opiniões fracamente estruturadas. Além de avaliar conceitos relacionados à mineração de opiniões, o presente trabalho descreve a realização de um estudo de caso, o qual analisa fontes de opiniões fracamente estruturadas e propõe uma abordagem para minerar opiniões em nível de aspecto, utilizando como fontes de opinião comentários de leitores de jornais. O estudo de caso contribui (i) na concepção de uma abordagem para identificação da opinião em nível de aspecto sobre entidades eleitorais em comentários de notícias políticas, (ii) na aplicação de um método baseado em aprendizagem de máquina para classificar a opinião sobre entidades e seus aspectos em três classes (positivo, negativo e neutro), (iii) na representação da sumarização visual de opinião sobre entidades e seus aspectos. São descritos experimentos para identificar comentários que mencionam os aspectos saúde e educação, utilizando co-ocorrência, em que foram obtidos resultados satisfatórios utilizando as técnicas Expected Mutual Information Measure e phi-squared. Já para a polarização de sentenças, são realizados experimentos com duas abordagens de classificação: uma que classifica sentenças em três classes e outra que realiza classificações binárias em duas etapas. / In the WEB are found posts about various subjects like celebrity news, products and services. Such content has positive, negative or neutral emotions. Mining the population’s sentiments about elections candidates and their aspects in virtual media can be performed using Opinion Mining techniques. There are solutions for highly structured opinion sources, such as reviews of products and services, however the problem is how to perform aspect-based opinion mining in less structured opinions sources. Besides evaluating concepts related to opinion mining, this work describes a case study which analyzes weakly structured sources and proposes an approach to mine aspect-based opinions using as sources of sentiment reviews of newspaper readers. The case study contributes (i) designing an approach to identify the aspect-based opinion about electoral candidates in news political comments, (ii) to the application of a machine learning-based method to classify the opinion about entities and their aspects in three classes (positive, negative and neutral) (iii) to the representation of a visual summarization review of entities and their aspects. It describes experiments to identify comments about health and education aspects using co-occurrence where satisfactory results were obtained using the techniques Expected Mutual Information Measure and phi-squared. In which regards sentences polarization, experiments are performed with two classification approaches, one that classifies sentences in three classes and another that performs binary classifications in two stages. Mineracao : Dados Sistemas : Informação Sistemas eleitorais Opinion mining Sentiment analysis Aspect identification Opinion summarization

Search results