Global ETD Search

151	Substituição de valores ausentes: uma abordagem baseada em um algoritmo evolutivo para agrupamento de dados / Missing value substitution: an approach based on evolutionary algorithm for clustering data Silva, Jonathan de Andrade 29 April 2010 (has links) A substituição de valores ausentes, também conhecida como imputação, é uma importante tarefa para a preparação dos dados em aplicações de mineração de dados. Este trabalho propõe e avalia um algoritmo para substituição de valores ausentes baseado em um algoritmo evolutivo para agrupamento de dados. Este algoritmo baseia-se na suposição de que grupos (previamente desconhecidos) de dados podem prover informações úteis para o processo de imputação. Para avaliar experimentalmente o algoritmo proposto, simulações de valores ausentes foram realizadas em seis bases de dados, para problemas de classificação, com a aplicação de dois mecanismos amplamente usados em experimentos controlados: MCAR e MAR. Os algoritmos de imputação têm sido tradicionalmente avaliados por algumas medidas de capacidade de predição. Entretanto, essas tradicionais medidas de avaliação não estimam a influência dos métodos de imputação na etapa final em tarefas de modelagem (e.g., em classificação). Este trabalho descreve resultados experimentais obtidos sob a perspectiva de predição e inserção de tendências (viés) em problemas de classificação. Os resultados de diferentes cenários nos quais o algoritmo proposto, apresenta em geral, desempenho semelhante a outros seis algoritmos de imputação reportados na literatura. Finalmente, as análises estatísticas reportadas sugerem que melhores resultados de predição não implicam necessariamente em menor viés na classificação / The substitution of missing values, also called imputation, is an important data preparation task for data mining applications. This work proposes and evaluates an algorithm for missing values imputation that is based on an evolutionary algorithm for clustering. This algorithm is based on the assumption that clusters of (partially unknown) data can provide useful information for the imputation process. In order to experimentally assess the proposed method, simulations of missing values were performed on six classification datasets, with two missingness mechanisms widely used in practice: MCAR and MAR. Imputation algorithms have been traditionally assessed by some measures of prediction capability. However, this traditionall approach does not allow inferring the influence of imputed values in the ultimate modeling tasks (e.g., in classification). This work describes the experimental results obtained from the prediction and insertion bias perspectives in classification problems. The results illustrate different scenarios in which the proposed algorithm performs similarly to other six imputation algorithms reported in the literature. Finally, statistical analyses suggest that best prediction results do not necessarily imply in less classification bias Agrupamento de dados Clustering Data mining Imputação Imputation Mineração de dados Missing values Valores ausentes
152	Investigação de técnicas de classificação hierárquica para problemas de bioinformática / Investigation of hierarchial classification techniques for bioinformatics problems Costa, Eduardo de Paula 25 March 2008 (has links) Em Aprendizado de Máquina e Mineração de Dados, muitos dos trabalhos de classificação reportados na literatura envolvem classificação plana (flat classification), em que cada exemplo é associado a uma dentre um conjunto finito (e normalmente pequeno) de classes, todas em um mesmo nível. Entretanto, existem problemas de classificação mais complexos em que as classes a serem preditas podem ser dispostas em uma estrutura hierárquica. Para esses problemas, a utilização de técnicas e conceitos de classificação hierárquica tem se mostrado útil. Uma das linhas de pesquisa com grande potencial para a utilização de tais técnicas é a Bioinformática. Dessa forma, esta dissertação apresenta um estudo envolvendo técnicas de classificação hierárquica aplicadas à predição de classes funcionais de proteínas. No total foram investigados doze algoritmos hierárquicos diferentes, sendo onze deles representantes da abordagem Top-Down, que foi o enfoque da investigação realizada. O outro algoritmo investigado foi o HC4.5, um algoritmo baseado na abordagem Big- Bang. Parte dos algoritmos estudados foram desenvolvidos com base em uma variação da abordagem Top-Down, denominada de Top-Down Ensemble, que foi proposta neste estudo. Alguns do algoritmos baseados nessa nova abordagem apresentaram resultados promissores, superando os resultados dos demais algoritmos. Para avaliação dos resultados, foi utilizada uma medida específica para problemas hierárquicos, denominada taxa de acerto dependente da profundidade. Além dessa, outras três medidas de avaliação foram utilizadas, de modo a comparar os resultados reportados por diferentes medidas / In Machine Learning and Data Mining, most of the research in classification reported in the literature involve flat classification, where each example is assigned to one class out of a finite (and usually small) set of flat classes. Nevertheless, there are more complex classification problems in which the classes to be predicted can be disposed in a hierarchy. In this context, the use of hierarchical classification techniques and concepts have been shown to be useful. One research with great potential is the application of hierarchical classification techniques to Bioinformatics problems. Therefore, this MSc thesis presents a study involving hierarchical classification techniques applied to the prediction of functional classes of proteins. Twelve different algorithms were investigated - eleven of them based on the Top-Down approach, which was the focus of this study. The other investigated algorithm was HC4.5, an algorithm based on the Big-Bang approach. Part of these algorithms are based on a variation of the Top-Down approach, named Top-Down Ensembles, proposed in this study. Some of the algorithms based on this new approach presented promising results, which were better than the results presented by other algorithms. A specific evaluation measure for hierarchical classification, named depth-dependent accuracy, was used to evaluate the classification models. Besides, other three evaluation measures were used in order to compare the results reported by them Aprendizado de máquina Bioinformática Bioinformatics Classificação hierárquica Data mining Hierarchical classification Machine learning Mineração de dados
153	Análise do comportamento subjacente ao encadeamento de viagens através do uso de minerador de dados / Analysis of behavior underlying chained trips by using data miner Pitombo, Cira Souza 21 February 2003 (has links) O objetivo principal deste trabalho é analisar o comportamento de grupos homogêneos de indivíduos com relação às viagens encadeadas, usando um minerador de dados. Vários aspectos das viagens encadeadas foram representados através da extensão do processo de codificação inicialmente proposto por Ichikawa (2002). Foram codificados os aspectos como seqüência de atividades realizadas por cada indivíduo, modo de viagem, período do dia em que cada viagem foi realizada e tempo de viagem. O minerador de dados usado neste trabalho foi Árvore de Decisão e Classificação, uma ferramenta de análise disponível no software S-Plus 2000. A análise baseou-se na pesquisa origem-destino realizada pelo METRÔ-SP na região metropolitana de São Paulo, por meio de entrevistas domiciliares, em 1987. Concluiu-se que variáveis socioeconômicas podem explicar o comportamento relacionado a viagens encadeadas, indicando que minerador de dados pode ter um papel importante na análise do comportamento relacionado às viagens encadeadas. / The main aim of this work is to analyze the behavior of homogeneous groups of individuals regarding the chained trips by using a data miner. Several aspects of chained trips were represented through the extension of the coding process initially proposed by Ichikawa (2002). Aspects such as sequence of activities performed by each individual, travel mode, period of the day in which each trip occurs, and travel time were coded. The data miner used in this work was Decision and Classification Tree, an analysis tool available in S-Plus 2000 software package. The analysis was based on the origin-destination home-interview survey carried out by METRÔ-SP in São Paulo metropolitan area, in 1987. The main finding is that the socioeconomic variables can explain the behavior related to the chained trips, indicating that data miner can play an important role in the analysis of the behavior related to the chained trips. Análise de demanda Data-mining Demand analysis Mineração de dados Padrões de viagem Travel patterns Trip-chaining Viagens encadeadas
154	Agrupamento de fornos de redução de alumínio utilizando os algoritmos Affinity Propagation, Mapa auto–organizável de Kohonen (som), Fuzzy C–Means e K–Means LIMA, Flávia Ayana Nascimento de 11 October 2017 (has links) Submitted by Marina Farias (mgmf@ufpa.br) on 2018-02-21T13:19:33Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_AgrupamentoFornosReducao.pdf: 6297988 bytes, checksum: 9e3c95180dbdfbdbc60f142c239aeb87 (MD5) / Approved for entry into archive by Marina Farias (mgmf@ufpa.br) on 2018-02-21T13:23:06Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_AgrupamentoFornosReducao.pdf: 6297988 bytes, checksum: 9e3c95180dbdfbdbc60f142c239aeb87 (MD5) / Made available in DSpace on 2018-02-21T13:23:06Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_AgrupamentoFornosReducao.pdf: 6297988 bytes, checksum: 9e3c95180dbdfbdbc60f142c239aeb87 (MD5) Previous issue date: 2017-10-11 / O constante avanço da tecnologia requer medidas que beneficiem as indústrias em busca do lucro e da competitividade. Em relação à indústria de minerais, o processo de fundição de alumínio geralmente possui grande número de células, também chamado de forno ou cuba de redução, produzindo alumínio em um procedimento contínuo e complexo. Um monitoramento analítico é essencial para aumentar a vantagem competitiva dessa indústria, por exemplo, durante a operação, algumas células compartilham comportamentos semelhantes às outras, formando grupos ou clusters de células. Esses clusters dependem de padrões de dados geralmente implícitos ou invisíveis para a operação, mas que podem ser encontrados por meio da análise de dados. Neste trabalho, são apresentadas quatro técnicas de agrupamento, o Affinity Propagation, o mapa auto–organizável de Kohonen (SOM), o algoritmo difuso Fuzzy C–Means (FCM) e o K–Means. Essas técnicas são utilizadas para encontrar e agrupar as células que apresentam comportamentos semelhantes, de acordo com sete variáveis tais como as que consiste no processo de redução do alumínio. Este trabalho visa trazer o benefício do agrupamento, principalmente pela simplificação da análise da linha de produção do alumínio, uma vez que um grande número de células pode se resumir em um único grupo, o que pode fornecer informações mais compactas para o controle e a modelagem dos dados. Este benefício de identificar os dados que possuem características semelhantes e agrupá–los faz com que a análise dos grupos se torne mais simples para quem irá manusear esses dados futuramente. Nesse trabalho de dissertação também será feito a identificação da quantidade ideal de grupo em cada técnica utilizada. / The continuous development of technology accounts for measures that provide industries benefits to grant them profitability and competitive advantage. In the mineralogy field, aluminum smelting usually requires substantial number of cells, also known as reduction pots, to produce aluminum in a continuous and complex process. Analytical monitoring is essential for those industries’ competitive advantage, given that during operation some cells show behavior similar to others, thereby forming clusters of cells. These clusters depend on data patterns usually implicit or invisible for the operation, but can be found by data analysis techniques. In this work four clustering techniques are presented to that end: the Affinity Propagation; the Kohonen Self Organizing Map; the Fuzzy C–Means; and the K–Means Algorithm. These techniques are used to find and group cells that share similar behavior, by analysing seven variables which are closely related to the aluminum reduction process. This work aims at addressing the benefits of clustering, especially by simplifying the aluminum potline analysis, once a large group of cells might be summarized in one sole group, what can provide more compact yet rich information for data driven modeling and control. Moreover, the identification of similar data patterns in clusters makes the task of those who is going to be in charge of analyzing these dats. This work also identifies the ideal cluster size for each technique applied. CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Agrupamento - Técnicas Redução do alumínio Mineração de dados INTELIGÊNCIA COMPUTACIONAL COMPUTAÇÃO APLICADA
155	Uma abordagem de exploração multinível em visualizações geradas para representar projeções multidimensionais / Marcilio Junior, Wilson Estecio. January 2018 (has links) Orientador: Danilo Medeiros Eler / Banca: Almir Olivette Artero / Banca: José Fernando Rodrigues Junior / Resumo: As projeções multidimensionais são uma ferramenta importante para análise de conjuntos de dados multidimensionais. No entanto, embora a representação gráfica de projeções multidimensionais tragam benefícios quanto à identificação de grupos e análise da similaridade entre instâncias de um conjunto de dados, tal representação apresenta dificuldades quando o número de instâncias ou a dimensionalidade do conjunto sendo analisado cresce. Neste trabalho, é apresentada uma abordagem de exploração multinível em visualizações geradas para representar projeções multidimensionais, em que o objetivo é oferecer meios para que um conjunto de dados seja explorado com uma carga cognitiva menor do que em representações comuns de projeções multidimensionais. A técnica proposta é baseada na seleção de representativos para fornecer um contexto e guiar o usuário no processo de exploração, além de utilizar diagramas de Voronoi para definição dos grupos. A abordagem pode ser empregada com qualquer técnica de projeção multidimensional, além de poderem ser utilizados os mais variados algoritmos de seleção de representativos. Nos experimentos realizados são apresentados os algoritmos mais indicados para seleção de representativos, bem como o impacto de diferentes técnicas de projeção multidimensional e do espaço de características dos conjuntos analisados. Além disso, são apresentados dois estudos de casos utilizando a técnica de exploração proposta / Abstract: Multidimensional projections are an important tool for analyzing multidimensional datasets. However, although the graphical representation of multidimensional projection brings benefits according to cluster identification and similarity analysis, such representation presents issues when the number of instances or the dimensionality of the dataset increases. In this work, a multilevel exploration approach in visualizations generated to encode multidimensional projections is presented, in which the goal is to provide subsidies for an exploration with lower cognitive load than the common approaches. The proposed technique is based on selecting representative to provide a context to guide the user in the exploration process, besides using Voronoi diagrams to define clusters. In the experiments, the best suited algorithms to select representative are presented, as well as the impact of different multidimensional projection techniques and the feature space of the analyzed dataset. Finally, two case studies are presented to show how the exploration approach works / Mestre Computação gráfica. Visualização da informação. Mineração de dados (Computação) Algoritmos de computador. Computer graphics
156	Um agente facilitador da navegação na web Barbosa, Fernando Kauffmann 30 January 2007 (has links) Made available in DSpace on 2015-02-04T21:45:25Z (GMT). No. of bitstreams: 1 Fernando Kauffmann Barbosa.pdf: 1315677 bytes, checksum: e5fd5031c620acf3943773dd039c0747 (MD5) Previous issue date: 2007-01-30 / Esta dissertação apresenta um agente, o FNA (Fast Navigation Agent), que tem como objetivo aumentar a facilidade e rapidez de acesso às páginas Web de maior interesse de um visitante, em sites que possuem uma grande quantidade de informações e serviços. O FNA faz parte do conteúdo das páginas Web do site, interage com o visitante e traça o seu perfil de navegação. O FNA utiliza técnicas de mineração de uso na Web e um algoritmo de Regras de Associação. agentes mineração de dados na web regras de associação
157	Cardiac-M: sistema de apoio para identificação de riscos em pacientes crônicos cardíacos Bertola, Marinês Refosco Severo 29 June 2011 (has links) Submitted by Nara Lays Domingues Viana Oliveira (naradv) on 2015-08-11T19:15:25Z No. of bitstreams: 1 MarinesRefoscoSeveroBertola.pdf: 1690641 bytes, checksum: 2e99d546f0564844905d9dc2e8870f24 (MD5) / Made available in DSpace on 2015-08-11T19:15:25Z (GMT). No. of bitstreams: 1 MarinesRefoscoSeveroBertola.pdf: 1690641 bytes, checksum: 2e99d546f0564844905d9dc2e8870f24 (MD5) Previous issue date: 2011 / Nenhuma / As mudanças sociais, econômicas e a alteração nos hábitos alimentares são algumas das razões para o crescimento do número de pacientes portadores de doenças crônicas, principalmente doenças cardíacas. Com isso, é iminente a necessidade de um acompanhamento mais severo de forma a proporcionar a estes pacientes qualidade de vida, reduzindo, se possível, o nível de mortalidade de doentes cardíacos. O trabalho desenvolvido prevê atender essa necessidade através do projeto de um sistema multiagente proativo, envolvendo aplicação de técnicas de mineração de dados para recuperação e classificação de dados do prontuário médico do paciente de forma a identificar uma possibilidade de agravamento da doença. / The social, economic and dietary habit changes are some reasons for the growing number of patients with chronic diseases, especially heart disease. Thus, it is the imminent need for stricter monitoring to assure patients’ quality of life by reducing, if possible, the level of mortality of cardiac patients. This work tries to meet this need by designing a proactive multiagent system and applying data mining techniques for data classification and retrieval of patient medical records to identify a possible worsening of the disease. Mineração de dados Agentes Doenças crônicas Data mining Agents Chronic diseases
158	Mineração de textos aplicada na previsão e detecção de eventos adversos no Hospital de Clínicas de Porto Alegre Silva, Daniel Antonio da January 2017 (has links) Este trabalho apresenta os resultados de uma pesquisa que teve como objetivo avaliar o desempenho de métodos de mineração de textos na previsão e detecção de Eventos Adversos (EA). A primeira etapa foi a revisão sistemática da literatura que buscou identificar os métodos de mineração de textos e as áreas da saúde que esses estão sendo aplicados para prever e detectar EA. Após essa etapa foi realizada uma aplicação de métodos de mineração de textos para prever Infecções do Sítio Cirúrgico (ISC) a partir do texto livre de descrições cirúrgicas no Hospital de Clínicas de Porto Alegre (HCPA). Por fim, métodos de mineração de textos foram aplicados para detectar ISC a partir do texto das evoluções de pacientes 30 (trinta) dias após uma cirurgia. Como resultados, destaca-se a identificação dos melhores métodos de pré-processamento e mineração de textos para prever e detectar ISC no HCPA, podendo ser aplicados a outros EA. O método Stochastic Gradient Descent (SGD) apresentou o melhor desempenho, 79,7% de ROC-AUC na previsão de EA. Já para detecção de EA o melhor método foi o Logistic Regression, com desempenho 80,6% de ROC-AUC. Os métodos de mineração de textos podem ser usados para apoiar de maneira eficaz a previsão e detecção de EA, direcionando ações de vigilância para a melhoria da segurança do paciente. / This work presents the results of a research that aimed to evaluate the performance of text mining methods in the prediction and detection of Adverse Events (AE). The first step was the systematic review of the literature that sought to identify the methods of text mining and the health areas they are being applied to predict and detect AE. After this step, an application of text mining methods was performed to predict Surgical Site Infections (SSI) from the free text of medical records at Hospital de Clínicas de Porto Alegre (HCPA). Finally, text mining methods were applied to detect SSI from the text of medical records 30 (thirty) days after surgery. As results, is highlight the identification of the best methods of pre-processing and text mining to predict and detect SSI in the HCPA, and can be applied to other AE. The Stochastic Gradient Descent (SGD) presented the best performance, 79.7% of ROC-AUC in the prediction of AE. Already for the detection of AE the best method was the Logistic Regression, with performance 80.6% of ROC-AUC. Text mining methods can be used to effectively support the prediction and detection of AE by directing surveillance actions to improve patient safety. Mineração de dados Controle de infecções Hospital de Clínicas de Porto Alegre Adverse Events Surgical Infection Text Mining
159	Paralelização do algoritmo DIANA com OpenMP e MPI / Ribeiro, Hethini do Nascimento. January 2018 (has links) Orientador: Roberta Spolon / Banca: Kelton Augusto Pontara da Costa / Banca: Anderson Francisco Talon / Resumo: No início desta década havia cerca de 5 bilhões de telefones em uso gerando dados. Essa produção global aumentou aproximadamente 40% ao ano no início da década passada. Esses grandes conjuntos de dados que podem ser capturados, comunicados, agregados, armazenados e analisados, também chamados de Big Data, estão colocando desafios inevitáveis em muitas áreas e, em particular, no campo Machine Learning. Algoritmos de Machine Learning são capazes de extrair informações úteis desses grandes repositórios de dados e por este motivo está se tornando cada vez mais importante o seu estudo. Os programas aptos a realizarem essa tarefa podem ser chamados de algoritmos de classificação e clusterização. Essas aplicações são dispendiosas computacionalmente. Para citar alguns exemplos desse custo, o algoritmo Quality Threshold Clustering tem, no pior caso, complexidade O(��5). Os algoritmos hierárquicos AGNES e DIANA, por sua vez, possuem O(n²) e O(2n) respectivamente. Sendo assim, existe um grande desafio, que consiste em processar grandes quantidades de dados em um período de tempo realista, encorajando o desenvolvimento de algoritmos paralelos que se adequam ao volume de dados. O objetivo deste trabalho é apresentar a paralelização do algoritmo de hierárquico divisivo DIANA. O desenvolvimento do algoritmo foi realizado em MPI e OpenMP, chegando a ser três vezes mais rápido que a versão monoprocessada, evidenciando que embora em ambientes de memória distribuídas necessite de... / Abstract: Earlier in this decade there were about 5 billion phones in use generating data. This global production increased approximately 40% per year at the beginning of the last decade. These large datasets that can be captured, communicated, aggregated, stored and analyzed, also called Big Data, are posing inevitable challenges in many areas, and in particular in the Machine Learning field. Machine Learning algorithms are able to extract useful information from these large data repositories and for this reason their study is becoming increasingly important. The programs that can perform this task can be called classification and clustering algorithms. These applications are computationally expensive. To cite some examples of this cost, the Quality Threshold Clustering algorithm has, in the worst case, complexity O (n5). The hierarchical algorithms AGNES and DIANA, in turn, have O (n²) and O (2n) respectively. Thus, there is a great challenge, which is to process large amounts of data in a realistic period of time, encouraging the development of parallel algorithms that fit the volume of data. The objective of this work is to present the parallelization of the DIANA divisive hierarchical algorithm. The development of the algorithm was performed in MPI and OpenMP, reaching three times faster than the monoprocessed version, evidencing that although in distributed memory environments need synchronization and exchange of messages, for a certain degree of parallelism it is advantageous ... / Mestre Ciência da computação. Aprendizado do computador. Mineração de dados (Computação) Algorítmos paralelos. Computer science
160	Uma metodologia para extração de conhecimento em séries temporais por meio da identificação de motifs e da extração de características / A methodology to extract knowledge from time series using motif identification and feature extraction Maletzke, André Gustavo 30 April 2009 (has links) Mineração de dados tem sido cada vez mais aplicada em distintas áreas com o objetivo de extrair conhecimento interessante e relevante de grandes conjuntos de dados. Nesse contexto, aprendizado de máquina fornece alguns dos principais métodos utilizados em mineração de dados. Dentre os métodos empregados em aprendizado de máquina destacam-se os simbólicos que possuem como principal contribuição a interpretabilidade. Entretanto, os métodos de aprendizado de máquina tradicionais, como árvores e regras de decisão, não consideram a informação temporal presente nesses dados. Este trabalho propõe uma metodologia para extração de conhecimento de séries temporais por meio da extração de características e da identificação de motifs. Características e motifs são utilizados como atributos para a extração de conhecimento por métodos de aprendizado de máquina. Essa metodologia foi avaliada utilizando conjuntos de dados conhecidos na área. Foi realizada uma análise comparativa entre a metodologia e a aplicação direta de métodos de aprendizado de máquina sobre as séries temporais. Os resultados mostram que existe diferença estatística significativa para a maioria dos conjuntos de dados avaliados. Finalmente, foi realizado um estudo de caso preliminar referente ao monitoramento ambiental do reservatório da Usina Hidrelétrica Itaipu Binacional. Nesse estudo somente a identificação de motifs foi aplicada. Foram utilizadas séries temporais referentes à temperatura da água coletadas em distintas regiões do reservatório. Nesse estudo observou-se a existência de um padrão na distribuição dos motifs identificados para cada região do reservatório, corroborando com resultados consagrados na literatura / Data mining has been applied to several areas with the objective of extracting interesting and relevant knowledge from large data bases. In this scenario, machine learning provides some of the main methods employed in data mining. Symbolic learning are among the most used machine learning methods since these methods can provide models that can be interpreted by domain experts. However, traditional machine learning methods, such as decision trees and decision rules, do not take into account the temporal information present into data. This work proposes a methodology to extract knowledge from time series data using feature extraction and motif identification. Features and motifs are used as attributes for knowledge extraction performed by machine learning methods. This methodology was evaluated using some well-known data sets. In addition, we compared the proposed methodology to the approach that feeds machine learning algorithms with raw time series data. Results show that there are statistically significant differences for most of the data sets employed in the study. Finally, it is presented a preliminary study with environmental monitoring data from the Itaipu reservoir, made available by Itaipu Binacional. This study is restricted to the application of motif identification. We have used time series of water temperature collected from several regions of the reservoir. In this study, a pattern in motif distribution was observed for each region of the reservoir, agreeing with some well-known literature results Data Mining Extração de Características Feature Extraction Limnologia Limnology Mineração de Dados Motifs Motifs Séries Temporais Time Series

Search results