Global ETD Search

41	Algoritmos rápidos para estimativas de densidade hierárquicas e suas aplicações em mineração de dados / Fast algorithms for hierarchical density estimates and its applications in data mining Santos, Joelson Antonio dos 29 May 2018 (has links) O agrupamento de dados (ou do inglês Clustering) é uma tarefa não supervisionada capaz de descrever objetos em grupos (ou clusters), de maneira que objetos de um mesmo grupo sejam mais semelhantes entre si do que objetos de grupos distintos. As técnicas de agrupamento de dados são divididas em duas principais categorias: particionais e hierárquicas. As técnicas particionais dividem um conjunto de dados em um determinado número de grupos distintos, enquanto as técnicas hierárquicas fornecem uma sequência aninhada de agrupamentos particionais separados por diferentes níveis de granularidade. Adicionalmente, o agrupamento hierárquico de dados baseado em densidade é um paradigma particular de agrupamento que detecta grupos com diferentes concentrações ou densidades de objetos. Uma das técnicas mais populares desse paradigma é conhecida como HDBSCAN. Além de prover hierarquias, HDBSCAN é um framework que fornece detecção de outliers, agrupamento semi-supervisionado de dados e visualização dos resultados. No entanto, a maioria das técnicas hierárquicas, incluindo o HDBSCAN, possui uma alta complexidade computacional. Fato que as tornam proibitivas para a análise de grandes conjuntos de dados. No presente trabalho de mestrado, foram propostas duas variações aproximadas de HDBSCAN computacionalmente mais escaláveis para o agrupamento de grandes quantidades de dados. A primeira variação de HDBSCAN* segue o conceito de computação paralela e distribuída, conhecido como MapReduce. Já a segunda, segue o contexto de computação paralela utilizando memória compartilhada. Ambas as variações são baseadas em um conceito de divisão eficiente de dados, conhecido como Recursive Sampling, que permite o processamento paralelo desses dados. De maneira similar ao HDBSCAN, as variações propostas também são capazes de fornecer uma completa análise não supervisionada de padrões em dados, incluindo a detecção de outliers. Experimentos foram realizados para avaliar a qualidade das variações propostas neste trabalho, especificamente, a variação baseada em MapReduce foi comparada com uma versão paralela e exata de HDBSCAN conhecida como Random Blocks. Já a versão paralela em ambiente de memória compartilhada foi comparada com o estado da arte (HDBSCAN). Em termos de qualidade de agrupamento e detecção de outliers, tanto a variação baseada em MapReduce quanto a baseada em memória compartilhada mostraram resultados próximos à versão paralela exata de HDBSCAN e ao estado da arte, respectivamente. Já em termos de tempo computacional, as variações propostas mostraram maior escalabilidade e rapidez para o processamento de grandes quantidades de dados do que as versões comparadas. / Clustering is an unsupervised learning task able to describe a set of objects in clusters, so that objects of a same cluster are more similar than objects of other clusters. Clustering techniques are divided in two main categories: partitional and hierarchical. The particional techniques divide a dataset into a number of distinct clusters, while hierarchical techniques provide a nested sequence of partitional clusters separated by different levels of granularity. Furthermore, hierarchical density-based clustering is a particular clustering paradigm that detects clusters with different concentrations or densities of objects. One of the most popular techniques of this paradigm is known as HDBSCAN. In addition to providing hierarchies, HDBSCAN is a framework that provides outliers detection, semi-supervised clustering and visualization of results. However, most hierarchical techniques, including HDBSCAN, have a high complexity computational. This fact makes them prohibitive for the analysis of large datasets. In this work have been proposed two approximate variations of HDBSCAN computationally more scalable for clustering large amounts of data. The first variation follows the concept of parallel and distributed computing, known as MapReduce. The second one follows the context of parallel computing using shared memory. Both variations are based on a concept of efficient data division, known as Recursive Sampling, which allows parallel processing of this data. In a manner similar to HDBSCAN, the proposed variations are also capable of providing complete unsupervised patterns analysis in data, including outliers detection. Experiments have been carried out to evaluate the quality of the variations proposed in this work, specifically, the variation based on MapReduce have been compared to a parallel and exact version of HDBSCAN, known as Random Blocks. Already the version parallel in shared memory environment have been compared to the state of the art (HDBSCAN). In terms of clustering quality and outliers detection, the variation based on MapReduce and other based on shared memory showed results close to the exact parallel verson of HDBSCAN and the state of the art, respectively. In terms of computational time, the proposed variations showed greater scalability and speed for processing large amounts of data than the compared versions. Agrupamento de dados Clustering Data summarization MapReduce MapReduce Sumarização de dados
42	Seleção de grupos a partir de hierarquias: uma modelagem baseada em grafos / Clusters selection from hierarchies: a graph-based model Anjos, Francisco de Assis Rodrigues dos 28 June 2018 (has links) A análise de agrupamento de dados é uma tarefa fundamental em mineração de dados e aprendizagem de máquina. Ela tem por objetivo encontrar um conjunto finito de categorias que evidencie as relações entre os objetos (registros, instâncias, observações, exemplos) de um conjunto de dados de interesse. Os algoritmos de agrupamento podem ser divididos em particionais e hierárquicos. Uma das vantagens dos algoritmos hierárquicos é conseguir representar agrupamentos em diferentes níveis de granularidade e ainda serem capazes de produzir partições planas como aquelas produzidas pelos algoritmos particionais, mas para isso é necessário que seja realizado um corte (por exemplo horizontal) sobre o dendrograma ou hierarquia dos grupos. A escolha de como realizar esse corte é um problema clássico que vem sendo investigado há décadas. Mais recentemente, este problema tem ganho especial importância no contexto de algoritmos hierárquicos baseados em densidade, pois somente estratégias mais sofisticadas de corte, em particular cortes não-horizontais denominados cortes locais (ao invés de globais) conseguem selecionar grupos de densidades diferentes para compor a solução final. Entre as principais vantagens dos algoritmos baseados em densidade está sua robustez à interferência de dados anômalos, que são detectados e deixados de fora da partição final, rotulados como ruído, além da capacidade de detectar clusters de formas arbitrárias. O objetivo deste trabalho foi adaptar uma variante da medida da Modularidade, utilizada amplamente na área de detecção de comunidades em redes complexas, para que esta possa ser aplicada ao problema de corte local de hierarquias de agrupamento. Os resultados obtidos mostraram que essa adaptação da modularidade pode ser uma alternativa competitiva para a medida de estabilidade utilizada originalmente pelo algoritmo estado-da-arte em agrupamento de dados baseado em densidade, HDBSCAN. / Cluster Analysis is a fundamental task in Data Mining and Machine Learning. It aims to find a finite set of categories that evidences the relationships between the objects (records, instances, observations, examples) of a data set of interest. Clustering algorithms can be divided into partitional and hierarchical. One of the advantages of hierarchical algorithms is to be able to represent clusters at different levels of granularity while being able to produce flat partitions like those produced by partitional algorithms. To achieve this, it is necessary to perform a cut (for example horizontal) through the dendrogram or cluster tree. How to perform this cut is a classic problem that has been investigated for decades. More recently, this problem has gained special importance in the context of density-based hierarchical algorithms, since only more sophisticated cutting strategies, in particular nonhorizontal cuts (instead of global ones) are able to select clusters with different densities to compose the final solution. Among the main advantages of density-based algorithms is their robustness to noise and their capability to detect clusters of arbitrary shape. The objective of this work was to adapt a variant of the Q Modularity measure, widely used in the realm of community detection in complex networks, so that it can be applied to the problem of local cuts through cluster hierarchies. The results show that the proposed measure can be a competitive alternative to the stability measure, originally used by the state-of-the-art density-based clustering algorithm HDBSCAN. Agrupamento de dados Cluster analysis Critérios de avaliação Evaluation methods
43	Abordagem de métodos mistos para avaliação de curso na modalidade a distância / Tarumoto, Olga Lyda Anglas Rosales. January 2017 (has links) Orientador: Elisa Tomoe Moriya Schlünzen / Coorientador: Klaus Schlünzen Junior / Banca: Manoel Osmar Seabra Junior / Banca: Ana Maria Osorio Araya / Banca: Adriana Aparecida de Lima Terçariol / Banca: Edson do Carmo Inforsato / Resumo: Os cursos no formato de Educação a Distância (EaD) como forma de aquisição de conhecimento está em ampla expansão nos últimos 15 anos, tanto em nível nacional como mundial. No Brasil, esta expansão foi visível principalmente após a atualização da regulamentação feita pelo Ministério da Educação (MEC) em 2005 para os cursos nesta modalidade em nível superior, tanto de graduação como de pós-graduação. Com o crescimento, surge a preocupação com a forma e qualidade em que os cursos estão sendo oferecidos. Após as versões preliminares de 1997 e 2003, os Referenciais de Qualidade em Educação Superior a Distância foram divulgados pelo Ministério da Educação (MEC) em 2007. Ao se falar em qualidade, deve se pensar na forma de mensuração, e que naturalmente nos remete a avaliação. Por outro lado, principalmente dentro do contexto educacional, a avaliação é sempre um processo complexo, tendo em vista que a preocupação principal está em o que avaliar e por que avaliar. Nesta tese, definiu-se que o objetivo é avaliar um Curso Superior na modalidade a distância tendo como base o ponto de vista dos cursistas. Foram aplicados questionários estruturados, com a utilização de técnicas de amostragem estatística para que eles pudessem opinar a respeito do curso que estavam frequentando. Neste questionário, foram consideradas perguntas discursivas (abertas) e com alternativas de respostas (perguntas fechadas). Nesta situação, as perguntas fechadas foram analisadas de forma quantitativa, utilizando... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Distance Learning courses as a way of acquiring knowledge have been expanding in the last 15 years, both nationally and globally. At the national level, this increase was noticed after regulations in this teaching modality by the Ministry of Education (MEC), at the undergraduate and postgraduate levels. With this increase, a concern arises with the form and quality in which the courses are presented. After the preliminary versions of 1997 and 2003, the Quality Referential in Distance Higher Education was published by MEC in 2007. When talking about quality, develop in the form of measurement, and that naturally remind us of evaluation. On the other hand, within the educational context, evaluation is always a complex process, given that the main concern is in question. In this situation, it was defined that the objective is to evaluate Distance Learning modality based on the student point of view. We applied structured questionnaires, using statistical sampling techniques so that the students could give their opinions about the course. In this questionnaire, we considered discursive questions (open questions) and questions with alternatives (closed questions). In this situation, closed questions can be analyzed quantitatively, using statistical techniques, such as a cluster analysis, however, for an open question, where the data are composed of unstructured texts, it was necessary to look for other methods. A textual analysis was then performed using IRAMUTEQ software. By thes... (Complete abstract click electronic access below) / Mestre Educação - Estudo e ensino. Avaliação. Análise por agrupamento. Ensino à distância. Teaching
44	Seleção de atributos via agrupamento / Clustering-based feature selection Covões, Thiago Ferreira 22 February 2010 (has links) O avanço tecnológico teve como consequência a geração e o armazenamento de quantidades abundantes de dados. Para conseguir extrair o máximo de informação possível dos dados tornou-se necessária a formulação de novas ferramentas de análise de dados. Foi então introduzido o Processo de Descoberta de Conhecimento em Bancos de Dados, que tem como objetivo a identificação de padrôes válidos, novos, potencialmente úteis e compreensíveis em grandes bancos de dados. Nesse processo, a etapa responsável por encontrar padrões nos dados é denominada de Mineração de Dados. A acurácia e eficiência de algoritmos de mineração de dados dependem diretamente da quantidade e da qualidade dos dados que serão analisados. Nesse sentido, atributos redundantes e/ou não-informativos podem tornar o processo de mineração de dados ineficiente. Métodos de Seleção de Atributos podem remover tais atributos. Nesse trabalho é proposto um algoritmo para seleção de atributos e algumas de suas variantes. Tais algoritmos procuram identificar redundância por meio do agrupamento de atributos. A identificação de atributos redundantes pode auxiliar não apenas no processo de identificação de padrões, mas também pode favorecer a compreensibilidade do modelo obtido. O algoritmo proposto e suas variantes são comparados com dois algoritmos do mesmo gênero descritos na literatura. Tais algoritmos foram avaliados em problemas típicos de mineração de dados: classificação e agrupamento de dados. Os resultados das avaliações mostram que o algoritmo proposto, e suas variantes, fornecem bons resultados tanto do ponto de vista de acurácia como de eficiência computacional, sem a necessidade de definição de parâmetros críticos pelo usuário / The technological progress has lead to the generation and storage of abundant amounts of data. The extraction of information from such data has required the formulation of new data analysis tools. In this context, the Knowledge Discovery from Databases process was introduced. It is focused on the identification of valid, new, potentially useful, and comprehensible patterns in large databases. In this process, the task of finding patterns in data is usually called Data Mining. The efficacy and efficiency of data mining algorithms are directly influenced by the amount and quality of the data being analyzed. Redundant and/or uninformative features may make the data mining process inefficient. In this context, feature selection methods that can remove such features are frequently used. This work proposes a feature selection algorithm and some of its variants that are capable of identifying redundant features through clustering. The identification of redundant features can favor not only the pattern recognition process but also the comprehensibility of the obtained model. The proposed method and its variants are compared with two feature selection algorithms based on feature clustering. These algorithms were evaluated in two well known data mining problems: classification and clustering. The results obtained show that the proposed algorithm obtained good accuracy and computational efficiency results, additionally not requiring the definition of critical parameters by the user Agrupamento Classificação Classification Clustering Feature seletion Seleção de atributos
45	Um framework para análise de agrupamento baseado na combinação multi-objetivo de algoritmos de agrupamento / A framework for cluster analysis based in the multi-objective combination of clustering algorithms Faceli, Katti 08 November 2006 (has links) Esta Tese apresenta um framework para análise exploratória de dados via técnicas de agrupamento. O objetivo é facilitar o trabalho dos especialistas no domínio dos dados. O ponto central do framework é um algoritmo de ensemble multi-objetivo, o algoritmo MOCLE, complementado por um método para a visualização integrada de um conjunto de partições. Pela aplicação conjunta das idéias de ensemble de agrupamentos e agrupamento multi-objetivo, o MOCLE efetua atomaticamente importantes passos da análise de agrupamento: executa vários algoritmos conceitualmente diferentes com várias configurações de parâmetros, combina as partições resultantes desses algoritmos e seleciona as partições com os melhores compromissos de diferentes medidas de validação. MOCLE é uma abordagem robusta para lidar com diferentes tipos de estrutura que podem estar presentes em um conjunto de dados. Ele resulta em um conjunto conciso e estável de estruturas alternativas de alta qualidade, sem a necessidade de conhecimento prévio sobre os dados e nem conhecimento profundo em análise de agrupamento. Além disso, para facilitar a descoberta de estruturas mais complexas, o MOCLE permite a integração automática de conhecimento prévio de uma estrutura simples por meio das suas funções objetivo. Finalmente, o método de visualização proposto permite a observação simultânea de um conjunto de partições. Isso ajuda na análise dos resultados do MOCLE. / This Thesis presents a framework for exploratory data analysis via clustering techniques. The goal is to facilitate the work of the experts in the data domain. The core of the framework is a multi-objective clustering ensemble algorithm, the MOCLE algorithm, complemented by a method for integrated visualization of a set of partitions. By applying together the ideas of clustering ensemble and multi-objective clustering, MOCLE automatically performs important steps of cluster analysis: run several conceptually different clustering algorithms with various parameter configuration, combine the partitions resulting from these algorithms, and select the partitions with the best trade-offs for different validation measures. MOCLE is a robust approach to deal with different types of structures that can be present in a dataset. It results in a concise and stable set of high quality alternative structures, without the need of previous knowledge about the data or deep knowledge on cluster analysis. Furthermore, in order to facilitate the discovery of more complex structures, MOCLE allows the automatic integration of previous knowledge of a simple structure via their objective functions. Finally, the visualization method proposed allows the simultaneous observation of a set of partitions. This helps in the analysis of MOCLE results. agrupamento clustering ensemble ensemble multi-objective multi-objetivo
46	Metodologia para reconhecimento de perfil cognitivo: uma abordagem computacional pautada pela teoria das inteligências múltiplas. / Recognition of cognitive profile: a computational approach supported by multiple intelligence theory. Fabiano Rodrigues Ferreira 02 October 2015 (has links) A área da Tecnologia da Informação no Brasil sofre um problema latente com a falta de planejamento e atrasos constantes em projetos, determinando para os profissionais vinculados a ela um ambiente altamente desmotivador para a condução de seus trabalhos. Supõe-se que o que possa corroborar para tal problema seja a formação educacional deficitária dos indivíduos que atuam neste segmento, principalmente aqueles relacionados a cargos executivos e que estejam exercendo atividades de gestão. De acordo com teóricos como Edgard Morin (2004), em se tratando de educação fundamental, média ou superior os aspectos educacionais podem ser considerados deficitários justamente porque, ao segmentar o conhecimento, eles promovem uma alienação do indivíduo, eliminando sua capacidade criativa e reflexiva. Seria interessante, portanto, que ao avaliar a capacidade cognitiva de uma pessoa, a inteligência a ser mensurada não seja abordada através de um único espectro de conhecimento, mas através de muitos deles. A teoria das Inteligências Múltiplas, desenvolvida por Howard Gardner vem de encontro a essa necessidade, pois de acordo com o autor, a inteligência de um indivíduo deve ser mensurada através de uma gama de nove espectros: Linguística, Musical, Lógico-Matemática, Espacial, Corporal Cinestésica, Interpessoal, Intrapessoal, Naturalista e Existencial. Isto posto, este trabalho aborda uma metodologia computacional para classificação e descoberta de padrões em indivíduos, sejam esses alunos ou profissionais graduados, de uma determinada área. Além da metodologia, foi proposto um estudo de caso, considerando cursos superiores relacionados à área de Computação no Brasil. / Brazils Information Technology area suffers a latent problem with the lack of planning and constant projects delays, determining for its professionals a highly demotivating work environment. It is assumed that a thing that could corroborate to this problem would be the deficient educational background of individuals who work in this segment, especially those related to management positions activities. According to theorists such as Edgard Morin, concerning both basic education, high school or college level, educational aspects can be considered deficient precisely why, when targeting a divided knowledge apprenticeship, they promote alienation of the individual, eliminating their creative and reflective capacity. It would be interesting, therefore, that a person cognitive ability evaluation considers many kinds of knowledge in instead of few ones. The theory of Multiple Intelligences by Howard Gardner meets this need. According to the author, an individual intelligence should be measured over a range of nine spectra: Linguistic, Musical, Logical-Mathematical, Spatial, Bodily-Kinesthetic, Interpersonal, Intrapersonal, Naturalist and Existential. In this way, this thesis discusses a computational methodology for classification and discovery of patterns in individuals, considering both undergraduate students or graduated professionals in a specific area. In addition to the methodology, a case study was proposed, considering computer-related higher education courses in Brazil. Agrupamento Inteligências múltiplas Reconhecimento de padrões Clustering Multiple intelligences Pattern recognition
47	Agrupamento de fluxos de dados utilizando dimensão fractal / Clustering data streams using fractal dimension Bones, Christian Cesar 15 March 2018 (has links) Realizar o agrupamento de fluxos de dados contínuos e multidimensionais (multidimensional data streams) é uma tarefa dispendiosa, visto que esses tipos de dados podem possuir características peculiares e que precisam ser consideradas, dentre as quais destacam-se: podem ser infinitos, tornando inviável, em muitas aplicações realizar mais de uma leitura dos dados; ponto de dados podem possuir diversas dimensões e a correlação entre as dimensões pode impactar no resultado final da análise e; são capazes de evoluir com o passar do tempo. Portanto, faz-se necessário o desenvolvimento de métodos computacionais adequados a essas características, principalmente nas aplicações em que realizar manualmente tal tarefa seja algo impraticável em razão do volume de dados, por exemplo, na análise e predição do comportamento climático. Nesse contexto, o objetivo desse trabalho de pesquisa foi propor técnicas computacionais, eficientes e eficazes, que contribuíssem para a extração de conhecimento de fluxos de dados com foco na tarefa de agrupamento de fluxos de dados similares. Assim, no escopo deste trabalho, foram desenvolvidos dois métodos para agrupamento de fluxos de dados evolutivos, multidimensionais e potencialmente infinitos, ambos baseados no conceito de dimensão fractal, até então não utilizada nesse contexto na literatura: o eFCDS, acrônimo para evolving Fractal Clustering of Data Streams, e o eFCC, acrônimo para evolving Fractal Clusters Construction. O eFCDS utiliza a dimensão fractal para mensurar a correlação, linear ou não, existente entre as dimensões dos dados de um fluxo de dados multidimensional num período de tempo. Esta medida, calculada para cada fluxo de dados, é utilizada como critério de agrupamento de fluxos de dados com comportamentos similares ao longo do tempo. O eFCC, por outro lado, realiza o agrupamento de fluxos de dados multidimensionais de acordo com dois critérios principais: comportamento ao longo do tempo, considerando a medida de correlação entre as dimensões dos dados de cada fluxo de dados, e a distribuição de dados em cada grupo criado, analisada por meio da dimensão fractal do mesmo. Ambos os métodos possibilitam ainda a identificação de outliers e constroem incrementalmente os grupos ao longo do tempo. Além disso, as soluções propostas para tratamento de correlações em fluxos de dados multidimensionais diferem dos métodos apresentados na literatura da área, que em geral utilizam técnicas de sumarização e identificação de correlações lineares aplicadas apenas à fluxos de dados unidimensionais. O eFCDS e o eFCC foram testados e confrontados com métodos da literatura que também se propõem a agrupar fluxos de dados. Nos experimentos realizados com dados sintéticos e reais, tanto o eFCDS quanto o eFCC obtiveram maior eficiência na construção dos agrupamentos, identificando os fluxos de dados com comportamento semelhante e cujas dimensões se correlacionam de maneira similar. Além disso, o eFCC conseguiu agrupar os fluxos de dados que mantiveram distribuição dos dados semelhante em um período de tempo. Os métodos possuem como uma das aplicações imediatas a extração de padrões de interesse de fluxos de dados proveniente de sensores climáticos, com o objetivo de apoiar pesquisas em Agrometeorologia. / To cluster multidimensional data streams is an expensive task since this kind of data could have some peculiarities characteristics that must be considered, among which: they are potencially infinite, making many reads impossible to perform; data can have many dimensions and the correlation among them could have an affect on the analysis; as the time pass through they are capable of evolving. Therefore, it is necessary the development of appropriate computational methods to these characteristics, especially in the areas where performing such task manually is impractical due to the volume of data, for example, in the analysis and prediction of climate behavior. In that context, the research goal was to propose efficient and effective techniques that clusters multidimensional evolving data streams. Among the applications that handles with that task, we highlight the evolving Fractal Clustering of Data Streams, and the eFCC acronym for evolving Fractal Clusters Construction. The eFCDS calculates the data streams fractal dimension to correlate the dimensions in a non-linear way and to cluster those with the biggest similarity over a period of time, evolving the clusters as new data is read. Through calculating the fractal dimension and then cluster the data streams the eFCDS applies an innovative strategy, distinguishing itself from the state-of-art methods that perform clustering using summaries techniques and linear correlation to build their clusters over unidimensional data streams. The eFCDS also identifies those data streams who showed anomalous behavior in the analyzed time period treating them as outliers. The other method devoleped is called eFCC. It also builds data streams clusters, however, they are built on a two premises basis: the data distribution should be likely the same and second the behavior should be similar in the same time period. To perform that kind of clustering the eFCC calculates the clusters fractal dimension itself and the data streams fractal dimension, following the evolution in the data, relocating the data streams from one group to another when necessary and identifying those that become outlier. Both eFCDS and eFCC were evaluated and confronted with their competitor, that also propose to cluster data streams and not only data points. Through a detailed experimental evaluation using synthetic and real data, both methods have achieved better efficiency on building the groups, better identifying data streams with similar behavior during a period of time and whose dimensions correlated in a similar way, as can be observed in the result chapter 6. Besides that, the eFCC also cluster the data streams which maintained similar data distribution over a period of time. As immediate application the methods developed in this thesis can be used to extract patterns of interest from climate sensors aiming to support researches in agrometeorology. Agrupamento de sensores Clustering Data streams Extração de conhecimento Fluxo de dados Sensors
48	Agrupamento automático de páginas web utilizando técnicas de web content mining Campos, Ricardo Nuno Taborda Dias, January 2005 (has links) Tese de mestrado. Engenharia Informática. Departamento de Informática. Universidade da Beira Interior. 2005 Selecção de páginas web Motores de busca Agrupamento automático de páginas web
49	Mineração de dados de anemia falciforme e priapismo / Sickle cell disease and priapism data mining Ozahata, Mina Cintho 02 July 2019 (has links) O avanço de novas tecnologias tem conduzido à geração de grandes volumes de dados biológicos, provenientes, por exemplo, de sequenciamento de genomas, expressão de genes e proteínas, estrutura de proteínas e RNAs, análise de imagens, formulários eletrônicos e exames médicos. Com o intuito de transformar esses volumosos conjuntos de dados brutos em informação e conhecimento que sejam compreensíveis e interpretáveis, técnicas de mineração de dados têm sido aplicadas no estudos de diversos processos biológicos, como a predição de genes, funções de genes, fenótipos, módulos regulatórios, estrutura de proteínas, função de proteínas e descoberta de interações moleculares. Cada conjunto de dados tem suas particularidades, demandando o emprego de distintas metodologias de análises e algoritmos de reconhecimento de padrões, como Florestas Aleatórias, Redes Neurais, Deep Learning, Modelo Oculto de Markov, Máquina de Vetores de Suporte, K-médias e Análise de Componentes Principais. A escolha do algoritmo a ser utilizado é influenciada por fatores como o tipo dos dados, a forma como são gerados, sua natureza, suas características e o objetivo do estudo. Assim, este trabalho teve como objetivo explorar técnicas de reconhecimento de padrões e estatística aplicadas a um conjunto de dados biológicos envolvendo pacientes com anemia falciforme, para extração de informação e conhecimento sobre os processos, fenômenos e sistemas biológicos envolvidos na doença. Foram realizadas análises de um conjunto de dados diverso, proveniente de registros clínicos, entrevistas com pacientes, exames clínicos e sequenciamento de polimorfismos de nucleotídeo único. Os dados demandam diferentes abordagens de análises, exploração e revelação da estrutura de dados intrínseca. Em uma análise inicial, foram aplicados algoritmos de reconhecimento de padrões a dados clínicos de pacientes com anemia falciforme, com o objetivo de obter grupos contendo pacientes similares. Os algoritmos PCAMix, PAM e TwoStep clustering foram capazes de gerar grupos homogêneos de pacientes, sendo que estes grupos apresentam distintas características clínicas e diferentes níveis de gravidade da doença quando comparados entre si. Os resultados indicam que características como idade, níveis de bilirrubina, histórico de transfusões, dor aguda da anemia falciforme, síndrome torácica aguda, acidente vascular cerebral, infarto cerebral silencioso, ataque isquêmico transitório, úlcera de pernas, moyamoya, ferritina, contagem de reti- culócitos, retinopatias, ataques epiléticos e hemossiderose transfusional são importantes para a definição de grupos homogêneos de pacientes, que apresentem distintos níveis de gravidade de anemia falciforme quando comparados entre si. Adicionalmente à análise de agrupamento, o conjunto de pacientes com histórico de priapismo, uma das complicações da anemia falciforme, foi estudado. O objetivo desta análise foi caracterizar clinicamente os pacientes com histórico de priapismo, e investigar fatores genéticos que alterassem o risco da doença. Observou-se que o priapismo ocorreu mais frequentemente em pacientes com genótipo HbSS, estando associado a idades mais avançadas e à ocorrência de hipertensão pulmonar e necrose avascular. Dois novos SNPs foram associados à ocorrência de priapismo, bem como houve indicativo de replicação da associação do gene TGFBR3 ao risco da doença. / Technology has been producing large biological datasets of genome sequences, gene and protein expression, RNA and protein structure, images, electronic questionnaires and laboratory test results. In order to extract information and knowledge from these large datasets, data mining techniques have been used in the investigation of a wide range of biological processes, with the goal of predicting gene, gene function, phenotype, regulatory modules, molecular interaction, protein function and protein structure. Each dataset has different characteristics and demands the application of different statistical methodologies and pattern recognition algorithms, such as Random Forests, Neural Networks, Deep Learning, Markov Hidden Model, Support Vector Machine, K-means and Principal Component Analysis. The choice of the algorithm depends on data type, data generation, data characteristics and goal of the study. Therefore, the goal of this work was to explore pattern recognition and statistical techniques in a biological dataset on sickle cell disease patients, in order to extract information and knowledge about the biological systems, processes and mechanisms associated with the disease. A diverse dataset was analyzed, containing data from medical records, patient interviews, laboratory tests and single nucleotide polymorphisms. The dataset requires a variety of analysis approaches, in order to explore and reveal the hidden data structure. In an initial investigation, pattern recognition algorithms were used in the analysis of clinical data from sickle cell patients, in order to obtain clusters containing similar patients. PCAMix, PAM and TwoStep clustering algorithms generated homogeneous clusters of patients that display different clinical characteristics and different levels of disease severity. The results show that age, bilirubin levels, transfusion history, vaso-occlusive pain episodes, acute chest syndrome, infarctive stroke, hemorrhagic stroke, ischemic attack, leg ulcers, moyamoya, ferritin, reticulocyte count, retinopathy, seizures and transfusional hemosiderosis are important to define homogeneous patient clusters, with distinct levels of sickle cell severity. Additionally, the patients with history of priapism, a sickle cell related complication, were studied. The goal of the study was to characterize patients with priapism history and investigate genetic factors that modify the risks of the disease. Priapism more frequently occurred among patients with HbSS genotype and was associated with older age and occurrence of pulmonary hypertension and avascular necrosis. Two novel SNPs were associated with priapism and there was evidence of replication of a previously reported association of TGFBR3 with priapism risk. Agrupamento Anemia falciforme Clustering GWAS GWAS SIckle cell disease
50	Uso de agrupamento de interesse e trajetória para caracterização de sessões de aprendizado Nichele, Caren Moraes January 2006 (has links) Made available in DSpace on 2013-08-07T18:42:18Z (GMT). No. of bitstreams: 1 000406064-Texto+Completo-0.pdf: 2136241 bytes, checksum: 1ec360a68cfe28f759f1832832dffb38 (MD5) Previous issue date: 2006 / The Web Usage Mining (WUM) applies data mining techniques to discover web usage patterns from Web server logs. The WUM process is composed by three major phases: pre-processing (where data is collected, cleaned and transformed), pattern discovery (in which mining algorithms are applied), and pattern analysis (where resulting patterns are analyzed). The categorization of visitor’s behavior based on their interaction in the web site is a key issue in WUM. In the E-learning area this topic becomes more relevant due to the lack of face-to-face contact between students and professors, given the physical distance, as well as the semantical gap between URLs and corresponding application events. Clustering, which subject of this research, is a mining technique that aims at grouping objects on basis of high inter-group similarity and low inter-group similarity. Several works leverage clustering techniques with the purpose of characterizing web user behavior during navigation. However, most of the works do not consider the meaning of visited URLs in the application domain, when measuring similarity between web sessions. Page semantics is frequently considered in the pre-processing phase, in data enrichment tasks, in which URLs are mapped into domain concepts. This approach is static in the sense that a new perspective of a URL (e. g. more generalized concept), to obtain better clustering results, often implies re-processing data. In addition to that, the correct clustering technique execution is a complex task which includes data preparation and transformation according to the mining objectives in such way interesting patterns can be found. Considering these problems, this research proposes a clustering mechanism and an interpretation mechanism as a way to characterize student’s behavior in a Web course. These mechanisms aim make the clustering technique execution and group analysis easy to a non data mining expert person. The proposed mechanisms are based in a domain taxonomy representing the domain events for addressing the semantic gap between URLs and application events. The clustering mechanism considers the similarity between visited pages as a way to improve the quality of clustering results. The proposed interpretation mechanism allows visualize the characteristics for each group, according to the clustering objective, as well as inspects groups dynamically considering the different levels of abstraction for application events in the domain taxonomy. These mechanisms establish the basis for categorization of web user behavior, for which a prototype was developed. / Um dos principais problemas evidenciados no domínio da Educação a Distância (EAD) é a falta de percepção que os instrutores de cursos Web têm quanto à interação dos alunos durante o processo de aprendizado. Este problema é mais fortemente evidenciado no ambiente da EAD devido ao pouco contato entre os instrutores e os alunos, dadas as limitações dos ca°nais de comunicação, e à falta de semântica no registro das páginas acessadas, em relação ao seu significado no domínio da aplicação. A Mineração do Uso da Web (MUW) oferece técnicas de mineração de dados que permitem descobrir padrões de utilização da Web para melhor entender e servir as necessidades das aplicações. O processo de MUW é composto de etapas, a saber: préprocessamento, descoberta de padrões e análise de padrões. Várias técnicas podem ser aplicadas na etapa de descoberta de padrões. A técnica de agrupamento, foco deste trabalho, destaca-se por agregar valor nesta questão, pois tende a estabelecer grupos de usuários que mostram padrões de comportamento semelhantes. O agrupamento de sessões Web tem impulsionado uma grande área de pesquisa que visa caracterizar os usuários com base na navegação na Web. Porém, nenhum trabalho foi encontrado que aborde a similaridade entre as páginas considerando a semântica dos eventos da aplicação quando computando a similaridade entre as sessões Web. Além disso, a correta aplicação da técnica de agrupamento é uma tarefa complexa que envolve desde a preparação dos dados até a escolha do algoritmo de agrupamento, além de estar fortemente associada à complexidade do processo de descoberta de conhecimento. Dados os problemas identificados, este trabalho propõe mecanismos de agrupamento e de interpretação de padrões que facilitem, respectivamente, a aplicação da técnica de agrupamento e a análise dos grupos por pessoas leigas, visando auxiliar na caracterização das sessões de aprendizado em um ambiente de EAD. Estes mecanismos fazem uso de uma taxonomia como forma de agregar semântica aos eventos do domínio, reduzindo assim a necessidade de retorno à etapa de pré-processamento. O mecanismo de agrupamento proposto visa facilitar a aplicação da técnica de agrupamento e aumentar a qualidade dos grupos, considerando para isso a similaridade entre as páginas com base na semântica dos eventos do domínio. O mecanismo de interpretação proposto permite representar os grupos visualmente, de modo condizente com o objetivo do agrupamento, bem como inspecionar dinamicamente os grupos formados considerando os diferentes níveis de abstração das páginas no domínio da aplicação. Foi desenvolvido um ambiente de apoio para auxiliar o intrutor durante a execução das etapas da MUW visando a facilitar a aplicação do agrupamento e a análise das sessões de aprendizado. INFORMÁTICA MINERAÇÃO DE DADOS (INFORMÁTICA) WORLD WIDE WEB

Search results