1 |
Online clustering of trajectory data stream / Online Clustering of Trajectory Data Stream.Silva, Ticiana Linhares Coelho da January 2016 (has links)
SILVA, Ticiana Linhares Coelho da. Online clustering of trajectory data stream. 2016. 113 f. Tese (Doutorado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2016. / Submitted by Jairo Viana (jairo@ufc.br) on 2017-02-17T18:32:07Z
No. of bitstreams: 1
2016_tese_tlcsilva.pdf: 21709584 bytes, checksum: 1454aec7cf746b2ad56eda5865264deb (MD5) / Approved for entry into archive by Jairo Viana (jairo@ufc.br) on 2017-02-17T18:32:27Z (GMT) No. of bitstreams: 1
2016_tese_tlcsilva.pdf: 21709584 bytes, checksum: 1454aec7cf746b2ad56eda5865264deb (MD5) / Made available in DSpace on 2017-02-17T18:32:27Z (GMT). No. of bitstreams: 1
2016_tese_tlcsilva.pdf: 21709584 bytes, checksum: 1454aec7cf746b2ad56eda5865264deb (MD5)
Previous issue date: 2016 / Mining trajectory patterns allows characterizing movement behavior (i.e. congestion, flocks, swarms, leadership, among others), which leverages new applications and services. Movement tracking becomes ubiquitous in many applications, which raises great interests in trajectory data analysis and mining. Most existing approaches allow characterizing the past movements of the objects but not current patterns, because they use only historical trajectory data. Recent approaches for online clustering of moving objects location are restricted to instantaneous positions. Subsequently, they fail to capture moving objects' behavior over time. By continuously tracking moving objects' sub-trajectories at each time window, rather than just the last position, it becomes possible to gain insight on the current behavior, and potentially detect mobility patterns in real time. Real-time analysis of mobility data may offer novel tools to better understand ongoing city dynamics, as well as the detection of regularities and anomalies as they happen; all in all, this can represent an invaluable tool when tackling decision-making tasks. Among the possible patterns, in this thesis we mainly consider (sub)-trajectory clustering and its evolution. Discovering such patterns may help to re-engineer effectively the traffic within a city, or to promptly detect events at the city level (e.g., car accidents) as they happen. In the first line of investigation we tackle the problem of discovering and maintaining the density based clusters in trajectory data streams in Euclidean Space, despite the fact that most moving objects change their position over time. We propose CUTiS, an incremental algorithm to solve this problem, while tracking the evolution of the clusters as well as the membership of the moving objects to the clusters. Our experiments were conducted on two real datasets and the experiments show the efficiency and the effectiveness of our method comparing to two competitors DBSCAN and TraClus. As a second line of research, we aim at improving the efficiency of the CUTiS algorithm. In this way, we propose an indexing structure for sub-trajectory data based on a space-filling curve. This approach has the property of mapping a multidimensional space to one-dimensional space such that, for two objects that are close in the original space, there is a high probability that they will be close in the mapped target space. We take advantage of this property to optimize range queries from a moving object sub-trajectory on the incremental clustering algorithm. Our experiments were conducted on a real data set and they show the efficiency and the effectiveness of our method compared to our previous proposed CUTiS, DBSCAN and TraClus. As a third line, we investigate the same problem of sub-trajectory clustering discovery and maintenance on a Road Network since many moving objects move on the road network in real applications. We propose Net-CUTiS an incremental clustering algorithm for road network constraint movement. The efficiency and effectiveness of Net-CUTiS were compared using a real dataset with NETSCAN and DBSCAN. / A mineração de dados de trajetória permitem caracterizar o comportamento de movimento (isto é, congestionamento, flocks, swarms, leadership, entre outros padrões de movimento), impulsionando novas aplicações e serviços. O rastreamento de objetos móveis se torna onipresente em muitas aplicações, o que gera grande interesse na análise de dados de trajetória e na mineração destes dados. A maioria das abordagens permite detectar padrões de movimento em dados históricos de objetos, mas não padrões atuais. Abordagens recentes para clusterização online de objetos móveis se restringem a analisar posições instantâneas. Dessa forma, estes trabalhos não conseguem capturar o comportamento dos objetos em movimento ao longo do tempo. Ao monitorar continuamente as sub-trajetórias de objetos móveis em intervalos de tempo, ao invés de apenas a última posição, é possível obter uma visão sobre o comportamento atual e potencialmente detectar padrões de mobilidade em tempo real. A análise em tempo real dos dados de mobilidade pode oferecer conhecimento para entender melhor a dinâmica da cidade em curso, bem como a detecção de irregularidades e anomalias à medida que acontecem; Este estudo é relevante para tomada de decisão. Entre os possíveis padrões, nesta tese consideramos principalmente o agrupamento (clusterização) de sub-trajetórias e a evolução do movimento dos objetos. Descobrir esses padrões pode ajudar na re-engenharia do tráfego de grandes cidades, ou para detectar prontamente eventos (por exemplo, acidentes de carro, passeatas, entre outros) à medida que eles acontecem. Na primeira linha de investigação desta tese, abordamos o problema de descobrir e manter os clusters baseados em densidade utilizando streams de trajetórias no Espaço Euclidiano, levando em consideração que a maioria dos objetos em movimento muda de posição ao longo do tempo. Dessa forma, esta tese propõe o framework CUTiS (ClUstering Trajectory Stream), um algoritmo incremental para resolver este problema. CUTiS é capaz de monitorar a evolução dos padrões de movimento (clusters), bem como a adesão dos objetos em movimento aos padrões já existentes. Nossos experimentos foram conduzidos em dois conjuntos de dados reais e os experimentos mostram a eficiência e a eficácia do nosso método comparando a dois concorrentes DBSCAN e TraClus. Como segunda linha de pesquisa, esta tese teve como objetivo melhorar a eficiência do algoritmo CUTiS. Desta forma, foi proposto uma estrutura de indexação para dados de sub-trajetória com base em space filling curve. Esta abordagem tem a propriedade de mapear um espaço multidimensional para um espaço unidimensional tal que, para dois objetos que estão próximos no espaço original, existe uma alta probabilidade de que eles fiquem próximos no espaço alvo mapeado. Essa propriedade foi utilizada para otimizar range queries de uma sub-trajetória de um objeto no algoritmo de clusterização incremental. Nossos experimentos foram conduzidos em um conjunto de dados reais e eles mostram a eficiência e a eficácia do nosso método em comparação com a nossa proposta anterior CUTiS, e as abordagens DBSCAN e TraClus. Como terceira linha, investigamos o mesmo problema de descoberta e manutenção de clusters de sub-trajetórias em uma rede rodoviária, já que muitos objetos em movimento se movem na rede rodoviária em aplicações reais. Dessa forma, foi proposto como solução o Net-CUTiS, um algoritmo de clusterização incremental para sub-trajetórias de objetos com restrição de movimento em rede rodoviária. A eficiência e a eficácia do Net-CUTiS foram comparadas usando um conjunto de dados real com a abordagem NETSCAN e DBSCAN.
|
2 |
Detecção de Falhas em Internos de Válvulas de Controle Atuando em Múltiplas Regiões de OperaçãoMOUTINHO, M. V. B. 09 August 2016 (has links)
Made available in DSpace on 2018-08-02T00:00:35Z (GMT). No. of bitstreams: 1
tese_10163_dissertação_Marcus_Final.pdf: 1595922 bytes, checksum: e550fa281295a5776160ee86eafd29d1 (MD5)
Previous issue date: 2016-08-09 / Muitas técnicas de monitoramento de processos usando abordagens estatísticas assumem que os dados possuem uma distribuição normal. Além disso, várias destas técnicas requerem que a operação da planta se mantenha na mesma região, resultando na geração de um número elevado de falsos alarmes caso não sejam satisfeitas. Neste trabalho, uma técnica robusta de agrupamento de dados é utilizada para tratar plantas operando em múltiplos pontos de operação. A metodologia é aplicada à detecção de falhas em internos
de válvulas de controle, que pertence a esta classe de problema. Além disto, a falha considerada é de difícil detecção dada à dificuldade de instalar sensores para tal. Para avaliação da metodologia estudada, foi utilizado o benchmark DAMADICS. A técnica de agrupamento apresentada tem a capacidade de lidar com um determinado percentual de dados espúrios que podem surgir, inclusive em situações transitórias. Essa característica otimiza a etapa de pré-tratamento dos dados. Uma comparação com o método tradicional (sem agrupamento) é realizado destacando suas características e superioridade.
|
3 |
Characterization of implied scenarios as families of Common BehaviorMelo, Caio Batista de 31 August 2018 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018. / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). / Sistemas concorrentes enfrentam uma ameaça à sua confiabilidade em comportamentos
emergentes, os quais não são incluídos na especificação, mas podem acontecer durante o
tempo de execução. Quando sistemas concorrentes são modelados a base de cenários, é
possível detectar estes comportamentos emergentes como cenários implícitos que, analogamente,
são cenários inesperados que podem acontecer devido à natureza concorrente
do sistema. Até agora, o processo de lidar com cenários implícitos pode exigir tempo
e esforço significativos do usuário, pois eles são detectados e tratados um a um. Nesta
dissertação, uma nova metodologia é proposta para lidar com vários cenários implícitos
de cada vez, encontrando comportamentos comuns entre eles. Além disso, propomos uma
nova maneira de agrupar estes comportamentos em famílias utilizando uma técnica de
agrupamento usando o algoritmo de Smith-Waterman como uma medida de similaridade.
Desta forma, permitimos a remoção de vários cenários implícitos com uma única correção,
diminuindo o tempo e o esforço necessários para alcançar maior confiabilidade do sistema.
Um total de 1798 cenários implícitos foram coletados em sete estudos de caso, dos quais
14 famílias de comportamentos comuns foram definidas. Consequentemente, apenas 14
restrições foram necessárias para resolver todos os cenários implícitos coletados coletados,
aplicando nossa abordagem. Estes resultados suportam a validade e eficácia da nossa
metodologia. / Concurrent systems face a threat to their reliability in emergent behaviors, which are not
included in the specification but can happen during runtime. When concurrent systems
are modeled in a scenario-based manner, it is possible to detect emergent behaviors as
implied scenarios (ISs) which, analogously, are unexpected scenarios that can happen due
to the concurrent nature of the system. Until now, the process of dealing with ISs can
demand significant time and effort from the user, as they are detected and dealt with in a
one by one basis. In this paper, a new methodology is proposed to deal with various ISs
at a time, by finding Common Behaviors (CBs) among them. Additionally, we propose
a novel way to group CBs into families utilizing a clustering technique using the Smith-
Waterman algorithm as a similarity measure. Thus allowing the removal of multiple
ISs with a single fix, decreasing the time and effort required to achieve higher system
reliability. A total of 1798 ISs were collected across seven case studies, from which 14
families of CBs were defined. Consequently, only 14 constraints were needed to resolve all
collected ISs, applying our approach. These results support the validity and effectiveness
of our methodology.
|
4 |
G2P-DBSCAN: Estratégia de Particionamento de Dados e de Processamento Distribuído fazer DBSCAN com MapReduce. / G2P-DBSCAN: Data Partitioning Strategy and Distributed Processing of DBSCAN with MapReduce.Araújo Neto, Antônio Cavalcante January 2016 (has links)
ARAÚJO NETO, Antônio Cavalcante. G2P-DBSCAN: Estratégia de Particionamento de Dados e de Processamento Distribuído fazer DBSCAN com MapReduce. 2016. 63 f. Dissertação (mestrado em ciência da computação)- Universidade Federal do Ceará, Fortaleza-CE, 2016. / Submitted by Elineudson Ribeiro (elineudsonr@gmail.com) on 2016-03-22T19:21:02Z
No. of bitstreams: 1
2016_dis_acaraujoneto.pdf: 5671232 bytes, checksum: ce91a85d087f63206ad938133c163560 (MD5) / Approved for entry into archive by Rocilda Sales (rocilda@ufc.br) on 2016-04-25T12:33:12Z (GMT) No. of bitstreams: 1
2016_dis_acaraujoneto.pdf: 5671232 bytes, checksum: ce91a85d087f63206ad938133c163560 (MD5) / Made available in DSpace on 2016-04-25T12:33:12Z (GMT). No. of bitstreams: 1
2016_dis_acaraujoneto.pdf: 5671232 bytes, checksum: ce91a85d087f63206ad938133c163560 (MD5)
Previous issue date: 2016 / Clustering is a data mining technique that brings together elements of a data set such so that the elements of a same group are more similar to each other than to those from other groups. This thesis studied the problem of processing the clustering based on density DBSCAN algorithm distributedly through the MapReduce paradigm. In the distributed processing it is important that the partitions are processed have approximately the same size, provided that the total of the processing time is limited by the time the node with a larger amount of data leads to complete the computation of data assigned to it. For this reason we also propose a data set partitioning strategy called G2P, which aims to distribute the data set in a balanced manner between partitions and takes into account the characteristics of DBSCAN algorithm. More Specifically, the G2P strategy uses grid and graph structures to assist in the division of space low density regions. Distributed DBSCAN the algorithm is done processing MapReduce two stages and an intermediate phase that identifies groupings that can were divided into more than one partition, called candidates from merging. The first MapReduce phase applies the algorithm DSBCAN the partitions individually. The second and checks correcting, if necessary, merge candidate clusters. Experiments using data sets demonstrate that true G2P-DBSCAN strategy overcomes the baseline adopted in all the scenarios, both at runtime and quality of obtained partitions. / Clusterizaçao é uma técnica de mineração de dados que agrupa elementos de um conjunto de dados de forma que os elementos que pertencem ao mesmo grupo são mais semelhantes entre si que entre elementos de outros grupos. Nesta dissertação nós estudamos o problema de processar o algoritmo de clusterização baseado em densidade DBSCAN de maneira distribuída através do paradigma MapReduce. Em processamentos distribuídos é importante que as partições de dados a serem processadas tenham tamanhos proximadamente iguais, uma vez que o tempo total de processamento é delimitado pelo tempo que o nó com uma maior quantidade de dados leva para finalizar a computação dos dados a ele atribuídos. Por essa razão nós também propomos uma estratégia de particionamento de dados, chamada G2P, que busca distribuir o conjunto de dados de forma balanceada entre as partições e que leva em consideração as características do algoritmo DBSCAN. Mais especificamente, a estratégia G2P usa estruturas de grade e grafo para auxiliar na divisão do espaço em regiões de baixa densidade. Já o processamento distribuído do algoritmo DBSCAN se dá por meio de duas fases de processamento MapReduce e uma fase intermediária que identifica clusters que podem ter sido divididos em mais de uma partição, chamados de candidatos à junção. A primeira fase de MapReduce aplica o algoritmo DSBCAN nas partições de dados individualmente, e a segunda verifica e corrige, caso necessário, os clusters candidatos à junção. Experimentos utilizando dados reais mostram que a estratégia G2P-DBSCAN se comporta melhor que a solução utilizada para comparação em todos os cenários considerados, tanto em tempo de execução quanto em qualidade das partições obtidas.
|
5 |
Uso de rede de Kohonen para a clusterização de objetos de aprendizagemSilva, Patric Ferreira da 08 August 2007 (has links)
Made available in DSpace on 2016-04-18T21:39:46Z (GMT). No. of bitstreams: 3
Patric Ferreira da Silva1.pdf: 1479671 bytes, checksum: a96eecad303d34f9d8e2a212f283fefc (MD5)
Patric Ferreira da Silva2.pdf: 1611161 bytes, checksum: a756da7270e8b0333a05ef0fbbd9d7c4 (MD5)
Patric Ferreira da Silva3.pdf: 2568422 bytes, checksum: ec60856a28f2e66a7209520b82882d36 (MD5)
Previous issue date: 2007-08-08 / Instituto Presbiteriano Mackenzie / The increasing availability of digital education resources in the Internet, called learning objects, has been followed by the definition of indexation standards. However, the lack of consensus about the definition of learning objects, as well the diversity of metadata approaches for its classification hinders the selection process of these elements. This scenery requires new investigations that make possible the establishment of parameters for the creation of a specific model of artificial neural network for the learning objects clustering. The implementation of this model is linked to a theoretical-methodological option, based on standard metadata criteria, which makes possible the formation of input samples for the construction of a Self-Organizing Maps (Kohonen model) through algorithms and mathematical models. Consequently, the development of this learning objects clustering proposal can subsidize the educational work in presential and on-line environments and to collaborate for the learning objects reusability. It was also object of this research the investigation of as a weight mask, one of the Kohonen model s parameters, affects the final result. For that it was made a comparison of the training result with and without the mask, showing the relevance of this method for obtaining the results of the present research. / A crescente disponibilização, na Internet, de recursos educacionais digitais, denominados de objetos de aprendizagem, tem sido acompanhada da definição de padrões de indexação. Contudo, a falta de consenso sobre a caracterização de objetos de aprendizagem, bem como a diversidade de abordagens de metadados para sua classificação dificulta o processo de seleção destes elementos. Este cenário requer novas investigações que
possibilitem o estabelecimento de parâmetros para a criação de um modelo específico de Rede Neural Artificial para a clusterização de objetos de aprendizagem. A implementação deste modelo vinculou-se a uma opção teórico-metodológica pautada em critérios de padrões de metadados, o que possibilitou a formação de um espaço amostral para a construção de um Mapa Auto-Organizável (Rede de Kohonen) por meio de algoritmos e modelos matemáticos. Conseqüentemente, o desenvolvimento desta proposta de
clusterização de objetos de aprendizagem pode subsidiar o trabalho educacional presencial e on-line e colaborar para a reusabilidade dos objetos de aprendizagem. Foi também objeto desta pesquisa a investigação de como a máscara de pesos, um dos parâmetros da Rede de Kohonen, afeta resultado final. Para isso foi feita uma comparação do resultado do treinamento com e sem a máscara, o que mostrou a relevância deste método para a obtenção dos resultados da presente pesquisa.
|
6 |
Modelo para geração de linhas temporais contextuais em investigações digitais / Model for the generation of contextual temporative lines in digital investigationsOliveira, Regis Levino de 15 December 2016 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2016. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2017-05-02T15:58:16Z
No. of bitstreams: 1
2016_RegisLevinodeOliveira.pdf: 2685432 bytes, checksum: f9200b42b69730261b2d1114b3efa607 (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2017-05-03T00:16:07Z (GMT) No. of bitstreams: 1
2016_RegisLevinodeOliveira.pdf: 2685432 bytes, checksum: f9200b42b69730261b2d1114b3efa607 (MD5) / Made available in DSpace on 2017-05-03T00:16:07Z (GMT). No. of bitstreams: 1
2016_RegisLevinodeOliveira.pdf: 2685432 bytes, checksum: f9200b42b69730261b2d1114b3efa607 (MD5)
Previous issue date: 2017-05-02 / Para a elucidação de casos em que o uso de equipamentos digitais está presente, os peritos necessitam realizar a reconstrução dos eventos ocorrida no tempo. Assim, o processo de análise de linhas temporais é uma técnica bastante empregada em exames periciais em ambientes computacionais. No entanto, a maioria dos estudos em linhas temporais concentra-se nos desafios da extração de registros temporais e na normalização desses dados, tratando dos problemas advindos da aquisição de diversas fontes, com menos ênfase em como visualizar e analisar um grande volume desses dados. Este trabalho propõe um modelo para gerar linhas temporais contextualizadas, onde cada rótulo temporal é associado a outras quatro dimensões: local, pessoa, assunto e evento. Um algoritmo de clusterização é então utilizado para gerar linhas temporais com dados similares, que são mais fáceis de visualizar e interpretar. Algoritmos de agrupamento facilitam o descobrimento de novos conhecimentos a partir dos dados analisados. Após obter as linhas temporais contextuais, o perito analisa os dados em conjunto com a linha temporal única, sem contextos, que contém todos os registros temporais extraídos das diversas fontes coletadas, observando os registros que, antes do processo de contextualização, eram mais difíceis de serem observados. Nos resultados obtidos, por meio do estudo de caso, foram obtidas linhas temporais cujos registros apresentam semelhança contextual entre si, reduzindo a interferência de outros registros não relacionados. No experimento proposto, pode-se identificar com mais facilidade os suspeitos com maior interação e os momentos de maior atividade relacionados às condutas investigadas. / For the elucidation of cases where the use of digital equipment is present, the experts need to perform the reconstruction of the events occurred in time. Thus, the process of analysis of timelines is a technique widely used in expert examinations in computational environments. However, most timeline studies focus on the challenges of extracting temporal records and normalizing these data, addressing the problems of acquiring multiple sources, with less emphasis on how to view and analyze a large volume of such data. This work proposes a model to generate contextualized time lines, where each time label is associated with four other dimensions: location, person, subject and event. A clustering algorithm is then used to generate timelines with similar data, which are easier to visualize and interpret. Grouping algorithms facilitate the discovery of new knowledge from the analyzed data. After obtaining the contextual timelines, the expert analyzes the data in conjunction with the single timeline, without contexts, which contains all the temporal records extracted from the various sources collected, observing the records that, prior to the contextualization process, were more difficult to be observed. In the obtained results, through the case study, temporal lines were obtained whose registers present contextual similarity among themselves, reducing the interference of other unrelated records. In the proposed experiment, it is possible to identify more easily the suspects with greater interaction and the moments of greater activity related to the conducts investigated.
|
7 |
Desenvolvimento de modelos dinâmicos para a formação de clusters aplicados em dados biológicos / Developing dynamical systems for data clustering applied to biological dataDamiance Junior, Antonio Paulo Galdeano 16 October 2006 (has links)
Com o advento da tecnologia de microarray, uma grande quantidade de dados de expressão gênica encontra-se disponível. Após a extração das taxas de expressão dos genes, técnicas de formação de clusters são utilizadas para a análise dos dados. Diante da diversidade do conhecimento que pode ser extraído dos dados de expressão gênica, existe a necessidade de diferentes técnicas de formação de clusters. O modelo dinâmico desenvolvido em (Zhao et. al. 2003a) apresenta diversas características interessantes para o problema de formação de clusters, entre as quais podemos citar: a não necessidade de fornecer o número de cluster, a propriedade de multi-escala, serem altamente paralelos e, principalmente, permitirem a inserção de regras e mecanismos mais complexos para a formação dos clusters. Todavia, este modelo apresenta dificuldades em determinar clusters de formato e tamanho arbitrários, além de não realizar a clusterização hierárquica, sendo estas duas características desejáveis para uma técnica de clusterização. Neste trabalho, foram desenvolvidas três técnicas para superar as limitações do modelo dinâmico proposto em (Zhao et. al. 2003a). O Modelo1, o qual é uma simplificação do modelo dinâmico original, porém mais eficiente. O Modelo2, que a partir da inserção de um novo conjunto de elementos no modelo dinâmico, permite a formação de clusters de formato e tamanho arbitrário. E um algoritmo para a clusterização hierárquica que utiliza o Modelo1 como bloco de construção. Os modelos desenvolvidos foram aplicados em dados biológicos, segmentando imagens de microarray e auxiliando na análise do conjunto expressão de genes de St. Jude Leukemia. / With the advent of microarray technology, a large amount of gene expression data is now available. Clustering is the computational technique usually employed to analyze and explore the data produced by microarrays. Due to the variety of information that can be extracted from the expression data, many clustering techniques with different approaches are needed. In the work proposed by (Zhao et. al. 2003a), the dynamical model for data clustering has several interesting features to the clustering task: the number of clusters does not need to be known, the multi-scale property, high parallelism, and it is flexible to use more complex rules while clustering the data. However, two desirable features for clustering techniques are not present: the ability to detect different clusters sizes and shapes, and a hierarchical representation of the clusters. This project presents three techniques, overcoming the restrictions of the dynamical model proposed by (Zhao et. al. 2003a). The first technique, called Model1, is more effective than the original model and was obtained simplifying it. The second technique, called Model2, is capable of detecting different clusters sizes and shapes. The third technique consists in a hierarchical algorithm that uses Model1 as a building block. The techniques here developed were used with biological data. Microarray image segmentation was performed and the St. Jude Leukemia gene expression data was analyzed and explored.
|
8 |
Desenvolvimento de algoritmo de clusterização para calorímetro frontal do experimento ALICE no LHC / Development of clustering algorithm for foward calorimeter in the ALICE experiment at the LHCSilva, Danilo Anacleto Arruda da 22 September 2014 (has links)
O Grande Colisor de Hádrons (Large Hadron Collider - LHC) é um acelerador de prótons e íons pesados localizado no CERN (Conseil Européen pour la Recherche Nucléaire). Em um de seus experimentos, ALICE (A Large Ion Collider Experiment ), está sendo projetado um detector dedicado a explorar os aspectos únicos de colisões núcleo-núcleo. A principal finalidade do ALICE é estudar a formação de um novo estado da matéria, o plasma de quarks e glúon. Para isto devem-se ter medidas precisas de hádrons, elétrons, múons e fótons produzidos em colisões chumbo-chumbo. Assim está sendo proposto um calorímetro frontal (Foward Calorimeter - FoCal) como um upgrade para o ALICE. A função deste calorímetro é o estudo das funções de distribuição de pártons (Partons distribuction Functions - PDF) no regime de pequenos valores do x de Bjorken. Nesta região é esperado que estas PDFs tenham um comportamento não linear devido ao processo de saturação de glúons. Para o estudo desta região é necessária a medida de fótons diretos produzidos na colisão. Estes, por sua vez, ficam mascarados pelo fundo de fótons provenientes do decaimento de píon, o que leva a uma necessidade de suas identificações. Com isto surge a oportunidade para a utilização do método de clusterização que é uma ferramenta de mineração de dados. Este trabalho contribuiu para o desenvolvimento inicial de um algoritmo de clusterização para o calorímetro FoCal. / The Large Hadron Collider (LHC) is a CERN\'s accelerator that collides protons and heavy ions. One of its experiments, ALICE, is building a new detector to explore new aspects of heavy ions collisions. The Alice\'s main goal is to study the formation of quark-gluon plasma (QGP). To do that it\'s necessary to get accurate data on hadrons, electrons, muons and gammas created in lead-lead collision. So, to accomplish that a new calorimeter is in study to scan the foward region of experiment, the Foward Calorimeter (FoCal). It\'s proposed to study Parton Distribution Functions (PDFs) in a regime of very small Bjorken-x, where it is expected that the PDFs evolve non-linearly due to the high gluon densities, a phenomena referred to as gluon saturation.But to do that it\'s required to measure the direct gammas created on collision. These fotons are blended on by fotons descendant of pion. So there\'s a need to separate it from the direct gammas. One way to solve this problem is to use clustering methods (a type of mining data algorithm). This work helped on early stages of development that clustering algorithm.
|
9 |
Clusterização de dados utilizando técnicas de redes complexas e computação bioinspirada / Data clustering based on complex network community detectionOliveira, Tatyana Bitencourt Soares de 25 February 2008 (has links)
A Clusterização de dados em grupos oferece uma maneira de entender e extrair informações relevantes de grandes conjuntos de dados. A abordagem em relação a aspectos como a representação dos dados e medida de similaridade entre clusters, e a necessidade de ajuste de parâmetros iniciais são as principais diferenças entre os algoritmos de clusterização, influenciando na qualidade da divisão dos clusters. O uso cada vez mais comum de grandes conjuntos de dados aliado à possibilidade de melhoria das técnicas já existentes tornam a clusterização de dados uma área de pesquisa que permite inovações em diferentes campos. Nesse trabalho é feita uma revisão dos métodos de clusterização já existentes, e é descrito um novo método de clusterização de dados baseado na identificação de comunidades em redes complexas e modelos computacionais inspirados biologicamente. A técnica de clusterização proposta é composta por duas etapas: formação da rede usando os dados de entrada; e particionamento dessa rede para obtenção dos clusters. Nessa última etapa, a técnica de otimização por nuvens de partículas é utilizada a fim de identificar os clusters na rede, resultando em um algoritmo de clusterização hierárquico divisivo. Resultados experimentais revelaram como características do método proposto a capacidade de detecção de clusters de formas arbitrárias e a representação de clusters com diferentes níveis de refinamento. / DAta clustering is an important technique to understand and to extract relevant information in large datasets. Data representation and similarity measure adopted, and the need to adjust initial parameters, are the main differences among clustering algorithms, interfering on clusters quality. The crescent use of large datasets and the possibility to improve existing techniques make data clustering a research area that allows innovation in different fields. In this work is made a review of existing data clustering methods, and it is proposed a new data clustering technique based on community dectection on complex networks and bioinspired models. The proposed technique is composed by two steps: network formation to represent input data; and network partitioning to identify clusters. In the last step, particle swarm optimization technique is used to detect clusters, resulting in an hierarchical clustering algorithm. Experimental results reveal two main features of the algorithm: the ability to detect clusters in arbitrary shapes and the ability to generate clusters with different refinement degrees
|
10 |
Uso de técnicas de mineração de dados na identificação de áreas hidrologicamente homogêneasDiniz, Roberta Brito Nunes 26 June 2009 (has links)
Made available in DSpace on 2015-05-14T12:36:36Z (GMT). No. of bitstreams: 1
arquivototal.pdf: 2195598 bytes, checksum: a95d4adfe41dfc528b087d4d211c0932 (MD5)
Previous issue date: 2009-06-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The lack of fluviometric data and the bad quality of existing data related to watercourses of
Brazilian northeast have obligated hydrology specialists to search for new solutions, improving the
knowledge and methodologies to build the region up according to its environment limitations.
Through the hydrologic regionalization techniques it's possible to transfer data and information
among similar watersheds.
In this context, the purpose of this work is to identify hydrologically similar regions in the
State of Paraiba using Clustering - a kind of data mining technique - to find patterns that allow data
transposition from one region to other. Algorithms were used with methods based on partition,
hierarchical methods, and methods based on neural networks.
It is used data of 41 watersheds located in the State of Paraíba. For all the watersheds, 32
physical and climatological characteristic were determined, being six characteristics of the linear
measures of the watersheds, three of shape, nine of the drainage net, seven of the relief, two of the
drainage capacity, three of the classes of soils and two of the climatology.
Four sceneries were composed for the execution of the algorithms of which three were
obtained through the technique of selection of attributes. To evaluate the groups obtained by the
algorithms three validation indexes were applied, namely index of Silhouette, index Davies-Bouldin
and index Dunn. The results of the statistical validation showed that the algorithm Ward stood out
in the clustering of the 41 watersheds, identifying 6 homogeneous regions in the State of Paraíba.
The obtained results showed the viability of the use of techniques of data mining in studies
of hydrologic regionalization and practical applications in engineering of water resources in the
ambit of the State of Paraíba. / A escassez de dados fluviométricos e a má qualidade dos dados existentes sobre os cursos
d água do Nordeste do Brasil têm obrigado os especialistas em hidrologia a buscar novos caminhos,
ampliando assim os conhecimentos e metodologias sobre como desenvolver a região com base em
suas limitações ambientais. Uma dessas metodologias consiste na utilização de técnicas de
regionalização hidrológica, que possibilitam a transferência de dados e informações entre bacias
com características similares.
Nesse contexto, este trabalho visa identificar regiões hidrologicamente homogêneas no
Estado da Paraíba, utilizando Mineração de Dados, através da técnica de Clusterização,
possibilitando assim a identificação de padrões que permitam a transposição de dados de uma
região para outra. Foram utilizados algoritmos com métodos baseados em partição, métodos
hierárquicos e métodos baseados em redes neurais.
Foram empregados dados de 41 bacias hidrográficas localizadas no Estado da Paraíba. Para
todas as bacias foram determinadas 32 características físicas e climatológicas, sendo seis
características das medidas lineares das bacias, três de forma, nove da rede de drenagem, sete do
relevo, duas da capacidade de escoamento, três das classes de solos e duas da climatologia.
Foram compostos quatro cenários para a execução dos algoritmos dos quais três foram
obtidos através da técnica de seleção de atributos. Para avaliar os grupos obtidos pelos algoritmos
três índices de validação foram aplicados, a saber índice de Silhouette, índice Davies-Bouldin e
índice Dunn. Os resultados da validação estatística mostraram que o algoritmo Ward se destacou na
clusterização das 41 bacias hidrográficas, identificando 6 regiões hidrologicamente homogêneas no
Estado da Paraíba.
Os resultados obtidos mostraram a viabilidade do uso de técnicas de mineração de dados em
estudos de regionalização hidrológica e aplicações práticas em engenharia de recursos hídricos no
âmbito do Estado da Paraíba.
|
Page generated in 0.0866 seconds