Spelling suggestions: "subject:"mineração dde dados - computação"" "subject:"mineração dde dados - omputação""
1 |
Behavior classification and object ranking from movement trajectories in target regionsBarragana, Mateus de Oliveira January 2016 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016. / Made available in DSpace on 2017-02-14T03:06:56Z (GMT). No. of bitstreams: 1
343948.pdf: 14369382 bytes, checksum: e0cac31809638d99cc3af79fe29381bd (MD5)
Previous issue date: 2016 / Vários métodos de mineração de dados têm sido propostos no últimosanos para descobrir diferentes tipos de padrões entre dois ou mais objetosem movimento. Apenas algumas obras identificam anomalias nocomportamento de objetos em torno de determinadas regiões de interesse(ROI), tais como câmeras de vigilância, edifícios comerciais, etc,que podem ser de interesse para diversos domínios de aplicação, principalmentena área de segurança. Neste trabalho são definidos novos tiposde comportamento anômalo de objetos em movimento em relação à regiãode interesse, incluindo surround, escape, return e avoidance. Combase nesses tipos de comportamento anômalo é proposto: (i) um algoritmopara calcular estes comportamentos; (ii) um conjunto de funçõespara pesar o grau de comportamento anômalo de cada objeto em movimento;e (iii) uma classificaçao dos objetos em movimento de acordocom o grau de comportamento anômalo em relação a um conjunto deregiões. O método proposto é avaliado com dados reais de trajetóriase é mostrado que o trabalho relacionado mais próximo não detecta oscomportamentos propostos e classifica os objetos considerando apenasum tipo de movimento anômalo.<br> / Abstract : Several data mining methods have been proposed in the last few yearsfor discovering different types of patterns among two or more movingobjects. Only a few works identify unusual behavior of objects aroundgiven Regions of Interest (ROI), such as surveillance cameras, commercialbuildings, etc, that may be interesting for several applicationdomains, mainly for security. In this thesis we define new types ofunusual behavior of moving objects in relation to ROI, including surround,escape, return, and avoidance. Based on these types of unusualbehavior we (i) present an algorithm to compute these behaviors, (ii)define a set of functions to weight the degree of unusual behavior ofevery moving object in the database, and (iii) rank the moving objectsaccording to the degree of unusual behavior in relation to a set of ROIs.We evaluate the proposed method with real trajectory data and showthat the closest work does not detect the proposed behaviors and ranksobjects considering only one type of unusual movement.
|
2 |
Um método para interpretar outliers em trajetórias de objetos móveisAquino, Artur Ribeiro de January 2014 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014. / Made available in DSpace on 2014-08-06T18:00:39Z (GMT). No. of bitstreams: 1
326743.pdf: 3567685 bytes, checksum: 552537134134fce0fdc4becfa0599acf (MD5)
Previous issue date: 2014 / Dispositivos capazes de registrar o rastro de um objeto móvel estão cada vez mais populares. Esses registros são chamados de Trajetórias de Objetos Móveis. Devido ao grande volume desses dados surge a necessidade de criar métodos e algoritmos para extrair alguma informação útil desses dados. Existem vários trabalhos de mineração de dados em trajetórias para detectar diferentes tipos de padrões, porém poucos focam na detecção de outliers entre trajetórias. Os outliers entre trajetórias são aqueles com um comportamento ou característica diferente da maioria. Se a maioria dos objetos estão andando a 80km/h em um determinado trecho, os objetos a 120km/h são os outliers. Outliers de trajetórias podem ser interessantes para descobrir comportamentos suspeitos em um grupo de pessoas, para encontrar rotas alternativas na análise de tráfego e até saber quais são os melhores ou piores caminhos conectando duas regiões de interesse. Não se teve conhecimento de um outro trabalho na literatura que fizesse uma análise mais aprofundada, que interpretasse ou desse significado aos outliers. A semântica dos outliers pode prover mais informação para tomadas de decisão. Nesse trabalho é apresentado um algoritmo para agregar significado aos outliers de trajetórias de motoristas considerando três possíveis razões principais para um desvio: paradas fora do caminho padrão, eventos ou trânsito no caminho padrão. Experimentos são mostrados com dados reais e o método encontra os diferentes tipos e classificações de outliers corretamente.<br> / Abstract : Devices for recording moving object traces are becoming very popular. These traces are called Trajectories of Moving Objects. The huge volume of these data raises the need for developing methods and algorithms to extract useful information from these data. There are many works related to trajectory data mining that nd dierent types of patterns, but only a few of them focused on outlier detection between trajectories. Outliers between trajectories are the ones that behave different from the majority. If the majority of the objects are going on a speed of 80km/h in some part of a road, for example, the objects on 120km/h are the outliers. Trajectory outliers are interesting to discover suspicious behaviors in a group of people, to nd alternative routes in trac analysis and even to discover better and worse paths connecting two regions of interest. To the best of our knowledge, no works so far have made a deeper analysis to either understand or give a meaning to the outliers. Outliers with semantic information can provide more information for decision making. In this work we present an algorithm to add meaning to trajectory outliers of vehicles drivers considering three main possible reasons for a detour: stops outside the standard route, events, and trac jams in the standard path. We show throughexperiments on real data that the method correctly nds the dierent types of outliers and classies them correctly.
|
3 |
Exploring the use of co-change clusters in software comprehension tasksOliveira, Marcos César de 03 September 2015 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-06-15T18:11:05Z
No. of bitstreams: 1
2015_MarcosCésardeOliveira.pdf: 2100208 bytes, checksum: afd0bf07cd06fda6ddc2ab3603c8bea0 (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2017-02-14T19:20:43Z (GMT) No. of bitstreams: 1
2015_MarcosCésardeOliveira.pdf: 2100208 bytes, checksum: afd0bf07cd06fda6ddc2ab3603c8bea0 (MD5) / Made available in DSpace on 2017-02-14T19:20:43Z (GMT). No. of bitstreams: 1
2015_MarcosCésardeOliveira.pdf: 2100208 bytes, checksum: afd0bf07cd06fda6ddc2ab3603c8bea0 (MD5) / O desenvolvimento de software orientado a características (FOSD) é um paradigma que pode ser usado, entre outros, para estruturar um sistema de software em torno de características que podem representar pequenas funcionalidades do software bem como requisitos não funcionais. Além do seu papel na estruturação do software, o uso de FOSD habilita a ativação e desativação de features individuais em uma dada configuração de software. Essa vantagem pode ser útil em cenários onde a variabilidade do software é necessária. Por outro lado, a adoção da abordagem FOSD pode ser feita em um sistema de software existente, torna-se necessária a aplicação de alguma técnica de engenharia reversa para extração de features de uma base de código legada, bem como o mapeamento dessas features para suas implementações. Essa dissertação apresenta uma nova abordagem para auxiliar nessa atividade de engenharia reversa, a qual relaciona dados históricos extraídos de sistemas de controle de tarefas de desenvolvimento e de mudanças em código-fonte. A abordagem se baseia em técnicas de Mineração de Repositórios de Software (MSR), especificamente o agrupamento baseado em dependências evolucionárias entre elementos do código-fonte, que leva ao descobrimento de grupos de co-mudança. Assim, o objetivo deste trabalho é descobrir as propriedades dos grupos de co-mudança que podem ser úteis no processo de extração de features. Especificamente, um conjunto de termos, associados com os grupos, que revelam conceitos que podem ajudar a identificar features. De acordo com os resultados obtidos, os grupos de co-mudança não possuem vantagem quando usa- dos como unidades de modularização, mas podem revelar novas dependências que são ocultas ao desenvolvedor. Também mostram que os grupos de co-mudança possuem coesão conceitual, e que podem ser usados para extrair conceitos e termos associados com eles. Por fim, os conceitos extraídos dos grupos de co-mudança podem ser usados para construir um mapeamento entre eles e o código-fonte, e que podem ser usados como uma lista de sementes de entrada para métodos de expansão de features. / Feature-oriented software development (FOSD) is a paradigm that can be used, among others, to structure a software system around the feature concept that can represents small functionalities and non-functional requirements. Besides their role in software structure, FOSD enables the activation and deactivation of individual features in a given configuration of the software. This advantage can be useful in scenarios where the variability of the software is required. On the other hand, the adoption of FOSD can be done for an existing software system, thus, becomes necessary to apply some reverse engineering technique to extract features from a legacy code base, and also the mapping between these features and their implementations. This dissertation presents a new approach to aid in the reverse engineering activity, that relates historical data from issue tracking systems and source-code changes. The approach relies upon Mining Software Repositories (MSR) techniques, specifically the clustering based on co-evolutionary dependencies between source-code elements, which leads to the discover of co-change clusters. Thus, the goal of this work is to discover the properties of the co-change clusters that can be useful in a feature extraction process. Specifically, a set of terms, associated with the clusters, which reveal concepts that can help to identify features. According to the study results, co-change clusters have no advantage when used as a modular unit, but can reveal new dependencies that is hidden to the developer. They also show that the co-change clusters have conceptual cohesion, and can be used to extract concepts and the terms associated with them. In the end, the concepts extracted from co-change clusters can be used to build a mapping from them and the source-code, and that can be used as a input seed list to feature expansion methods.
|
4 |
Um Modelo semi-automático para a construção e manutenção de ontologias a partir de bases de documentos não estruturadosCeci, Flávio 25 October 2012 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2010 / Made available in DSpace on 2012-10-25T13:59:19Z (GMT). No. of bitstreams: 1
288245.pdf: 2591906 bytes, checksum: c3dbb43b6de7c291f4347684d0eda539 (MD5) / Considerando-se que grande parte do conhecimento de uma organização ou daquele disponível na web são documentos textuais, estes se tornam uma importante fonte para modelos de manutenção de ontologias. Nota-se ainda que o uso das ontologias como meio de representar formalmente o conhecimento vem crescendo em importância no desenvolvimento de sistemas baseados em conhecimento. Nesse sentido, o presente trabalho utiliza técnicas de extração de informação e agrupamento de documentos para explicitar entidades que podem tornar-se instâncias de uma ontologia de domínio. Para as fases de validação e classificação das instâncias encontradas, é proposta a utilização de bases de conhecimento colaborativas, contando-se com o auxílio de especialistas de domínio, o que se caracteriza como um processo semiautomático. Visando demonstrar a viabilidade do modelo proposto, foi desenvolvido um protótipo para suportar as fases de extração, validação e classificação dos resultados. O protótipo foi aplicado em um estudo de caso utilizando résumés de alguns pesquisadores, assim como em um estudo experimental mais amplo com résumés de pesquisadores da área de Biotecnologia. Por fim, foram analisados seis trabalhos similares com foco na aprendizagem e na população das ontologias com vistas a propiciar uma avaliação comparativa ante o modelo proposto. De modo geral, verificou-se que o modelo proposto auxilia tanto na construção inicial de uma ontologia de domínio, levando em consideração coleções de documentos (bases de dados não estruturadas), quanto no processo de manutenção de ontologias.
|
5 |
Gremlin : uma estratégia baseada em mineração de subgrafos para inferir padrões de interação na interface proteína-ligante / Gremlin : a subgraph mining strategy based to infer interaction patterns in protein-ligand interfaceSantana, Charles Abreu 03 March 2017 (has links)
Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-04-17T11:56:27Z
No. of bitstreams: 1
texto completo.pdf: 3558749 bytes, checksum: aa66edeb3d2987adf6a55e8769e7933f (MD5) / Made available in DSpace on 2017-04-17T11:56:27Z (GMT). No. of bitstreams: 1
texto completo.pdf: 3558749 bytes, checksum: aa66edeb3d2987adf6a55e8769e7933f (MD5)
Previous issue date: 2017-03-03 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Interações proteína-ligante, de alta relevância em vários processos biológicos, são responsáveis pelo reconhecimento molecular, influenciando diretamente em mudan- ças de conformação das estruturas e, consequentemente, mudanças em sua atividade funcional. Entender essas interações é um passo importante para a predição de li- gantes, identificação de alvos biológicos e projeto de fármacos. Esta dissertação propõe GReMLIN, uma estratégia baseada em mineração de subgrafos frequentes, para encontrar padrões em interações proteína-ligante. Aqui, investigamos se é pos- sível encontrar padrões que caracterizam interações em um conjunto específico de proteínas. Se tais padrões existem, acreditamos que eles podem representar um passo importante na predição de interações. As interfaces proteína-ligante foram modeladas como grafos bipartidos, em que os vértices são átomos da proteína ou do ligante e as arestas são interações entre os átomos. Os vértices e arestas foram rotulados com suas propriedades físico-químicas. Um algoritmo de agrupamento foi executado sobre os dados dos grafos a fim de caracterizá-los de acordo com suas similaridades e diferenças e, em sequência, foi utilizado um algoritmo de mineração de subgrafos para buscar padrões relevantes nas estruturas de cada grupo. Para validar esta estratégia e verificar sua aplicabilidade em cenário real, foram coletados dados estruturais de complexos de proteínas com ligantes no Protein Data Bank. Foram usadas duas bases de dados, Ricina e CDK2, ambas com relevância biológica. GReMLIN foi capaz de encontrar subestruturas frequentes nos dados de Ricina e CDK2, contendo resíduos importantes determinados experimentalmente. / Interaction between proteins and ligands are relevant in many biological process. Such interactions have gained more attention as the comprehension of protein-ligand molecular recognition is an important step to ligand prediction, target identification and drug design. This work proposes GreMLIN, a strategy to search patterns in protein-ligand interactions based on frequent subgraph mining. Here, we investiga- ted if it is possible to find patterns that characterize protein-ligand interactions in a set of selected proteins. Moreover, if such patterns exist, we believe that they can represent an important step in the prediction of protein-ligand interactions. Our strategy models protein-ligand interfaces as bipartite graphs where nodes represent protein or ligand atoms, and edges represent interactions among them. Nodes and edges are labeled with physicochemical properties of atoms and a distance criteria. A clustering analysis is performed on graphs to characterize them according their similarities and differences, and a subgraph mining algorithm is applied to search for relevant patterns in protein-ligand interfaces in each cluster. We collected struc- tural data of protein-ligand complexes in Protein Data Bank (PDB) to validate our strategy and show their applicability. Both datasets have biological relevance, but with different characteristics. Our strategy was able to find frequent substructures with considerable cardinality in the protein-ligand interfaces for the CDK and Ricin datasets.
|
6 |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag pathsVelloso, Roberto Panerai January 2014 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014 / Made available in DSpace on 2015-02-05T20:44:43Z (GMT). No. of bitstreams: 1
329914.pdf: 1331548 bytes, checksum: 83651130b0ac80ced63647347769e15a (MD5)
Previous issue date: 2014 / Segmentação e remoção de ruído de páginas web são etapas essenciais no processo de extração de dados estruturados. Identificar a região principal da página, eliminando o que não é importante (menus, anúncios,etc.), pode melhorar significativamente o desempenho do processo de extração. Para essa tarefa e proposto um novo algoritmo, totalmente automático, que utiliza uma sequência de tag paths (TPS) como representação da página web. A TPS é composta por uma sequência de símbolos (string), cada um representando um tag path diferente. O algoritmo proposto procura por posições na TPS onde é possível dividi-la em duas regiões de tal forma que seus alfabetos não se intersectem, o que significa que as regiões têm conjuntos de tag paths completamente distintos e, portanto, são regiões diferentes da página. Os resultados mostram que o algoritmo é muito efetivo em identificar o conteúdo principal de vários sites, e melhora a precisão da extração, removendo resultados irrelevantes.<br> / Abstract: Web page segmentation and data cleaning are essential steps in structured web data extraction. Identifying a web page main content region, removing what is not important (menus, ads, etc.), can greatly improve the performance of the extraction process. We propose, for this task, a novel and fully automatic algorithm that uses a tag path sequence (TPS) representation of the web page. The TPS consists of a sequence of symbols (string), each one representing a diferent tag path. The proposed technique searches for positions in the TPS where it is possible to split it in two regions where each region's alphabet do not intersect, which means that they have completely dierent sets of tag paths and, thus, are diferent regions. The results show that the algorithm is very effective in identifying the main content block of several major web sites, and improves the precision of the extraction step by removing irrelevant results.
|
7 |
Descoberta de padrões de perseguição em trajetórias de objetos móveisSiqueira, Fernando de Lucca 04 March 2013 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-graduação em Ciência da Computação / Made available in DSpace on 2013-03-04T18:14:18Z (GMT). No. of bitstreams: 1
305188.pdf: 4197506 bytes, checksum: 1eb0b6f76914bc6894c05f5cec429b4e (MD5) / Tecnologias como celulares, GPS e redes de sensores estão ficando cada vez mais populares. Estes dispositivos geram uma grande quantidade de dados chamados de Trajetórias de Objetos Móveis. Uma trajetória é um conjunto de pontos localizados no espaço e no tempo. Estes dados são normalmente volumosos e confusos, sendo necessário criar métodos e algoritmos para extrair informações interessantes destes dados. Vários estudos tem focado na descoberta de padrões em trajetórias como flocks, desvios, recorrência, liderança, etc. Neste trabalho é proposto um novo tipo de padrão: comportamento de perseguição em trajetórias. Mais especificamente, são apresentadas definições formais do comportamento e são definidos diferentes tipos de perseguição, bem como um algoritmo para identificar o padrão. As principais características consideradas são o tempo, a distância e a velocidade, que são utilizadas de forma diferente em relação a trabalhos existentes. O trabalho é validado com experimentos sobre dados sintéticos e dados reais, demonstrando que o método encontra padrões não identificados por outras abordagens.
|
8 |
Sistema de identificação espacial em ambientes de consumo utilizando mineração de dadosPerizzolo, Cesar B. January 2005 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2013-07-16T01:22:42Z (GMT). No. of bitstreams: 1
223147.pdf: 996474 bytes, checksum: fc573984fac3b0d8ecae75798e4ccd8d (MD5) / A busca pelo conhecimento a partir da Mineração de Dados é um campo de pesquisa que tem crescido muito rapidamente e seu desenvolvimento tem sido dirigido, muitas vezes, em benefício de necessidades práticas.
Em um grande volume de dados podem estar muitas informações, tendências e padrões úteis para melhorar os critérios adotados durante o processo da tomada de decisões.
Neste trabalho propõe-se a transformação dos dados envolvidos durante uma venda, aliada à conversão dos espaços físicos ocupados pelos produtos em pequenas unidades amostrais, na tentativa de descrever o trajeto percorrido pelo potencial consumidor.
O desenvolvimento de processos de análise automática desses grandes volumes de dados é o desafio confiado aos algoritmos da Mineração de Dados.
O acúmulo da representação dos prováveis trajetos descritos por um determinado conjunto de consumidores será atribuído a uma matriz dinâmica de múltiplos atributos, que será apresentada através de gráficos de superfície.
Conclui-se que as técnicas e ferramentas para a Visualização de Dados estimulam naturalmente a percepção e a associação de novos padrões e podem melhorar, em muito, o processo de Mineração de Dados.
|
9 |
DeepECSouza, Augusto Ferreira de January 2013 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2013. / Made available in DSpace on 2014-08-06T17:11:02Z (GMT). No. of bitstreams: 1
323922.pdf: 1684516 bytes, checksum: 286dc1d7d327ccbebe91891a7d64681d (MD5)
Previous issue date: 2013 / Esta dissertação apresenta uma solução chamada DeepEC (DeepWeb Extraction and Cataloguing Process) para realizar a extração e catalogação de dados relevantes em bancos de dados presentes na Deep Web, também denominados de bancos de dados escondidos. Essas informações são extraídas a partir de um conjunto de páginas HTML geradas a partir de consultas definidas sobre formulários Web. A intenção é adquirir conhecimento sobre esses bancos de dados e, consequentemente, permitir buscas estruturadas sobre esse conteúdo escondido. Experimentos comprovaram a eficácia da abordagem proposta. Comparado com trabalhos relacionados, as contribuições desta dissertação são a realização conjunta e sequencial de um processo de extração e catalogação dos dados de bancos de dados escondidos, um processo de extração automático com suporte de uma base de conhecimento e um processo de catalogação que gera registros estruturados e é capaz de realizar a detecção de atributos cujos valores não estão presentes nos dados extraídos. <br> / Abstract : This work presents an approach called DeepEC (Deep Web Extraction and Cataloguing Process) that performs the extraction and cataloging of relevant data presented in Deep Web databases, also called hidden databases. This information is extracted from a set of HTML pages generated by queries posed on web forms. The intention is to obtain knowledge about these databases and thus enable structured queries over this hidden content. Experiments have shown the effectiveness of the proposed approach. Compared to related work, the contributions of this paper are the simultaneous process of data extraction and cataloging of hidden databases, an automatic extraction process with a knowledge base support, and a cataloging process that generates structured records and it is able to detect attribute values that are missing in the extracted data.
|
10 |
Estudo comparativo entre algoritmos de análise de agrupamentos em data miningPrass, Fernando Sarturi January 2004 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-graduação em Ciência da Computação / Made available in DSpace on 2012-10-21T17:23:51Z (GMT). No. of bitstreams: 1
210022.pdf: 600027 bytes, checksum: 593cdf81a2de56eda1d99061c8a08743 (MD5) / O objetivo é apresentar um estudo comparativo dos principais modelos de algoritmos de Análise de Agrupamento (Cluster Analysis) existentes na literatura e implementados em softwares, visando o seu uso no processo de descoberta de conhecimentos em grandes bancos de dados (Knowledge Discovery in Databases - KDD). Os algoritmos de Agrupamento são diferenciados de acordo com o seu método de formação (Hierárquico, Partição, Baseado em Modelo, Baseado em Grade e Baseado em Densidade) e também pela medida de distância que expressa a similaridade ou dissimilaridade entre os objetos. Mostram-se também critérios de mensuração para que se possam avaliar quais os melhores algoritmos para grandes bases de dados. Os algoritmos foram avaliados com dados reais e simulados utilizando a Linguagem R, que apontou o algoritmo k-medoid como o mais preciso e rápido. O trabalho mostra que o uso de Análise de Agrupamentos (AA) pode ser feito através de software gratuito e com máquina de baixo custo, mas para se obtenham bons resultados são necessários sólidos conhecimentos teóricos sobre AA.
|
Page generated in 0.1197 seconds