Spelling suggestions: "subject:"mineração dde dados (computação)"" "subject:"mineração dee dados (computação)""
51 |
Extração de conhecimento em trajetorias semânticas /Lima, Daniel da Silva Gomes. January 2017 (has links)
Orientador: Ivan Rizzo Guilherme / Banca: Daniel Carlos Guimarães Pedronette / Banca: Evandro Eduardo Seron Ruiz / Resumo: O rápido avanço do uso de tecnologias que permitem a coleta dos dados de movimentação de indivíduos gerou como consequência um crescimento no volume de dados de trajetórias. Trabalhos que utilizam esses dados tem como principal objetivo a realização de análises para identificação de padrões que permitam explicar o comportamento do indivíduo durante o movimento. Para que a extração de conhecimento dos dados de trajetória possa ser gerada de uma forma que agregue conteúdo relevante, é necessário que exista um modelo de representação de trajetória que contemple as principais características do movimento no contexto de aplicação utilizado, além de um processo que transforme os dados brutos de trajetória na estrutura definida por esse modelo. Com isso é possível aplicar técnicas e algoritmos para exploração desses dados e geração de conhecimento. As técnicas de aprendizado de máquina em conjunto com a área de representação de conhecimento fornecem a base conceitual para que problemas desse tipo possam ser modelados e soluções possam ser desenvolvidas a fim de solucionar esses problemas. Este trabalho utiliza esses aspectos conceituais para apresentar uma proposta que permite a extração de conhecimento de trajetória. Esse conhecimento é obtido através da identificação dos locais de parada mais relevantes para um indivíduo e do movimento sequencial entres esses locais determinando o conjunto de comportamentos que representam o padrão de movimento do indivíduo em um período / Abstract: The rapid advance of the use of technologies that allow the collection of the data of movement of individuals generate as a consequence an increase in the volume of trajectory data. Works that use this data have as main objective the accomplishment of analyzes for identification of patterns that allow to explain the behavior of the individual during the movement. In order to the knowledge extraction of the trajectory data to be generated in a way that aggregates relevant content, there must be a trajectory representation model that considers the main characteristics of the movement in the context of the application used, besides a process that transforms the raw trajectory data in the structure defined by this model. With this it is possible to apply techniques and algorithms for exploration of this data and generation of knowledge. Machine learning techniques in conjunction with the area of knowledge representation provide the conceptual basis for problems of this type to be modeled and solutions can be developed in order to solve these problems. This work uses these conceptual aspects to present a proposal that allows the extraction of knowledge of trajectory. This knowledge is obtained through the identification of the most relevant stop places for an individual and the sequential movement between these places determining the set of behaviors that represent the individual's movement pattern in a period / Mestre
|
52 |
Modelo de mineração de dados em bases de dados acadêmicas / Data mining model in academics databasesSilva, Renan Monteiro da 12 April 2016 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2016. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-05-17T16:17:57Z
No. of bitstreams: 1
2016_RenanMonteirodaSilva.pdf: 2565220 bytes, checksum: 9d4ad5ce9de42a46b61bb7148d21919d (MD5) / Approved for entry into archive by Marília Freitas(marilia@bce.unb.br) on 2016-05-26T16:25:53Z (GMT) No. of bitstreams: 1
2016_RenanMonteirodaSilva.pdf: 2565220 bytes, checksum: 9d4ad5ce9de42a46b61bb7148d21919d (MD5) / Made available in DSpace on 2016-05-26T16:25:53Z (GMT). No. of bitstreams: 1
2016_RenanMonteirodaSilva.pdf: 2565220 bytes, checksum: 9d4ad5ce9de42a46b61bb7148d21919d (MD5) / No campo das comunidades de pesquisa existe uma série de bases de dados que proveem informações interessantes sobre publicações resultantes da pesquisa, incluindo títulos de artigos, autores, palavras-chave, citações, índices, veículos de publicação (revistas, livros, conferências e os tipos de eventos mais importantes) e assim por diante. Exemplos de tais bases de dados são Google Scholar, CiteSeerX, DBLP, Microsoft Academic, Thomson Reuters Web of Science, entre outros. No entanto, essas bases de dados globais ainda carecem de serviços que possam ser usados na procura por comunidades ou agrupamentos. Uma comunidade pode ser definida como um grupo de entidades, nesse caso autores e/ou universidades, que compartilham atributos ou relacionamentos semelhantes. Neste trabalho é proposto um modelo de mineração e análise das informações contidas nessas bases de dados acadêmicas. A análise dessas informações apresentadas nos resultados visa à descoberta das universidades, autores e assuntos mais significativos dentro do contexto dos dados minerados. Para isso foi feito um estudo de caso utilizando as informações contidas nas bases de dados do CiteSeerX e do DBLP como ponto de partida para a criação de um modelo genérico com o objetivo de ser aplicável a qualquer base de dados acadêmica. No estudo de caso é feita uma extensa mineração nas bases de dados do CiteSeerX e do DBLP, a partir dessa etapa é feita a migração e tratamento dos dados originais obtidos para o modelo genérico proposto neste trabalho. Com o modelo preenchido são aplicados os algoritmos e instruções para geração dos resultados que são subdivididos em três diferentes categorias: clusters, rankings e comunidades de relacionamento. A partir dos resultados são investigadas as tendências atuais na colaboração entre autores e institutos educacionais usando as bases de dados do CiteSeerX e do DBLP. Com a obtenção das informações disponíveis foram construídos várias comunidades e agrupamentos usando as técnicas de clusterização existentes. _______________________________________________________________________________________________ ABSTRACT / In the field of the research community, several databases such as Google Scholar, CiteSeerX, DBP, Microsoft Academic, Thomson Reuter´s Web of Science among others provide interesting information about authors, citations, indexes, most relevant venues types and so on. However, those global databases have limitations, especially in finding communities or clusters. A community can be defined as a group of entities, in this case authors and/or universities that share similar properties or relations. In this work, it is proposed a model of data mining and analysis of the obtained information in these academics databases. The analysis of the presented information in the results aims the discovery of the universities, authors and subjects most significant inside the context of the mined data. Thus a study case was realized using the CiteSeerX database as the start point for creating a generic model in order to be applied in any academic database. In the study case an extensive data mining was performed in the CiteSeerX database, as well as the migration and treatment of the original data obtained for the generic model proposed in this work. With the model data filled the proposed algorithms and the code instructions were applied for the generation of the results which are subdivided in three different categories: clusters, rankings and relationship communities. From the results, the work is validated by showing the current trends in the collaboration between authors and educational institutes, using the CiteSeerX dataset. By mining the available information, several communities and clusters are revealed using the proposed techniques.
|
53 |
Uma metodologia para previsão da severidade da inadimplência de consumidores residenciais de energia elétricaCaixeta, Daniel Araujo January 2010 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2010. / Made available in DSpace on 2012-10-25T07:13:41Z (GMT). No. of bitstreams: 0 / Dissertação não autorizada para a publicação no Repositório Institucional pelo autor / A inadimplência residencial tem sido motivo de preocupação por parte das distribuidoras de energia elétrica. A quantia financeira advinda do consumo faturado e não pago tem gerado grandes prejuízos para a saúde financeira destas empresas. O insucesso das soluções convencionais aliado às incertezas inerentes ao comportamento dos clientes residenciais tem dificultado a prevenção e combate ao problema. Um dos fatores importantes para uma melhor compreensão das particularidades determinantes para o agravamento do problema diz respeito à repetitividade de atrasos no pagamento da fatura, caracterizando assim a severidade da inadimplência. Neste trabalho apresenta-se uma metodologia para previsão da severidade da inadimplência de consumidores residenciais de energia elétrica baseada na Descoberta de Conhecimento em Bancos de Dados - KDD. Por meio de uma série de procedimentos relacionados às etapas de Pré-processamento, Mineração de Dados e Pós-processamento, são obtidos conjuntos de regras de associação combinando variáveis técnicas, socioeconômicas e culturais dos consumidores inadimplentes. A partir desse conhecimento, o trabalho apresenta um modelo preditivo, baseado em heurística, para estimar a quantidade de meses em que determinado consumidor não irá efetuar o pagamento em dia de sua conta de energia. Para a validação da metodologia proposta a base de dados original foi particionada em dois conjuntos: o primeiro, reservado para a construção e aprimoramento do modelo de conhecimento, e o segundo, dedicado a testes do modelo e avaliação de seu desempenho e acurácia. Os resultados desta pesquisa podem contribuir para o planejamento mais efetivo de ações contra o agravamento do problema pelas empresas distribuidoras de energia elétrica e visando a diminuição dos prejuízos financeiros provocados pela inadimplência residencial.
|
54 |
Modelo computacional para previsão de mortalidade de galinhas poedeiras em função de ondas de calor e tipologia dos aviários /Riquena, Rodrigo da Silva January 2017 (has links)
Orientador: Danilo Florentino Pereira / Co-orientador: Marcos Martinez do Vale / Co-orientador: Douglas D'Alessandro Salgado / Banca: Mario Mollo Neto / Banca: Leda Gobbo de Freitas Bueno / Resumo: A mortalidade na produção de galinhas poedeiras é fato preocupante para produtores e constitui considerável perda econômica. Alguns eventos climáticos, como ondas de calor, estão diretamente relacionados ao aumento da mortalidade. O objetivo deste trabalho foi relacionar a ocorrência de ondas de calor com a mortalidade de poedeiras, considerando o efeito de duas diferentes tipologias de galpão utilizado na produção de ovos. Os dados de mortalidade diária foram obtidos em dois aviários localizados na cidade de Bastos-SP para o período de outubro de 2014 a janeiro de 2016. Para padronizar a coleta de informações foi construída uma ferramenta para registro diário da mortalidade na granja. Os dados do clima foram obtidos de duas estações meteorológicas localizadas nos municípios Tupã-SP e Rancharia-SP para o período de 2010 a 2015. As ondas de calor foram classificadas na base de dados climática usando diferentes definições da literatura. Os dados de mortalidade e clima foram relacionados em um mesmo banco de dados e foram classificados em mortalidade normal e alta de acordo com manual da linhagem. Após serem relacionados os dados foram levados a mineração, a técnica utilizada foi a CRISP-DM utilizando o algoritmo J48. A classificação para ondas de calor do INMET foi a mais adequada para região. Foi possível associar as ocorrências de onda de calor ao aumento da mortalidade de poedeiras e as variáveis construtivas dos aviários influenciam na mortalidade e produção. A árvore de cl... (Resumo completo, clicar acesso eletrônico abaixo) / Mestre
|
55 |
Mineração de dados em base de germoplasmaHiragi, Gilberto de Oliveira 03 1900 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008. / Submitted by Jaqueline Oliveira (jaqueoliveiram@gmail.com) on 2008-11-28T12:09:59Z
No. of bitstreams: 1
DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf: 895106 bytes, checksum: 181e2a9a782456ffe4637fc5519e09c8 (MD5) / Approved for entry into archive by Georgia Fernandes(georgia@bce.unb.br) on 2009-02-11T16:01:26Z (GMT) No. of bitstreams: 1
DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf: 895106 bytes, checksum: 181e2a9a782456ffe4637fc5519e09c8 (MD5) / Made available in DSpace on 2009-02-11T16:01:26Z (GMT). No. of bitstreams: 1
DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf: 895106 bytes, checksum: 181e2a9a782456ffe4637fc5519e09c8 (MD5) / Os bancos de germoplasma do SIBRARGEN (Sistema Brasileiro de Informações em
Recursos Genéticos) funcionam como um grande catálogo das espécies vegetais e de
seus acessos (tipos característicos dentro de um grupo ou variabilidades dentro da
espécie), contendo mais de 100 mil acessos catalogados. Esses bancos incluem a
identificação do acesso (passaporte), descrição dos aspectos genótipos (caracterização) e descrição dos aspectos fenótipos (avaliação) e permitem aos pesquisadores dessa área realizarem consultas SQL mas recuperando apenas os dados armazenados, resultantes da resolução das expressões booleanas utilizadas como critérios de busca. Essas
consultas não facilitam a descoberta de novos conhecimentos ou a construção de
modelos de previsão ou descrição.
Essa pesquisa propõe uma metodologia de mineração de dados, derivada do modelo de
referência CRISP/DM, que auxilie a exploração dessas bases de dados por
pesquisadores não vinculados à área de informática (por exemplo, biólogos ou
agrônomos) visando facilitar a realização de tarefas previstas nas seguintes fases do
CRISP/DM: entendimento do negócio, compreensão dos dados, preparação de dados, modelagem, avaliação dos modelos gerados e colocação em uso. Para materializar a metodologia proposta e automatizar a sua utilização por parte de não-informatas, foi implementada a ferramenta HaDog (Hiragi Approach for Data Mining of Germoplasm). HaDog foi implementada utilizando a linguagem Java, banco de dados Oracle® versão 10g release 2 e é acessível através de uma interface Web, disponível aos pesquisadores credenciados para acesso ao SIBRARGEN. A metodologia de mineração de germoplasma proposta foi avaliada de forma experimental através de dois estudos de casos conduzidos com o apoio de pesquisadores da Embrapa Recursos Genéticos e Biotecnologia: determinação de acessos representativos de uma espécie ou grupo de espécies e proposição de coletas direcionadas, ambos problemas típicos de interesse do curador (pesquisador responsável pelo banco de germoplasma de uma espécie). Essa
avaliação experimental mostrou que é possível introduzir os especialistas na área na utilização de técnicas de mineração de dados na base de germoplasma sem requerem que eles se envolvam em atividades de programação. Os resultados experimentais obtidos até o momento demonstram que o HaDog pode se constituir em um importante facilitador para a mineração das bases do SIBRARGEN, visando, principalmente, a descoberta de novos conhecimentos pelos especialistas.
_________________________________________________________________________________________ ABSTRACT / The banks of germplasm of the SIBRARGEN (Brazilian Information System in Genetic
Resources) function as a great catalogue of the vegetal species and of its accesses
(characteristic types inside of a group or variabilities inside of the species), contend
more than 100 thousand catalogued accesses. These banks include the identification of the access (passport), description of the genotypes aspects (characterization) and phenotype description (evaluation) and allow researchers of this area to carry through SQL queries but recouping only the stored data, resultant of the resolution of the used boolean expressions as criteria search. These queries don’t facilitate to the discovery of
new knowledge or the construction of forecast models or description. This research
considers a data mining methodology, derived from the model of reference CRISP/DM,
that assists the exploration of these databases for researchers tied with the computer science area (for example, biologists or agronomists) aiming to facilitate the accomplishment of tasks foreseen in the following phases of the CRISP/DM: business
understanding, data understanding, data preparation, modeling, evaluation of the
generated models and deployment. To materialize the methodology proposal and to
automatize its use by people who aren’t of the computer science area, the HaDog tool
was implemented (Hiragi Approach of Data Mining of Germplasm). HaDog was
implemented using the Java language, database Oracle® version 10g release 2 and is accessible through a Web interface, available to the credential researchers for access to the SIBRARGEN. The methodology of mining of germplasm proposal was evaluated of experimental form through two studies of cases lead with the support of researchers of the Embrapa (Genetic Resources and Biotechnology: determination of representative accesses of a species or group of species and proposal of directed collections, both typical problems of interest of the custodian (responsible researcher for the Bank of germplasm of a species). This experimental evaluation showed that it is possible to introduce the specialists in the area in the use of techniques of mining of data in the base of germplasm without require that they become involved themselves in activities of programming. The experimental results obtained so far show that HaDog can be a major facilitator for the mining of foundations of SIBRARGEN, targeting mainly, the discovery of new knowledge by specialists.
|
56 |
Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classesMachado, Emerson Lopes 04 1900 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2007. / Submitted by Luis Felipe Souza (luis_felas@globo.com) on 2008-12-10T18:56:04Z
No. of bitstreams: 1
Dissertacao_2007_EmersonMachado.pdf: 480909 bytes, checksum: 33454d8cde13ccd0274df91f48a4125d (MD5) / Approved for entry into archive by Georgia Fernandes(georgia@bce.unb.br) on 2009-03-04T12:18:48Z (GMT) No. of bitstreams: 1
Dissertacao_2007_EmersonMachado.pdf: 480909 bytes, checksum: 33454d8cde13ccd0274df91f48a4125d (MD5) / Made available in DSpace on 2009-03-04T12:18:48Z (GMT). No. of bitstreams: 1
Dissertacao_2007_EmersonMachado.pdf: 480909 bytes, checksum: 33454d8cde13ccd0274df91f48a4125d (MD5) / O objetivo geral desta pesquisa é analisar técnicas para aumentar a acurácia de classificadores construídos a partir de bases de dados desbalanceadas. Uma base de dados é desbalanceada quando possui muito mais casos de uma classe do que das outras, portanto possui classes raras. O desbalanceamento também pode ser em uma
mesma classe se a distribuição dos valores dos atributos for muito assimétrica, levando
à ocorrência de casos raros. Algoritmos classificadores são muito sensíveis a estes tipos de desbalanceamentos e tendem a valorizar as classes (ou casos) predominantes e a ignorar as classes (ou casos) de menor freqüência. Modelos gerados para bases de dados com classes raras apresentam baixa acurácia para estas classes, o que é problemático quando elas são classes de interesse (ou quando uma delas é a classe de interesse). Já os casos raros podem ser ignorados pelos algoritmos classificadores, o que é problemático quando tais casos pertencem à classe (ou às classes) de interesse. Uma nova proposição
de algoritmo é o Cluster-based Smote, que se baseia na combinação dos métodos de Cluster-based Oversampling (oversampling por replicação de casos guiada por clusters)
e no SMOTE (oversampling por geração de casos sintéticos). O método Cluster-based
Oversampling visa melhorar a aprendizagem de pequenos disjuntos, geralmente relacionados a casos raros, mas causa overfitting do modelo ao conjunto de treinamento. O método SMOTE gera novos casos sintéticos ao invés de replicar casos existentes, mas não enfatiza casos raros. A combinação desses algoritmos, chamada de Clusterbased Smote, apresentou resultados melhores do que a aplicação deles em separado em oito das nove bases de dados utilizadas proposta nesta pesquisa. A outra abordagem proposta nesta pesquisa visa a diminuir a sobreposição de classes possivelmente provocada pela aplicação do método SMOTE. Intuitivamente, esta abordagem consiste em guiar a aplicação do SMOTE com a aprendizagem não supervisionada proporcionada pela clusterização. O método implementado sob esta abordagem, denominado de C-clear, resultou em melhora significativa em relação ao SMOTE em três das nove bases testadas e empatou nas demais. Foi também proposta uma nova abordagem para limpeza de dados baseada na aprendizagem não supervisionada, a qual foi incorporada ao C-clear. Esta limpeza somente surtiu melhora em uma base de dados, sendo este baixo desempenho oriundo possivelmente da escolha não adequada de seus parâmetros de limpeza. A aprendizagem destes parâmetros a partir dos dados ficou como trabalho futuro.
___________________________________________________________________________________________ ABSTRACT / It is intended in this work to research methods that improve the accuracy of classifiers applied to data set with class imbalance (high skew in class distribution causing rare classes) and within-class imbalance (high skew in data within-class distribution causing care cases). Standard classifier algorithms are strongly affected by these characteristics and their generated model are biased to the majority classes (or cases), in detriment of classes (or cases) underrepresented. Generally, models generated with imbalanced data set suffer from low accuracy for the minority classes, which is a problem when the target class is one of them. Eventually, rare cases are likely of being ignored by inductors, which is a problem when they belong to the interesting class (or classes). A new method is proposed in this work, Cluster-based Smote, which combines the methods Cluster-based Oversampling (oversampling by replication of positive cases guided by clusters) and SMOTE (Synthetic Minority Oversampling Technique). Cluster-based Oversampling addresses small disjuncts, but overfits the model to the training set. The method SMOTE addresses the overfit problem of random
oversampling, but does not treat rare cases. The combination of them proposed in this
research, named Cluster-based Smote, presented better results in eight out of nine
datasets, compared to the applying of them all alone. Another approach proposed in this
research aims at reducing the class overlap problem possibly caused by applying
SMOTE. The main idea is to guide the SMOTE process by non-supervised learning
(with clustering techniques). The method implemented under this approach, named Cclear, resulted in significant improvement over SMOTE in three out of nine datasets. A
cleaning method based in the non-supervised learning was also proposed and has been
incorporated in the C-clear method. The cleaning method improved the results in only
one dataset, probably because of the not so well values chosen as cleaning parameters.
The learning of these parameters from the data is left as a future work.
|
57 |
Framework de integração para o modelo estratégico de colaboração e mineração de dados espaciais na WEBMoraes, André Fabiano de January 2011 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Civil, Florianópolis, 2011 / Made available in DSpace on 2012-10-26T06:42:49Z (GMT). No. of bitstreams: 1
299724.pdf: 25008046 bytes, checksum: e7c6c14292df4b9be0a6385812006dd5 (MD5) / Após o levantamento da situação de alguns municípios brasileiros com relação a produção e ao tratamento de dados espaciais, ficou detectada a carência de infraestruturas, de informações e por consequência, a falta de mecanismos colaborativos com suporte a mineração de dados para análise espacial. As dificuldades aumentam com a disseminação de diferentes estruturas de dados espaciais a exemplo de padrões CAD/GIS produzidas através do rápido avanço das tecnologias de informação, sendo reais os desafios para implementação de uma infraestrutura interoperável e foco de várias discussões. Entretanto o acesso a esses dados via internet e os problemas ocasionados na troca dos mesmos estão relacionados diretamente a natureza particular de cada padrão adotado, por isso devem ser analisados e adequados para colaboração. Inicialmente a hipótese do trabalho visa intensificar a interoperabilidade entre dados espaciais e a integração de sistemas, tornando possível estabelecer canais de comunicação para um ambiente colaborativo visando ações potenciais e cooperativas. A partir disso, a pesquisa apresenta uma investigação sobre os aspectos relevantes que influenciam na engenharia de projetos, originando o desenvolvimento do protótipo denominado OpenCGFW (Collaborative Geospatial Framework Web), visando o reconhecimento de estruturas, integração, manipulação e colaboração, em sintonia com esforços da INDE, OGC e W3C. Inicialmente são realizados estudos e revisões sobre os assuntos diretamente relacionados à interoperabilidade. Também são abordados temas relacionados ao armazenamento, tratamento e colaboração computacional especificamente entre os dados geográficos produzidos por diferentes instituições públicas. Para construção do framework foi aplicado o método MCDA-C (Multicritério de Apoio à Decisão - Construtivista) para identificação dos aspectos fundamentais e elementares. A partir disso o trabalho também descreve os resultados obtidos na implementação das etapas de um padrão de projeto para apoiar nas atividades e na avaliação de geosoluções livres. Durante a discussão, são apresentados os resultados através experimentos e aplicações para mapas digitais na web visando a integração de várias bases de dados distribuídas ao cadastro técnico multifinalitário para uso das principais técnicas de mineração de dados espaciais. Ao final, o trabalho discute a hipótese e a contribuição da pesquisa, visando atender principalmente às características regionais, buscando contribuir para o avanço tecnológico do país ao intensificar o uso de padrões abertos e geotecnologias livres na colaboração e gestão do conhecimento / After surveying the situation in some municipals Brazilian with respect to production and processing of spatial data, it was detected the lack of infrastructure, of information, and therefore the lack of mechanisms to support collaborative for data mining and spatial analysis. The difficulties increase with the spread of different structures of spatial data standards like ie: CAD / GIS produced by the rapid advancement of information technology, and real challenges to implementation of an interoperable infrastructure and it focus of several discussions. However access to this data via the Internet and the problems caused in the same exchange are directly related to the particular nature of each standard adopted, so it they should must be analyzed and appropriate for collaboration. Initially, the hypothesis of the study aims to enhance interoperability between spatial data and systems integration, making it possible to establish communication channels for a collaborative environment aimed at potential and cooperative actions. From this, the study presents an investigation into the relevant aspects that influence the projects engineering, resulting in the development of the prototype called OpenCGFW (Collaborative Geospatial Framework Web), to the recognition of structures, integration, manipulation and collaboration, in tuning with efforts GSDI-INDE, OGC and W3C. Initially, studies and reviews on subjects directly related to interoperability. Are also discussed issues related to storage, processing between collaboration computational and specifically geographic data produced by different public institutions. For construction of the framework was applied MCDA-C method (Multicriteria Decision Aid - Constructivist) to identify the fundamental and elementary. From this work also describes the results obtained in implementing the steps of a design pattern to support the activities and evaluating free geo-solutions. During the discussion, are present the results through experiments and applications of the web mapping for digital maps to integrate multiple databases distributed of the multipurpose cadaster and use of the main techniques of spatial data mining.
At the end, the work discusses the hypothesis and the contribution of research, mainly to meet the regional characteristics, seeking to contribute to the technological advancement of the country intensifying the use of open standards, the free geo-solutions collaboration and knowledge management
|
58 |
Aplicação de técnicas de mineração de texto na detecção de discrepâncias em documentos fiscaisMadeira, Renato de Oliveira Caldas 29 September 2015 (has links)
Submitted by RENATO DE OLIVEIRA CALDAS MADEIRA (rocmadeira@gmail.com) on 2015-11-24T18:30:54Z
No. of bitstreams: 1
TEXTO DISSERTAÇÃO VFINAL1.pdf: 972383 bytes, checksum: 74fc038f85815d0c99a29b23297a3857 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2015-12-09T18:36:09Z (GMT) No. of bitstreams: 1
TEXTO DISSERTAÇÃO VFINAL1.pdf: 972383 bytes, checksum: 74fc038f85815d0c99a29b23297a3857 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2015-12-11T11:20:29Z (GMT) No. of bitstreams: 1
TEXTO DISSERTAÇÃO VFINAL1.pdf: 972383 bytes, checksum: 74fc038f85815d0c99a29b23297a3857 (MD5) / Made available in DSpace on 2015-12-11T11:20:42Z (GMT). No. of bitstreams: 1
TEXTO DISSERTAÇÃO VFINAL1.pdf: 972383 bytes, checksum: 74fc038f85815d0c99a29b23297a3857 (MD5)
Previous issue date: 2015-09-29 / A implantação dos sistemas de notas fiscais eletrônicas proporcionou uma grande quantidade de dados para as administrações tributárias. Analisar esses dados e extrair informações importantes é um desafio. Esse trabalho buscou, por meio de técnicas de análise de dados e mineração de textos, identificar, a partir da descrição dos serviços prestados, notas emitidas incorretamente a fim de respaldar um melhor planejamento de fiscalizações. / The implementation of electronic invoices systems provided a large amount of data for tax administrations. Analyze this data and extract important information is a challenge. This study aimed, through data analysis and text mining techniques, identify, from description of services, invoices incorrectly issued to endorse better planning of inspections.
|
59 |
Métodos de mineração de dados para extração de conhecimento em bioinformática: aplicação em dados de Geminivirus e predição de novas proteínas ribossomais / Data mining methods for knowledge extraction in bioinformatics: Application on Geminivirus data and prediction of new ribosomal pro-teinsCarvalho, Thales Francisco Mota 25 July 2016 (has links)
Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-10T10:24:21Z
No. of bitstreams: 1
texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) / Made available in DSpace on 2017-02-10T10:24:21Z (GMT). No. of bitstreams: 1
texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5)
Previous issue date: 2016-07-25 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A mineração de dados (DM, do inglês data mining) é um processo de des- coberta de padrões que permite extrair informação e conhecimento em grandes volumes de dados. Suas principais técnicas se baseiam em predição, classificação e agrupamento (clustering). Estas técnicas têm sido utilizadas na bioinformá- tica para classificar o perfil de expressão gênica, encontrar padrões em sequências de DNA, avaliar a estrutura do dobramento de proteínas, entre outras aplicações. Neste trabalho, avançadas técnicas de DM foram aplicadas para o desenvolvimento de um Data Warehouse específica para geminivírus (geminivirus.org), a fim de au- xiliar na organização, correção e normalização de dados referentes a geminivírus. Neste Data Warehouse também foram propostas metodologias baseadas em regras e aprendizado de máquina (ML) que classificam as sequências de DNA e seus ge- nes. A família Geminiviridae é composta por pequenos vírus de DNA circular de fita simples que infectam uma grande variedade de plantas e causam sérios danos econômicos ao redor do mundo. O aprimoramento da amplificação do DNA viral e de técnicas de sequenciamento permitiram um enorme crescimento de dados em banco de dados públicos. Simultaneamente, ocorreu o crescimento no volume de publicações relacionadas a esta família. Desta forma, numa segunda linha de tra- balho surgiu a necessidade de aplicar as técnicas de DM, seguindo o processo de KDD (knowledge-discovery in databases) para extrair informações desses dados. Além disso, técnicas de Processamento de Linguagem Natural (NLP) foram utili- zadas para extrair informação em resumos de artigos relacionados a geminivírus. Assim, o acervo científico pode ser explorado de maneira contextualizada. Final- mente, uma terceira frente de trabalho em mineração de dados foi empreendida, desta vez direcionada à descoberta de proteínas ribossomais. Pesquisas recentes têm demonstrado que plantas suprimem o mecanismo global de tradução como uma estratégia de imunidade antiviral. Entretanto, poucas proteínas ribossomais são mencionadas a integrarem vias do mecanismo de defesa das plantas. As pro- teínas ribossomais (RPs) desempenham um papel fundamental em células vivas, pois são o principal componente dos ribossomos. Além disso, estas proteínas estão envolvidas em vários processos fisiológicos e patológicos. Assim, foi desenvolvido um método de aprendizado de máquina capaz de identificar novas proteínas ri- bossomais, designado Rama. O Rama utiliza abordagens inovadoras em relação aos métodos computacionais atualmente existentes. Em experimentos in silico, o Rama obteve resultados médios de precisão, acurácia, sensitividade e especifici- dade de 0.9203, 0.9214, 0.9214 e 0.8236, respectivamente. Ademais, duas proteínas não caracterizadas foram preditas como RPs pelo Rama e experimentos in vitro confirmaram a veracidade do resultado, ao passo que as metodologias atuais não conseguem lograr o mesmo sucesso. / Data mining (DM) is a pattern discovery process that can extract information and knowledge in large volumes of data. Its main techniques are based on prediction, classification, and clustering. These techniques have been used in bioinformatics to identify gene expression profiles, find patterns in DNA sequences, evaluate protein folding structure, among other applications. In this work, advanced techniques of DM were applied to the development of a specific Data Warehouse for geminivi- ruses (geminivirus.org) to assist in organization, correction, and normalization of data related to geminivirus. In this Data Warehouse, we also propose methodo- logies based on rules and machine learning (ML) to classify DNA sequences and their genes. The Geminiviridae family consists of small circular single-stranded DNA viruses which infect a wide variety of plants and cause serious economic losses wordwide. Improvements in amplification of viral DNA and sequencing techniques have led to an enormous growth of public databases. Thus, in a second endeavor in this work, we realized the need to apply DM techniques, following the process of KDD (knowledge-discovery in databases), to extract yet-unknown information. Furthermore, natural language processing techniques (NLP) were used to extract information in abstracts of paper related to geminivirus. In this way, the scientific literature can be explored in a contextualized manner. Finally, a third effort using data mining approaches was carried out, this time directed to the identification of new ribosomal proteins. Recent research has shown that plants suppress the ove- rall mechanism of translation as a strategy for antiviral immunity. However, few ribosomal proteins are referred to integrate pathways of plant defense mechanisms. Ribosomal proteins (RPs) have a fundamental role in living cells, as they are the main component of ribosomes. Furthermore, these proteins are involved in various physiological and pathological processes. Therefore, we developed a ML method to identify new ribosomal proteins, called Rama. Rama uses innovative approaches in comparison to currently existing computational methods. In in silico experiments, Rama presented average results of precision, accuracy, sensitivity, and specificity of 0.9203, 0.9214, 0.9214, and 0.8236, respectively. In addition, two proteins not yet characterized were predicted as RPs by Rama, whereas other methods could not achieve the same success. In vitro experiments confirmed the veracity of our result.
|
60 |
Uso de ferramentas de análise de 'big data' na identificação de ameaças e fatores de risco fitossanitário / Use of analysis tools 'big data' in identifying threats and phytosanitary risk factorsAlves, Giliardi Anício 31 March 2016 (has links)
Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-14T16:40:14Z
No. of bitstreams: 1
texto completo.pdf: 497659 bytes, checksum: 2c99a8ab10eb6c5a75f20d8df5487dd7 (MD5) / Made available in DSpace on 2017-02-14T16:40:14Z (GMT). No. of bitstreams: 1
texto completo.pdf: 497659 bytes, checksum: 2c99a8ab10eb6c5a75f20d8df5487dd7 (MD5)
Previous issue date: 2016-03-31 / Entender o movimento das pragas entre fronteiras, identificar os padrões de dispersão e tendências neste movimento são desafios em serviços de inteligência quarentenária. As espécies que foram introduzidas na América do Sul e Trindade e Tobago, em muitos casos, causam grande dano à agricultura e à economia local. O Brasil, por sua vez, sendo o país com maior produção agrícola nesta região, enfrenta grandes desafios para impedir a entrada de novas pragas e controlar aquelas já introduzidas em seu território. Com o intuito de identificar o padrão atual de distribuição geográfica e incentivar o uso de novas tecnologias na área de pesquisa em defesa vegetal, o presente trabalho trata da identificação de ameaças fitossanitárias utilizando ferramentas computacionais de mineração de dados. Essas ferramentas permitiram identificar dezessete espécies de pragas quarentenárias ausentes para o Brasil com presença confirmada para os países da América do Sul e Trindade e Tobago, as quais foram submetidas a uma avaliação de risco de pragas. Os hemípteros Perkinsiella saccharicida e Pseudococcus calceolariae, os fungos Boeremia foveata, Botrytis fabae, Phoma andigena, Tilletia laevis, Urocystis agropyri, Phytophthora erythroseptica e o coleóptero Prostephanus truncatus são espécies de pragas quarentenárias ausentes para o Brasil com alta probabilidade de entrada a partir da América do Sul e com alto potencial de risco para o país. / Understanding pest movement across international borders, identifying standards of their dispersal and trends are challenges to quarantine intelligence services. Often, exotic species that have become introduced in South America and Trinidad and Tobago cause severe damages to local agriculture and economy. In turn, Brazil, given its regional prominence in agriculture faces challenges to prevent the entry of new pests as well as to control the ones that have already become introduced. Aiming to identify patterns of geographic distribution and to encourage the use of new technological tools in quarantine intelligence, this work deals with the use of data mining and big data analysis tools. 17 pest species of quarantine species have been identified as highly likely to be introduced through the terrestrial borders of Brazil and were submitted to a pest assessment analysis. The hemipterans Perkinsiella saccharicida and Pseudococcus calceolariae, fungi Boeremia foveata, Botrytis fabae, Phoma andigena, Tilletia laevis, Urocystis agropyri, Phytophthora erythrosepticaand the beetle Prostephanus truncatus were qualified as the most risky species to Brazil.
|
Page generated in 0.0818 seconds