Global ETD Search

191	Modelo computacional para previsão de mortalidade de galinhas poedeiras em função de ondas de calor e tipologia dos aviários / Riquena, Rodrigo da Silva January 2017 (has links) Orientador: Danilo Florentino Pereira / Co-orientador: Marcos Martinez do Vale / Co-orientador: Douglas D'Alessandro Salgado / Banca: Mario Mollo Neto / Banca: Leda Gobbo de Freitas Bueno / Resumo: A mortalidade na produção de galinhas poedeiras é fato preocupante para produtores e constitui considerável perda econômica. Alguns eventos climáticos, como ondas de calor, estão diretamente relacionados ao aumento da mortalidade. O objetivo deste trabalho foi relacionar a ocorrência de ondas de calor com a mortalidade de poedeiras, considerando o efeito de duas diferentes tipologias de galpão utilizado na produção de ovos. Os dados de mortalidade diária foram obtidos em dois aviários localizados na cidade de Bastos-SP para o período de outubro de 2014 a janeiro de 2016. Para padronizar a coleta de informações foi construída uma ferramenta para registro diário da mortalidade na granja. Os dados do clima foram obtidos de duas estações meteorológicas localizadas nos municípios Tupã-SP e Rancharia-SP para o período de 2010 a 2015. As ondas de calor foram classificadas na base de dados climática usando diferentes definições da literatura. Os dados de mortalidade e clima foram relacionados em um mesmo banco de dados e foram classificados em mortalidade normal e alta de acordo com manual da linhagem. Após serem relacionados os dados foram levados a mineração, a técnica utilizada foi a CRISP-DM utilizando o algoritmo J48. A classificação para ondas de calor do INMET foi a mais adequada para região. Foi possível associar as ocorrências de onda de calor ao aumento da mortalidade de poedeiras e as variáveis construtivas dos aviários influenciam na mortalidade e produção. A árvore de cl... (Resumo completo, clicar acesso eletrônico abaixo) / Mestre Mineração de dados (Computação) Ave - Criação. Mudanças climáticas. Zootecnia. Ave poedeira - Mortalidade. Conforto termico.
192	Mineração de dados em base de germoplasma Hiragi, Gilberto de Oliveira 03 1900 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008. / Submitted by Jaqueline Oliveira (jaqueoliveiram@gmail.com) on 2008-11-28T12:09:59Z No. of bitstreams: 1 DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf: 895106 bytes, checksum: 181e2a9a782456ffe4637fc5519e09c8 (MD5) / Approved for entry into archive by Georgia Fernandes(georgia@bce.unb.br) on 2009-02-11T16:01:26Z (GMT) No. of bitstreams: 1 DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf: 895106 bytes, checksum: 181e2a9a782456ffe4637fc5519e09c8 (MD5) / Made available in DSpace on 2009-02-11T16:01:26Z (GMT). No. of bitstreams: 1 DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf: 895106 bytes, checksum: 181e2a9a782456ffe4637fc5519e09c8 (MD5) / Os bancos de germoplasma do SIBRARGEN (Sistema Brasileiro de Informações em Recursos Genéticos) funcionam como um grande catálogo das espécies vegetais e de seus acessos (tipos característicos dentro de um grupo ou variabilidades dentro da espécie), contendo mais de 100 mil acessos catalogados. Esses bancos incluem a identificação do acesso (passaporte), descrição dos aspectos genótipos (caracterização) e descrição dos aspectos fenótipos (avaliação) e permitem aos pesquisadores dessa área realizarem consultas SQL mas recuperando apenas os dados armazenados, resultantes da resolução das expressões booleanas utilizadas como critérios de busca. Essas consultas não facilitam a descoberta de novos conhecimentos ou a construção de modelos de previsão ou descrição. Essa pesquisa propõe uma metodologia de mineração de dados, derivada do modelo de referência CRISP/DM, que auxilie a exploração dessas bases de dados por pesquisadores não vinculados à área de informática (por exemplo, biólogos ou agrônomos) visando facilitar a realização de tarefas previstas nas seguintes fases do CRISP/DM: entendimento do negócio, compreensão dos dados, preparação de dados, modelagem, avaliação dos modelos gerados e colocação em uso. Para materializar a metodologia proposta e automatizar a sua utilização por parte de não-informatas, foi implementada a ferramenta HaDog (Hiragi Approach for Data Mining of Germoplasm). HaDog foi implementada utilizando a linguagem Java, banco de dados Oracle® versão 10g release 2 e é acessível através de uma interface Web, disponível aos pesquisadores credenciados para acesso ao SIBRARGEN. A metodologia de mineração de germoplasma proposta foi avaliada de forma experimental através de dois estudos de casos conduzidos com o apoio de pesquisadores da Embrapa Recursos Genéticos e Biotecnologia: determinação de acessos representativos de uma espécie ou grupo de espécies e proposição de coletas direcionadas, ambos problemas típicos de interesse do curador (pesquisador responsável pelo banco de germoplasma de uma espécie). Essa avaliação experimental mostrou que é possível introduzir os especialistas na área na utilização de técnicas de mineração de dados na base de germoplasma sem requerem que eles se envolvam em atividades de programação. Os resultados experimentais obtidos até o momento demonstram que o HaDog pode se constituir em um importante facilitador para a mineração das bases do SIBRARGEN, visando, principalmente, a descoberta de novos conhecimentos pelos especialistas. _________________________________________________________________________________________ ABSTRACT / The banks of germplasm of the SIBRARGEN (Brazilian Information System in Genetic Resources) function as a great catalogue of the vegetal species and of its accesses (characteristic types inside of a group or variabilities inside of the species), contend more than 100 thousand catalogued accesses. These banks include the identification of the access (passport), description of the genotypes aspects (characterization) and phenotype description (evaluation) and allow researchers of this area to carry through SQL queries but recouping only the stored data, resultant of the resolution of the used boolean expressions as criteria search. These queries don’t facilitate to the discovery of new knowledge or the construction of forecast models or description. This research considers a data mining methodology, derived from the model of reference CRISP/DM, that assists the exploration of these databases for researchers tied with the computer science area (for example, biologists or agronomists) aiming to facilitate the accomplishment of tasks foreseen in the following phases of the CRISP/DM: business understanding, data understanding, data preparation, modeling, evaluation of the generated models and deployment. To materialize the methodology proposal and to automatize its use by people who aren’t of the computer science area, the HaDog tool was implemented (Hiragi Approach of Data Mining of Germplasm). HaDog was implemented using the Java language, database Oracle® version 10g release 2 and is accessible through a Web interface, available to the credential researchers for access to the SIBRARGEN. The methodology of mining of germplasm proposal was evaluated of experimental form through two studies of cases lead with the support of researchers of the Embrapa (Genetic Resources and Biotechnology: determination of representative accesses of a species or group of species and proposal of directed collections, both typical problems of interest of the custodian (responsible researcher for the Bank of germplasm of a species). This experimental evaluation showed that it is possible to introduce the specialists in the area in the use of techniques of mining of data in the base of germplasm without require that they become involved themselves in activities of programming. The experimental results obtained so far show that HaDog can be a major facilitator for the mining of foundations of SIBRARGEN, targeting mainly, the discovery of new knowledge by specialists. Base de germoplasma Mineração de dados (Computação) SIBRARGEN Metodologia de mineração CRISP/DM HaDog
193	Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes Machado, Emerson Lopes 04 1900 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2007. / Submitted by Luis Felipe Souza (luis_felas@globo.com) on 2008-12-10T18:56:04Z No. of bitstreams: 1 Dissertacao_2007_EmersonMachado.pdf: 480909 bytes, checksum: 33454d8cde13ccd0274df91f48a4125d (MD5) / Approved for entry into archive by Georgia Fernandes(georgia@bce.unb.br) on 2009-03-04T12:18:48Z (GMT) No. of bitstreams: 1 Dissertacao_2007_EmersonMachado.pdf: 480909 bytes, checksum: 33454d8cde13ccd0274df91f48a4125d (MD5) / Made available in DSpace on 2009-03-04T12:18:48Z (GMT). No. of bitstreams: 1 Dissertacao_2007_EmersonMachado.pdf: 480909 bytes, checksum: 33454d8cde13ccd0274df91f48a4125d (MD5) / O objetivo geral desta pesquisa é analisar técnicas para aumentar a acurácia de classificadores construídos a partir de bases de dados desbalanceadas. Uma base de dados é desbalanceada quando possui muito mais casos de uma classe do que das outras, portanto possui classes raras. O desbalanceamento também pode ser em uma mesma classe se a distribuição dos valores dos atributos for muito assimétrica, levando à ocorrência de casos raros. Algoritmos classificadores são muito sensíveis a estes tipos de desbalanceamentos e tendem a valorizar as classes (ou casos) predominantes e a ignorar as classes (ou casos) de menor freqüência. Modelos gerados para bases de dados com classes raras apresentam baixa acurácia para estas classes, o que é problemático quando elas são classes de interesse (ou quando uma delas é a classe de interesse). Já os casos raros podem ser ignorados pelos algoritmos classificadores, o que é problemático quando tais casos pertencem à classe (ou às classes) de interesse. Uma nova proposição de algoritmo é o Cluster-based Smote, que se baseia na combinação dos métodos de Cluster-based Oversampling (oversampling por replicação de casos guiada por clusters) e no SMOTE (oversampling por geração de casos sintéticos). O método Cluster-based Oversampling visa melhorar a aprendizagem de pequenos disjuntos, geralmente relacionados a casos raros, mas causa overfitting do modelo ao conjunto de treinamento. O método SMOTE gera novos casos sintéticos ao invés de replicar casos existentes, mas não enfatiza casos raros. A combinação desses algoritmos, chamada de Clusterbased Smote, apresentou resultados melhores do que a aplicação deles em separado em oito das nove bases de dados utilizadas proposta nesta pesquisa. A outra abordagem proposta nesta pesquisa visa a diminuir a sobreposição de classes possivelmente provocada pela aplicação do método SMOTE. Intuitivamente, esta abordagem consiste em guiar a aplicação do SMOTE com a aprendizagem não supervisionada proporcionada pela clusterização. O método implementado sob esta abordagem, denominado de C-clear, resultou em melhora significativa em relação ao SMOTE em três das nove bases testadas e empatou nas demais. Foi também proposta uma nova abordagem para limpeza de dados baseada na aprendizagem não supervisionada, a qual foi incorporada ao C-clear. Esta limpeza somente surtiu melhora em uma base de dados, sendo este baixo desempenho oriundo possivelmente da escolha não adequada de seus parâmetros de limpeza. A aprendizagem destes parâmetros a partir dos dados ficou como trabalho futuro. ___________________________________________________________________________________________ ABSTRACT / It is intended in this work to research methods that improve the accuracy of classifiers applied to data set with class imbalance (high skew in class distribution causing rare classes) and within-class imbalance (high skew in data within-class distribution causing care cases). Standard classifier algorithms are strongly affected by these characteristics and their generated model are biased to the majority classes (or cases), in detriment of classes (or cases) underrepresented. Generally, models generated with imbalanced data set suffer from low accuracy for the minority classes, which is a problem when the target class is one of them. Eventually, rare cases are likely of being ignored by inductors, which is a problem when they belong to the interesting class (or classes). A new method is proposed in this work, Cluster-based Smote, which combines the methods Cluster-based Oversampling (oversampling by replication of positive cases guided by clusters) and SMOTE (Synthetic Minority Oversampling Technique). Cluster-based Oversampling addresses small disjuncts, but overfits the model to the training set. The method SMOTE addresses the overfit problem of random oversampling, but does not treat rare cases. The combination of them proposed in this research, named Cluster-based Smote, presented better results in eight out of nine datasets, compared to the applying of them all alone. Another approach proposed in this research aims at reducing the class overlap problem possibly caused by applying SMOTE. The main idea is to guide the SMOTE process by non-supervised learning (with clustering techniques). The method implemented under this approach, named Cclear, resulted in significant improvement over SMOTE in three out of nine datasets. A cleaning method based in the non-supervised learning was also proposed and has been incorporated in the C-clear method. The cleaning method improved the results in only one dataset, probably because of the not so well values chosen as cleaning parameters. The learning of these parameters from the data is left as a future work. Mineração de dados (Computação) Desbalanceamento de classe Sobreposição de classe SMOTE Cluster-based Oversampling Cluster-based Smote C-clear
194	Contribuição da mineração de dados e da otimização heurística para a interpretação dos dados da produção científica brasileira Santos, Levi Alã Neves dos 26 August 2011 (has links) Submitted by Duarte Zeny (zenydu@gmail.com) on 2013-01-13T13:09:21Z No. of bitstreams: 1 Dissertação_Levi_2011.pdf: 3299266 bytes, checksum: 6f8ae17be138738ad5e24c3ea563ff0a (MD5) / Made available in DSpace on 2013-01-13T13:09:21Z (GMT). No. of bitstreams: 1 Dissertação_Levi_2011.pdf: 3299266 bytes, checksum: 6f8ae17be138738ad5e24c3ea563ff0a (MD5) / Estudo experimental com métodos de mineração de dados e de otimização heurística. Destaca a aplicação de mapas temáticos, faces de Chernoff e lógica difusa na análise de dados multivariados, possibilitando estabelecer classificação a partir de regras pré-estabelecidas, controladas. Os métodos asseguram base para planejamento, acompanhamento e análise da produção científica nacional. Tem por objetivo analisar os critérios de mensuração e apresentação dos dados sobre a produção científica nacional e descrever e aplicação da mineração de dados e da lógica difusa como métodos auxiliares na análise desses dados, através do contraste entre a demonstração de sua visualização e os métodos tradicionais. Desenvolve análise comparativa da produção por estado brasileiro e demonstra que tais métodos descrevem a produção com informações de impacto no fenômeno. Os resultados compõem técnicas de visualização de dados baseadas em representação visual de fácil associação e entendimento. Indicam a perspectiva de novas hipóteses de análise e aponta aspectos interessantes do perfil de produção brasileira. O modelo construído comprova a aplicabilidade do método, o que recomenda sua utilização pela Ciência da Informação. / Salvador Produção científica Mineração de dados Faces de Chernoff Análise de componentes principais Lógica Difusa
195	Framework de integração para o modelo estratégico de colaboração e mineração de dados espaciais na WEB Moraes, André Fabiano de January 2011 (has links) Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Civil, Florianópolis, 2011 / Made available in DSpace on 2012-10-26T06:42:49Z (GMT). No. of bitstreams: 1 299724.pdf: 25008046 bytes, checksum: e7c6c14292df4b9be0a6385812006dd5 (MD5) / Após o levantamento da situação de alguns municípios brasileiros com relação a produção e ao tratamento de dados espaciais, ficou detectada a carência de infraestruturas, de informações e por consequência, a falta de mecanismos colaborativos com suporte a mineração de dados para análise espacial. As dificuldades aumentam com a disseminação de diferentes estruturas de dados espaciais a exemplo de padrões CAD/GIS produzidas através do rápido avanço das tecnologias de informação, sendo reais os desafios para implementação de uma infraestrutura interoperável e foco de várias discussões. Entretanto o acesso a esses dados via internet e os problemas ocasionados na troca dos mesmos estão relacionados diretamente a natureza particular de cada padrão adotado, por isso devem ser analisados e adequados para colaboração. Inicialmente a hipótese do trabalho visa intensificar a interoperabilidade entre dados espaciais e a integração de sistemas, tornando possível estabelecer canais de comunicação para um ambiente colaborativo visando ações potenciais e cooperativas. A partir disso, a pesquisa apresenta uma investigação sobre os aspectos relevantes que influenciam na engenharia de projetos, originando o desenvolvimento do protótipo denominado OpenCGFW (Collaborative Geospatial Framework Web), visando o reconhecimento de estruturas, integração, manipulação e colaboração, em sintonia com esforços da INDE, OGC e W3C. Inicialmente são realizados estudos e revisões sobre os assuntos diretamente relacionados à interoperabilidade. Também são abordados temas relacionados ao armazenamento, tratamento e colaboração computacional especificamente entre os dados geográficos produzidos por diferentes instituições públicas. Para construção do framework foi aplicado o método MCDA-C (Multicritério de Apoio à Decisão - Construtivista) para identificação dos aspectos fundamentais e elementares. A partir disso o trabalho também descreve os resultados obtidos na implementação das etapas de um padrão de projeto para apoiar nas atividades e na avaliação de geosoluções livres. Durante a discussão, são apresentados os resultados através experimentos e aplicações para mapas digitais na web visando a integração de várias bases de dados distribuídas ao cadastro técnico multifinalitário para uso das principais técnicas de mineração de dados espaciais. Ao final, o trabalho discute a hipótese e a contribuição da pesquisa, visando atender principalmente às características regionais, buscando contribuir para o avanço tecnológico do país ao intensificar o uso de padrões abertos e geotecnologias livres na colaboração e gestão do conhecimento / After surveying the situation in some municipals Brazilian with respect to production and processing of spatial data, it was detected the lack of infrastructure, of information, and therefore the lack of mechanisms to support collaborative for data mining and spatial analysis. The difficulties increase with the spread of different structures of spatial data standards like ie: CAD / GIS produced by the rapid advancement of information technology, and real challenges to implementation of an interoperable infrastructure and it focus of several discussions. However access to this data via the Internet and the problems caused in the same exchange are directly related to the particular nature of each standard adopted, so it they should must be analyzed and appropriate for collaboration. Initially, the hypothesis of the study aims to enhance interoperability between spatial data and systems integration, making it possible to establish communication channels for a collaborative environment aimed at potential and cooperative actions. From this, the study presents an investigation into the relevant aspects that influence the projects engineering, resulting in the development of the prototype called OpenCGFW (Collaborative Geospatial Framework Web), to the recognition of structures, integration, manipulation and collaboration, in tuning with efforts GSDI-INDE, OGC and W3C. Initially, studies and reviews on subjects directly related to interoperability. Are also discussed issues related to storage, processing between collaboration computational and specifically geographic data produced by different public institutions. For construction of the framework was applied MCDA-C method (Multicriteria Decision Aid - Constructivist) to identify the fundamental and elementary. From this work also describes the results obtained in implementing the steps of a design pattern to support the activities and evaluating free geo-solutions. During the discussion, are present the results through experiments and applications of the web mapping for digital maps to integrate multiple databases distributed of the multipurpose cadaster and use of the main techniques of spatial data mining. At the end, the work discusses the hypothesis and the contribution of research, mainly to meet the regional characteristics, seeking to contribute to the technological advancement of the country intensifying the use of open standards, the free geo-solutions collaboration and knowledge management Engenharia civil Framework (Programa de computador) Mineração de dados (Computação) Banco de dados Software livre Sistemas de informação geográfica
196	Aplicação de técnicas de mineração de texto na detecção de discrepâncias em documentos fiscais Madeira, Renato de Oliveira Caldas 29 September 2015 (has links) Submitted by RENATO DE OLIVEIRA CALDAS MADEIRA (rocmadeira@gmail.com) on 2015-11-24T18:30:54Z No. of bitstreams: 1 TEXTO DISSERTAÇÃO VFINAL1.pdf: 972383 bytes, checksum: 74fc038f85815d0c99a29b23297a3857 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2015-12-09T18:36:09Z (GMT) No. of bitstreams: 1 TEXTO DISSERTAÇÃO VFINAL1.pdf: 972383 bytes, checksum: 74fc038f85815d0c99a29b23297a3857 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2015-12-11T11:20:29Z (GMT) No. of bitstreams: 1 TEXTO DISSERTAÇÃO VFINAL1.pdf: 972383 bytes, checksum: 74fc038f85815d0c99a29b23297a3857 (MD5) / Made available in DSpace on 2015-12-11T11:20:42Z (GMT). No. of bitstreams: 1 TEXTO DISSERTAÇÃO VFINAL1.pdf: 972383 bytes, checksum: 74fc038f85815d0c99a29b23297a3857 (MD5) Previous issue date: 2015-09-29 / A implantação dos sistemas de notas fiscais eletrônicas proporcionou uma grande quantidade de dados para as administrações tributárias. Analisar esses dados e extrair informações importantes é um desafio. Esse trabalho buscou, por meio de técnicas de análise de dados e mineração de textos, identificar, a partir da descrição dos serviços prestados, notas emitidas incorretamente a fim de respaldar um melhor planejamento de fiscalizações. / The implementation of electronic invoices systems provided a large amount of data for tax administrations. Analyze this data and extract important information is a challenge. This study aimed, through data analysis and text mining techniques, identify, from description of services, invoices incorrectly issued to endorse better planning of inspections. Mineração de textos Nota fiscal de serviços eletrônica Detecção de fraudes Matemática Mineração de dados (Computação) Notas fiscais eletrônicas Fraude
197	Métodos de mineração de dados para extração de conhecimento em bioinformática: aplicação em dados de Geminivirus e predição de novas proteínas ribossomais / Data mining methods for knowledge extraction in bioinformatics: Application on Geminivirus data and prediction of new ribosomal pro-teins Carvalho, Thales Francisco Mota 25 July 2016 (has links) Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-10T10:24:21Z No. of bitstreams: 1 texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) / Made available in DSpace on 2017-02-10T10:24:21Z (GMT). No. of bitstreams: 1 texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) Previous issue date: 2016-07-25 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A mineração de dados (DM, do inglês data mining) é um processo de des- coberta de padrões que permite extrair informação e conhecimento em grandes volumes de dados. Suas principais técnicas se baseiam em predição, classificação e agrupamento (clustering). Estas técnicas têm sido utilizadas na bioinformá- tica para classificar o perfil de expressão gênica, encontrar padrões em sequências de DNA, avaliar a estrutura do dobramento de proteínas, entre outras aplicações. Neste trabalho, avançadas técnicas de DM foram aplicadas para o desenvolvimento de um Data Warehouse específica para geminivírus (geminivirus.org), a fim de au- xiliar na organização, correção e normalização de dados referentes a geminivírus. Neste Data Warehouse também foram propostas metodologias baseadas em regras e aprendizado de máquina (ML) que classificam as sequências de DNA e seus ge- nes. A família Geminiviridae é composta por pequenos vírus de DNA circular de fita simples que infectam uma grande variedade de plantas e causam sérios danos econômicos ao redor do mundo. O aprimoramento da amplificação do DNA viral e de técnicas de sequenciamento permitiram um enorme crescimento de dados em banco de dados públicos. Simultaneamente, ocorreu o crescimento no volume de publicações relacionadas a esta família. Desta forma, numa segunda linha de tra- balho surgiu a necessidade de aplicar as técnicas de DM, seguindo o processo de KDD (knowledge-discovery in databases) para extrair informações desses dados. Além disso, técnicas de Processamento de Linguagem Natural (NLP) foram utili- zadas para extrair informação em resumos de artigos relacionados a geminivírus. Assim, o acervo científico pode ser explorado de maneira contextualizada. Final- mente, uma terceira frente de trabalho em mineração de dados foi empreendida, desta vez direcionada à descoberta de proteínas ribossomais. Pesquisas recentes têm demonstrado que plantas suprimem o mecanismo global de tradução como uma estratégia de imunidade antiviral. Entretanto, poucas proteínas ribossomais são mencionadas a integrarem vias do mecanismo de defesa das plantas. As pro- teínas ribossomais (RPs) desempenham um papel fundamental em células vivas, pois são o principal componente dos ribossomos. Além disso, estas proteínas estão envolvidas em vários processos fisiológicos e patológicos. Assim, foi desenvolvido um método de aprendizado de máquina capaz de identificar novas proteínas ri- bossomais, designado Rama. O Rama utiliza abordagens inovadoras em relação aos métodos computacionais atualmente existentes. Em experimentos in silico, o Rama obteve resultados médios de precisão, acurácia, sensitividade e especifici- dade de 0.9203, 0.9214, 0.9214 e 0.8236, respectivamente. Ademais, duas proteínas não caracterizadas foram preditas como RPs pelo Rama e experimentos in vitro confirmaram a veracidade do resultado, ao passo que as metodologias atuais não conseguem lograr o mesmo sucesso. / Data mining (DM) is a pattern discovery process that can extract information and knowledge in large volumes of data. Its main techniques are based on prediction, classification, and clustering. These techniques have been used in bioinformatics to identify gene expression profiles, find patterns in DNA sequences, evaluate protein folding structure, among other applications. In this work, advanced techniques of DM were applied to the development of a specific Data Warehouse for geminivi- ruses (geminivirus.org) to assist in organization, correction, and normalization of data related to geminivirus. In this Data Warehouse, we also propose methodo- logies based on rules and machine learning (ML) to classify DNA sequences and their genes. The Geminiviridae family consists of small circular single-stranded DNA viruses which infect a wide variety of plants and cause serious economic losses wordwide. Improvements in amplification of viral DNA and sequencing techniques have led to an enormous growth of public databases. Thus, in a second endeavor in this work, we realized the need to apply DM techniques, following the process of KDD (knowledge-discovery in databases), to extract yet-unknown information. Furthermore, natural language processing techniques (NLP) were used to extract information in abstracts of paper related to geminivirus. In this way, the scientific literature can be explored in a contextualized manner. Finally, a third effort using data mining approaches was carried out, this time directed to the identification of new ribosomal proteins. Recent research has shown that plants suppress the ove- rall mechanism of translation as a strategy for antiviral immunity. However, few ribosomal proteins are referred to integrate pathways of plant defense mechanisms. Ribosomal proteins (RPs) have a fundamental role in living cells, as they are the main component of ribosomes. Furthermore, these proteins are involved in various physiological and pathological processes. Therefore, we developed a ML method to identify new ribosomal proteins, called Rama. Rama uses innovative approaches in comparison to currently existing computational methods. In in silico experiments, Rama presented average results of precision, accuracy, sensitivity, and specificity of 0.9203, 0.9214, 0.9214, and 0.8236, respectively. In addition, two proteins not yet characterized were predicted as RPs by Rama, whereas other methods could not achieve the same success. In vitro experiments confirmed the veracity of our result. Mineração de dados (Computação) Bancos de dados Bionformática Geminivirus Aprendizado de máquina Proteínas Ciência da Computação
198	Uso de ferramentas de análise de 'big data' na identificação de ameaças e fatores de risco fitossanitário / Use of analysis tools 'big data' in identifying threats and phytosanitary risk factors Alves, Giliardi Anício 31 March 2016 (has links) Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-14T16:40:14Z No. of bitstreams: 1 texto completo.pdf: 497659 bytes, checksum: 2c99a8ab10eb6c5a75f20d8df5487dd7 (MD5) / Made available in DSpace on 2017-02-14T16:40:14Z (GMT). No. of bitstreams: 1 texto completo.pdf: 497659 bytes, checksum: 2c99a8ab10eb6c5a75f20d8df5487dd7 (MD5) Previous issue date: 2016-03-31 / Entender o movimento das pragas entre fronteiras, identificar os padrões de dispersão e tendências neste movimento são desafios em serviços de inteligência quarentenária. As espécies que foram introduzidas na América do Sul e Trindade e Tobago, em muitos casos, causam grande dano à agricultura e à economia local. O Brasil, por sua vez, sendo o país com maior produção agrícola nesta região, enfrenta grandes desafios para impedir a entrada de novas pragas e controlar aquelas já introduzidas em seu território. Com o intuito de identificar o padrão atual de distribuição geográfica e incentivar o uso de novas tecnologias na área de pesquisa em defesa vegetal, o presente trabalho trata da identificação de ameaças fitossanitárias utilizando ferramentas computacionais de mineração de dados. Essas ferramentas permitiram identificar dezessete espécies de pragas quarentenárias ausentes para o Brasil com presença confirmada para os países da América do Sul e Trindade e Tobago, as quais foram submetidas a uma avaliação de risco de pragas. Os hemípteros Perkinsiella saccharicida e Pseudococcus calceolariae, os fungos Boeremia foveata, Botrytis fabae, Phoma andigena, Tilletia laevis, Urocystis agropyri, Phytophthora erythroseptica e o coleóptero Prostephanus truncatus são espécies de pragas quarentenárias ausentes para o Brasil com alta probabilidade de entrada a partir da América do Sul e com alto potencial de risco para o país. / Understanding pest movement across international borders, identifying standards of their dispersal and trends are challenges to quarantine intelligence services. Often, exotic species that have become introduced in South America and Trinidad and Tobago cause severe damages to local agriculture and economy. In turn, Brazil, given its regional prominence in agriculture faces challenges to prevent the entry of new pests as well as to control the ones that have already become introduced. Aiming to identify patterns of geographic distribution and to encourage the use of new technological tools in quarantine intelligence, this work deals with the use of data mining and big data analysis tools. 17 pest species of quarantine species have been identified as highly likely to be introduced through the terrestrial borders of Brazil and were submitted to a pest assessment analysis. The hemipterans Perkinsiella saccharicida and Pseudococcus calceolariae, fungi Boeremia foveata, Botrytis fabae, Phoma andigena, Tilletia laevis, Urocystis agropyri, Phytophthora erythrosepticaand the beetle Prostephanus truncatus were qualified as the most risky species to Brazil. Agricultura Mineração de dados (Computação) Defesa Fitossanitária
199	Modelos pedométricos para espacialização de atributos de solos / Pedomentrics model for spatialization of soil properties Taques, Renato Corrêa 04 December 2014 (has links) Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2017-08-17T16:38:08Z No. of bitstreams: 1 texto completo.pdf: 2416699 bytes, checksum: 295770a8d987315b99671e453ffecf22 (MD5) / Made available in DSpace on 2017-08-17T16:38:08Z (GMT). No. of bitstreams: 1 texto completo.pdf: 2416699 bytes, checksum: 295770a8d987315b99671e453ffecf22 (MD5) Previous issue date: 2014-12-04 / Informações sobre os solos são cada vez mais requeridas para auxiliar a tomada de decisão em uma série de questões globais, tornando crescente a procura por informações atualizadas e precisas sobre os solos. Métodos geoestatísticos apresentam bons resultados em levantamentos quantitativos de solos de níveis detalhados (escalas ≥ 1:20.000) e métodos convencionais, aparentemente, são mais eficientes em levantamentos de reconhecimento de baixa intensidade (escalas ≤ 1:250.000). O desafio é encontrar métodos de levantamento quantitativo, aplicáveis em escalas intermediárias. Este trabalho teve como objetivo realizar estudos comparativos das metodologias de mapeamento digital de atributos de solos, compatível com escalas de mapeamento semidetalhado. O estudo foi realizado na bacia do Rio Pongal, no município de Anchieta/ES (Lat 20°45’S, Long 40°45’W), com área aproximada de 14.000 hectares. A base de dados de atributos de solos foi obtida a partir dos resultados de análises de rotina para determinação do pH, CTC, MOS, teores de areia, silte e argila, de 154 amostras da camada 15 a 30 cm de profundidade. Covariáveis ambientais, geradas a partir de MDEs, dados gamaespectrométricos e imagens do satélite Landsat 8, foram usadas nos modelos preditivos. O capítulo 1 é dedicado ao estudo da variabilidade espacial dos atributos de solos, com a modelagem dos semivariogramas, avaliação do alcance e da dependência espacial. Com exceção do pH, todas as variáveis apresentaram forte dependência espacial, com alcance variando entre 297 e 565 m. O capítulo 2 trata da seleção de covariáveis mais relevantes para a predição espacial, usando Regressão Linear Múltipla (RLM) e Random Forest (RF). As covariáveis derivadas do MDE de 5 m de resolução apresentaram os melhores resultados em relação às covariáveis dos demais MDEs estudados. Os modelos RF apresentaram resultados melhores de R2 e RMSE, se comparados com os resultados da RLM. O desempenho dos modelos geoestatísticos de krigagem ordinária, cokrigagem e regressão-krigagem na predição espacial de atributos de solos foi avaliado no capítulo 3. Na avaliação final, a regressão- krigagem apresentou os melhores resultados na predição dos atributos de solos, entre os modelos geoestatísticos avaliados. Concluímos que o uso de técnicas híbridas, de regressão combinada com a krigagem, que utilizam covariáveis ambientais na predição, produzem os melhores resultados no mapeamento digital de atributos de solos em escala semidetalhadas. / Soils information is increasingly required to aid decision taking on a range of global issues, becoming growing demand for updated and accurate information on soils. Geostatistical methods have good results in quantitative soil surveys of detailed levels (scale ≥ 1:20,000) and conventional methods are, apparently, more efficient at low intensity reconnaissance surveys (≤ scales 1:250,000). The challenge is to find quantitative survey methods, applicable to intermediate scales. This work aimed to conduct comparative studies of methodologies of digital mapping of soil properties compatible with semi-detailed scales mapping. The study was conducted at the Rio Pongal basin, in the municipality of Anchieta/ES (Lat 20°45'S; Long 40°45'W), with an approximate area of 14,000 hectares. The database of soil properties was obtained from the results of routine analysis to determine pH, CEC, SOM, sand, silt and clay, 154 samples layer of 15 to 30 cm deep. Environmental covariates, generated from DEMs, gamma ray spectrometric data and images from the satellite Landsat 8, were used in predictive models. Chapter 1 is devoted to the study of the spatial variability of soil properties, with modeling the semivariogram, evaluation value range and spatial dependence. With exception of pH, all variables showed a strong spatial dependence, with range varying between 297 and 565 m. Chapter 2 deals with the selection of the most relevant variables for the spatial prediction using Multiple Linear Regression (MLR) and Random Forest (RF). The covariates derived from the DEM of 5 m resolution showed the best results in relation to other DEMs studied. RF models showed the best results in R2 and RMSE, compared with the results of MLR. The performance of geostatistical models of ordinary kriging, cokriging and regression-kriging in spatial prediction of soil properties was evaluated in Chapter 3. In the final evaluation, the regression-kriging showed the best results in the prediction of soil properties, between models geostatistical evaluated. We conclude that using hybrid techniques, regression combined with the kriging, using environmental covariates to predict, produce the best results in digital mapping of soil properties in semi-detailed scales. Mapeamento do solo Mapeamento digital Geoprocessamento Mineração de dados (Computação) Análise espacial (Estatística) Ciência do Solo
200	Seizure detection in electroencephalograms using data mining and signal processing / Detecção de convulsões em eletroencefalogramas usando miner- ação de dados e processamento de sinais Orellana, Marco Antônio Pinto 10 March 2017 (has links) Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-08-22T13:26:59Z No. of bitstreams: 1 texto completo.pdf: 5760621 bytes, checksum: f90e38633fae140744262e882dc7ae5d (MD5) / Made available in DSpace on 2017-08-22T13:26:59Z (GMT). No. of bitstreams: 1 texto completo.pdf: 5760621 bytes, checksum: f90e38633fae140744262e882dc7ae5d (MD5) Previous issue date: 2017-03-10 / Agencia Boliviana Espacial / A epilepsia é uma das doenças neurológicas mais comuns definida como a predisposição a sofrer convulsões não provocadas. A Organização Mundial da Saúde estima que 50 milhões de pessoas estão sofrendo esta condição no mundo inteiro. O diagnóstico de epilepsia implica em um processo caro e longo baseado na opinião de especialistas com base em eletroencefalogramas (EEGs) e gravações de vídeo. Neste trabalho, foram desenvolvidos dois métodos para a predição automática de convulsões usando EEG e mineração de dados. O primeiro sistema desenvolvido é um método específico para cada paciente (patient-specific) que consiste em extrair características espectro-temporais de todos os canais de EEG, aplicar um algoritmo de redução de dimensão, recuperar o envelope do sinal e criar um modelo usando um classificador random forest. Testando este sistema com um grande banco de dados de epilepsia, atingimos 97% de especificidade e 99% de sensibilidade. Assim, a primeira proposta mostrou ter um grande potencial para colaborar com o diagnóstico em um contexto clínico. O segundo sistema desenvolvido é um método não específico do paciente (non-patient specific) que consiste em selecionar o sinal diferencial de dois eletrodos, aplicar um vetor de bancos de filtros para esse sinal, extrair atributos de séries temporais e criar um modelo preditivo usando uma árvore de decisão CART. O desempenho deste método foi de 95% de especificidade e 87% de sensibilidade. Estes valores não são tão altos quanto os de métodos propostos anteriormente. No entanto, a abordagem que propomos apresenta uma viabilidade muito maior para implementação em dispositivos que possam ser efetivamente utilizados por pacientes em larga escala. Isto porque somente dois elétrodos são utilizados e o modelo de predição é computacionalmente leve. Note-se que, ainda assim, o modelo xigerado apresenta um poder preditivo satisfatório e generaliza melhor que em trabalhos anteriores já que pode ser treinado com dados de um conjunto de pacientes e utilizado em pacientes distintos (non-patient specific). Ambas as propostas apresentadas aqui, utilizando abordagens distintas, demonstram ser alternativas de predição de convulsões com performances bastante satisfatórias sob diferentes circunstâncias e requisitos. / Epilepsy is one of the most common neurological diseases and is defined as the pre- disposition to suffer unprovoked seizures. The World Health Organization estimates that 50 million people are suffering this condition worldwide. Epilepsy diagnosis im- plies an expensive and long process based on the opinion of specialist personnel about electroencephalograms (EEGs) and video recordings. We have developed two meth- ods for automatic seizure detection using EEG and data mining. The first system is a patient-specific method that consists of extracting spectro-temporal features of 23 EEG channels, applying a dimension reduction algorithm, recovering the envelope of the signal, and creating a model using a random forest classifier. Testing this system against a large dataset, we reached 97% of specificity and 99% of sensitivity. Thus, our first proposal showed to have a great potential for diagnosis support in clinical context. The other developed system is a non-patient specific method that consists of selecting the differential signal of two electrodes, applying an array of filter banks to that signal, extracting time series features, and creating a predictive model using a decision tree. The performance of this method was 95% of specificity, and 87% of sensitivity. Although the performance is lower than previous propos- als, due to the design conditions and characteristics, our method allows an easier implementation with low hardware requirements. Both proposals presented here, using distinct approaches, demonstrate to be seizure prediction alternatives with very satisfactory performances under different circumstances and requirements. Mineração de dados (Computação) Epilepsia Eletroencefalografia de ritmo alfa Doenças mentais Ciência da Computação

Search results