Global ETD Search

121	O campo da Ciência da Informação: contribuições, desafios e perspectivas da mineração de dados para o conhecimento pós-moderno Nhacuongue, Januário Albino [UNESP] 17 April 2015 (has links) (PDF) Made available in DSpace on 2015-08-20T17:10:10Z (GMT). No. of bitstreams: 0 Previous issue date: 2015-04-17. Added 1 bitstream(s) on 2015-08-20T17:25:51Z : No. of bitstreams: 1 000841931.pdf: 2010730 bytes, checksum: 6af21dccdeef4d224619d3ce72b144a3 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / O trabalho faz uma abordagem sobre a gênese do campo da Ciência da Informação (CI) e analisa as principais contribuições e desafios impostos pela tecnologia, no que tange à representação e recuperação da informação. O objeto da pesquisa é a Ciência da Informação e o contexto, por um lado, resulta da revolução das ciências, na dicotomia entre a busca pela essência e o foco nos problemas humanos, em concomitância com a relação entre a ciência e a tecnologia. Por outro, do aumento dos recursos informacionais digitais e da complexidade, tanto dos ambientes de produção, comunicação e uso da informação, como dos modelos de representação. Para tal, usou o método qualitativo de caráter descritivo, cujos procedimentos técnicos foram centrados na pesquisa bibliográfica e documental de materiais relativos às variáveis. A partir do delineamento sobre a origem e desdobramentos da CI enleados à tecnologia e do respectivo objeto (informação), identificou como problema da pesquisa, a intangibilidade de algumas informações da Web Social, no ponto de vista do acesso. Assim, a pesquisa partiu da seguinte pergunta de partida: é possível utilizar-se da Mineração de Dados (MD) como uma forma de garantir a recuperação da informação intangível na Web Social? Por conseguinte, a pesquisa identificou como objetivo geral: propor a mineração de dados como solução para a recuperação da informação intangível em ambientes da Web Social. Assim, o trabalho chegou às seguintes conclusões: com base na noção de campo proposta por Pierre Bordieu, a CI é um campo científico e a sua gênese está aliada aos problemas informacionais humanos e à tecnologia. A maioria das suas abordagens é anterior à explosão informacional no período Pós-Guerra e foram incorporadas a partir de relações interdisciplinares, principalmente, com a Biblioteconomia, Arquivologia, Documentação, Museologia e Ciência da... / The work is a discussion of the genesis of the field of Information Science (IS) and analyzes the main contributions and challenges posed by technology, regarding the information representation and retrieval. The object of research is the Information Science and the context on the one hand, results of the revolution of the sciences, in the dichotomy between the search for the essence and the focus on human problems, in tandem with the relationship between science and technology. On the other, the increase in digital information resources and the complexity of both production environments, communication and use of information, such as the representation models. To do this, it used the qualitative method of descriptive character, whose technical procedures were focused on bibliographical and documentary research materials related to variables. From the design of the origin and developments of IS ensnared technology and its object (information), identified as the research problem, the intangibility of some information from the Social Web, the point of view of access. Thus, the research came from the following starting question: is it possible to use the Data Mining (DM) as a way to ensure the retrieval of intangible information in the Social Web? Therefore, the survey identified the general objective: propose the data mining as a solution for the retrieval of intangible information in the Social Web environments. Thus, the work reached the following conclusions: based on the notion of field proposed by Pierre Bourdieu, Information Science is a scientific field and its genesis is allied to human problems and informational technology. Most of their approaches is prior to the informational explosion in the postwar period and were incorporated from interdisciplinary relations, especially with the Library, Archival, Documentation, Museology and Computer Science. However, as the institutionalization as a scientific field, IS consolidated in the... Ciência da informação Pós-modernismo Teoria da informação Recuperação da informação Mineração de dados (Computação) Tecnologia da informação Conhecimento e aprendizagem Information science
122	Correlação e visualização de alertas de segurança em redes de computadores / Ribeiro, Adriano Cesar. January 2015 (has links) Orientador: Adriano Mauro Cansian / Banca: Kalinka Regina Lucas Jaquie Castelo Branco / Banca: Leandro Alves Neves / Resumo: Os sistemas de detecção de intrusão fornecem informações valiosas em relação à segurança das redes de computadores. No entanto, devida à quantidade de ameaças inerentes aos sistemas computacionais, os registros dessas ameaças na forma de alertas podem constituir de grandes volumes de dados, muitas vezes bastante complexos para serem analisados em tempo hábil. Esta dissertação apresenta uma abordagem para correlacionar alertas de segurança. A metodologia tem como princípio a utilização de mineração de dados para a coleta de informações constituintes nos alertas providos pelos sistemas detectores de intrusão. Primeiramente, os alertas são classificados em tipos de ataques para que, na sequência, sejam clusterizados de forma a agrupar alertas com características semelhantes. Por fim, a correlação é realizada baseada na ocorrência dos alertas em cada cluster e, dessa forma, é obtida uma visão geral do cenário de ataque, utilizando de métodos de visualização de tais ocorrências maliciosas / Abstract: Intrusion detection systems provides valuable information regarding the security of computer networks. However, due to the amount of threats inherent in computer systems, records of these threats in the form of alerts can be large volumes of data, often quite complex to be analyzed in a timely manner. This paper presents an approach to correlate security alerts. The methodology is based on the use of data mining to the collection of constituent information in the alerts provided by intrusion detection systems. First, alerts are classified into types of attacks so that, later, are clustered in order to compose alerts with similar characteristics. Finally, the correlation is performed based on the occurrence of alerts in each cluster and thereby an overview of the attack scenario is obtained using visualization methods of such malicious events / Mestre Ciência da computação. Visualização da informação. Mineração de dados (Computação) Computer science
123	Framework para prospecção de dados espaciais baseado em semântica apoiado por ontologias / Guimarães, Diogo Lemos January 2015 (has links) Orientador: Carlos Roberto Valêncio / Banca: Rogéria Cristiane Gratão de Souza / Banca: Marilde T. Prado Santos / Resumo: Com a popularização de dispositivos que permitem a obtenção de dados espaciais, como pontos geográficos, velocidade e direção, aumentou-se consideravelmente o interesse pela captura, armazenamento e interpretação desses dados. Com isto, cada vez mais, um número maior de aplicações demostram interesse nesse tipo de dado e necessitam de bases de dados próprias para armazenar as informações. Estas bases são conhecidas como bases de dados espaciais. Com o objetivo de obter informações relevantes destes dados, algoritmos de prospecção de dados espaciais foram desenvolvidos e vem avançando com o intuito de, por exemplo, melhorar a qualidade dos resultados obtidos. Todavia, os algoritmos atuais desconsideram que os pontos geográficos estão em determinadas regiões, que por si só, fornecem informações semânticas relevantes. Com o objetivo de aprimorar os resultados de algoritmos, o uso de ontologias permite adicionar semântica e expressar o conhecimento sobre um domínio específico. O trabalho desenvolvido apresenta uma abordagem que permite, por meio do uso de ontologia, estender algoritmos espaciais para utilizarem um novo atributo durante o processo de criação de agrupamentos, o coeficiente semântico do ponto. Através do framework desenvolvido é possível adaptar algoritmos para utilizarem essa abordagem possibilitando gerar resultados mais relevantes / Abstract: With the popularity of devices it became possible to easily obtain spatial data, such as geographic points, speed and direction, and because of that it also increased considerably the interest in obtaining, storing and analyzing such data. Therefore, a larger number of applications demonstrate interest in this type of data requiring it's own databases for storing this kind of information. These bases are known as spatial databases. In order to obtain relevant information from these data, spatial data algorithms were developed and has been advancing in order to, for example, improve the quality of the results. However, current algorithms disregard that geographical points are in certain regions, which in itself, provide relevant semantic information. In order to improve the results of algorithms, the use of ontologies allows to express semantics and knowledge about a particular domain. This work presents an approach that allows, through the use of ontology, extend spatial algorithms to use a new attribute in the process of creating groups, the semantic coefficient point. Through the developed framework it is possible to adapted algorithms to use this approach enabling generate more relevant results / Mestre Ciência da computação. Mineração de dados (Computação) Sistemas espaciais Banco de dados Semântica. Computer science
124	Classificação de cobertura do solo utilizando árvores de decisão e sensoriamento remoto / Celinski, Tatiana Montes, 1963- January 2008 (has links) Orientador: CéliaRegina Lopes Zimback / Banca: Zacarias Xavier de Barros / Banca: Marco Antonio M.Biaggioni / Banca: Marcelo Giovaneti Canteri / Banca: Ivo Mario Mathias / Resumo: Este trabalho teve por objetivo a discriminação de classes de cobertura do solo em imagens de sensoriamento remoto do satélite CBERS-2 por meio do Classificador Árvore de Decisão. O estudo incluiu a avaliação de combinações de atributos da imagem para melhor discriminação entre classes e a verificação da acurácia da metodologia proposta comparativamente ao Classificador Máxima Verossimilhança (MAXVER). A área de estudo está localizada na região dos Campos Gerais, no Estado do Paraná, que apresenta diversidade quanto aos tipos de vegetação: culturas de inverno e de verão, áreas de reflorestamento, mata natural e pastagens. Foi utilizado um conjunto de dezesseis (16) atributos a partir das imagens, composto por: bandas do sensor CCD (1, 2, 3, 4), índices de vegetação (CTVI, DVI, GEMI, NDVI, SR, SAVI, TVI), componentes de mistura (solo, sombra, vegetação) e os dois primeiros componentes principais. A acurácia da classificação foi avaliada por meio da matriz de erros de classificação e do coeficiente kappa. A coleta de amostras de verdade terrestre foi realizada utilizando-se um aparelho GPS de navegação para o processo de georreferenciamento, para serem usadas na fase de treinamento dos classificadores e também na verificação da acurácia. O processamento das imagens e a geração dos mapas temáticos foram realizados por meio do Sistema de Informações Geográficas SPRING, sendo as rotinas desenvolvidas na linguagem de programação LEGAL. Para a geração do Classificador Árvore de Decisão foi utilizada a ferramenta See5. Na definição das classes, buscou-se um alto nível discriminatório a fim de permitir a separação dos diferentes tipos de culturas presentes na região nas épocas de inverno e de verão. A classificação por árvore de decisão apresentou uma acurácia total de 94,5% e coeficiente kappa igual a 0,9389, para a cena 157/128; para... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: This work aimed to discriminate classes of land cover in remote sensing images of the satellite CBERS-2, using the Decision Tree Classifier. The study includes the evaluation of combinations of attributes of the image to a better discrimination between classes and the verification of the accuracy of the proposed methodology, comparatively to the Maximum Likelihood Classifier (MLC). The geographical area used is situated in the region of the "Campos Gerais", in the Paraná State, which presents diversities concerning the different kinds of vegetations: summer and winter crops, reforestation areas, natural forests and pastures. It was used a set of sixteen (16) attributes from images, composed by bands of the sensor CCD (1, 2, 3, 4), vegetation indices (CTVI, DVI, GEMI, NDVI, SR, SAVI, TVI), mixture components (soil, shadow, vegetation) and the two first principal components. The accuracy of the classifications was evaluated using the classification error matrix and the kappa coefficient. The collect of the samples of ground truth was performed using a navigation device GPS to the georeference process to be used in the training stage of the classifiers and in the verification of the accuracy, as well. The processing of the images and the generation of the thematic maps were made using the Geographic Information System SPRING, and the routines were developed in the programming language LEGAL. The generation of the Decision Tree Classifier was made using the tool See5. A high discriminatory level was aimed during the definition of the classes in order to allow the separation of the different kinds of winter and summer crops. The classification accuracy by decision tree was 94.5% and kappa coefficient was 0.9389 to the scene 157/128; to the scene 158/127, it presented the values 88% and 0.8667, respectively. Results showed that the performance of the Decision Tree Classifier was better... (Complete abstract click electronic access below) / Doutor Sensoriamento remoto. Processamento de imagens. Mineração de dados (Computação) Digital image classification. eng Pattern recognition. eng Vegetation mapping. eng Mapping accuracy. eng
125	Segmentação de pele em imagens digitais para a detecção automática de conteúdo ofensivo Kuiaski, Diogo Rosa 25 February 2010 (has links) CAPES; UOL / O presente trabalho tem como objetivo estudar meios de efetuar a detecção automática de conteúdo ofensivo (pornografia) em imagens digitais. Para tal estudou-se largamente segmentação de pixels de pele, espaços de cor e descritores de conteúdo. Esse trabalho tem um foco maior na segmentação de pele, pois é a etapa primordial nos trabalhos envolvendo detecção de conteúdo ofensivo. Testou-se quatro métodos de segmentação de pixels de pele e foi construído um banco de dados estruturado para o estudo de segmentação de pele, com meios de anotação de imagens para auxiliar na estruturação e no controle das características das imagens do banco. Com o auxílio das metainformações do banco de imagens, foram conduzidos estudos envolvendo as condições de iluminação e a segmentação de pele. Por fim, foi implementado um algoritmo de extração de características em sistemas de classificação pelo conteúdo de imagens (CBIR) para detecção de conteúdo ofensivo. / This work presents a study of suitable approaches for automatic detection of offensive content (pornography) in digital images. Extensive experiments were conducted for skin pixel segmentation, colour spaces and content descriptors. This work focus its efforts on skin pixel segmentation, since this segmentation is the pre-processing stage for almost every content-based offensive image classification methods in the literature. Four skin skin segmentation methods were tested in six colour spaces. Also, a structured image database was built to help improve studies in skin segmentation, with the possibility of adding meta-information to the images in the database, such as illumination conditions and camera standards. With the help of meta information from the image database, experimets involving illumination conditions and skin colour segmentation were also done. Finally, some feature extraction algorithms were implemented in order to apply content-based image retrieval (CBIR) algorithms to classify offensive images. Sistemas de reconhecimento de padrões Mineração de dados (Computação) Image processing - Digital techniques Pattern recognition systems Data mining
126	A heuristic to detect community structures in dynamic complex networks Gabardo, Ademir cristiano 25 August 2014 (has links) Complex networks are ubiquitous; billions of people are connected through social networks; there is an equally large number of telecommunication users and devices generating implicit complex networks. Furthermore, several structures can be represented as complex networks in nature, genetic data, social behavior, financial transactions and many other structures. Most of these complex networks present communities in their structure. Unveiling these communities is highly relevant in many fields of study. However, depending on several factors, the discover of these communities can be computationally intensive. Several algorithms for detecting communities in complex networks have been introduced over time. We will approach some of them. Our goal in this work is to identify or create an understandable and applicable heuristic to detect communities in complex networks, with a focus on time repetitions and strength measures. This work proposes a semi-supervised clustering approach as a modification of the traditional K-means algorithm submitting each dimension of data to a weight in order to obtain a weighted clustering method. As a first case study, databases of companies that have participated in public bids in Paraná state, will be analyzed to detect communities that can suggest structures such as cartels. As a second case study, the same methodology will be used to analyze datasets of microarray data for gene expressions, representing the correlation of the genes through a complex network, applying community detection algorithms in order to witness such correlations between genes. Redes sociais Mineração de dados (Computação) Teoria dos grafos Computação Social networks Data mining Graph theory Computer science
127	Fácil bula: sistema que estrutura o bulário eletrônico da Anvisa / Fácil bula: system that structure to the Anvisa's "Bulário Eletrônico" Silva, João Vitor Ferrari da 25 May 2016 (has links) O trabalho desempenhado pelos profissionais da área de saúde quando voltado ao cuidado das pessoas consiste, por vezes, na escolha dos melhores medicamentos para o sucesso terapêutico no tratamento de pacientes. Existem vários medicamentos disponíveis no mercado brasileiro, assim para que o profissional encontre as informações sobre o medicamento que pode ser melhor indicado para o paciente há aplicativos e ferramentas que facilitam a pesquisa dos medicamentos e auxiliam o trabalho deste especialista. Contudo em nossa busca não foram encontrados sistemas que possuem a identificação de reações adversas, contraindicações, interações medicamentosas, advertências e precauções entre a associação conjunta de medicamentos regulamentados pela Agência Nacional de Vigilância Sanitária (ANVISA). Nesse contexto, o Bulário Eletrônico da ANVISA disponibiliza um conjunto de 6:961 bulas profissionais em formato PDF, contudo as informações nelas contidas não estão estruturadas. Um dos desafios deste trabalho consistiu em extrair automaticamente as informações presentes nesse conjunto de bulas. Este trabalho apresenta uma metodologia semiautomática de mineração de textos para mapear as bulas da ANVISA nas redes de interações entre fármacos da base de dados DrugBank, juntamente com as doenças encontradas na base SNOMED-CT. Os medicamentos, as doenças, os fármacos e suas relações foram estruturadas e armazenadas em um banco de dados em grafos utilizando a tecnologia Neo4j. Por meio dos resultados obtidos foi desenvolvido o Fácil Bula, website com objetivo de desenvolver ferramentas que facilitem a pesquisa de medicamentos e doenças para profissionais da área de saúde. Desse modo, teve seu projeto aceito no processo de incubação do Hotel Tecnológico da Incubadora de Inovações da Universidade Tecnológica (IUT). O portal web do Fácil Bula contabilizou acessos por todo território brasileiro, principalmente em grandes capitais como São Paulo e Rio de Janeiro, além de conquistar um bom posicionamento nas pesquisas orgânicas do Google relacionadas a algumas palavras-chave de medicamentos e da Classificação Internacional de Doenças (CID). / The work done by health area professionals when facing the care of people consists on choosing the best medications for the success of the treatment of them. There are many medications available on the brazilian market, so for this professional find the information about the medication which could be the best match for the pacient there is which applications and tools make easier the search of drugs and helps this specialist. However, none of these systems had drug adverse reaction identification, contraindications, medical interactions, warnings and precautions between the overall association of drugs regulated by the “Agência Nacional de Vigilância Sanitária” (ANVISA). In this context, the ANVISA’s “Bulário Eletrônico” offers a collection of 6;961 professional medication guides in PDF file format. However, the information available in these guides are in an unstructured format. One of challenges of this work consisted in the automatic retrieval of information from ANVISA’s medication guides. This paper presents a semiautomatic procedure that maps ANVISA’s medication guides to DrugBank and SNOMEDCT. The medications, the diseases, the drugs, and their relations were structured and stored on a graph database using the Neo4j technology. Fácil Bula, was developed through results of studies, it is a website which goals to conceive tools to facilitate the medication and disease search for health professionals, it hits all the brazilian territory, mainly big capitals like S˜ao Paulo and Rio de Janeiro, as well as gain a good position in organic Google searches related to some keywords medicines and International Classification of Diseases (ICD). CNPQ::CIENCIAS EXATAS E DA TERRA Mineração de dados (Computação) Medicamentos - Interações Farmacologia Data mining Drug interactions Pharmacology Ciência da Computação
128	Segmentação de pele em imagens digitais para a detecção automática de conteúdo ofensivo Kuiaski, Diogo Rosa 25 February 2010 (has links) CAPES; UOL / O presente trabalho tem como objetivo estudar meios de efetuar a detecção automática de conteúdo ofensivo (pornografia) em imagens digitais. Para tal estudou-se largamente segmentação de pixels de pele, espaços de cor e descritores de conteúdo. Esse trabalho tem um foco maior na segmentação de pele, pois é a etapa primordial nos trabalhos envolvendo detecção de conteúdo ofensivo. Testou-se quatro métodos de segmentação de pixels de pele e foi construído um banco de dados estruturado para o estudo de segmentação de pele, com meios de anotação de imagens para auxiliar na estruturação e no controle das características das imagens do banco. Com o auxílio das metainformações do banco de imagens, foram conduzidos estudos envolvendo as condições de iluminação e a segmentação de pele. Por fim, foi implementado um algoritmo de extração de características em sistemas de classificação pelo conteúdo de imagens (CBIR) para detecção de conteúdo ofensivo. / This work presents a study of suitable approaches for automatic detection of offensive content (pornography) in digital images. Extensive experiments were conducted for skin pixel segmentation, colour spaces and content descriptors. This work focus its efforts on skin pixel segmentation, since this segmentation is the pre-processing stage for almost every content-based offensive image classification methods in the literature. Four skin skin segmentation methods were tested in six colour spaces. Also, a structured image database was built to help improve studies in skin segmentation, with the possibility of adding meta-information to the images in the database, such as illumination conditions and camera standards. With the help of meta information from the image database, experimets involving illumination conditions and skin colour segmentation were also done. Finally, some feature extraction algorithms were implemented in order to apply content-based image retrieval (CBIR) algorithms to classify offensive images. Sistemas de reconhecimento de padrões Mineração de dados (Computação) Image processing - Digital techniques Pattern recognition systems Data mining
129	A heuristic to detect community structures in dynamic complex networks Gabardo, Ademir cristiano 25 August 2014 (has links) Complex networks are ubiquitous; billions of people are connected through social networks; there is an equally large number of telecommunication users and devices generating implicit complex networks. Furthermore, several structures can be represented as complex networks in nature, genetic data, social behavior, financial transactions and many other structures. Most of these complex networks present communities in their structure. Unveiling these communities is highly relevant in many fields of study. However, depending on several factors, the discover of these communities can be computationally intensive. Several algorithms for detecting communities in complex networks have been introduced over time. We will approach some of them. Our goal in this work is to identify or create an understandable and applicable heuristic to detect communities in complex networks, with a focus on time repetitions and strength measures. This work proposes a semi-supervised clustering approach as a modification of the traditional K-means algorithm submitting each dimension of data to a weight in order to obtain a weighted clustering method. As a first case study, databases of companies that have participated in public bids in Paraná state, will be analyzed to detect communities that can suggest structures such as cartels. As a second case study, the same methodology will be used to analyze datasets of microarray data for gene expressions, representing the correlation of the genes through a complex network, applying community detection algorithms in order to witness such correlations between genes. Redes sociais Mineração de dados (Computação) Teoria dos grafos Computação Social networks Data mining Graph theory Computer science
130	Processo de descoberta de conhecimento em bases de dados para a analise e o alerta de doenças de culturas agricolas e sua aplicação na ferrugem do cafeeiro / Process of knowledge discovery in databases for analysis and warning of crop diseases and its application on coffee rust Meira, Carlos Alberto Alves 13 June 2008 (has links) Orientador: Luiz Henrique Antunes Rodrigues / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-11T10:02:19Z (GMT). No. of bitstreams: 1 Meira_CarlosAlbertoAlves_D.pdf: 2588338 bytes, checksum: 869cc28d2c71dbc901870285cc32d8f9 (MD5) Previous issue date: 2008 / Resumo: Sistemas de alerta de doenças de plantas permitem racionalizar o uso de agrotóxicos, mas são pouco utilizados na prática. Complexidade dos modelos, dificuldade de obtenção dos dados necessários e custos para o agricultor estão entre as razões que inibem o seu uso. Entretanto, o desenvolvimento tecnológico recente - estações meteoro lógicas automáticas, bancos de dados, monitoramento agrometeorológico na Web e técnicas avançadas de análise de dados - permite se pensar em um sistema de acesso simples e gratuito. Uma instância do processo de descoberta de conhecimento em bases de dados foi realizada com o objetivo de avaliar o uso de classificação e de indução de árvores de decisão na análise e no alerta da ferrugem do cafeeiro causada por Hemileia vastatrix. Taxas de infecção calculadas a partir de avaliações mensais de incidência da ferrugem foram agrupadas em três classes: TXl - redução ou estagnação; TX2 - crescimento moderado (até 5 p.p.); e TX3 - crescimento acelerado (acima de 5 p.p.). Dados meteorológicos, carga pendente de frutos do cafeeiro (Coffea arabica) e espaçamento entre plantas foram as variáveis independentes. O conjunto de treinamento totalizou 364 exemplos, preparados a partir de dados coletados em lavouras de café em produção, de outubro de 1998 a outubro de 2006. Uma árvore de decisão foi desenvolvida para analisar a epidemia da ferrugem do cafeeiro. Ela demonstrou seu potencial como modelo simbólico e interpretável, permitindo a identificação das fronteiras de decisão e da lógica contidas nos dados, allf'iliando na compreensão de quais variáveis e como as interações dessas variáveis condicionaram o progresso da doença no campo. As variáveis explicativas mais importantes foram a temperatura média nos períodos de molhamento foliar, a carga pendente de frutos, a média das temperaturas máximas diárias no período de inG:!Jbação e a umidade relativa do ar. Os modelos de alerta foram deserivolvtdos considerando taxas de infecção binárias, segundo os limites de 5 p.p e 10 p.p. (classe- '1' para taxas maiores ou iguais ao limite; classe 'O', caso contrário). Os modelos são específicos para lavouras com alta carga pendente ou para lavouras com baixa carga. Os primeiros tiveram melhor desempenho na avaliação. A estimativa de acurácia, por validação cruzada, foi de até 83%, considerando o alerta a partir de 5 p.p. Houve ainda equilíbrio entre a acurácia e medidas importantes como sensitividade, especificidade e confiabilidade positiva ou negativa. Considerando o alerta a partir de 10 p.p., a acurácia foi de 79%. Para lavouras com baixa carga pendente, os modelos considerando o alerta a partir de 5 p.p. tiveram acurácia de até 72%. Os modelos para a taxa de infecção mais elevada (a partir de 10 p.p.) tiveram desempenho fraco. Os modelos mais bem avaliados mostraram ter potencial para servir como apoio na tomada de decisão referente à adoção de medidas de controle da ferrugem do cafeeiro. O processo de descoberta de conhecimento em bases de dados foi caracterizado, com a intenção de que possa vir a ser útil em aplicações semelhantes para outras culturas agrícolas ou para a própria cultura do café, no caso de outras doenças ou pragas / Abstract: Plant disease warning systems can contribute for diminishing the use of chemicals in agriculture, but they have received limited acceptance in practice. Complexity of models, difficulties in obtaining the required data and costs for the growers are among the reasons that inhibit their use. However, recent technological advance - automatic weather stations, databases, Web based agrometeorological monitoring and advanced techniques of data analysis - allows the development of a system with simple and free access. A process .instance of knowledge discovery in databases has been realized to evaluate the use of classification and decision tree induction in the analysis and warning of coffee rust caused by Hemileia vastatrix. Infection rates calculated from monthly assessments of rust incidence were grouped into three classes: TXl - reduction or stagnation; TX2 - moderate growth (up to 5 pp); and TX3 - accelerated growth (above 5 pp). Meteorological data, expected yield and space between plants were used as independent variables. The training data set contained 364 examples prepared from data collected in coffee-growing areas between October 1998 and October 2006. A decision tree has been developed to analyse the coffee rust epidemics. The decision tree demonstrated its potential as a symbolic and interpretable model. Its mo deI representation identified the existing decision boundaries in the data and the logic underlying them, helping to understand which variables, and interactions between these variables, led to, coffee rust epidemics in the field. The most important explanatory variables were mean temperature during leaf wetness periods, expected yield, mean of maximum temperatures during the incubation period and relative air humidity. The warning models have been developed considering binary infection rates, according to the 5 pp and 10 pp thresholds, (class '1' for rates greater than or equal the threshold; class 'O;, otherwise). These models are specific for growing are as with high expected yield or areas with low expected yield. The former had best performance in the evaluation. The estimated accuracy by cross-validation was up to 83%, considering the waming for 5 pp and higher. There was yet equivalence between accuracy and such important measures like sensitivity, specificity a~d positive or negative reliability. Considering the waming for 10 pp and higher, the accuracy was 79%. For growing areas with low expected yield, the accuracy of the models considering the waming for 5 pp and higher was up to 72%. The models for the higher infection rate (10 pp and higher) had low performance. The best evaluated models showed potential to be used in decision making about coffee rust disease control. The process of knowledge discovery in databases was characterized in such a way it can be employed in similar problems of the application domain with other crops or other coffee diseases or pests / Doutorado / Planejamento e Desenvolvimento Rural Sustentável / Doutor em Engenharia Agrícola Mineração de dados (Computação) Classificação Modelos Árvores de decisão Hemileia vastatrix Data mining Classification Decision tree Plant disease forecasting system Predictive model

Search results