• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 139
  • 60
  • 27
  • 12
  • 12
  • 11
  • 9
  • 8
  • 4
  • 4
  • 2
  • 2
  • 1
  • 1
  • Tagged with
  • 317
  • 317
  • 100
  • 86
  • 85
  • 64
  • 56
  • 46
  • 46
  • 41
  • 41
  • 40
  • 36
  • 34
  • 34
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
201

A cloud-based intelligent and energy efficient malware detection framework : a framework for cloud-based, energy efficient, and reliable malware detection in real-time based on training SVM, decision tree, and boosting using specified heuristics anomalies of portable executable files

Mirza, Qublai K. A. January 2017 (has links)
The continuity in the financial and other related losses due to cyber-attacks prove the substantial growth of malware and their lethal proliferation techniques. Every successful malware attack highlights the weaknesses in the defence mechanisms responsible for securing the targeted computer or a network. The recent cyber-attacks reveal the presence of sophistication and intelligence in malware behaviour having the ability to conceal their code and operate within the system autonomously. The conventional detection mechanisms not only possess the scarcity in malware detection capabilities, they consume a large amount of resources while scanning for malicious entities in the system. Many recent reports have highlighted this issue along with the challenges faced by the alternate solutions and studies conducted in the same area. There is an unprecedented need of a resilient and autonomous solution that takes proactive approach against modern malware with stealth behaviour. This thesis proposes a multi-aspect solution comprising of an intelligent malware detection framework and an energy efficient hosting model. The malware detection framework is a combination of conventional and novel malware detection techniques. The proposed framework incorporates comprehensive feature heuristics of files generated by a bespoke static feature extraction tool. These comprehensive heuristics are used to train the machine learning algorithms; Support Vector Machine, Decision Tree, and Boosting to differentiate between clean and malicious files. Both these techniques; feature heuristics and machine learning are combined to form a two-factor detection mechanism. This thesis also presents a cloud-based energy efficient and scalable hosting model, which combines multiple infrastructure components of Amazon Web Services to host the malware detection framework. This hosting model presents a client-server architecture, where client is a lightweight service running on the host machine and server is based on the cloud. The proposed framework and the hosting model were evaluated individually and combined by specifically designed experiments using separate repositories of clean and malicious files. The experiments were designed to evaluate the malware detection capabilities and energy efficiency while operating within a system. The proposed malware detection framework and the hosting model showed significant improvement in malware detection while consuming quite low CPU resources during the operation.
202

Analys av nutidens tågindelning : Ett uppdrag framtaget av Trafikverket / Analysis of today's train division

Grek, Viktoria, Gabrielsson, Molinia January 2018 (has links)
The information used in this paper comes from Trafikverket's delivery monitoring system. It consists of information about planned train missions on the Swedish railways for the years 2014 to 2017 during week four (except planned train missions on Roslagsbanan and Saltsjöbanan). Trafikanalys with help from Trafikverket presents public statistics for short-distance trains, middle-distance trains and long-distance trains on Trafikanalys website. The three classes of trains have no scientific basis. The purpose of this study is therefore to analyze if today's classes of trains can be used and which variables that have importance for the classification. The purpose of this study is also to analyze if there is a better way to categorize the classes of trains when Trafikanalys publishes public statistics. The statistical methods that are used in this study are decision tree, neural network and hierarchical clustering. The result obtained from the decision tree was a 92.51 percent accuracy for the classification of Train type. The most important variables for Train type were Train length, Planned train kilometers and Planned km/h.Neural networks were used to investigate whether this method could also provide a similar result as the decision tree too strengthening the reliability. Neural networks got an 88 percent accuracy when classifying Train type. Based on these two results, it indicates that the larger proportion of train assignments could be classified to the correct Train Type. This means that the current classification of Train type works when Trafikanalys presents official statistics. For the new train classification, three groups were analyzed when hierarchical clustering was used. These three groups were not the same as the group's short-distance trains, middle-distance trains and long-distance trains. Because the new divisions have blended the various passenger trains, this result does not help to find a better subdivision that can be used for when Trafikanalys presents official statistics. / Datamaterialet som används i uppsatsen kommer ifrån Trafikverkets leveransuppföljningssystem. I datamaterialet finns information om planerade tåguppdrag för de svenska järnvägarna för år 2014 till 2017 under vecka fyra (bortsett från planerade tåguppdrag för Roslagsbanan och Saltsjöbanan). Trafikanalys med hjälp av Trafikverket redovisar officiell statistik för kortdistanståg, medeldistanståg och långdistanståg på Trafikanalys hemsida. De tre tågkategorierna har inte någon vetenskaplig grund. Syftet med denna studie är därför att undersöka ifall dagens tågindelning fungerar och vilka variabler som hänger ihop med denna indelning. Syftet är även att undersöka om det finns någon bättre tågindelning som kan användas när Trafikanalys redovisar officiell statistik. De statistiska metoder studien utgått ifrån är beslutsträd, neurala nätverk och hierarkisk klustring. Resultatet som erhölls från beslutsträdet var en ackuratess på 92.51 procent för klassificeringen av Tågsort. De variabler som hade störst betydelse för Tågsort var Tåglängd, Planerade tågkilometrar och Planerad km/h. Neurala nätverk användes för att undersöka om även denna metod kunde ge ett liknande resultat som beslutsträdet och därmed stärka tillförlitligheten. Neurala nätverket fick en ackuratess på 88 procent vid klassificeringen av Tågsort. Utifrån dessa två resultat tyder det på att den större andelen tåguppdrag kunde klassificeras till rätt Tågsort. Det innebär att nuvarande klassificering av Tågsort fungerar när Trafikanalys presenterar officiell statistik. För den nya tågklassificeringen analyserades tre grupper när hierarkisk klustring användes. Dessa tre grupper liknande inte dagens indelning för kortdistanståg, medeldistanståg och långdistanståg. Eftersom att de nya indelningarna blandade de olika persontågen går det inte med detta resultat att hitta en bättre indelning som kan användas när Trafikanalys presenterar officiell statistik.
203

Predicting Software Defectiveness by Mining Software Repositories

Kasianenko, Stanislav January 2018 (has links)
One of the important aims of the continuous software development process is to localize and remove all existing program bugs as fast as possible. Such goal is highly related to software engineering and defectiveness estimation. Many big companies started to store source code in software repositories as the later grew in popularity. These repositories usually include static source code as well as detailed data for defects in software units. This allows analyzing all the data without interrupting programing process. The main problem of large, complex software is impossibility to control everything manually while the price of the error can be very high. This might result in developers missing defects on testing stage and increase of maintenance cost. The general research goal is to find a way of predicting future software defectiveness with high precision. Reducing maintenance and development costs will contribute to reduce the time-to-market and increase software quality. To address the problem of estimating residual defects an approach was found to predict residual defectiveness of a software by the means of machine learning. For a prime machine learning algorithm, a regression decision tree was chosen as a simple and reliable solution. Data for this tree is extracted from static source code repository and divided into two parts: software metrics and defect data. Software metrics are formed from static code and defect data is extracted from reported issues in the repository. In addition to already reported bugs, they are augmented with unreported bugs found on “discussions” section in repository and parsed by a natural language processor. Metrics were filtered to remove ones, that were not related to defect data by applying correlation algorithm. Remaining metrics were weighted to use the most correlated combination as a training set for the decision tree. As a result, built decision tree model allows to forecast defectiveness with 89% chance for the particular product. This experiment was conducted using GitHub repository on a Java project and predicted number of possible bugs in a single file (Java class). The experiment resulted in designed method for predicting possible defectiveness from a static code of a single big (more than 1000 files) software version.
204

Emprego de diferentes algoritmos de árvores de decisão na classificação da atividade celular in vitro para tratamentos de superfícies de titânio

Fernandes, Fabiano Rodrigues January 2017 (has links)
O interesse pela área de análise e caracterização de materiais biomédicos cresce, devido a necessidade de selecionar de forma adequada, o material a ser utilizado. Dependendo das condições em que o material será submetido, a caracterização poderá abranger a avaliação de propriedades mecânicas, elétricas, bioatividade, imunogenicidade, eletrônicas, magnéticas, ópticas, químicas e térmicas. A literatura relata o emprego da técnica de árvores de decisão, utilizando os algoritmos SimpleCart(CART) e J48, para classificação de base de dados (dataset), gerada a partir de resultados de artigos científicos. Esse estudo foi realizado afim de identificar características superficiais que otimizassem a atividade celular. Para isso, avaliou-se, a partir de artigos publicados, o efeito de tratamento de superfície do titânio na atividade celular in vitro (células MC3TE-E1). Ficou constatado que, o emprego do algoritmo SimpleCart proporcionou uma melhor resposta em relação ao algoritmo J48. Nesse contexto, o presente trabalho tem como objetivo aplicar, para esse mesmo estudo, os algoritmos CHAID (Chi-square iteration automatic detection) e CHAID Exaustivo, comparando com os resultados obtidos com o emprego do algoritmo SimpleCart. A validação dos resultados, mostraram que o algoritmo CHAID Exaustivo obteve o melhor resultado em comparação ao algoritmo CHAID, obtendo uma estimativa de acerto de 75,9% contra 58,6% respectivamente, e um erro padrão de 7,9% contra 9,1% respectivamente, enquanto que, o algoritmo já testado na literatura SimpleCart(CART) teve como resultado 34,5% de estimativa de acerto com um erro padrão de 8,8%. Com relação aos tempos de execução apurados sobre 22 mil registros, evidenciaram que o algoritmo CHAID Exaustivo apresentou os melhores tempos, com ganho de 0,02 segundos sobre o algoritmo CHAID e 14,45 segundos sobre o algoritmo SimpleCart(CART). / The interest for the area of analysis and characterization of biomedical materials as the need for selecting the adequate material to be used increases. However, depending on the conditions to which materials are submitted, characterization may involve the evaluation of mechanical, electrical, optical, chemical and thermal properties besides bioactivity and immunogenicity. Literature review shows the application decision trees, using SimpleCart(CART) and J48 algorithms, to classify the dataset, which is generated from the results of scientific articles. Therefore the objective of this study was to identify surface characteristics that optimizes the cellular activity. Based on published articles, the effect of the surface treatment of titanium on the in vitro cells (MC3TE-E1 cells) was evaluated. It was found that applying SimpleCart algorithm gives better results than the J48. In this sense, the present study has the objective to apply the CHAID (Chi-square iteration automatic detection) algorithm and Exhaustive CHAID to the surveyed data, and compare the results obtained with the application of SimpleCart algorithm. The validation of the results showed that the Exhaustive CHAID obtained better results comparing to CHAID algorithm, obtaining 75.9 % of accurate estimation against 58.5%, respectively, while the standard error was 7.9% against 9.1%, respectively. Comparing the obtained results with SimpleCart(CART) results which had already been tested and presented in the literature, the results for accurate estimation was 34.5% and the standard error 8.8%. In relation to execution time found through the 22.000 registers, it showed that the algorithm Exhaustive CHAID presented the best times, with a gain of 0.02 seconds over the CHAID algorithm and 14.45 seconds over the SimpleCart(CART) algorithm.
205

Metodologia baseada em medidas dispersas de tensão e árvores de decisão para localização de faltas em sistemas de distribuição modernos / Methodology based on dispersed voltage measures and decision trees for fault location in modern distribution systems

Marcel Ayres de Araújo 06 October 2017 (has links)
Nos sistemas de distribuição, a grande ramificação, radialidade, heterogeneidade, dinâmica das cargas e demais particularidades, impõem dificuldades à localização de faltas, representando um desafio permanente na busca por melhores indicadores de continuidade e confiabilidade no fornecimento de energia elétrica. A regulação incisiva dos órgãos do setor, a penetração de geração distribuída e a tendência de modernização trazida pelas redes inteligentes, demandam detalhados estudos para readequação dos sistemas elétricos a conjuntura atual. Neste contexto, esta tese propõe o desenvolvimento de uma metodologia para localização de faltas em sistemas de distribuição empregando a capacidade dos medidores inteligentes de monitoramento e de aquisição de tensão em diferentes pontos da rede elétrica. A abordagem proposta baseia-se na estimação, por ferramentas de aprendizado de máquina, das impedâncias de sequência zero e positiva entre os pontos de alocação dos medidores inteligentes e de ocorrência de falta, e do estado de sensibilização destes medidores frente a correntes de falta. Assim, calculando-se as respectivas distâncias elétricas em função das impedâncias estimadas e definidas as direções das mesmas em relação a topologia da rede, busca-se identificar o ponto ou área com maior sobreposição de distâncias elétricas como o local ou a região de maior probabilidade da falta em relação aos medidores inteligentes. Para tanto, faz-se uso combinado de ferramentas convencionais e inteligentes pela aplicação dos conceitos de análise de sistemas elétricos, diagnóstico dos desvios de tensão, e classificação de padrões por meio da técnica de aprendizado de máquina denominada Árvore de Decisão. Os resultados obtidos pela aplicação desta metodologia demonstram que o uso de informações redundantes fornecidas pelos medidores inteligentes minimiza os erros de estimação. Além disso, para a maior parte dos casos testados o erro absoluto máximo de localização da falta se concentra entre 200 m e 1000 m, o que reduz a busca pelo local de ocorrência da falta pelas equipes de manutenção da rede elétrica. / In distribution systems, the dense branching, radial pattern, heterogeneity, dynamic of the loads, and other characteristics create several difficulties in defining the fault location, representing a great challenge in the search for better continuity and reliability indicators of the electrical energy supply. The intense government regulations, the increasing use of distributed generation, and the trend towards modernization via smart grids require a detailed study in order to upgrade the current systems. In this context, this thesis proposes a methodology development for fault location in distribution systems with the use of smart meters monitors and the acquisition of voltage at different points in the electrical network. The proposed method is based on the estimation, using machine learning, of the state of awareness of smart meters across the fault currents and of the zero and positive sequence impedance between the location of these meters and of the fault occurrence. Therefore, by calculating the electrical distances as a function of the estimated impedances and defining its the direction in relation to the network topology, the point/region with the biggest superposition of the electrical distances can be assigned as the point/region with the highest probability of fault occurrence in relation to the smart probes. For this purpose, a machine learning technique named decision tree is used to apply concept analyses to the electrical systems, diagnosis of voltage deviations, and pattern recognition of the electrical systems. The results obtained by the application of this methodology demonstrate that the use of redundant information provided by the smart meters minimizes estimation errors. In addition, for most of the cases tested, the maximum absolute error of the fault location is concentrated between 200 m and 1000 m, which reduces the search for the fault location by the maintenance teams of the electrical network.
206

Desenvolvimento de sistema de informação para monitoramento da esclerose múltipla

Souza, Luciana Ferreira de 22 February 2017 (has links)
Submitted by Viviane Lima da Cunha (viviane@biblioteca.ufpb.br) on 2017-07-06T11:26:20Z No. of bitstreams: 1 arquivototal.pdf: 2621152 bytes, checksum: e02a372dc50ca8879df71843cf79f718 (MD5) / Made available in DSpace on 2017-07-06T11:26:20Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 2621152 bytes, checksum: e02a372dc50ca8879df71843cf79f718 (MD5) Previous issue date: 2017-02-22 / In the last decades, several countries have directed their actions to the incorporation of innovative technologies, applied in the health field, with the purpose of assisting the performance of professionals and users in the promotion of care, strengthened by public policies. In this context, there is a shortage of technological resources, aimed at comprehensive and multidisciplinary care, directed to patients with Multiple Sclerosis, especially of systems that support decision-making, in the follow-up of this clients, in Reference Centers belonging to the Unified Health System (SUS), this study aims to develop an information system (software prototype) to the monitoring of clinical parameters, indicative of impairment of the functionality of individuals with Multiple Sclerosis. This is a methodological study, of the type applied, involving the production of technology, composed by the stage of the software development process followed by the step of applying the decision tree model. The development of the software prototype followed the steps of the generic software engineering process presented by Pressman, which are: Communication, planning, modeling, construction and delivery. Modeling and prototyping took place from January to September 2016, along with the construction of the prototype's working flow diagram and interfaces. The flowchart was built in the Unified Modeling Language (UML) with the aid of the JUDE tool. The system was developed in PHP (Hipertext Processor) language, which is a script open source language, widely used, and is especially suitable for web development. Therefore, was used a Framework PHP (Laravel 5.2 Open Source), the MySQL as a database technology, and for the development of the screens HTML5, CSS3 and JQUERY were used. For the application of the decision tree model, was used the variables of the 50 patients enrolled in the software, in the Waikato Environment Analyis (WEKA) program, in Version 3.8, specifically the J48 algorithm. The results showed that, although the software prototype still has a path to be covered in future studies that will converge in its validation, it has shown a satisfactory performance for the activity of registration of professionals, patients and research instruments. Regarding the generated decision tree model, this contributed to the identification of the epidemiological and clinical variables associated with the worsening of the disability and also allowed the analysis of the differences of these associations in two distinct groups of treatment of Multiple Sclerosis. Considering all phases and tests of the system, the possibility of generating an electronic registry, which provides agility in the information process and contributes to the planning of the actions to the integrated multiprofessional assistance, as well as, the proposal of application of the decision tree model in order to classify the epidemiological variables associated with worsening disability, using the Expanded Disability Status Scale (EDSS) score, it is expected that the development of this study will awaken the need for further research using decision models that gives opportunity to health teams, especially those facing the complexity of assisting individuals with chronic diseases and progressive degeneration of organic functions. / Nas últimas décadas, tem havido uma preocupação dos governos com a incorporação de tecnologias inovadoras, aplicadas no campo da saúde, com o propósito de auxiliar o desempenho de profissionais e usuários na promoção do cuidado, fortalecido por políticas públicas. Nesse contexto, evidencia-se uma escassez de recursos tecnológicos, voltados à assistência integral e multidisciplinar, direcionada a pacientes com Esclerose Múltipla, especialmente de sistemas que deem suporte a tomada de decisão, no acompanhamento dessa clientela, em Centros de Referência pertencentes ao Sistema Único de Saúde. Assim, o presente estudo tem como objetivo de desenvolver um sistema de informação (protótipo de software) para o monitoramento de parâmetros clínicos, indicativos de comprometimento da funcionalidade de indivíduos com Esclerose Múltipla. Trata-se de um estudo metodológico, do tipo aplicado, envolvendo produção de tecnologia, composto pela etapa do processo de desenvolvimento do software seguida da etapa de aplicação do modelo de árvore de decisão. O desenvolvimento do protótipo de software seguiu os passos do processo genérico de engenharia de software apresentado por Pressman. A modelagem e a prototipação ocorreram no período de janeiro a setembro de 2016, juntamente com a construção do fluxograma de funcionamento do protótipo e das interfaces. O fluxograma foi construído na linguagem unificada de modelagem com auxílio da ferramenta JUDE. O sistema foi desenvolvido em linguagem PHP (Hipertext Processor), que é uma linguagem de script open source (código aberto) de uso livre, muito utilizada, e especialmente adequada para o desenvolvimento web. Portanto, utilizou-se uma Framework PHP (Laravel 5.2 Open Source), o MySQL como tecnologia de banco de dados, e para desenvolvimento das telas usou-se o HTML5, CSS3 e JQUERY. Para a aplicação do modelo de árvore de decisão, recorreu-se as variáveis contidas no cadastro de 50 pacientes e o programa Waikato Environment Analyis, na Versão 3.8, especificamente o algoritmo J48. Os resultados apontaram que, o protótipo de software mostrou desempenho satisfatório para a funcionalidade da atividade de cadastro de profissionais, de pacientes e de instrumentos de pesquisa. Quanto ao modelo de árvore de decisão gerado, este contribuiu para a identificação das variáveis epidemiológicas e clínicas associadas à piora da incapacidade e ainda possibilitou a análise das diferenças destas associações em dois grupos distintos de tratamento da Esclerose Múltipla. Considerando todas as fases e testes do sistema, a possibilidade de gerar um registro eletrônico, que proporcione agilidade no processo da informação e que contribua para o planejamento das ações frente à assistência multiprofissional integrada, bem como, a proposta de aplicação do modelo de árvore de decisão capaz de classificar as variáveis epidemiológicas associadas a piora da incapacidade, utilizando-se o escore da Escala Expandida do Estado de Incapacidade (EDSS). Espera-se que o desenvolvimento desse estudo desperte a necessidade de outras pesquisas utilizando modelos de decisão que oportunizem às equipes de saúde, em especial aquelas que enfrentam a complexidade de assistir indivíduos com doenças crônicas e de degeneração progressiva das funções orgânicas.
207

Técnicas de Data Mining na aquisição de clientes para financiamento de Crédito Direto ao Consumidor - CDC / Data Mining Techniques to acquire new customers for financing of Consumer Credit

Adriana Maria Marques da Silva 27 September 2012 (has links)
O trabalho busca dissertar sobre as técnicas de data mining mais difundidas: regressão logística, árvore de decisão e rede neural, além de avaliar se tais técnicas oferecem ganhos financeiros para instituições privadas que contam com processos ativos de conquista de clientes. Uma empresa do setor financeiro será utilizada como objeto de estudo, especificamente nos seus processos de aquisição de novos clientes para adesão do Crédito Direto ao Consumidor (CDC). Serão mostrados os resultados da aplicação nas três técnicas mencionadas, para que seja possível verificar se o emprego de modelos estatísticos discriminam os clientes potenciais mais propensos dos menos propensos à adesão do CDC e, então, verificar se tal ação impulsiona na obtenção de ganhos financeiros. Esses ganhos poderão vir mediante redução dos custos de marketing abordando-se somente os clientes com maiores probabilidades de responderem positivamente à campanha. O trabalho apresentará o funcionamento de cada técnica teoricamente, e conforme os resultados indicam, data mining é uma grande oportunidade para ganhos financeiros em uma empresa. / The paper intends to discourse about most widespread data mining techniques: logistic regression, decision tree and neural network, and assess whether these techniques provide financial gains for private institutions that have active processes for business development. A company of the financial sector is used as object of study, specifically in the processes of acquiring new customers for adhesion to consumer credit (in Brazil CDC). This research will show the results of the three above mentioned techniques, to check whether the statistical models point out relevant differences between prospects´ intentions to adhere to consumer credit. In the meantime, the techniques are checked whether they leverage financial gain. These gains are expected to came from better focused and directed marketing efforts. The paper presents the operation of each technique theoretically, and as the results indicate, data mining is a great opportunity for a company boost profits.
208

Mineração de dados climaticos para previsão local de geada e deficiencia hidrica / Data mining climatic for frost and deficit hidric forescast

Bucene, Luciana Corpas, 1974- 12 August 2018 (has links)
Orientadores: Luiz Henrique Antunes Rodrigues, Eduardo Delgado Assad / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-12T21:35:45Z (GMT). No. of bitstreams: 1 Bucene_LucianaCorpas_D.pdf: 2595416 bytes, checksum: 86c930f5cf0a3ca7ba03de8acb811ea8 (MD5) Previous issue date: 2008 / Resumo: As perdas que ocorrem na agricultura são grandes, devido, principalmente, à ocorrência de sinistros climáticos que ocorrem nas plantações. Muitas vezes, os impactos social e econômico causados pelos danos são significativos, uma vez que envolvem fatores como a produção e o preço de alimentos. Como exemplos, têm-se a produção de café e a de cana-de-açúcar no Estado de São Paulo, que sofrem alternâncias motivadas por eventos climáticos adversos e, em especial, as geadas e as secas, que reduzem drasticamente as produções. Neste sentido, este estudo propõe identificar relações entre parâmetros climáticos, como temperatura máxima, temperatura mínima, precipitação, entre outros atributos, visando descobrir eventuais novos conhecimentos, a partir do comportamento conhecido dos atributos climáticos já ocorridos no passado, com o propósito de desenvolver a previsão local de geada e a previsão de deficiência hídrica. Para isso, foram aplicadas técnicas de descoberta de conhecimento em grandes bancos de dados climáticos. Utilizaram-se as ferramentas WEKA e o DISCOVER, que foram consideradas satisfatórias, uma vez que os objetivos propostos foram atingidos. As bases de dados disponíveis atenderam a necessidade para a realização do projeto, apresentando um volume de dados e atributos suficientes para que pudesse gerar resultados para a previsão local de geada e de deficiência hídrica. Referente aos resultados, com até 1 dia de antecedência à geada, o modelo gerado foi considerado confiável. A partir de 2 dias de antecedência à geada, os resultados encontrados apresentam uma diminuição no grau de acerto quanto mais distante estiver de acontecer o evento geada. Para o caso deficiência hídrica, os resultados encontrados foram diferenciados conforme a classe. Para a classe não, com 1dia até 15 dias de antecedência ao evento, o grau de acerto foi alto e aceitável. A classe forte, em seguida à classe não, é a que apresenta melhores resultados de acerto, decaindo para as outras classes. Até 3 dias de antecedência ao evento deficiência hídrica e, dependendo do mês, o grau de acerto é aceitável. De 4 dias em diante, os resultados mostram que o modelo gerado não é aceitável / Abstract: The losses that occur in agriculture are high, mainly due to the occurrence of crop damages due to climatic events. Many times, the social and economic impacts caused by the damages are significant, since they involve factors such as the production and the price of foods. For example, coffee and sugarcane production in São Paulo State suffer alternations motivated by adverse climatic events and, in special, frost and drought, that greatly reduce the production. The purpose of this study is to identify relationships between climatic parameters, such as maximum temperature, minimum temperature, precipitation, etc., in order to discover eventual new knowledge, from known behavior of the climatic attributes already occurred in the past, with the objective of developing local frost and deficit water forecast models. To achieve this, data mining techniques were applied to climatic data bases. WEKA and the DISCOVER tools had been used and considered satisfactory, since they reached the objectives. The available databases were suitable for the accomplishment of the project, presenting enough volume of data and attributes so that it could generate results for the frost and water deficit forecast. Concerning to the results, with up to 1 day of antecedence to the frost, the generated model was considered trustworthy. From 2 days of antecedence to the frost the results present a reduction in the accuracy. For water deficit, results were differentiated, depending on the class. For the not class, from 1 to 15 days of antecedence to the event, the accuracy was high and acceptable. The strong class, following the not class, is the one that presents better results, falling down for the other classes. Up to 3 days of antecedence to the event water deficit and, depending on the month, the accuracy is acceptable. For 4 days or more in advance, the results showed that the generated model is not acceptable / Doutorado / Doutor em Engenharia Agrícola
209

Ferramenta computacional para apoio ao gerenciamento e à classificação de sementes de soja submetidas ao teste de tetrazólio / Computing tool to support management and classification of soy seeds submitted to tetrazolium test

Rocha, Davi Marcondes 07 December 2016 (has links)
Submitted by Neusa Fagundes (neusa.fagundes@unioeste.br) on 2017-09-25T14:47:50Z No. of bitstreams: 1 Davi_Rocha2017.pdf: 3573661 bytes, checksum: 8912d0785316cee5fdd46712b6f23d78 (MD5) / Made available in DSpace on 2017-09-25T14:47:50Z (GMT). No. of bitstreams: 1 Davi_Rocha2017.pdf: 3573661 bytes, checksum: 8912d0785316cee5fdd46712b6f23d78 (MD5) Previous issue date: 2016-12-07 / Fundação Araucária de Apoio ao Desenvolvimento Científico e Tecnológico do Estado do Paraná (FA) / Production and use of high quality seeds are important factors for the soybean farming. Therefore the quality control system in the seed industry must be reliable, accurate and fast. Seed technology research has been striving to develop or improve tests to enable seed quality evaluation. Tetrazolium test, besides evaluating the viability and vigor of the seeds, provides information about the potencial causing agents of quality reduction. Even though not using expensive instruments and reagents, the test requires a well-trained seed analyst, and the test’s accuracy depends on their knowledge about the all involved techniques and procedures, including the subjectivity of the observer. Therefore, the objective of the present research was to develop a computational tool that could minimize the implicit subjectivity in the test, contributing to increase information credibility and ensure the accuracy results. This tool allows, by tetrazolium test images, to identify seeds damage, as well as their location and extension, making the interpretation less subjective. From the feature extraction data in digital images of tetrazolium test, supervised classification algorithms were applied to do segmentation in the images, generating a classified image. The proposed system was tested using a selection of samples to training the classifier model and, from this model, the images classification of the tetrazolium test, to extract information about the seeds damage. The system allowed, in addition to an easier way for damages identification in the tetrazolium test images, the extraction of accurate information on displayed damage and achieve the control of the analyzed samples. The classifier performed the assignment of the predetermined categories efficiently for non-present data training set, with 96.6% of correctly classified instances and Kappa index of 0.95%, making the system a supplementary tool in decision making for the tetrazolium test. / A produção e a utilização de sementes de alta qualidade são fatores de importância para o cultivo da soja. Para isso, o sistema de controle de qualidade na indústria de sementes deve ser confiável, preciso e rápido. A pesquisa em tecnologia de sementes tem se esforçado em desenvolver ou aprimorar testes que possibilitem a avaliação da qualidade das sementes. O teste de tetrazólio, além de avaliar a viabilidade e o vigor de sementes, fornece informações sobre possíveis agentes causadores da redução de sua qualidade. Embora não se utilize de instrumentos e reagentes caros, o teste requer um analista de sementes bem treinado, sendo que a precisão do mesmo depende do conhecimento de todas as técnicas e procedimentos envolvidos, devendo-se considerar a subjetividade do observador. Sendo assim, o objetivo desta pesquisa foi desenvolver uma ferramenta computacional que minimizasse a subjetividade implícita na realização do teste, contribuindo para gerar maior credibilidade nas informações e garantindo precisão nos resultados. Esta ferramenta permite, a partir de imagens do teste de tetrazólio, realizar a identificação dos danos presentes nas sementes, bem como sua localização e sua extensão nos tecidos, tornando a interpretação menos subjetiva. A partir da extração de dados de características das imagens digitais do teste de tetrazólio, foram aplicados algoritmos de classificação supervisionada para realizar a segmentação destas imagens, produzindo uma imagem classificada. O sistema proposto foi testado utilizando a seleção de amostras para treino do modelo classificador e, a partir deste modelo, a classificação das imagens do teste de tetrazólio, para extração de informações sobre os danos verificados nas sementes. O sistema permitiu, além da identificação dos danos nas imagens do teste de tetrazólio de forma facilitada, a extração de informações mais seguras sobre os danos presentes e realizar o controle das amostras analisadas. O classificador realizou a atribuição das classes predeterminadas de forma eficiente para dados não presentes no conjunto de treinamento, com 96,6% de instâncias classificadas corretamente e Índice Kappa de 0,95%, tornando o sistema uma ferramenta suplementar na tomada de decisão para o teste de tetrazólio.
210

Análise de crédito com segmentação da carteira, modelos de análise discriminante, regressão logística e classification and regression trees (CART) / Análise de crédito com segmentação da carteira, modelos de análise discriminante, regressão logística e classification and regression trees (CART)

Santos, Ernani Possato dos 14 August 2015 (has links)
Made available in DSpace on 2016-03-15T19:32:56Z (GMT). No. of bitstreams: 1 Ernani Possato dos Santosprot.pdf: 2286270 bytes, checksum: 96bb14c147c5baa96f3ae6ca868056d6 (MD5) Previous issue date: 2015-08-14 / The credit claims to be one of the most important tools to trigger and move the economic wheel. Once it is well used it will bring benefits on a large scale to society; although if it is used without any balance it might bring loss to the banks, companies, to governments and also to the population. In relation to this context it becomes fundamental to evaluate models of credit capable of anticipating processses of default with an adequate degree of accuracy so as to avoid or at least to reduce the risk of credit. This study also aims to evaluate three credit risk models, being two parametric models, discriminating analysis and logistic regression, and one non-parametric, decision tree, aiming to check the accuracy of them, before and after the segmentation of such sample through the criteria of costumer s size. This research relates to an applied study about Industry BASE. / O crédito se configura em uma das mais importantes ferramentas para alavancar negócios e girar a roda da economia. Se bem utilizado, trará benefícios em larga escala à sociedade, porém, se utilizado sem equilíbrio, poderá trazer prejuízos, também em larga escala, a bancos, a empresas, aos governos e aos cidadãos. Em função deste contexto, é precípuo avaliar modelos de crédito capazes de prever, com grau adequado de acurácia, processos de default, a fim de se evitar ou, pelo menos, reduzir o risco de crédito. Este estudo tem como finalidade avaliar três modelos de análise do risco de crédito, sendo dois modelos paramétricos, análise discriminante e regressão logística, e um não-paramétrico, árvore de decisão, em que se avaliou a acurácia destes modelos, antes e após a segmentação da amostra desta pesquisa por meio do critério de porte dos clientes. Esta pesquisa se refere a um estudo aplicado sobre a Indústria BASE.

Page generated in 0.085 seconds