Global ETD Search

461	Predição genômica da resistência à ferrugem alaranjada em café arábica via algoritmos de aprendizagem de máquina / Genomic prediction of leaf rust resistance to arabica coffee using machine learning algorithms Sousa, Ithalo Coelho de 26 February 2018 (has links) Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2018-07-11T12:09:39Z No. of bitstreams: 1 textocompleto.pdf: 925551 bytes, checksum: 6e6a52bb70c4e45081687d495922f845 (MD5) / Made available in DSpace on 2018-07-11T12:09:39Z (GMT). No. of bitstreams: 1 textocompleto.pdf: 925551 bytes, checksum: 6e6a52bb70c4e45081687d495922f845 (MD5) Previous issue date: 2018-02-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A seleção genômica (SG) foi proposta como uma forma de aumentar a eficiência e acelerar o melhoramento genético. A SG enfatiza a predição simultânea dos efeitos genéticos de milhares de marcadores dispersos em todo o genoma de um organismo. Algumas metodologias estatísticas têm sido utilizadas em SG para a predição do mérito genético, como por exemplo a Ridge Regression Best Linear Unbiased Prediction (RR- BLUP), Bayesian Lasso (BLASSO). Porém tais metodologias exigem algumas pressuposições a respeito dos dados tais como normalidade da distribuição dos valores fenotípicos. Além disto, a presença de fatores complicadores tais como epistasia e dominância atrapalham a utilização destes modelos, uma vez que exigem que tais efeitos sejam estabelecidos à priori pelo pesquisador. Visando contornar a não normalidade dos valores fenotípicos a literatura sugere o uso dos modelos lineares generalizados sob o enfoque bayesiano (BGLR). Outra alternativa são os modelos baseados em aprendizagem de máquina (AM), representados por metodologias tais como Redes Neurais (RNA), Árvores de Decisão (AD) e seus possíveis refinamentos (Bagging, Random Forest e Boosting) as quais podem incorporar a epistasia e a dominância no modelo além de não exigirem pressuposições quanto ao modelo e a distribuição dos valores fenotípicos. Diante disso, o objetivo deste trabalho foi utilizar AD e seus refinamentos Bagging, Random Forest e Boosting para predição da resistência a ferrugem alaranjada no café arábica. Além disso, AD e seus refinamentos foram utilizadas para identificar a importância dos marcadores relacionados a característica de interesse. Os resultados foram comparados com aqueles provenientes do GBLASSO (Lasso Bayesiano Generalizado) e RNA. Foram utilizados dados da resistência a ferrugem do café de 245 plantas derivadas do cruzamento do Híbrido de Timor e do Catuaí Amarelo, genotipados para 137 marcadores. A AD e seus refinamentos obtiveram resultados satisfatórios, visto que apresentaram valores iguais ou inferiores de Taxa de Erro Aparente comparados com aqueles obtidos pelo GBLASSO e RNA. Ademais, os refinamentos da AD demonstraram ser capazes de identificar marcadores importantes para característica de interesse, visto que dentre os 10 marcadores mais importantes analisados em cada metodologia, 3-4 marcadores estavam próximos a QTL’s relacionados a resistência a doença listados na literatura. Por fim, a AD e seus refinamentos mostraram um melhor desempenho em relação ao GBLASSO e a RNA quanto ao custo computacional. / Genomic selection (GS) has been proposed as a way to increase efficiency and accelerate genetic improvement. GS emphasizes the simultaneous prediction of the genetic effects of thousands of scattered markers throughout an organism's genome. Some statistical methodologies have been used in GS for the prediction of genetic merit, such as Ridge Regression Best Linear Unbiased Prediction (RR-BLUP), Bayesian Lasso (BLASSO). However such methodologies require some assumptions about the data such as normality of the distribution of phenotypic values. In addition, the presence of complicating factors such as epistasis and dominance hinder the use of these models, since they require that such effects be established a priori by the researcher. In order to avoid the non-normality of phenotypic values, the literature suggests the use of Bayesian Generalized Linear Regression (BGLR). Another alternative is the models based on machine learning, represented by methodologies such as Artificial Neural Networks (ANN), Decision Trees (DT) and their possible refinements such as Bagging, Random Forest and Boosting, which can incorporate epistasis and dominance in the model, besides not requiring assumptions about the model and the distribution of phenotypic values. The aim of this work was to use DT and its refinements Bagging, Random Forest and Boosting for prediction of resistance to orange rust in arabica coffee. In addition, DT and its refinements were used to identify the importance of markers related to the characteristic of interest. The results were compared with those from GBLASSO (Generalized Bayesian Lasso) and ANN. Data from the coffee rust resistance of 245 plants derived from the hybrid of the Timor Hybrid and the Yellow Catuaí, genotyped for 137 markers were used. The DT and its refinements obtained satisfactory results, since they presented equal or inferior values of Apparent Error Rate compared to those obtained by GBLASSO and RNA. In addition, DT refinements seem to be able to identify important markers for characteristic of interest, since among the 10 most important markers analyzed in each methodology, 3-4 markers were close to QTLs related to resistance to disease listed in the literature. Finally, the Decision Tree and its refinements showed a better performance in relation to the GBLASSO and RNA regarding computational cost. Algorítimos genéticos Aprendizado do computador Decisão estatística Redes neurais Boosting (Algorítimo) Ensacamento Estatistica Aplicada e Biometria
462	Aplicação de técnicas de visão computacional e aprendizado de máquina para a detecção de exsudatos duros em imagens de fundo de olho / Application of techniques of computer vision and machine learning for detection of hard exudates in images of eye fundus Carvalho, Tiago José de, 1985- 16 August 2018 (has links) Orientadores: Siome Klein Goldenstein, Jacques Wainer / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-16T14:41:21Z (GMT). No. of bitstreams: 1 Carvalho_TiagoJosede_M.pdf: 8401323 bytes, checksum: f84374dac5bebf5ea465a7a74ea9b5e4 (MD5) Previous issue date: 2010 / Resumo: O desenvolvimento de métodos computacionais capazes de auxiliar especialistas de diversas áreas na realização de suas tarefas é foco de diversos estudos. Na área da saúde, o diagnóstico precoce de doenças é muito importante para a melhoria da qualidade de vida dos pacientes. Para oftalmologistas que tratam de pacientes com diabetes, um método confiável para a detecção de anomalias em imagens de fundo de olho é importante para um diagnóstico precoce evitando o aparecimento de complicações na retina. Tais complicações podem causar até cegueira. Exsudatos duros é uma das anomalias mais comuns encontradas na retina, sendo sua detecção o foco de vários tipos de abordagens na literatura. Esta dissertação apresenta uma nova e eficiente abordagem para detecção de exsudatos duros em imagens de fundo de olho. Esta abordagem utiliza técnicas de visão computacional e inteligência artificial, como descritores locais, dicionários visuais, agrupamentos e classificação de padrões para detectar exsudatos nas imagens. / Abstract: The computational methods development can helps specialists of several areas in your works is focus of many studies. In health area the premature diagnosis of diseases is very important to improve the patient's life quality. To ophthalmologists who treat patients with diabetics, a reliable method to anomalies detects in eye fundus images is important to a premature diagnosis, avoiding appear of retina complications. Such complications can cause blindness. Hard Exsudates is one of more common anomalies found at retina, being your detection is the focus of many kinds of approaches in literature. This master's thesis presents a new and efficient approach for detection of exsudates at eye fundus images. This approach uses computer vision and artificial inteligence techniques like visiual dictionaries, clustering and pattern recognition to detect hard exsudates in images. / Mestrado / Visão Computacional / Mestre em Ciência da Computação Visão por computador Processamento de imagens Aprendizado de máquina - Técnica Computer vision Image processing Machine learning - Technique
463	Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data Alves, Melina Brilhadori January 2017 (has links) Orientadora: Profa. Dra. Patrícia Belfiore Fávero / Coorientador: Prof. Dr. Marcelo de Souza Lauretto / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2017. / Big data trouxe vários desafios para os conceitos dos algoritmos de mineração de dados, a iniciar pelas limitações de memória e tempo, bem como dados de natureza e distribuição com variação constante. Essa massa de dados interessa públicos diversos pelas informações intrínsecas em seu interior e a análise de dados é uma importante fonte estratégica aplicada com objetivos de conhecimento, desenvolvimento e planejamento. Nos últimos anos, diversos métodos baseados em ensembles de classificadores têm sido propostos. Nesses métodos, a idéia central é construir vários classificadores "fracos" para formar um classificador "robusto", que utiliza como convergência a soma (ponderada) dos votos dos subclassificadores nas possíveis classes. Os objetivos deste trabalho foram realizar análises comparativas de desempenho de classificadores de Big Data das famílias de árvores de classificação quando combinados na forma de ensembles (ou metaclassificadores) bagging e boosting. Foi implementado um ambiente de testes, utilizando algoritmos de árvores de classificação sobre datasets públicos a fim de verificar três itens fundamentais: a . Para um certo algoritmo de classificação, a configuração de ensemble (entre Bagging e Boosting) que resulta em maior acurácia. b . Para um certo tipo de ensemble, o melhor algoritmo de classificação. c . A possibilidade de identificar as famílias de Big Data (agrupado segundo um conjunto de características) em que cada tipo de classificador possui melhor desempenho. Os resultados indicaram que o ensemble Boosting apresenta acurácia superior para um número maior das amostras testadas em comparação com os demais algoritmos abordados. Entre os classificadores, sugere-se que representantes de árvores de decisão são suscetíveis à escolha do método de ensemble e, principalmente, da amostra. A análise da aplicação dos ensembles sobre as amostras e as características dos conjuntos exibiu resultados muito variáveis, entretanto notou-se uma melhoria de desempenho quando a classificação é binária. / Big data has brought several challenges to the concepts of data mining algorithms, starting with the limitations of memory and time, as well as data of nature and distribution with constant variation. This mass of data interests diverse publics by the intrinsic information inside and the data analysis is an important strategic source applied with objectives of knowledge, development and planning. In recent years, several methods based on ensembles of classifiers have been proposed. In those methods, the central idea is to construct several "weak" classifiers to form a "robust" classifier, which uses as a convergence the (weighted) sum of the subclassifier¿s votes in the possible classes. The objectives of this work were to perform comparative performance analysis of Big Data classifiers of the classification tree families when combined in the form of bagging and boosting ensembles (or metaclassifiers). A test environment was implemented using classification tree algorithms on public datasets in order to verify three fundamental items: a . For a certain classification algorithm, the ensemble configuration (between Bagging and Boosting) results in greater accuracy. b . For a certain type of ensemble, the best classification algorithm. c . The possibility of identifying Big Data families (grouped according to a set of characteristics) in which each type of classifier performs better. The results indicated that the Boosting ensemble presents superior accuracy for a larger number of samples tested in comparison to the other algorithms. Among the classifiers, it is suggested that representatives of decisions trees are susceptible to the choice of the ensemble method and, mainly, of the sample. The ensembles application analysis on the samples and the characteristics of the sets showed very variable results, however a performance improvement was noticed when the classification was binary. BIG DATA ENSEMBLES ALGORITMOS DE CLASSIFICAÇÃO APRENDIZADO SUPERVISIONADO ÁRVORES DE DECISÃO
464	Sinergia entre sistemas imunologicos artificiais e modelos graficos probabilisticos / Synergy between artificial immune systems and probabilistic graphical models Castro, Pablo Alberto Dalbem de 07 July 2009 (has links) Orientador: Fernando Jose Von Zuben / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-14T03:50:32Z (GMT). No. of bitstreams: 1 Castro_PabloAlbertoDalbemde_D.pdf: 3372739 bytes, checksum: 137d410adffc7c418667750c4e3326de (MD5) Previous issue date: 2009 / Resumo: Sistemas imunológicos artificiais (SIAs) e modelos gráficos probabilísticos são duas importantes técnicas para a construção de sistemas inteligentes e tem sido amplamente exploradas por pesquisadores das mais diversas áreas, tanto no aspecto teórico quanto pratico. Entretanto, geralmente o potencial de cada técnica é explorado isoladamente, sem levar em consideração a possível cooperação entre elas. Como uma primeira contribuição deste trabalho, é proposta uma metodologia que explora as principais vantagens dos SIAs como ferramentas de otimização voltadas para aprendizado de redes bayesianas a partir de conjuntos de dados. Por outro lado, os SIAs já propostos para otimização em espaços discretos e contínuos correspondem a meta-heurísticas populacionais sem mecanismos para lidarem eficientemente com blocos construtivos, e também com poucos recursos para se beneficiarem do conhecimento já adquirido acerca do espaço de busca. A segunda contribuição desta tese é a proposição de quatro algoritmos que procuram superar estas limitações, em contextos mono-objetivo e multiobjetivo. São substituídos os operadores de clonagem e mutação por um modelo probabilístico representando a distribuição de probabilidades das melhores soluções. Em seguida, este modelo é empregado para gerar novas soluções. Os modelos probabilísticos utilizados são a rede bayesiana, para espaços discretos, e a rede gaussiana, para espaços contínuos. A escolha de ambas se deve às suas capacidades de capturar adequadamente as interações mais relevantes das variáveis do problema. Resultados promissores foram obtidos nos experimentos de otimização realizados, os quais trataram, em espaços discretos, de seleção de atributos e de ensembles para classificação de padrões, e em espaços contínuos, de funções multimodais de elevada dimensão. Palavras-chave: sistemas imunológicos artificiais, redes bayesianas, redes gaussianas, otimização em espaços discretos e contínuos, otimização mono-objetivo e multiobjetivo / Abstract: Artificial immune systems (AISs) and probabilistic graphical models are two important techniques for the design of intelligent systems, and they have been widely explored by researchers from diverse areas, in both theoretical and practical aspects. However, the potential of each technique is usually explored in isolation, without considering the possible cooperation between them. As a first contribution of this work, it is proposed an approach that explores the main advantages of AISs as optimization tools applied to the learning of Bayesian networks from data sets. On the other hand, the AISs already proposed to perform optimization in discrete and continuous spaces correspond to population-based meta-heuristics without mechanisms to deal effectively with building blocks, and also having few resources to benefit from the knowledge already acquired from the search space. The second contribution of this thesis is the proposition of four algorithms devoted to overcoming these limitations, both in single-objective and multi-objective contexts. The cloning and mutation operators are replaced by a probabilistic model representing the probability distribution of the best solutions. After that, this model is employed to generate new solutions. The probabilistic models adopted are the Bayesian network, for discrete spaces, and the Gaussian network, for continuous spaces. These choices are supported by their ability to properly capture the most relevant interactions among the variables of the problem. Promising results were obtained in the optimization experiments carried out, which have treated, in discrete spaces, feature selection and ensembles for pattern classification, and, in continuous spaces, multimodal functions of high dimension. Keywords: artificial immune systems, Bayesian networks, Gaussian networks, optimization in discrete and continuous domains, single-objective and multi-objective optimization / Doutorado / Engenharia de Computação / Doutor em Engenharia Elétrica Probabilistica Aprendizado de máquina Meta-heurística Otimização Sistemas inteligentes Probability Machine learning Metaheuristic Optimization Intelligent buildings
465	Uso de aprendizado de maquina para estimar esforço de execução de testes funcionais / Using machine learning to estimate execution effort of functional tests Silva, Daniel Guerreiro e, 1983- 15 August 2018 (has links) Orientador: Mario Jino / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-15T04:58:41Z (GMT). No. of bitstreams: 1 Silva_DanielGuerreiroe_M.pdf: 2351174 bytes, checksum: 7f8ba90b6462fe7be00711143e365482 (MD5) Previous issue date: 2009 / Resumo: O planejamento das atividades de teste tem papel essencial para qualquer equipe independente de testes que realize testes de diferentes sistemas de software, desenvolvidos por diferentes equipes de desenvolvimento. Dado que o esforço empreendido no processo de testes pode chegar até a metade do esforço total de desenvolvimento de um sistema, estimar adequadamente o esforço de testes pode evitar custos desnecessários e contribuir para a boa qualidade dos produtos. Para superar este desafio, ferramentas de aprendizado de máquina têm sido usadas em pesquisa para estimar esforço e para solucionar outros problemas de engenharia de software, principalmente porque eles constituem uma classe de problemas complexos com muitas limitações à sua solução por abordagens matemáticas clássicas. Este trabalho estuda a aplicação das ferramentas de aprendizado de máquina - redes neurais artificiais e máquinas de vetor de suporte - e de ferramentas de seleção de variáveis na solução do problema de estimar esforço de execução de testes funcionais. Um estudo do processo de execução de testes é desenvolvido e são conduzidos experimentos em duas bases de dados reais com o objetivo de propor uma metodologia adequada para abordar sistematicamente o problema, tanto em termos de qualidade de resultados como em praticidade de uso. As principais contribuições deste trabalho são: a proposta de realizar a seleção de variáveis para a síntese da base de dados; a adoção de um modelo de rede neural treinada por uma função custo assimétrica; e um estudo comparativo de desempenho dos modelos preditores / Abstract: Planning and scheduling of testing activities play a key role for any independent test team that performs tests for different software systems, produced by different development teams. Since the effort that is applied in the test process can amount to up to half of the total effort of software development, adequate estimation of test effort can prevent unnecessary costs and improve the quality of delivered products. To overcome this challenge, machine learning tools have been used in research to estimate effort and to solve other software engineering problems, mainly because they constitute a class of complex problems with many limitations to their solution by classical mathematical approaches. This work studies the application of machine learning tools - artificial neural networks and support vector machines - and variable selection tools to solve the problem of estimating the execution effort of functional tests. An analysis of the test execution process is done and experiments are performed with two real databases aimed at proposing a suitable methodology to systematically tackle this problem, considering both the quality of results and ease of application. The main contributions of this work are: the proposal of applying variable selection for database synthesis; the adoption of an artificial neural network trained with an asymmetric cost function; and a comparative study of performance with the predictive models / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica Software Variáveis (Matemática) Aprendizado de máquina Variáveis latentes Software Variables (Mathematics) Machine learning Latent variables
466	Comportamentos de mães e filhotes de baleias-franca-austrais, Eubalaena australis (Desmoulins, 1822), em Santa Catarina, Brasil Danielski, Mônica Lauriano 16 May 2008 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-10-14T11:47:50Z No. of bitstreams: 1 monicalaurianodanielski.pdf: 601690 bytes, checksum: 62cb3f205317dc0a8ba866157983613d (MD5) / Rejected by Adriana Oliveira (adriana.oliveira@ufjf.edu.br), reason: Renata, favor verificar o termo "baleias-francaaustrais," no título e resumo on 2016-10-22T13:04:47Z (GMT) / Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-10-24T10:20:53Z No. of bitstreams: 1 monicalaurianodanielski.pdf: 601690 bytes, checksum: 62cb3f205317dc0a8ba866157983613d (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2016-12-15T11:44:25Z (GMT) No. of bitstreams: 1 monicalaurianodanielski.pdf: 601690 bytes, checksum: 62cb3f205317dc0a8ba866157983613d (MD5) / Made available in DSpace on 2016-12-15T11:44:25Z (GMT). No. of bitstreams: 1 monicalaurianodanielski.pdf: 601690 bytes, checksum: 62cb3f205317dc0a8ba866157983613d (MD5) Previous issue date: 2008-05-16 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Em cetáceos, as relações entre mães e filhotes fazem parte de um composto complexo de elementos comportamentais. Baleias-franca migram no outono para regiões tropicais e temperadas exclusivamente para reprodução e cria de filhotes. Nessas áreas os filhotes permanecem com suas mães por volta de quatro meses, temporada que envolve um importante período de amamentação e estreito contato com sua mãe. O presente estudo teve como objetivo estudar os padrões comportamentais de mães e filhotes de baleias-fraca, suas interações espaciais, verificar as freqüências respiratórias dos pares e descrever o processo de aprendizagem do filhote através da imitação. Foram realizadas 37,5 horas de observações focais de 49 pares de mães e filhotes considerados distintos nas praias do Rosa e Ibiraquera, em Santa Catarina, ao longo das temporadas reprodutivas de 2006 e 2007. Foi observado para mães maiores médias de repousos e deslocamentos lentos, comportamentos de baixo custo energético. Filhotes apresentaram semelhantes médias de repousos, deslocamentos lentos, comportamentos aéreos e exposições, diretamente relacionados com seu processo de aprendizagem e desenvolvimento fisiológico ao longo da temporada reprodutiva. A imitação dos comportamentos das mães por seus filhotes aparece de forma expressiva no mês de outubro, pois nesse mês os filhotes já adquiriram grande coordenação e aptidão motora sendo possível imitar os comportamentos de suas mãe. As freqüências respiratórias de filhotes são maiores em relação à de suas mães nos meses de agosto e setembro, e sincronizam com elas nos meses de outubro e novembro. Durante toda temporada reprodutiva um contato direto entre mãe e filhote foi observado. O distanciamento entre eles vai aumentando ao longo dos meses, embora em novembro certa aproximação seja retomada, provavelmente devido ao processo de migração iminente. O tamanho dos filhotes também influencia na expressão dos comportamentos, sendo que filhotes de tamanho dois realizam maiores quantidades de exposições, e filhotes de tamanho um apresentam os menores valores de comportamentos aéreos. / The mothers and calves relations in cetaceans are compound by complex behaviors elements. Right whales migrate on fall to breeding areas were mothers and calves spend for four moths nursing and in an important contact. Behaviors patterns, spacials interactions between mother and calf, breath frequencies and learning procedures were examined. Were observed 49 mother and calves pairs for 37,5 hours in Rosa’s and Ibiraquera’s beaches, in Santa Catarina, at right whale breeding season in 2006 and 2007. Mothers spent more time resting and swimming, both low energy behaviors. Calves were seen resting, swimming, making expositions and aerial behaviors, important to their learning process and physiologic development. The imitation made by the calves is most seen in October, where they have motor coordination to imitate their mothers. The calves breathe more than the mothers in August and September, and synchronizing their breathing with the mothers in October and November. During the breeding season, both maintaining a close proximity, that decrease in September and October and increase in November, probably because of the migration event. The calves’ size is important in the behaviors expressions. Calves size two are seen making more expositions than the others, and calves size one making less aerial behaviors than the others calves. CNPQ::CIENCIAS BIOLOGICAS Eubalaena australis Mães Filhotes Aprendizado Comportamentos Eubalaena australis Mothers Calves Learning Behaviors
467	Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação Fagundes, Felipe Leite 31 August 2017 (has links) Submitted by Geandra Rodrigues (geandrar@gmail.com) on 2017-12-20T16:43:33Z No. of bitstreams: 1 felipeleitefagundes.pdf: 505347 bytes, checksum: 828890d64eac8d09b9c56eb30e6505df (MD5) / Rejected by Adriana Oliveira (adriana.oliveira@ufjf.edu.br), reason: Favor corrigir Métricas e Função no título para minúsculas on 2017-12-21T11:00:24Z (GMT) / Submitted by Geandra Rodrigues (geandrar@gmail.com) on 2017-12-21T11:56:28Z No. of bitstreams: 1 felipeleitefagundes.pdf: 505347 bytes, checksum: 828890d64eac8d09b9c56eb30e6505df (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-12-22T12:00:32Z (GMT) No. of bitstreams: 1 felipeleitefagundes.pdf: 505347 bytes, checksum: 828890d64eac8d09b9c56eb30e6505df (MD5) / Made available in DSpace on 2017-12-22T12:00:32Z (GMT). No. of bitstreams: 1 felipeleitefagundes.pdf: 505347 bytes, checksum: 828890d64eac8d09b9c56eb30e6505df (MD5) Previous issue date: 2017-08-31 / A utilização de diferentes métricas em algoritmos de aprendizado de máquinas pode mudar completamente os resultados de análises realizadas em bases de dados. Variar as maneiras de medir distâncias ou similaridades dos dados pode gerar reflexos para a captura de informações dessas bases e, com isso, influenciar diretamente a tomada de decisões. Neste sentido, métodos de aprendizagem de métricas têm sido abordados e aplicados em diversos ramos das pesquisas que manipulam bases de dados, com a finalidade de encontrar métricas mais adequadas para soluções de problemas de análise de cluster, classificação, mineração de dados, dentre outros relacionados ao reconhecimento de padrões de dados. O método de aprendizado de métricas utilizado como base deste trabalho foi originalmente formulado como um problema de otimização, com o objetivo de minimizar um conjunto parametrizado de distâncias de Mahalanobis. No método original é necessário estabelecer uma lista com pares de vetores similares ou dissimilares, que possibilitam a correção dos parâmetros para medição das distâncias. Já neste trabalho é proposto um novo método, que não necessita da comparação par a par entre vetores, mas apenas da comparação de distâncias de cada vetor do conjunto de treinamento com dois centroides: o definido pelo algoritmo Seeded k-means e o definido por um especialista como sendo um centroide esperado. A distância entre o vetor e os dois centroides é usada como fator global de correção dos parâmetros para medição das distâncias. Os novos parâmetros para medição de distâncias alteram a forma como os vetores são agrupados, melhorando sensivelmente os resultados em relação à métrica Euclideana. A maior contribuição deste estudo foi a formulação de um método para aprendizado desses parâmetros que reduzisse a complexidade em tempo em relação a outros métodos de aprendizado propostos na literatura, denominado MAP – Método de Aprendizado de Parâmetros. O MAP demonstrou melhoras significativas para problemas de classificação em diversas bases de dados do UCI Machine Learning Repository com métricas aprendidas em conjuntos de treinamento. / The use of different metrics in machine learning algorithms is able to change the results of analyzes carried out in databases. By varying how to measure distances or data similarities we can generate reflexes for information capture, which can influence the decision-making. In this sense, metric learning methods have been approached and applied in several branches of the research in the world, in order to find better metrics for problems of cluster analysis, classification, data mining, among others related data pattern recognition. The metric learning method used as the basis of this work was ori-ginally formulated as an optimization problem, in order to minimize a parameter set of Mahalanobis distances. In the original method, it is necessary to define a list of similar or dissimilar vectors pairs, which allow the correction of the distance measurement pa-rameters. In this work, a new method is proposed, which does not require the pairwise comparison, but only the distance comparison from each vector of a training set to two points: one defined by the Seeded k-means and other defined by an expert as being an expected centroid. The distance between the vector and the two centroids is used as correction factor of the parameters for measuring distances. The new learned parame-ters for distances measurement can change the clusters improving the results compared to the Euclidean metric. The major contribution of this study was the formulation of a method to learn these parameters that reduces the complexity in time if compared to other methods proposed in the literature. The proposal of PLM – Parameter Learning Method – have been demonstrated significant improvements in classification problems for several UCI Machine Learning Repository databases. Aprendizado de Máquinas Classificação Análise de dados Machine Learning Classification Data Analysis
468	Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados / Automatic feature quantification in data clustering tasks José Augusto Andrade Filho 17 September 2013 (has links) Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas, na maioria dos casos analisados, enquanto menos atributos são selecionados, a qualidade da partição dos dados é mantida / Real-world datasets commonly present high dimensional data, what leads to an increased amount of information. However, this does not always imply on an improvement in terms of clustering techniques performance. Furthermore, some features may be correlated or add unexpected noise, reducing the data clustering performance. This problem motivated the development of feature selection techniques, which attempt to find the most relevant subset of features to cluster data. In this work, we focus on the problem of unsupervised feature selection. This is a difficult problem, since there is no class label information. Therefore, there is no guide to measure the quality of the feature subset. The main goal of this work is to define a method to identify the number of features to select (after sorting them based on some criterion). This task is carried out by means of the False Nearest Neighbor, which has its root in the Chaos Theory. Experimental results show that this technique gives an good approximate number of features to select. When compared to other techniques, in most of the analyzed cases, while selecting fewer features, it maintains the quality of the data partition Agrupamento de dados Aprendizado de máquina Seleção de atributos Teoria do caos Chaos theory Clustering Feature selection Machine learning
469	"Pré-processamento de dados em aprendizado de máquina supervisionado" / "Data pre-processing for supervised machine learning" Gustavo Enrique de Almeida Prado Alves Batista 16 May 2003 (has links) A qualidade de dados é uma das principais preocupações em Aprendizado de Máquina - AM -cujos algoritmos são freqüentemente utilizados para extrair conhecimento durante a fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algoritmos de aprendizado induz conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algoritmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande interesse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Neste trabalho é proposta a utilização do algoritmo k-vizinhos mais próximos como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algoritmo k-vizinhos mais próximos pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a imputação pela média ou moda, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com classes desbalanceadas é de crucial importância, uma vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz de predizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional Discover Learning Environmnet - DLE - o qual é um em framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto Discover, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD. / Data quality is a major concern in Machine Learning, which is frequently used to extract knowledge during the Data Mining phase of the relatively new research area called Knowledge Discovery from Databases - KDD. As most Machine Learning algorithms induce knowledge strictly from data, the quality of the knowledge extracted is largely determined by the quality of the underlying data. Several aspects may influence the performance of a learning system due to data quality. In real world databases, two of these aspects are related to (i) the presence of missing data, which is handled in a rather naive way by many Machine Learning algorithms; (ii) the difference between the number of examples, or database records, that belong to different classes since, when this difference is large, learning systems may have difficulties to learn the concept related to the minority class. The problem of missing data is of great practical and theoretical interest. In many applications it is important to know how to react if the available information is incomplete or if sources of information become unavailable. Missing data treatment should be carefully thought, otherwise bias might be introduced into the knowledge induced. In this work, we propose the use of the k-nearest neighbour algorithm as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set by some plausible values. Our analysis indicates that missing data imputation based on the k-nearest neighbour algorithm can outperform the internal missing data treatment strategies used by C4.5 and CN2, and the mean or mode imputation, a widely used method for treating missing values. The problem of learning from imbalanced data sets is of crucial importance since it is encountered in a large number of domains. Imbalanced class distributions might cause a significant bottleneck in the performance obtained by standard learning methods, which assume a balanced distribution of the classes. One solution to the problem of learning with skewed class distributions is to artificially balance the data set. In this work we propose the use of the one-sided selection method, which performs a careful removal of cases belonging to the majority class while leaving untouched all cases from the minority class. Such careful removal consists of detecting and removing cases considered less reliable, using some heuristics. An experimental application confirmed the efficiency of the proposed method. As there is not a mathematical analysis able to predict whether the performance of a learning system is better than others, experimentation plays an important role for evaluating learning systems. In this work we propose and implement a computational environment, the Discover Learning Environment - DLE - which is a framework to develop and evaluate new data pre-processing methods. The DLE is integrated into the Discover project, a major research project under development in our laboratory for planning and execution of experiments related to the use of learning systems during the Data Mining phase of the KDD process. aprendizado de máquina mineração de dados pré-processamento de dados data mining data pre-processing machine learning
470	A inclusão do robô humanóide NAO como recurso tecnológico no processo do ensino-aprendizado da Língua Portuguesa na Educação Especial Assante, Lidiane de Souza 22 August 2016 (has links) Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-01-25T13:11:59Z No. of bitstreams: 1 Dissertação Parcial - Lidiane de Souza Assante.pdf: 1502522 bytes, checksum: 539c33aea656af53d0e41242e6feb497 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-01-25T13:12:16Z (GMT) No. of bitstreams: 1 Dissertação Parcial - Lidiane de Souza Assante.pdf: 1502522 bytes, checksum: 539c33aea656af53d0e41242e6feb497 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-01-25T13:12:30Z (GMT) No. of bitstreams: 1 Dissertação Parcial - Lidiane de Souza Assante.pdf: 1502522 bytes, checksum: 539c33aea656af53d0e41242e6feb497 (MD5) / Made available in DSpace on 2017-01-25T13:12:30Z (GMT). No. of bitstreams: 1 Dissertação Parcial - Lidiane de Souza Assante.pdf: 1502522 bytes, checksum: 539c33aea656af53d0e41242e6feb497 (MD5) Previous issue date: 2016-08-22 / Robotics has emerged as a technology to improve services and increase productivity in large organizations, and today as attractive educational alternative to explore theoretical concepts covered in the classroom facilitating learning and charming student interest. The use of alternative methods for improving school education, it has become necessary. The new generation of learners living in panorama whose technology goes through constant changes inside and outside the academic atmosphere. Assistive technology today has expanded the functional abilities of people with disabilities and consequently promote independent living and social inclusion. Presupposed this research project aimed at analyzing the insertion of Humanoid Robot NAO as a communication tool and integration of the Portuguese language by the method developed ABCNAO with use of the computer system Choregraphe, in which the robot interacts in sequence learning activities. The project in question was justified for engineering production by including new teaching-learning process mediated by assistive technology and Humanoid Robot. As well as having Assistive Technology Center at UEA / AM that has the robot and is developing Educational Service Specialist (ESA). Research has shown scientifically that children with pervasive developmental disorders (PDD) and Disorder ASD (TA) communicate and interact more easily with a robot than with the human being, and it is desirable for language teaching and learning process Portuguese as another teaching / educational support tool for educational / technological purposes and relevant to scientific research in production engineering as a new and innovative process. As tools of analysis and discussion of the results will be given by survey information, tools and strategy for the collection, this research used focus groups, quantitative and qualitative data and application questionnaire on the robot so as to measure data that make relevant research. The result proved the potential of the humanoid robot in accordance with the Portuguese language in the teaching-learning process in special education, using the method developed during the study the ABCNAO as a pilot test, to make them (disabled children) more communicative and , socially interactive and playful learning tool and motivational. So is research is significant as new educational and technological tool in the process of teaching and learning the Portuguese language / A robótica surgiu como tecnologia para melhorar os serviços e aumentar a produtividade nas grandes organizações e, hoje, como alternativa educacional atraente para explorar conceitos teóricos abordados em sala de aula facilitando o aprendizado e encantando o interesse dos alunos. A utilização de métodos alternativos para melhorar o ensino escolar, tornou-se necessário. A nova geração de aprendizes vivem em panorama cuja tecnologia passa por constantes mudanças fora e dentro da atmosfera acadêmica. A tecnologia assistiva, hoje, vem ampliando as habilidades funcionais de pessoas com deficiência e consequentemente promover vida independente e inclusão social. Como pressuposto este projeto de pesquisa buscou analisar a inserção do Robô Humanoide NAO como ferramenta de comunicação e integração da Língua Portuguesa por meio do método desenvolvido ABCNAO com uso do sistema computacional Choregraphe, no qual o Robô interage em sequência de atividades didáticas. O projeto em questão justificou-se para a engenharia da produção pela inclusão de novo processo de ensino-aprendizagem mediados por tecnologia assistiva e Robô Humanoide. Bem como por ter Núcleo de Tecnologia Assistiva na UEA/AM que possui o robô e que vem desenvolvendo Atendimento Educacional Especializado (AEE). Pesquisas comprovaram cientificamente que crianças com transtornos globais do desenvolvimento (TGD) e Transtorno Espectro Autista (TA) se comunicam e interagem mais facilmente com um Robô do que com o próprio ser humano, além de se tornar oportuno para o processo de ensino aprendizagem da língua portuguesa como mais uma ferramenta de apoio didático/pedagógico com fins educacionais/tecnológicos e relevante para a pesquisa científica na engenharia de produção como um processo novo e inovador. Como instrumentos de análise e discussão dos resultados deu-se por levantamento de informações, instrumentos e estratégia para a coleta, nesta pesquisa utilizou-se grupo focal, dados quanti-qualitativo e aplicação de questionário sobre o robô para assim mensurar dados que tornem relevante à pesquisa. O resultado comprovou a potencialidade do robô humanoide em consonância com a língua portuguesa no processo do ensino-aprendizado na educação especial, utilizando o método desenvolvido durante o estudo, o ABCNAO, como teste piloto, para torná-los (as crianças deficientes) mais comunicativos e, interativos socialmente, bem como instrumento lúdico de aprendizagem e motivacional. Portanto esta pesquisa é significativa como nova ferramenta educacional e tecnológica no processo do ensino-aprendizado da língua portuguesa. Teoria da Aprendizagem Tecnologia Assistiva Ensino-aprendizado - Língua Portuguesa Robô Humanoide NAO ENGENHARIAS: ENGENHARIA DE PRODUÇÃO

Search results