Global ETD Search

1	Seleção e análise de associação genômica em dados simulados e da qualidade da carne de ovinos da raça Santa Inês / Genomic selection and association analysis in simulated data and meat quality of Santa Inês sheep breed Pértile, Simone Fernanda Nedel 19 August 2015 (has links) Informações de milhares de marcadores genéticos têm sido incluídas nos programas de melhoramento genético, permitindo a seleção dos animais considerando estas informações e a identificações de regiões genômicas associadas às características de interesse econômico. Devido ao alto custo associado a esta tecnologia e às coletas de dados, os dados simulados apresentam grande importância para que novas metodologias sejam estudadas. O objetivo deste trabalho foi avaliar a eficiência do método ssGBLUP utilizando pesos para os marcadores genéticos, informações de genótipo e fenótipos, com ou sem as informações de pedigree, para seleção e associação genômica ampla, considerando diferentes coeficientes de herdabilidade, presença de efeito poligênico, diferentes números de QTL (quantitative trait loci) e pressões de seleção. Adicionalmente, dados de qualidade da carne de ovinos da raça Santa Inês foram comparados com a os padrões descritos para esta raça. A população estudada foi obtida por simulação de dados, e foi composta por 8.150 animais, sendo 5.850 animais genotipados. Os dados simulados foram analisados utilizando o método ssGBLUP com matrizes de relacionamento com ou sem informações de pedigree, utilizando pesos para os marcadores genéticos obtidos em cada iteração. As características de qualidade da carne estudadas foram: área de olho de lombo, espessura de gordura subcutânea, cor, pH ao abate e após 24 horas de resfriamento das carcaças, perdas por cocção e força de cisalhamento. Quanto maior o coeficiente de herdabilidade, melhores foram os resultados de seleção e associação genômica. Para a identificação de regiões associadas a características de interesse, não houve influência do tipo de matriz de relacionamento utilizada. Para as características com e sem efeito poligênico, quando considerado o mesmo coeficiente de herdabilidade, não houve diferenças para seleção genômica, mas a identificação de QTL foi melhor nas características sem efeito poligênico. Quanto maior a pressão de seleção, mais acuradas foram as predições dos valores genéticos genômicos. Os dados de qualidade da carne obtidos de ovinos da raça Santa Inês estão dentro dos padrões descritos para esta raça e foram identificas diversas regiões genômicas associadas às características estudadas. / Thousands of genetic markers data have been included in animal breeding programs to allow the selection of animals considering this information and to identify genomic regions associated to traits of economic interest. Simulated data have great importance to the study of new methodologies due to the high cost associated with this technology and data collection. The objectives of this study were to evaluate the efficiency of the ssGBLUP method using genotype and phenotype information, with or without pedigree information, and attributing weights for genetic markers, for selection and genome-wide association considering different coefficients of heritability, the presence of polygenic effect, different numbers of quantitative trait loci and selection pressures. Additionally, meat quality data of Santa Ines sheep breed were compared with the standards for the breed. The population of simulated data was composed by 8.150 individuals and 5.850 genotyped animals. The simulated data was analysed by the ssGBLUP method and by two relationship matrix, with or without pedigree information, and weights for genetic markers were obtained in every iteration. The traits of meat quality evaluated were: rib eye area, fat thickness, color, pH at slaughter and 24 hours after the carcass cooling, cooking losses and shear force. The results of selection and genomic association were better for the traits with the highest heritability coefficients. For traits with the greater selection pressure, more accurate predictions of the genomic breeding values were obtained. There was no difference between the relationship matrix studied to identify the regions associated with traits of interest. For the traits with and without polygenic effect, considering the same heritability coefficient, they did not show differences in genomic selection, but the identification of the QTL was better for traits without polygenic effect. The meat quality data obtained from Santa Ines sheep breed are in accordance with the standards for this breed and different genomic regions associated to the studied characteristics were identified. Bayesian Coeficiente de herdabilidade Cross-validation Habilidade preditiva Heritability coefficient ssGBLUP ssGBLUP Validação cruzada
2	Um novo algoritmo de agrupamento semisupervisionado baseado no Fuzzy C-Means MACARIO FILHO, Valmir 31 January 2009 (has links) Made available in DSpace on 2014-06-12T15:57:35Z (GMT). No. of bitstreams: 2 arquivo3210_1.pdf: 1552746 bytes, checksum: 98771d23cdfb48745520719f0b3134dd (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Nas aplicações tradicionais de aprendizagem de máquina, os classificadores utilizam apenas dados rotulados em seu treinamento. Os dados rotulados, por sua vez, são difíceis, caros, consomem tempo e requerem especialistas humanos para serem obtidos em algumas aplicações reais. Entretanto, dados não rotulados são abundantes e fáceis de serem obtidos mas há poucas abordagens que os utilizam no treinamento. Para contornar esse problema existe a aprendizagem semi-supervisionada. A aprendizagem semi-supervisionada utiliza uma grande quantidade de dados não rotulados, juntamente com dados rotulados, com a finalidade de construir classificadores melhores. A abordagem semi-supervisionada obtém resultados melhores do que se utilizassem apenas poucos padrões rotulados em uma abordagem supervisionada ou se utilizassem apenas padrões não rotulados numa abordagem não supervisionada. O algoritmo semi-supervisionado pode ser uma extensão de um algoritmo não supervisionado. Um algoritmo desse tipo pode se basear em algoritmos de agrupamento não supervisionado, adicionando-se um termo em sua função objetivo que faz uso de informações rotuladas para guiar o processo de aprendizagem do algoritmo. Este trabalho apresenta um estudo da aprendizagem semi-supervisionada e apresenta um novo algoritmo de agrupamento semi-supervisionado baseado no algoritmo Fuzzy C-Means. Também, apresenta uma validação cruzada para o contexto de algoritmos semi-supervisionados. Estudos experimentais são apresentados. Primeiro, o algoritmo semi-supervisionado proposto é avaliado com dados completamente rotulados, comparado com alguns classificadores totalmente supervisionados. Depois, o mesmo algoritmo semi-supervisionado é, então, avaliado e comparado com três algoritmos também de agrupamento semi-supervisionados que otimizam uma função objetivo no contexto da aprendizagem a partir de dados parcialmente rotulados. Além disso, o comportamento do algoritmo é discutido e os resultados examinados através da construção de intervalos de confiança. Derivou deste trabalho, uma ferramenta contendo os algoritmos semi-supervisionados e o ambiente experimental para validação desses algoritmos foi desenvolvida. Desse modo, foi possível certificar que o novo algoritmo de agrupamento semi-supervisionad apresenta desempenho melhor, ou pelo menos do mesmo nível, que algoritmos já consolidados na literatura Aprendizagem Semi-Supervisionada Agupamento Semi-Supervisionado Agrupamento Fuzzy Função Objetivo Classificação de Padrões Validação Cruzada
3	Seleção e análise de associação genômica em dados simulados e da qualidade da carne de ovinos da raça Santa Inês / Genomic selection and association analysis in simulated data and meat quality of Santa Inês sheep breed Simone Fernanda Nedel Pértile 19 August 2015 (has links) Informações de milhares de marcadores genéticos têm sido incluídas nos programas de melhoramento genético, permitindo a seleção dos animais considerando estas informações e a identificações de regiões genômicas associadas às características de interesse econômico. Devido ao alto custo associado a esta tecnologia e às coletas de dados, os dados simulados apresentam grande importância para que novas metodologias sejam estudadas. O objetivo deste trabalho foi avaliar a eficiência do método ssGBLUP utilizando pesos para os marcadores genéticos, informações de genótipo e fenótipos, com ou sem as informações de pedigree, para seleção e associação genômica ampla, considerando diferentes coeficientes de herdabilidade, presença de efeito poligênico, diferentes números de QTL (quantitative trait loci) e pressões de seleção. Adicionalmente, dados de qualidade da carne de ovinos da raça Santa Inês foram comparados com a os padrões descritos para esta raça. A população estudada foi obtida por simulação de dados, e foi composta por 8.150 animais, sendo 5.850 animais genotipados. Os dados simulados foram analisados utilizando o método ssGBLUP com matrizes de relacionamento com ou sem informações de pedigree, utilizando pesos para os marcadores genéticos obtidos em cada iteração. As características de qualidade da carne estudadas foram: área de olho de lombo, espessura de gordura subcutânea, cor, pH ao abate e após 24 horas de resfriamento das carcaças, perdas por cocção e força de cisalhamento. Quanto maior o coeficiente de herdabilidade, melhores foram os resultados de seleção e associação genômica. Para a identificação de regiões associadas a características de interesse, não houve influência do tipo de matriz de relacionamento utilizada. Para as características com e sem efeito poligênico, quando considerado o mesmo coeficiente de herdabilidade, não houve diferenças para seleção genômica, mas a identificação de QTL foi melhor nas características sem efeito poligênico. Quanto maior a pressão de seleção, mais acuradas foram as predições dos valores genéticos genômicos. Os dados de qualidade da carne obtidos de ovinos da raça Santa Inês estão dentro dos padrões descritos para esta raça e foram identificas diversas regiões genômicas associadas às características estudadas. / Thousands of genetic markers data have been included in animal breeding programs to allow the selection of animals considering this information and to identify genomic regions associated to traits of economic interest. Simulated data have great importance to the study of new methodologies due to the high cost associated with this technology and data collection. The objectives of this study were to evaluate the efficiency of the ssGBLUP method using genotype and phenotype information, with or without pedigree information, and attributing weights for genetic markers, for selection and genome-wide association considering different coefficients of heritability, the presence of polygenic effect, different numbers of quantitative trait loci and selection pressures. Additionally, meat quality data of Santa Ines sheep breed were compared with the standards for the breed. The population of simulated data was composed by 8.150 individuals and 5.850 genotyped animals. The simulated data was analysed by the ssGBLUP method and by two relationship matrix, with or without pedigree information, and weights for genetic markers were obtained in every iteration. The traits of meat quality evaluated were: rib eye area, fat thickness, color, pH at slaughter and 24 hours after the carcass cooling, cooking losses and shear force. The results of selection and genomic association were better for the traits with the highest heritability coefficients. For traits with the greater selection pressure, more accurate predictions of the genomic breeding values were obtained. There was no difference between the relationship matrix studied to identify the regions associated with traits of interest. For the traits with and without polygenic effect, considering the same heritability coefficient, they did not show differences in genomic selection, but the identification of the QTL was better for traits without polygenic effect. The meat quality data obtained from Santa Ines sheep breed are in accordance with the standards for this breed and different genomic regions associated to the studied characteristics were identified. Coeficiente de herdabilidade Habilidade preditiva ssGBLUP Validação cruzada Bayesian Cross-validation Heritability coefficient ssGBLUP
4	Um estudo comparativo das técnicas de validação cruzada aplicadas a modelos mistos / A comparative study of cross-validation techniques applied to mixed models Cunha, João Paulo Zanola 28 May 2019 (has links) A avaliação da predição de um modelo por meio do cálculo do seu risco esperado é uma importante etapa no processo de escolha do um preditor eficiente para observações futuras. Porém, deve ser evitado nessa avaliação usar a mesma base em que foi criado o preditor, pois traz, no geral, estimativas abaixo do valor real do risco esperado daquele modelo. As técnicas de validação cruzada (K-fold, Leave-One-Out, Hold-Out e Bootstrap) são aconselhadas nesse caso, pois permitem a divisão de uma base em amostra de treino e validação, fazendo assim que a criação do preditor e a avaliação do seu risco sejam feitas em bases diferentes. Este trabalho apresenta uma revisão dessas técnicas e suas particularidades na estimação do risco esperado. Essas técnicas foram avaliadas em dois modelos mistos com distribuições Normal e Logístico e seus desempenhos comparados por meio de estudos de simulação. Por fim, as metodologias foram aplicadas em um conjunto de dados real. / The appraisal of models prediction through the calculation of the expected risk is an important step on the process of the choice of an efficient predictor to future observations. However, in this evaluation it should be avoided to use the same data to calculate the predictor on which it was created, due to it brings, in general, estimates above the real expected risk value of the model. In this case, the cross-validation methods (K-fold, Leave-One-Out, Hold-Out and Bootstrap) are recommended because the partitioning of the data in training and validation samples allows the creation of the predictor and its risk evaluation on different data sets. This work presents a briefing of this methods and its particularities on the expected risk estimation. These methods were evaluated on two mixed models with Normal and Logistic distributions and their performances were compared through simulation cases. Lastly, those methods were applied on a real database. Cross-validation Expected risk Mixed models Modelos mistos Risco esperado Validação cruzada
5	Relação hipsométrica de eucalipto clonal no sul do Tocantins Schmitt, Thaís 14 September 2017 (has links) Este trabalho foi estruturado em dois capítulos, utilizando 11 parcelas retangulares e permanentes de 348 m² cada, de um plantio clonal de Eucalyptus camaldulensis e Eucalyptus urophylla na região Sul do Estado do Tocantins. O primeiro capítulo objetivou a melhor forma de ajuste de modelos hipsométricos, analisando a acurácia do melhor modelo, e aplicando-o em uma situação florestal diferente. Os dados foram divididos em um lote de ajuste e outro de aplicação, com três classes de diâmetro e três classes de altura dominante. Inicialmente determinou-se o coeficiente de determinação ajustado em porcentagem (R²aj), erro-padrão da estimativa em porcentagem (Syx%), e análise gráfica residual. Posteriormente realizou-se um teste de identidade de modelos, seguido de um delineamento inteiramente casualizado (DIC) no esquema de parcelas subdivididas, juntamente com o teste de Dunnet. No final da análise, para avaliar a estabilidade dos modelos em um teste de validação, foram utilizados os critérios: coeficiente de determinação da predição (R²), soma de quadrados do resíduo relativo (SQRR), raiz quadrada do erro médio (RQEM), erro médio percentual (EMP). Concluiu-se que a melhor forma de ajuste foi realizar um ajuste por classe, sendo o modelo regional o mais adequado a se utilizar. O segundo capítulo aborda a avaliação de modelos hipsométricos aplicando a técnica de validação cruzada, e a comparação dos resultados com aqueles obtidos no capítulo 1, visando obter o melhor modelo a ser utilizado na região sob diferentes aspectos de seleção. Inicialmente aplicaram-se os critérios de precisão: coeficiente de determinação ajustado, erro padrão da estimativa e análise gráfica residual. Em seguida foram aplicados os critérios de estabilidade realizando a validação cruzada entre os dois lotes de dados, que foram estes: erro médio absoluto, raiz do quadrado médio e soma de quadrados do erro médio. Os modelos selecionados foram submetidos a uma nova análise, utilizando-se os lotes de dados do capítulo 1, onde se aplicou os mesmos critérios de precisão e estabilidade utilizados anteriormente, resultando na comparação entre os capítulos. Concluiu-se que o melhor modelo local foi o 14 de Chapman-Richards, o melhor modelo regional foi o parabólico 03, e na comparação com os modelos selecionados no capítulo 01, o mais adequado para o plantio foi o modelo regional parabólico 3, proveniente do capítulo 02. / Hypsometric relations of clonal eucalyptus in south of Tocantins. This work was structured in two chapters, using 11 rectangular and permanent plots of 348 m² each, from a clonal plantation of Eucalyptus camaldulensis and Eucalyptus urophylla in the southern region of the state of Tocantins. The first chapter aimed at the best way of adjusting hypsometric models, analyzing the accuracy of the best model, and applying it in a different forest situation. The data were divided into one set of adjustment and another of application, with three classes of diameter and three classes of dominant height. The coefficient of determination adjusted in percentage (R²aj), standard error of the estimate in percentage (Syx%), and residual graphical analysis were determined initially. A model identity test was then performed, followed by a completely randomized design (DIC) in the subdivided plot scheme, along with the Dunnet test. At the end of the analysis, to evaluate the stability of the models in a validation test, the following criteria were used: prediction determination coefficient (R²), sum of squares of the residual residue (SQRR), square root mean error (RQEM) mean error (EMP). It was concluded that the best form of adjustment was to perform an adjustment by class, being the regional model the most appropriate to be used. The second chapter deals with the evaluation of hypsometric models applying the cross validation technique, and the comparison of the results with those obtained in chapter 1, aiming to obtain the best model to be used in the region under different aspects of selection. Initially the precision criteria were applied: adjusted coefficient of determination, standard error of the estimate and residual graphical analysis. Then, the stability criteria were applied by performing cross-validation between the two batches of data, which were: absolute mean error, mean square root, and mean square error sum. The selected models were submitted to a new analysis, using the data bundles of chapter 1, where the same criteria of precision and stability previously used were applied, resulting in the comparison between the chapters. It was concluded that the best local model was Chapman-Richards 14, the best regional model was parabolic 03, and in comparison with the models selected in chapter 01, the most suitable for planting was the regional parabolic model 3, of chapter 02. CNPQ::ENGENHARIAS Relação altura/diâmetro Formas de ajuste Validação cruzada Teste de identidade Height / diameter ratio; Cross-validation Identity test
6	Estimativa das funções de recuperação de reservas minerais usando copulas / Estimation of recovers function of mineral reserves using copulas Carmo, Frederico Augusto Rosa do 24 August 2006 (has links) Orientador: Armando Zaupa Remacre / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Geociencias / Made available in DSpace on 2018-08-07T09:52:07Z (GMT). No. of bitstreams: 1 Carmo_FredericoAugustoRosado_D.pdf: 2790866 bytes, checksum: 70c1d59f281ee0f7a09af528c73582a9 (MD5) Previous issue date: 2006 / Resumo: O objetivo principal desta tese foi desenvolver a metodologia de cópulas aplicada ao problema de estimativas de reservas condicionadas, corrigindo erros de tonelagem e quantidade de minério de um projeto, via uma abordagem diferente da simulação estocástica condicional. É apresentado um resumo teórico que fundamenta o estudo de cópulas. Inicia-se com a apresentação de definições e conceitos importantes da estatística e da probabilidade. Após uma discussão sobre medidas de correlação, é introduzido o conceito de cópulas, desde sua definição e propriedades básicas até o estudo de alguns tipos de cópulas essenciais para a aplicação nesta tese. É discutida toda a fundamentação teórica desenvolvida para o cálculo de recursos recuperáveis. Os conceitos de curvas de tonelagem e teores são introduzidos, pois são a base da parametrização de reservas minerais. É mostrado como a cópula pode ser utilizada num dos pontos principais da geoestatística mineira, principalmente no que diz respeito ao erro das estimativas. Discorre-se primeiramente sobre o conceito de validação cruzada, apresentando a definição de reserva ilusória, ótima e ideal. É definida a reserva ideal utilizando o conceito de cópulas, onde a krigagem, a simulação seqüencial gaussiana e a cópula são comparadas, mostrando as conseqüências da sobreestimativa e da subestimativa em projetos de cava e seqüenciamento na mineração / Abstract: The aim of this thesis was to develop the applied methodology of copulas in the problem of conditional reserves estimation. The copulas have a different approach from sequential gaussian simulation and in this thesis was used to correct the tonnage and ore quantity of a mining project. It is presented a theoretical summary that is the bases to the study of copulas. It is also' presented a set of definitions and important concepts of the statistics and the probability. After a discussion about correlation measures, is introducing the concept of copulas, begining with the definition and basic properties until the study of some types of essential copulas that was applied in this thesis. Whole the theoretical fundamentation is discussed to developed the calculation of recoverable resources. The concepts of tonnage and grades curves are introduced, therefore they are the base of the parametrization of mineral reserves. It is shown how the copulas can be used in the main points of the mining geostatistics, mainly in what concerns the estimation errors. Firstly the cross validation concept is presented and the illusory, best and ideal reserves are defined. The ideal reserves is defined using the concept of copulas, and the results are compared with the kriging and sequential gaussian simulation. With this comparisons is possible shown the consequences of the upper-estimation and under estimation in an open pit projects and sequential mining layout / Doutorado / Administração e Politica de Recursos Minerais / Doutor em Ciências Geologia - Métodos estatísticos Copulas Parametrização de reservas Projeto de mineração Validação cruzada Mineração Geoestatistics Copulas Reserve parametrization Mining project Cross validation
7	Critérios robustos de seleção de modelos de regressão e identificação de pontos aberrantes / Robust model selection criteria in regression and outliers identification Guirado, Alia Garrudo 08 March 2019 (has links) A Regressão Robusta surge como uma alternativa ao ajuste por mínimos quadrados quando os erros são contaminados por pontos aberrantes ou existe alguma evidência de violação das suposições do modelo. Na regressão clássica existem critérios de seleção de modelos e medidas de diagnóstico que são muito conhecidos. O objetivo deste trabalho é apresentar os principais critérios robustos de seleção de modelos e medidas de detecção de pontos aberrantes, assim como analisar e comparar o desempenho destes de acordo com diferentes cenários para determinar quais deles se ajustam melhor a determinadas situações. Os critérios de validação cruzada usando simulações de Monte Carlo e o Critério de Informação Bayesiano são conhecidos por desenvolver-se de forma adequada na identificação de modelos. Na dissertação confirmou-se este fato e além disso, suas alternativas robustas também destacam-se neste aspecto. A análise de resíduos constitui uma forte ferramenta da análise diagnóstico de um modelo, no trabalho detectou-se que a análise clássica de resíduos sobre o ajuste do modelo de regressão linear robusta, assim como a análise das ponderações das observações, são medidas de detecção de pontos aberrantes eficientes. Foram aplicados os critérios e medidas analisados ao conjunto de dados obtido da Estação Meteorológica do Instituto de Astronomia, Geofísica e Ciências Atmosféricas da Universidade de São Paulo para detectar quais variáveis meteorológicas influem na temperatura mínima diária durante o ano completo, e ajustou-se um modelo que permite identificar os dias associados à entrada de sistemas frontais. / Robust Regression arises as an alternative to least squares method when errors are contaminated by outliers points or there are some evidence of violation of model assumptions. In classical regression there are several criteria for model selection and diagnostic measures that are well known. The objective of this work is to present the main robust criteria of model selection and outliers detection measures, as well as to analyze and compare their performance according to different stages to determine which of them fit better in certain situations. The cross-validation criteria using Monte Carlo simulations and Beyesian Information Criterion are known to be adequately developed in model identification. This fact was confirmed, and in addition, its robust alternatives also stand out in this aspect. The residual analysis is a strong tool for model diagnostic analysis, in this work it was detected that the classic residual analysis on the robust linear model regression fit, as well as the analysis of the observations weights, are efficient measures of outliers detection points. The analyzed criteria and measures were applied to the data set obtained from the Meteorological Station of the Astronomy, Geophysics and Atmospheric Sciences Institute of São Paulo University to detect which meteorological variables influence the daily minimum temperature during the whole year, and was fitted a model that allows identify the days associated with the entry of frontal systems. AIC AIC BIC BIC Cp Cp Cross-validation Identificação de pontos aberrantes Model selection Outliers identification R2 R2 Regressão robusta Robust regression Seleção de modelos Validação cruzada
8	Modelos de agrupamento e classificação para os bairros da cidade do Rio de Janeiro sob a ótica da Inteligência Computacional: Lógica Fuzzy, Máquinas de Vetores Suporte e Algoritmos Genéticos / Clustering and classification models for the neighborhoods of the city of Rio de Janeiro from the perspective of Computational Intelligence: Fuzzy Logic, Support Vector Machine and Genetic Algorithms Natalie Henriques Martins 19 June 2015 (has links) Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A partir de 2011, ocorreram e ainda ocorrerão eventos de grande repercussão para a cidade do Rio de Janeiro, como a conferência Rio+20 das Nações Unidas e eventos esportivos de grande importância mundial (Copa do Mundo de Futebol, Olimpíadas e Paraolimpíadas). Estes acontecimentos possibilitam a atração de recursos financeiros para a cidade, assim como a geração de empregos, melhorias de infraestrutura e valorização imobiliária, tanto territorial quanto predial. Ao optar por um imóvel residencial em determinado bairro, não se avalia apenas o imóvel, mas também as facilidades urbanas disponíveis na localidade. Neste contexto, foi possível definir uma interpretação qualitativa linguística inerente aos bairros da cidade do Rio de Janeiro, integrando-se três técnicas de Inteligência Computacional para a avaliação de benefícios: Lógica Fuzzy, Máquina de Vetores Suporte e Algoritmos Genéticos. A base de dados foi construída com informações da web e institutos governamentais, evidenciando o custo de imóveis residenciais, benefícios e fragilidades dos bairros da cidade. Implementou-se inicialmente a Lógica Fuzzy como um modelo não supervisionado de agrupamento através das Regras Elipsoidais pelo Princípio de Extensão com o uso da Distância de Mahalanobis, configurando-se de forma inferencial os grupos de designação linguística (Bom, Regular e Ruim) de acordo com doze características urbanas. A partir desta discriminação, foi tangível o uso da Máquina de Vetores Suporte integrado aos Algoritmos Genéticos como um método supervisionado, com o fim de buscar/selecionar o menor subconjunto das variáveis presentes no agrupamento que melhor classifique os bairros (Princípio da Parcimônia). A análise das taxas de erro possibilitou a escolha do melhor modelo de classificação com redução do espaço de variáveis, resultando em um subconjunto que contém informações sobre: IDH, quantidade de linhas de ônibus, instituições de ensino, valor m médio, espaços ao ar livre, locais de entretenimento e crimes. A modelagem que combinou as três técnicas de Inteligência Computacional hierarquizou os bairros do Rio de Janeiro com taxas de erros aceitáveis, colaborando na tomada de decisão para a compra e venda de imóveis residenciais. Quando se trata de transporte público na cidade em questão, foi possível perceber que a malha rodoviária ainda é a prioritária Reconhecimento de Padrões Inteligência Computacional Validação Cruzada k-fold Máquina de Vetores Suporte Algoritmos Genéticos Pattern Recognition Computational Intelligence k-fold Cross-Validation Fuzzy Logic by the Extension Principle Support Vector Machine Genetic Algorithms MATEMATICA DA COMPUTACAO
9	Explorando caminhos de mínima informação em grafos para problemas de classificação supervisionada Hiraga, Alan Kazuo 05 May 2014 (has links) Made available in DSpace on 2016-06-02T19:06:12Z (GMT). No. of bitstreams: 1 5931.pdf: 2655791 bytes, checksum: 6eafe016c175143a8d55692b4681adfe (MD5) Previous issue date: 2014-05-05 / Financiadora de Estudos e Projetos / Classification is a very important step in pattern recognition, as it aims to categorize objects from a set of inherent features, through its labeling. This process can be supervised, when there is a sample set of labeled training classes, semi-supervised, when the number of labeled samples is limited or nearly inexistent, or unsupervised, where there are no labeled samples. This project proposes to explore minimum information paths in graphs for classification problems, through the definition of a supervised, non-parametric, graph-based classification method, by means of a contextual approach. This method proposes to construct a graph from a set of training samples, where the samples are represented by vertices and the edges are links between samples that belongs to a neighborhood system. From the graph construction, the method calculates the local observed Fisher information, a measurement based on the Potts model, for all vertices, identifying the amount of information that each sample has. Generally, different class vertices when connected by an edge, have a high information level. After that, it is necessary to weight the edges by means of a function that penalizes connecting vertices with high information. During this process, it is possible to identify and select high information vertices, which will be chosen to be prototype vertices, namely, the nodes that define the classes boundaries. After the definition, the method proposes that each prototype sample conquer the remaining samples by offering the shortest path in terms of information, so that when a sample is conquered it receives the label of the winning prototype, occurring the classification. To evaluate the proposed method, statistical methods to estimate the error rates, such as Hold-out, K-fold and Leave-One- Out Cross-Validation will be considered. The obtained results indicate that the method can be a viable alternative to the existing classification techniques. / A classificação é uma etapa muito importante em reconhecimento de padrões, pois ela tem o objetivo de categorizar objetos a partir de um conjunto de características inerentes a ele, atribuindo-lhe um rótulo. Esse processo de classificação pode ser supervisionado, quando existe um conjunto de amostras de treinamento rotuladas que representam satisfatoriamente as classes, semi-supervisionado, quando o conjunto de amostras é limitado ou quase inexistente, ou não-supervisionado, quando não existem amostras rotuladas. Este trabalho propõe explorar caminhos de mínima informação em grafos para problemas de classificação, por meio da criação de um método de classificação supervisionado, não paramétrico, baseado em grafos, seguindo uma abordagem contextual. Esse método propõe a construção de um grafo a partir do conjunto de amostras de treinamento, onde as amostras serão representadas pelos vértices e as arestas serão as ligações entre amostras pertencentes a uma relação de adjacência. A partir da construção do grafo o método faz o calculo da informação de Fisher Local Observada, uma medida baseada no modelo de Potts, para todos os vértices, identificando o grau de informação que cada um possui. Geralmente vértices de classes distintas quando conectados por uma aresta possuem alta informação (bordas). Feito o calculo da informação, é necessário ponderar as arestas por meio de uma função que penaliza a ligação de vértices com alta informação. Enquanto as arestas são ponderadas é possível identificar e selecionar vértices altamente informativos os quais serão escolhidos para serem vértices protótipos, ou seja, os vértices que definem a região de borda. Depois de ponderadas as arestas e definidos os protótipos, o método propõe que cada protótipo conquiste as amostras oferecendo o menor caminho até ele, de modo que quando uma amostra é conquistada ela receba o rótulo do protótipo que a conquistou, ocorrendo a classificação. Para avaliar o método serão utilizados métodos estatísticos para estimar as taxas de acertos, como K-fold, Hold-out e Leave-one-out Cross- Validation. Os resultados obtidos indicam que o método pode ser um uma alternativa viável as técnicas de classificação existentes. Reconhecimento de padrões Teoria dos grafos Campos aleatórios Informação de fisher Validação cruzada Classificação de padrões Pattern classification Graph theory Markov random field Fisher information and cross-validation
10	Modelos de agrupamento e classificação para os bairros da cidade do Rio de Janeiro sob a ótica da Inteligência Computacional: Lógica Fuzzy, Máquinas de Vetores Suporte e Algoritmos Genéticos / Clustering and classification models for the neighborhoods of the city of Rio de Janeiro from the perspective of Computational Intelligence: Fuzzy Logic, Support Vector Machine and Genetic Algorithms Natalie Henriques Martins 19 June 2015 (has links) Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A partir de 2011, ocorreram e ainda ocorrerão eventos de grande repercussão para a cidade do Rio de Janeiro, como a conferência Rio+20 das Nações Unidas e eventos esportivos de grande importância mundial (Copa do Mundo de Futebol, Olimpíadas e Paraolimpíadas). Estes acontecimentos possibilitam a atração de recursos financeiros para a cidade, assim como a geração de empregos, melhorias de infraestrutura e valorização imobiliária, tanto territorial quanto predial. Ao optar por um imóvel residencial em determinado bairro, não se avalia apenas o imóvel, mas também as facilidades urbanas disponíveis na localidade. Neste contexto, foi possível definir uma interpretação qualitativa linguística inerente aos bairros da cidade do Rio de Janeiro, integrando-se três técnicas de Inteligência Computacional para a avaliação de benefícios: Lógica Fuzzy, Máquina de Vetores Suporte e Algoritmos Genéticos. A base de dados foi construída com informações da web e institutos governamentais, evidenciando o custo de imóveis residenciais, benefícios e fragilidades dos bairros da cidade. Implementou-se inicialmente a Lógica Fuzzy como um modelo não supervisionado de agrupamento através das Regras Elipsoidais pelo Princípio de Extensão com o uso da Distância de Mahalanobis, configurando-se de forma inferencial os grupos de designação linguística (Bom, Regular e Ruim) de acordo com doze características urbanas. A partir desta discriminação, foi tangível o uso da Máquina de Vetores Suporte integrado aos Algoritmos Genéticos como um método supervisionado, com o fim de buscar/selecionar o menor subconjunto das variáveis presentes no agrupamento que melhor classifique os bairros (Princípio da Parcimônia). A análise das taxas de erro possibilitou a escolha do melhor modelo de classificação com redução do espaço de variáveis, resultando em um subconjunto que contém informações sobre: IDH, quantidade de linhas de ônibus, instituições de ensino, valor m médio, espaços ao ar livre, locais de entretenimento e crimes. A modelagem que combinou as três técnicas de Inteligência Computacional hierarquizou os bairros do Rio de Janeiro com taxas de erros aceitáveis, colaborando na tomada de decisão para a compra e venda de imóveis residenciais. Quando se trata de transporte público na cidade em questão, foi possível perceber que a malha rodoviária ainda é a prioritária Reconhecimento de Padrões Inteligência Computacional Validação Cruzada k-fold Máquina de Vetores Suporte Algoritmos Genéticos Pattern Recognition Computational Intelligence k-fold Cross-Validation Fuzzy Logic by the Extension Principle Support Vector Machine Genetic Algorithms MATEMATICA DA COMPUTACAO

Search results