Spelling suggestions: "subject:"seleção"" "subject:"deleção""
361 |
A padronização de ensaios utilizando a Leishmania amazonensis expressando a Green Fluorescent Protein / Standardization of Leishmania amazonensis expressing the Green Fluorescent Protein assaysCosta, Solange dos Santos, 1983- 17 August 2018 (has links)
Orientador: Selma Giorgio / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Biologia / Made available in DSpace on 2018-08-17T13:17:36Z (GMT). No. of bitstreams: 1
Costa_SolangedosSantos_M.pdf: 4660323 bytes, checksum: 5aef15cb049a82091dd076c48c1f6f2b (MD5)
Previous issue date: 2010 / Mestrado / Parasitologia / Mestre em Parasitologia
|
362 |
Seleção de características apoiada por mineração visual de dados / Feature selection supported by visual data miningGlenda Michele Botelho 17 February 2011 (has links)
Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a eficiência e a eficácia das atividades que utilizarão o conjunto de dados. Existem diversos métodos tradicionais de seleção que se baseiam em análises estatísticas dos dados ou em redes neurais artificiais. Este trabalho propõe a inclusão de técnicas de mineração visual de dados, particularmente, projeção de dados multidimensionais, para apoiar o processo de seleção. Projeção de dados busca mapear dados de um espaço m-dimensional em um espaço p-dimensional, p < m e geralmente igual a 2 ou 3, preservando ao máximo as relações de distância existentes entre os dados. Tradicionalmente, cada imagem é representada por um ponto e pontos projetados próximos uns aos outros indicam agrupamentos de imagens que compartilham as mesmas propriedades. No entanto, este trabalho propõe a projeção de características. Dessa forma, ao selecionarmos apenas algumas amostras de cada agrupamento da projeção, teremos um subconjunto de características, configurando um processo de seleção. A qualidade dos subconjuntos de características selecionados é avaliada comparando-se as projeções obtidas para estes subconjuntos com a projeção obtida com conjunto original de dados. Isto é feito quantitativamente, por meio da medida de silhueta, e qualitativamente, pela observação visual da projeção. Além da seleção apoiada por projeção, este trabalho propõe um aprimoramento no seletor de características baseado no cálculo de saliências de uma rede neural Multilayer Perceptron. Esta alteração, que visa selecionar características mais discriminantes e reduzir a quantidade de cálculos para se obter as saliências, utiliza informações provenientes dos agrupamentos de características, de forma a alterar a topologia da rede neural em que se baseia o seletor. Os resultados mostraram que a seleção de características baseada em projeção obtém subconjuntos capazes de gerar novas projeções com qualidade visual satisfatória. Em relação ao seletor por saliência proposto, este também gera subconjuntos responsáveis por altas taxas de classificação de imagens e por novas projeções com bons valores de silhueta / Due to the ever growing amount of digital images and, consequently, the quantity and complexity of your features, there has been a need to select the most relevant features so that not only problems caused by high dimensional data sets, correlated features can be minimized, and also the efficiency of the tasks that may employ such features can be enhanced. Many feature selection methods are based on statistical analysis or neural network approaches. This work proposes the addition of visual data mining techniques, particularly multidimensional data projection approaches, to aid the feature selection process. Multidimensional data projection seeks to map a m-dimensional data space onto a p-dimensional space, so that p < m, usually 2 or 3, while preserving distance relationship among data instances. Traditionally, each image is represented by a point, and points projected close to each other indicate clusters of images which share a common properties. However, this work proposes the projection of features. Hence, if we select only a few samples of each cluster of features from the projection, we will end up with a subset of features, revealing a feature selection process. The quality of the feature subset may be assessed by comparing such projections with those obtained with the original data set. This can be achieved either quantitatively, by means of silhouette measures, or qualitatively, by means of visual inspection of the projection. As well as the projection based feature selection, this work proposes an enhancement in the Multilayer Perceptron salience based feature selector. This enhancement, whose aim is to perfect the selection of more discriminant features at the expenses of less computing power, employs information from feature clusters, so as to change the topology of the neural network on which the selector is based. Results have shown that projection-based feature selection produces subsets capable of generating new data projections of satisfactory visual quality. As for the proposed salience-based selector, new subsets with high image classification rates and good silhouette measures have been reported
|
363 |
Objetivos E Critérios De Seleção Para Dois Sistemas De Criação De Caprinos Leiteiros No Brasil / Objectives And Selection Criteria For Two Dairy Goat Systems In BrazilLOPES, Fernando Brito 05 August 2011 (has links)
Made available in DSpace on 2014-07-29T15:13:42Z (GMT). No. of bitstreams: 1
Tese Fernando Brito Lopes.pdf: 2440791 bytes, checksum: e2b0f0d68c27ff72334b6e2591e57e68 (MD5)
Previous issue date: 2011-08-05 / The objectives and selection criteria used for dairy goats in Brazil are determined empirically. Brazil has climate, soil and environmental diversity, as well as distinct socioeconomic and political realities, producing distinctions among the political administrative regions of the country. The aim of this study was to obtain spatial distribution of physical, climatic and socioeconomic aspects that best discriminate the Brazilian dairy goats production, identifying the characteristics of higher socio-economic relevance for intensive or semi-intensive rearing of dairy goats, derive economic weights for selection objectives and propose selection indices whose criteria are easy to be collected by breeders of dairy goats in Brazil. The spatial analysis was performed using local climatic variables, physical and socioeconomic. The selection objectives were defined by their relative economic importance to farming systems. The economic value of each characteristic was calculated as the difference between the average profit before and after the upgrade, after increasing by 1% each feature, keeping the average remaining unchanged. It was proposed eight selection indices. The traits included in each indice were: I and V indices, milk production (MP) and lactation length (LL); II and VI indices, MP, LL, and age at first calving (AFC); III and VII indices, MP , LL, AFC and calving interval (CI) and IV and VIII indices, MP, LL, AFC, CI, somatic cell count (SCC) and total solids (TS). To test the selection indices were simulated dairy goats herds using selection intensities of 10%, 25% and 50%. For each herd, were simulated MP, LL, AFC, CI, SCC and TS. To compare the means was used the Tukey test (p<0.01). Multivariate analysis revealed distinctions between the Brazilian Regions. Climatic factors were most important for discrimination between the regions of Brazil. Thus, animal breeding programs should be implemented according to the specificities of each region. The average profit of the semi-intensive system was higher than the intensive system, R $ 0.18 and $ 0.14, respectively. Productive and reproductive traits were improved by selecting animals for PL, DL, IPP and IDP simultaneously. Having differentiated payment for milk of better quality, for the levels of EST and SCC, we suggest the use of indices with these selection criteria. The choice and use of these indices depend on the definition of the objectives of selection and ease of measurement of selection criteria to be used. / Os objetivos e critérios de seleção utilizados para caprinos leiteiros no Brasil são determinados empiricamente. Há diversidade edafoclimática e realidades socioeconômicas e políticas distintas no Brasil. Isto contribui para diferenciar as regiões político administrativas do país. Assim, Objetivou-se espacializar os fatores físicos, climáticos e socioeconômicos que melhor discriminam a produção de caprinos leiteiros no Brasil; identificar as características de maior relevância sócio-econômica para sistemas intensivo e semi-intensivo de criação de caprinos leiteiros, derivar ponderadores econômicos para os objetivos de seleção e propor índices de seleção cujos critérios sejam fáceis de serem coletados por criadores de caprinos leiteiros no Brasil. As análises de espacialização municipal foram realizadas utilizando variáveis climáticas, físicas e socioeconômicas. Os objetivos de seleção foram definidos por meio de sua importância econômica relativa aos sistemas de criação. O valor econômico de cada característica foi calculado pela diferença entre o lucro médio antes e depois do melhoramento, após aumentar cada característica em 1%, mantendo a média das demais inalterada. Foram propostos oito índices de seleção. As características incluídas em cada índice foram: índices I e V, produção de leite (PL) e duração da lactação (DL); índices II e VI, PL, DL e idade ao primeito parto (IPP); índices III e VII, PL, DL, IPP e intervalo de partos (IDP); e, índices IV e VIII, PL, DL, IPP, IDP, contagem de células somáticas (CCS) e extrato seco total (EST). Para testar os índices de seleção propostos, foram simulados rebanhos de caprinos leiteiros, utilizando intensidades de seleção de 10%, 25% e 50%. Em cada rebanho, foram simuladas PL, DL, IPP, IDP, CCS e EST. Para comparação das médias utilizou-se o teste de Tukey (p<0,01). As análises multivariadas evidenciaram distinções entre as regiões político administrativas do Brasil. Os fatores climáticos foram os mais importantes na discriminação entre as regiões brasileiras. Assim, programas de melhoramento genético animal devem ser implementados de acordo com as especificidades de cada região. O lucro médio do sistema semi-intensivo foi maior que o sistema intensivo, R$ 0,18 e R$ 0,14, respectivamente. Características produtivas e reprodutivas foram melhoradas ao selecionar os animais para PL, DL, IPP e IDP, simultaneamente. Havendo pagamento diferenciado por leite de melhor qualidade, em relação aos teores de EST e CCS sugere-se a utilização dos índices com estes critérios de seleção. A escolha e utilização destes índices dependerão da definição dos objetivos de seleção e da facilidade de mensuração dos critérios de seleção a serem utilizados.
|
364 |
Subsídios para seleção de materiais poliméricos termoplásticos. / Termoplastic material selection aids.José Alex Piccolo Sant\'Anna 17 August 2007 (has links)
A constante evolução dos Materiais Poliméricos e seus compostos, a procura por um melhor desempenho e redução de peso em peças técnicas, têm levado a busca de soluções inovadoras em materiais termoplásticos para peças tradicionalmente produzidas em materiais metálicos. Nestes casos, a fase inicial de um projeto deve ser realizada com muito cuidado e é onde as metodologias de Seleção de Materiais e Processos de Fabricação (SMPF) mais podem contribuir para o sucesso de um produto. Existem muitas ferramentas para seleção de materiais, algumas delas até mesmo voltadas especificamente aos polímeros, mas nota-se que uma metodologia adequada - e talvez específica - ainda seja necessária. O objetivo deste trabalho foi analisar os métodos utilizados na academia e na indústria para a seleção de materiais termoplásticos, bem como os bancos de dados e programas de computador disponíveis, na busca de subsídios para auxiliar profissionais de projeto de produtos, sejam eles engenheiros ou não. Assim, tratou-se inicialmente de aspectos de Engenharia de Materiais e de SMPF e especificamente de Materiais Poliméricos termoplásticos, na busca de oferecer uma base comum por meio de definições e premissas utilizadas. Como é de interesse entender a inserção da filosofia de SMPF na indústria de transformação de materiais termoplásticos, investigou-se os processos de SMPF na academia e na indústria. A partir desta investigação, é apresentada uma discussão entre as semelhanças e uma possível intersecção entre estas duas realidades, analisando-se os sistemas existentes de maneira a apontar caminhos para estas duas áreas e culminando com uma proposta de modificações nas metodologias atuais para adequá-las as necessidades dos projetistas que trabalham com materiais poliméricos. / The constant evolution of polymers and its compounds, the search for better performance and weight reduction in parts have been leading to innovative solutions in thermoplastic replacing metals in parts traditionally made of the later. In such cases, the initial stages of a project needs a special care and are where the Material and Process Selection (MPS) tools can really shine. If the designer chooses wisely and take advantage of the design freedom made possible by the use of plastics, a part can not only be made more economically but also with a better performance. Many tools are available in the marketplace, some even designed to deal specifically with polymers, but it is becoming clear that a more adequate and specific polymer selection methodology is needed. The objective of this work is to analyze the methodologies used in the academy and in the industry in the area of thermoplastic materials selection, together with the databases and software available, in search for subsidies to help product designers in their work. In this way, this work deals initially with materials engineering, materials and process selection (MPS) and thermoplastic materials basic knowledge, in a way to offer a basis for discussion. As it tries to understand the MPS in the industry, these processes are investigated in the academy first, leading to a discussion on the similarities and possible intersection between both worlds, an analysis of the existing tools, and finally pointing towards modifications on the actual methodologies to bring the theory of MPS to the real world of designers.
|
365 |
Estimativas de parâmetros genéticos e fenotípicos em uma população de cana-de-açúcar e estratégias de seleção / Estimates of genetic and phenotypic parameters in a population of sugarcane and strategies of selectionPedro Augusto Medeiros Barbosa 19 February 2016 (has links)
A seleção fenotípica é o método de seleção tradicional utilizado nos estágios iniciais de seleção na maioria dos programas de melhoramento genético de cana-de-açúcar após o desenvolvimento de uma população segregante. A maioria das variedades comerciais utilizadas atualmente deriva deste método. Recentemente tem sido propostas estratégias de seleção baseada na avaliação de famílias em gerações precoces em diversos programas de melhoramento de cana-de-açúcar ao redor do mundo, como o objetivo de melhora a resposta à seleção, bem como reduzir o tempo e custo necessários para o desenvolvimento de novas variedades. No presente estudo foram avaliadas 110 famílias de cana-de-açúcar em um delineamento em blocos ao acaso com duas repetições, no ano agrícola de 2012/2013, na Estação Experimentas da empresa CanaVialis, localizada em Conchal, SP. As parcelas consistiram de um sulco de 50 m, contendo 96 plantas (\"seedlings\"). Os seguintes caracteres foram avaliados no estágio de cana planta: diâmetro do colmo (DIA), altura do colmo (ALT) número de colmos por touceira (NCP), número de colmos por touceira na parcela total (NCT); teor de sólidos solúveis (BRIX), teor de açúcar no laboratório (POL) toneladas de cana por hectare (TCH) e toneladas de açúcar por hectare (TPH). Os resultados indicaram que a população tem grande variabilidade genética entre médias de famílias bem como dentro de famílias. Foram detectadas correlações genotípicas positivas entre TCH e os outros caracteres, bem como entre TPH e os outros caracteres. Com base nestes resultados discute-se uma estratégia de seleção com base na seleção para TPH aplicada nas médias de famílias, seguido da seleção fenotípica para ALT, DIA e NCP dentro das famílias selecionadas, priorizando NCP. / Phenotypic selection is the traditional method used in most of sugarcane breeding programs in early stages after the development of a segregante population. Most of commercial varieties grown currently were developed using this method. Recently, strategies of selection based on family evaluations at early stages have been proposed in sugarcane breeding programs of different research centers around the world, in order to improve the response to selection and to reduce the time and costs necessary to develop new varieties. In the present study 110 sugarcane families and two checks were evaluated using a randomized complete block design with two replications in the 2012/2013 growing season at CanaVialis Experimental Station located in Conchal, state of São Paulo. Plots consisted of a single row with 50 m long, containing 96 plants (seedlings). The following traits were evaluated at plant cane stage: stalk length (ALT), stalk diameter (DIA), stalk number per plant (NCP), soluble solids content (BRIX), average stalk number per plant in the plot (NCT), sugar content (POL), cane yield (TCH) and sugar yield (TPH). The results have shown that the population has enough genetic variability among family means as well as within families. Positive genotypic correlations were detected between TCH and the other traits as well as between TPH and the other traits. Based on these results, a scheme of selection was discussed based on the selection for TPH among family means followed by a phenotypic selection for ALT, DIA and NCP within the selected families, prioritizing NCP.
|
366 |
Instrumento auxiliar à seleção de portfólio de projetos em Institutos Públicos. / Auxiliary instrument of portfolio project selection in Public Institutes.Léo Teobaldo Kroth 04 December 2013 (has links)
Métodos tradicionais de seleção de portfólio de projetos tendem a privilegiar dimensões e aspectos mais relacionados ao lucro e/ou crescimento. Além dessas dimensões e aspectos, Institutos Públicos podem se orientar por aspectos de dimensões que, a exemplo da social, são menos passíveis de avaliação objetiva. Isso justifica a conveniência de instrumentos auxiliares aos processos de seleção de projetos organizados a partir de prioridades não coincidentes com aquelas que comumente orientam empresas privadas. A proposição desta tese foi sistematizar um instrumento auxiliar aos métodos de seleção de projetos de P&D em Institutos Públicos. Trata-se da sistematização de relações em algoritmo que possibilita e valoriza as manifestações de entendimentos orientados primordialmente por diferentes dimensões que fundamentam a missão institucional. O instrumento auxiliar proposto se revelou efetivo em atender as diversas dimensões que orientam um Instituto Público, e compatível com a dinâmica operacional de modelos tradicionais de seleção de projetos e de gestão de portfólio de projetos. Essa efetividade e a compatibilidade operacional foram verificadas com base em uma simulação de seleção realizada a partir de projetos já componentes do portfólio de um Instituto Público. O ranqueamento dos projetos resultou diferente daquele produzido em procedimento comumente utilizado pelo instituto. Conclui-se que, ainda que somente auxiliar aos modelos tradicionais de seleção de projetos, o instrumento proposto pode concorrer para processos de seleção que melhor considerem as múltiplas dimensões e diferentes perspectivas presentes na gestão de Institutos Públicos. / Traditional project portfolio selection methods tend to confer greater privilege to profit and/or outgrowth than to other dimensions and aspects; however, public institutes have some different dimensions, such as social development, that go beyond the economic and financial aspects to ground the institutional mission. This context is appropriate for complementary selection methods or based on different priorities from private companies methods. This thesis proposes to systematize an auxiliary instrument for R&D projects selection processes, aiming to better meet Public Institutes needs. The systematization of relations, calculated by an algorithm, enables and valorizes the manifested understanding driven by different dimensions that underlie the institutional mission. The proposed auxiliary instrument proved to be effective to better meet the diverse dimensions that drive a Public Institute, and to be fully compatible with the operational dynamics of traditional models for project selection and project portfolio management. Such effectiveness and operational compatibility were checked using a project selection simulation of projects from a Public Institute portfolio. The ranking of the portfolio resulted differently from the procedure commonly used by the Institute. In summary, although the instrument proposed is only complementary to traditional methods of project selection, it can contribute to project selection processes that better consider different perspectives and multiple dimensions that characterize Public Institutes management.
|
367 |
Estimação de valores econômicos para características componentes de índices de seleção em bovinos de corte. / Estimation of economic values for component traits of selection indexes in beef cattle.Ivan Borba Formigoni 07 February 2002 (has links)
O objetivo do presente estudo foi estimar valores econômicos para características componentes de índices de seleção em bovinos de corte na fase de cria. Os dados produtivos analisados foram simulados e representativos de sistemas de produção que fazem uso dos programas de melhoramento genético animal. Os valores de custos e receitas aplicados foram coletados de empresas ligadas ao setor econômico da pecuária de corte nacional. As características assumidas como critérios de seleção, para as quais estimaram-se valores econômicos, foram: probabilidade de prenhez aos 14 meses (PP14), habilidade de permanência (HP) e peso a desmama (PD). Para a estimação de valores econômicos, foi aplicada a metodologia de Modelo Bioeconômico, a qual estima o lucro adicional a partir da alteração no desempenho produtivo da característica de influência genética, enquanto mantendo constante todas as demais variáveis analisadas. O valor econômico da PP14 foi de R$0,71 por percentual de prenhez, avaliado por novilha e de R$1,16 por kg bezerro(a) desmamado, para a característica de PD. Os valores econômicos da HP, avaliados por vaca, foram de R$1,37, R$1,87, R$2,37 e R$2,87, considerando-se o custo de compra da novilha a R$450,00, R$500,00, R$550,00 e R$600,00, respectivamente. Os resultados econômicos obtidos foram padronizados para o valor genético-econômico, medida resultante do produto entre o desvio padrão genético aditivo da característica e o respectivo valor econômico. A HP, apesar de, em valores absolutos, ser a característica de maior importância econômica para o sistema produtivo analisado, apresenta o valor genético-econômico inferior em relação às características de PP14 e PD, as quais têm maior herdabilidade e variabilidade genética. O valor genético-econômico da soma das características PP14 e HP foi maior do que PD, sugerindo serem as características de fertilidade as mais economicamente importantes para o sistema produtivo simulado, específico ao comércio de bezerros desmamados para o mercado. / The objective of the present study was to estimate economic values for component of selection indexes in beef cattle herds during suckling phase. Analyzed productive data was simulated and representative of production systems assisted by breeding program. Values of costs and incomes were collected from companies related to the economical study of national cattle raising. Selection criteria, for which economic values was estimated, were: heifer pregnancy at 14 months (PP14), stayability (HP) and weight weaning (PD).) The methodology of Bioeconomic Model was applied to estimation of economic values (VE). This methodology estimates the impact in the profit from the alteration in performance for each trait of genetic influence, keeping constant all the others variables analyzed. The VE for PP14 was R$0.71 for percentage of heifer pregnant, evaluated for heifer, and R$1.16 for kg of calves weaned analyzed for PD. The VE of the HP, analyzed for cow, were R$1.37, R$1.87, R$2.37 and R$2.87 considering the heifer cost purchase of R$450.00, R$500.00, R$550.00 and R$600.00, respectively. The VE were standardized for the genetic-economic value, result of multiplication of additive genetic standard deviation of the trait by respective VE. Although HP, in absolute values, was the trait of larger economic importance to the analyzed productive system, it presents inferior genetic-economic value compared PP14 and PD. This inversion is due to greater heritability and genetic variability of PP14 and PD. The genetic-economic value of the PP14 and HP together, was more important than WW, showing that the traits of fertility are the most economically important for this simulated productive system, specific to the commerce of calves weaned for the market.
|
368 |
Stochastic density ratio estimation and its application to feature selection / Estimação estocástica da razão de densidades e sua aplicação em seleção de atributosBraga, Ígor Assis 23 October 2014 (has links)
The estimation of the ratio of two probability densities is an important statistical tool in supervised machine learning. In this work, we introduce new methods of density ratio estimation based on the solution of a multidimensional integral equation involving cumulative distribution functions. The resulting methods use the novel V -matrix, a concept that does not appear in previous density ratio estimation methods. Experiments demonstrate the good potential of this new approach against previous methods. Mutual Information - MI - estimation is a key component in feature selection and essentially depends on density ratio estimation. Using one of the methods of density ratio estimation proposed in this work, we derive a new estimator - VMI - and compare it experimentally to previously proposed MI estimators. Experiments conducted solely on mutual information estimation show that VMI compares favorably to previous estimators. Experiments applying MI estimation to feature selection in classification tasks evidence that better MI estimation leads to better feature selection performance. Parameter selection greatly impacts the classification accuracy of the kernel-based Support Vector Machines - SVM. However, this step is often overlooked in experimental comparisons, for it is time consuming and requires familiarity with the inner workings of SVM. In this work, we propose procedures for SVM parameter selection which are economic in their running time. In addition, we propose the use of a non-linear kernel function - the min kernel - that can be applied to both low- and high-dimensional cases without adding another parameter to the selection process. The combination of the proposed parameter selection procedures and the min kernel yields a convenient way of economically extracting good classification performance from SVM. The Regularized Least Squares - RLS - regression method is another kernel method that depends on proper selection of its parameters. When training data is scarce, traditional parameter selection often leads to poor regression estimation. In order to mitigate this issue, we explore a kernel that is less susceptible to overfitting - the additive INK-splines kernel. Then, we consider alternative parameter selection methods to cross-validation that have been shown to perform well for other regression methods. Experiments conducted on real-world datasets show that the additive INK-splines kernel outperforms both the RBF and the previously proposed multiplicative INK-splines kernel. They also show that the alternative parameter selection procedures fail to consistently improve performance. Still, we find that the Finite Prediction Error method with the additive INK-splines kernel performs comparably to cross-validation. / A estimação da razão entre duas densidades de probabilidade é uma importante ferramenta no aprendizado de máquina supervisionado. Neste trabalho, novos métodos de estimação da razão de densidades são propostos baseados na solução de uma equação integral multidimensional. Os métodos resultantes usam o conceito de matriz-V , o qual não aparece em métodos anteriores de estimação da razão de densidades. Experimentos demonstram o bom potencial da nova abordagem com relação a métodos anteriores. A estimação da Informação Mútua - IM - é um componente importante em seleção de atributos e depende essencialmente da estimação da razão de densidades. Usando o método de estimação da razão de densidades proposto neste trabalho, um novo estimador - VMI - é proposto e comparado experimentalmente a estimadores de IM anteriores. Experimentos conduzidos na estimação de IM mostram que VMI atinge melhor desempenho na estimação do que métodos anteriores. Experimentos que aplicam estimação de IM em seleção de atributos para classificação evidenciam que uma melhor estimação de IM leva as melhorias na seleção de atributos. A tarefa de seleção de parâmetros impacta fortemente o classificador baseado em kernel Support Vector Machines - SVM. Contudo, esse passo é frequentemente deixado de lado em avaliações experimentais, pois costuma consumir tempo computacional e requerer familiaridade com as engrenagens de SVM. Neste trabalho, procedimentos de seleção de parâmetros para SVM são propostos de tal forma a serem econômicos em gasto de tempo computacional. Além disso, o uso de um kernel não linear - o chamado kernel min - é proposto de tal forma que possa ser aplicado a casos de baixa e alta dimensionalidade e sem adicionar um outro parâmetro a ser selecionado. A combinação dos procedimentos de seleção de parâmetros propostos com o kernel min produz uma maneira conveniente de se extrair economicamente um classificador SVM com boa performance. O método de regressão Regularized Least Squares - RLS - é um outro método baseado em kernel que depende de uma seleção de parâmetros adequada. Quando dados de treinamento são escassos, uma seleção de parâmetros tradicional em RLS frequentemente leva a uma estimação ruim da função de regressão. Para aliviar esse problema, é explorado neste trabalho um kernel menos suscetível a superajuste - o kernel INK-splines aditivo. Após, são explorados métodos de seleção de parâmetros alternativos à validação cruzada e que obtiveram bom desempenho em outros métodos de regressão. Experimentos conduzidos em conjuntos de dados reais mostram que o kernel INK-splines aditivo tem desempenho superior ao kernel RBF e ao kernel INK-splines multiplicativo previamente proposto. Os experimentos também mostram que os procedimentos alternativos de seleção de parâmetros considerados não melhoram consistentemente o desempenho. Ainda assim, o método Finite Prediction Error com o kernel INK-splines aditivo possui desempenho comparável à validação cruzada.
|
369 |
Estratégias de seleção combinando informação individual e de família utilizando simulação de dados / Selection s strategies combining individual and family information using simulated dataSantos, Lidiane Gomes dos 10 August 2007 (has links)
Made available in DSpace on 2015-03-26T13:55:32Z (GMT). No. of bitstreams: 1
texto completo.pdf: 484099 bytes, checksum: 2183b6947a541e4acdedb364504ccd85 (MD5)
Previous issue date: 2007-08-10 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / The superior phenotypes selection, in individual or families, is a practice of considerable importance for the improvers , once to obtain improved populations it is necessary to select and matings among or inside of families. This work s aim was to compare the efficiency of some arrangements between the individual selection and the selection among families to get combined selection indexes and soon afterwards to verify a cluster analysis was capable to detect different groups. Through the program GENESYS, it was simulated four genomes, each one considering only one characteristic, varying to each other just in value of heritability; then, we have two characteristics of low heritability (0,20 and 0,10), one of medium heritability (0,40) and one with high heritability (0,60). Using those genomes, bases populations of 1000 individuals (500 males and 500 females) with a rate endogamic equivalent to zero were simulated. In each base population, it was aleatory selected 10 males and 100 females corresponding, respectively, to 2% and 20% of selection intensity. When these individuals selected couple, it was maintained a control of 10 females for each male and, as a result, it was kept an initial population with 1000 descending, also maintaining a balance of 10 descending for female. For each characteristic selections, different arrangements were done to obtain combined selection s indexes. Thus, the first obtained index considers 100% for individual phenotype (Individual); the second considers 90% for individual phenotype and 10% for average phenotypic of the family (09P+01F); the third considers 70% for individual phenotype and 30% for average phenotypic of the family (07P+03F); the fourth considers 50% for the two values (05P+05F); the fifth considers 30% for individual phenotype and 70% for average phenotypic of the family (03P+07F); the sixth considers 10% for individual phenotype and 90% for average phenotypic of the family (01P+09F) and the seventh index considers 100% for the average phenotypic of the family (Family). The selected individuals' matings were driven at random. A final population of 1000 individuals was totaled. Each selection s strategy was led by 20 consecutive generations with 10 repetitions seeking to minimize the mistakes and effects of the genetic flotation. For a larger clarity in the interpretation of the results, a grouping analysis was accomplished by optimization by the method of Tocher in three intervals of time, with the first five generations, with the first ten generations and with the 20 total generations. The behavior of the selection s strategies for different herdability s values was not the same. As smaller the value of the heritability is, the difference among the averages phenotypics in each generation is bigger and the total earnings in these averages are smaller. The combination of the individual value with the family s average was more efficient for the lowest heritabilities. For these heritabilities, the individual selection or among families did not show to be a good option. The selection just through the individual s phenotypic value can be a good alternative for the characteristic of average herdabilidade and it was the best to the characteristic of high heritabilities. / A seleção de fenótipos superiores, sejam individuais ou famílias, é uma prática de considerável importância para o melhorista , uma vez que a obtenção de populações melhoradas passa pela seleção e acasalamentos entre ou dentro de famílias. O objetivo deste trabalho foi comparar a eficiência de alguns arranjos entre a seleção individual e a seleção entre famílias na obtenção de índices de seleção combinada e em seguida verificar se uma análise de agrupamento foi capaz de detectar grupos distintos. Por meio do programa GENESYS foram simulados quatro genomas, cada um considerando uma única característica, variando entre si apenas no valor da herdabilidade; assim, tem-se duas características de herdabilidade baixa (0,20 e 0,10), uma de herdabilidade média (0,40) e uma com alta herdabilidade (0,60). A partir desses genomas foram simuladas populações bases de 1000 indivíduos (500 machos e 500 fêmeas) com uma taxa endogâmica igual a zero. Em cada população base foram selecionados aleatoriamente 10 machos e 100 fêmeas correspondendo, respectivamente, a uma intensidade de seleção de 2% e 20%. Por meio do acasalamento desses indivíduos selecionados, mantendo o equilíbrio de 10 fêmeas para cada macho, obteve-se uma população inicial com 1000 descendentes, também mantendo um equilíbrio de 10 descendentes por fêmea. Para cada característica foram realizadas seleções com diferentes arranjos para obtenção de índices de seleção combinada. Assim, tem-se o primeiro índice que pondera 100% para o fenótipo individual (Individual); o segundo que considera 90% para fenótipo individual e 10% para média fenotípica da família (09P+01F); o terceiro com 70% para fenótipo individual e 30% para média fenotípica da família (07P+03F); o quarto com 50% para os dois valores (05P+05F); o quinto com 30% para fenótipo individual e 70% para média fenotípica da família (03P+07F); o sexto com 10% para fenótipo individual e 90% para média fenotípica da família (01P+09F) e o sétimo índice que considera 100% para a média fenotípica da família (Família). Os acasalamentos dos indivíduos selecionados foram conduzidos ao acaso. Totalizou-se uma população final de 1000 indivíduos. Cada estratégia de seleção foi conduzida por 20 gerações consecutivas com 10 repetições visando minimizar os erros e efeitos da flutuação genética. Para maior clareza na interpretação dos dados foi realizada análise de agrupamento por otimização pelo método de Tocher em três intervalos de tempo, com as cinco primeiras gerações, com as dez primeiras gerações e com as 20 gerações totais. O comportamento das estratégias de seleção para os diferentes valores de herdabilidade não foram iguais. Quanto menor foi o valor da herdabilidade, maior foi a diferença entre as médias fenotípicas em cada geração e menor foi o ganho total nestas médias. A combinação do valor individual com a média de família foi mais eficiente para as herdabilidades baixas. Para estas herdabilidades, a seleção individual e a entre famílias não se mostraram boa opção. A seleção apenas pelo valor fenotípico individual pode ser boa alternativa para a característica de média herdabilidade e foi a melhor opção para a característica de alta herdabilidade.
|
370 |
Stochastic density ratio estimation and its application to feature selection / Estimação estocástica da razão de densidades e sua aplicação em seleção de atributosÍgor Assis Braga 23 October 2014 (has links)
The estimation of the ratio of two probability densities is an important statistical tool in supervised machine learning. In this work, we introduce new methods of density ratio estimation based on the solution of a multidimensional integral equation involving cumulative distribution functions. The resulting methods use the novel V -matrix, a concept that does not appear in previous density ratio estimation methods. Experiments demonstrate the good potential of this new approach against previous methods. Mutual Information - MI - estimation is a key component in feature selection and essentially depends on density ratio estimation. Using one of the methods of density ratio estimation proposed in this work, we derive a new estimator - VMI - and compare it experimentally to previously proposed MI estimators. Experiments conducted solely on mutual information estimation show that VMI compares favorably to previous estimators. Experiments applying MI estimation to feature selection in classification tasks evidence that better MI estimation leads to better feature selection performance. Parameter selection greatly impacts the classification accuracy of the kernel-based Support Vector Machines - SVM. However, this step is often overlooked in experimental comparisons, for it is time consuming and requires familiarity with the inner workings of SVM. In this work, we propose procedures for SVM parameter selection which are economic in their running time. In addition, we propose the use of a non-linear kernel function - the min kernel - that can be applied to both low- and high-dimensional cases without adding another parameter to the selection process. The combination of the proposed parameter selection procedures and the min kernel yields a convenient way of economically extracting good classification performance from SVM. The Regularized Least Squares - RLS - regression method is another kernel method that depends on proper selection of its parameters. When training data is scarce, traditional parameter selection often leads to poor regression estimation. In order to mitigate this issue, we explore a kernel that is less susceptible to overfitting - the additive INK-splines kernel. Then, we consider alternative parameter selection methods to cross-validation that have been shown to perform well for other regression methods. Experiments conducted on real-world datasets show that the additive INK-splines kernel outperforms both the RBF and the previously proposed multiplicative INK-splines kernel. They also show that the alternative parameter selection procedures fail to consistently improve performance. Still, we find that the Finite Prediction Error method with the additive INK-splines kernel performs comparably to cross-validation. / A estimação da razão entre duas densidades de probabilidade é uma importante ferramenta no aprendizado de máquina supervisionado. Neste trabalho, novos métodos de estimação da razão de densidades são propostos baseados na solução de uma equação integral multidimensional. Os métodos resultantes usam o conceito de matriz-V , o qual não aparece em métodos anteriores de estimação da razão de densidades. Experimentos demonstram o bom potencial da nova abordagem com relação a métodos anteriores. A estimação da Informação Mútua - IM - é um componente importante em seleção de atributos e depende essencialmente da estimação da razão de densidades. Usando o método de estimação da razão de densidades proposto neste trabalho, um novo estimador - VMI - é proposto e comparado experimentalmente a estimadores de IM anteriores. Experimentos conduzidos na estimação de IM mostram que VMI atinge melhor desempenho na estimação do que métodos anteriores. Experimentos que aplicam estimação de IM em seleção de atributos para classificação evidenciam que uma melhor estimação de IM leva as melhorias na seleção de atributos. A tarefa de seleção de parâmetros impacta fortemente o classificador baseado em kernel Support Vector Machines - SVM. Contudo, esse passo é frequentemente deixado de lado em avaliações experimentais, pois costuma consumir tempo computacional e requerer familiaridade com as engrenagens de SVM. Neste trabalho, procedimentos de seleção de parâmetros para SVM são propostos de tal forma a serem econômicos em gasto de tempo computacional. Além disso, o uso de um kernel não linear - o chamado kernel min - é proposto de tal forma que possa ser aplicado a casos de baixa e alta dimensionalidade e sem adicionar um outro parâmetro a ser selecionado. A combinação dos procedimentos de seleção de parâmetros propostos com o kernel min produz uma maneira conveniente de se extrair economicamente um classificador SVM com boa performance. O método de regressão Regularized Least Squares - RLS - é um outro método baseado em kernel que depende de uma seleção de parâmetros adequada. Quando dados de treinamento são escassos, uma seleção de parâmetros tradicional em RLS frequentemente leva a uma estimação ruim da função de regressão. Para aliviar esse problema, é explorado neste trabalho um kernel menos suscetível a superajuste - o kernel INK-splines aditivo. Após, são explorados métodos de seleção de parâmetros alternativos à validação cruzada e que obtiveram bom desempenho em outros métodos de regressão. Experimentos conduzidos em conjuntos de dados reais mostram que o kernel INK-splines aditivo tem desempenho superior ao kernel RBF e ao kernel INK-splines multiplicativo previamente proposto. Os experimentos também mostram que os procedimentos alternativos de seleção de parâmetros considerados não melhoram consistentemente o desempenho. Ainda assim, o método Finite Prediction Error com o kernel INK-splines aditivo possui desempenho comparável à validação cruzada.
|
Page generated in 0.0279 seconds