Spelling suggestions: "subject:"análise multivariada"" "subject:"análise ultivariada""
421 |
Uso de análise multivariada para determinar a associação do desempenho reprodutivo de machos suinos com as caracteristicas seminais / Use of multivariate analyses to determine the association of boar fertility with semen traitsKummer, Aline Beatriz Heinen Prates January 2012 (has links)
A aplicação de novos sistemas para medir as características de deslocamento espermático e sua associação com a fertilidade vem apresentando um crescimento recente. Computer-assisted semen analysis (CASA) permite uma avaliação padronizada das características da motilidade espermática e é plausível que a combinação destes parâmetros com as características morfológicas seminais possam estimar a fertilidade do ejaculado. O desempenho reprodutivo (taxa de parto - TP e número de leitões nascidos totais - NT) de 14 reprodutores suínos foi obtido a partir de um experimento conduzido em uma granja comercial com fêmeas multíparas utilizando inseminação homospérmica com deposição intra-cervical e dois bilhões de espermatozoides móveis por dose inseminante. Durante 10 semanas, as fêmeas (n=948) foram inseminadas e igualmente distribuídas entre os machos testados de acordo com a ordem de parto, média do histórico de leitões nascidos, escore de condição corporal, intervalo desmame-estro (IDE), duração da lactação e número de leitões desmamados. Características da motilidade espermática, avaliadas pelo sistema CASA in natura e durante armazenamento a 17°C por 240h, e os defeitos morfológicos avaliados no sêmen in natura, foram incluídas na análise para determinar quais parâmetros espermáticos foram importantes para discriminar o potencial reprodutivo dos ejaculados desses machos. Os dados foram submetidos à análise multivariada que incluiu procedimentos estatísticos tais como: análises de cluster, canônica e discriminante. Dentre os 14 machos avaliados, 4 clusters foram formados com base nos resultados reprodutivos. Um macho, com menor resultado de TP e NT (89,7% e 11,98) e dois machos, com os maiores valores de TP e NT (97,8% e 14,16) foram alocados em diferentes grupos. Os demais machos foram separados em outros dois grupos distintos (4 e 7 machos), incluindo machos com valores semelhantes de NT (12,64 e 13,22) mas divergentes na TP (95,9% vs. 91,8%). A análise canônica permitiu separar os grupos, sendo a melhor separação observada entre o grupo menos fértil e os demais. As características seminais que demonstraram melhor capacidade de discriminação dos grupos incluíram motilidade espermática total, motilidade progressiva, amplitude do deslocamento lateral da cabeça espermática, além das características morfológicas tal como a presença de gota citoplasmática. A análise multivariada discriminante permitiu classificar corretamente mais de 80% dos 140 ejaculados avaliados em seus respectivos grupos. A análise multivariada pode ser uma eficiente ferramenta estatística na discriminação do potencial reprodutivo de cachaços. / The application of new approaches that measure certain sperm motion characteristics and their association with boar fertility has shown a recent increase. Computer-assisted semen analysis (CASA) offers standardized assessment of multiple sperm motion parameters and it is plausible that the combination of these parameters with morphological sperm defects may indicate the fertility potential of boars. The fertility outcome (farrowing rate - FR and number of total piglets born - TB) of 14 boars was obtained from a field trial conducted in a commercial farm using multiparous sows through single sire mating with two billion motile sperm cells per AI dose. Sows (n=948) bred were equally distributed among boars according to parity, mean lifetime number of piglets born, body condition score, weaning-to-estrus interval, lactation length and number of weaned piglets during 10 weeks of breeding period. Sperm motion parameters evaluated with CASA system in natura and in semen stored at 17°C for 240h in addition to morphological sperm defects, measured at the collection day, were included in the analysis to determine which semen traits were important to discriminate the fertility potential of ejaculates from these boars. The data underwent multivariate statistical analysis, including cluster, canonical and discriminant analyses. Among the 14 evaluated boars four clusters were formed based on fertility outcome. One boar, with the lowest FR and TB values (89.7% and 11.98), and two boars, with the highest FR and TB values (97.8% and 14.16), were placed in different clusters. The others boars were separated in two new distinct clusters (4 and 7 boars), including boars with intermediate TB (12.64 and 13.22) but divergent values of FR (95.9% vs. 91.8%). Canonical analysis was able to separate the individual ejaculates into the previously clustered boars and a better separation was shown between the lowest fertility group and the others. Semen traits which had higher discriminatory power included total motility, progressive motility, amplitude of lateral head displacement, analyzed during semen storage, and sperm morphological defects such as cytoplasmatic droplets. The multivariate discriminant analysis showed that more than 80% of the 140 ejaculates were correctly classified into their own group. The multivariate analysis can be an efficient statistical tool to improve the discrimination of potential fertility of boars.
|
422 |
Avaliação da bacia hidrográfica do Rio Paraguaçu utilizando análise multivariadaSouza, Giancarlos da Silva January 2010 (has links)
Submitted by Ana Hilda Fonseca (anahilda@ufba.br) on 2013-04-09T13:35:48Z
No. of bitstreams: 1
dissertação.15.12[1].pdf: 2814994 bytes, checksum: 036ac54999fb7e9e04a62a51d84ccaed (MD5) / Approved for entry into archive by Ana Hilda Fonseca(anahilda@ufba.br) on 2013-04-19T12:41:43Z (GMT) No. of bitstreams: 1
dissertação.15.12[1].pdf: 2814994 bytes, checksum: 036ac54999fb7e9e04a62a51d84ccaed (MD5) / Made available in DSpace on 2013-04-19T12:41:43Z (GMT). No. of bitstreams: 1
dissertação.15.12[1].pdf: 2814994 bytes, checksum: 036ac54999fb7e9e04a62a51d84ccaed (MD5)
Previous issue date: 2010 / CAPES / Fontes de poluição podem comprometer os diversos fins de um manancial, principalmente o fim mais nobre, o consumo humano. Este trabalho tem como objetivo, avaliar e interpretar os
fatores físicos, químicos e biológicos que interferem nas características de um corpo hídrico,nesse caso específico da Bacia Hidrográfica do Rio Paraguaçu, na Bahia. Para realizar este trabalho foi aplicada análise exploratória multivariada, Análise de Componentes Principais - PCA e Análise de Agrupamento Hierárquica - HCA, nos dados disponibilizados pelo Instituto de Gestão das Águas e Clima - INGÁ, correspondendo às amostras coletadas em 55 pontos e analisadas quanto aos parâmetros fisico-quimicos: temperatura, pH, turbidez, sólidos totais,
oxigênio dissolvido (OD), sulfato, carbono orgânico total (COT), demanda bioquímica de
oxigênio (DBO), Demanda Química de Oxigênio (DQO), nitrato, amônia, nitrogênio total,
fósforo total, surfactantes, ferro, manganês, bário, níquel e zinco; e microbiológico:
coliformes termotolerantes. Utilizando-se a PCA e a HCA como ferramentas estatisticas para avaliar os dados obtidos dos parâmetros físico-químicos e microbiológico, determinou-se os pontos de amostragem que apresentaram um comportamento atípico (outleirs), através do agrupamento dos pontos em função dos escores, além das variáveis que justificaram esse comportamento por meio dos pesos. A PCA promoveu uma redução de 20 dimensões
(variáveis) para 3 componentes principais de acordo com os valores da variância de cada,
tornando o sistema mais simples de ser analisado. Com a HCA, constatou-se agrupamentos de alguns pontos de amostragem, ratificando alguns agrupamentos obtidos com a PCA. Sendo assim, neste trabalho, a análise multivariada de dados facilitou bastante a determinação dos pontos de amostragem atípicos (outleirs), assim como as variáveis que justificaram esse comportamento. Com isso, pôde-se ter um conhecimento mais apurado das condições ambientais da Bacia Hidrográfica do Rio Paraguaçu, podendo favorecer a tomada de medidas corretivas e preventivas para que se tenha água em quantidade e qualidade satisfatórias para consumo humano. / Salvador
|
423 |
Caracterização morfológica, desempenho produtivo e divergência genética de genótipos de batata-doce. / Morphological characterization, yield performance and genetic divergence of genotypes of sweet potato.Cavalcante, Marcelo 20 February 2008 (has links)
Aiming to characterize morphologically the genotypes of sweet potato, to
estimate the genetic divergence and to evaluate the yield performance in the
edaphoclimatics conditions in the municipality of Junqueiro, Alagoas, Brazil, an
experiment was developed, consisting of two varieties and nine clones, in the
randomized blocks design with three replications. For morphological characterization,
were used 21 descriptors, being fourteen of the shoot and seven of the storage roots. To
evaluate the genetic divergence, were used two methodologies: principal components
and the generalized Mahalanobis distance, being the genotypes grouped by Tocher
method. For the evaluation of the yield performance of the genotypes, were conducted
variance analysis, with the averages confronted by Scott-Knott test (P < 0.05). The
results indicate there phenotypic variability between the traits of shoot and storage root
of the genotypes of sweet potato evaluated. In the estimation of the genetic divergence
from principal components analysis, the general form of the mature leaf, the immature
leaf color and secondary color of the stem were the traits that most contributed to the
divergence of the shoot, explaining 77.08% of the variability existing in the first three
principal components. In storage roots, the format, the defect of the surface and the
intensity of the predominant color, were the traits that most contributed to the
divergence, achieving explain 86.79% of the variability existing in the first three
principal components. The acquisition of six groups among the eleven genotypes
studied, showed a significant divergence between the genotypes of sweet potato based
on the morphological descriptors. When used the generalized Mahalanobis distance
methodology, the clone 6 and the variety Sergipana, by their distances of high
magnitude, were the most dissimilar (D2 = 244.3). The traits that contributed mostly to
the genetic dissimilarity were the marketable root yield (30.79%), the shoot phytomass
yield (16.56%) and the internode length (12.84%). The taking of five groups among the
eleven genotypes studied showed a significant genetic divergence between the
genotypes of sweet potato. The clones 6 and 11 showed the highest marketable roots
yield, with 12.08 and 9.08 t ha-1, respectively. The clones 8, 14 and the variety Rainha Prata had the highest shoot phytomass yield, with 5.42, 5.17 and 5.83 t ha-1. These
results suggest new prospects for the cultivation of sweet potato in the region of
Junqueiro, Alagoas. It was concluded that there is genetic and phenotypic variation
among genotypes of sweet potato, explained by morphological characterization and the
two techniques to estimate the genetic divergence. According to the results presented in
this paper, the Breeding Program of CECA - UFAL may to adopt three measures: the
first is the assessment of clones 6 and 11, most yields, in field testing in the
municipality of Junqueiro, aiming stability tests, to launch them as varieties. The second
will be realization of artificial crosses aiming based in the genetic distances and the per
se yields of parents (clones 6 and 8). And the third measure will be the formation of a
population with large genetic basis, thereby increasing the probability of obtaining
superior genotypes in the segregating generations. / Com o objetivo de caracterizar morfologicamente os genótipos de batata-doce,
estimar a divergência genética e avaliar o desempenho produtivo nas condições
edafoclimáticas do município de Junqueiro, Estado de Alagoas, foi desenvolvido um
experimento, composto por duas variedades e nove clones, no delineamento em blocos
casualizados com três repetições. Para a caracterização morfológica, foram utilizados 21
descritores, sendo quatorze da parte aérea e sete das raízes. Para estimar a divergência
genética, foram utilizadas duas metodologias: componentes principais e distância
generalizada de Mahalanobis, sendo os genótipos agrupados pelo método de Tocher.
Para a avaliação do desempenho produtivo dos genótipos, foram realizadas análises de
variância, sendo as médias confrontadas pelo teste Scott-Knott (P < 0,05). Os resultados
indicam haver variabilidade fenotípica entre os caracteres da parte aérea e os da raiz dos
genótipos de batata-doce avaliados. Na estimativa da divergência genética a partir da
metodologia dos componentes principais, a forma geral da folha madura, a cor da folha
imatura e a cor secundária da haste foram às características que mais contribuíram para
a divergência da parte aérea, explicando 77,08% da variabilidade existente nos três
primeiros componentes principais. Nas raízes, o formato, o defeito da superfície e a
intensidade da cor predominante, foram os caracteres que mais contribuíram para a
divergência, conseguindo explicar 86,79% da variabilidade existente nos três primeiros
componentes principais. A obtenção de seis grupos entre os onze genótipos analisados
evidenciam uma significativa divergência entre os genótipos de batata-doce com base
nos descritores morfológicos. Quando utilizado a metodologia da distância generalizada
de Mahalanobis, o clone 6 e a variedade Sergipana, por suas distâncias de alta
magnitude, foram as mais dissimilares (D2 = 244,3). As variáveis que mais contribuíram
para a dissimilaridade genética foram a produtividade de raízes comerciais (30,79%), a
produtividade de fitomassa da parte aérea (16,56%) e o comprimento do entrenó
(12,84%). A obtenção de cinco grupos entre os onze genótipos analisados evidenciam
uma significativa divergência genética entre os genótipos de batata-doce. Os clones 6 e 11 apresentaram as maiores produtividades de raízes comerciais, com 12,08 e 9,08 t ha-
1, respectivamente. Os clones 8, 14 e a variedade local Rainha Prata apresentaram as
maiores produtividades de fitomassa da parte aérea, com 5,42; 5,17 e 5,83 t ha-1. Estes
resultados apontam novas perspectivas para o cultivo de batata-doce na região de
Junqueiro, Estado de Alagoas. Diante do exposto, pode-se concluir que existe
variabilidade fenotípica e genética entre os genótipos de batata-doce, explicado pela
caracterização morfológica e pelas duas técnicas para estimar a divergência genética. De
acordo com os resultados apresentados nesta pesquisa, o Programa de Melhoramento do
CECA UFAL poderá adotar três medidas: a primeira será a avaliação dos clones 6 e
11, mais produtivos, em ensaios de campo no município de Junqueiro, Estado de
Alagoas, visando testes de estabilidade, para lançá-los como variedades. A segunda será
a realização de cruzamentos direcionados com base nas distâncias genéticas e nos
rendimentos per se dos genitores (clones 6 e 8). E a terceira medida será a formação de
uma população de ampla base genética, aumentando assim, a probabilidade de obtenção
de genótipos superiores nas gerações segregantes.
|
424 |
Avaliação e otimização de silagens de Manihot pseudoglaziovii Pax & Hoffman Euphorbiaceae com ou sem emurchecimento conservadas sob diferentes período de armazenamento / evaluation and optimization of silages of Manihot pseudoglaziovii Pax & Hoffman Euphorbiaceae with or without saved emurchecimento under different storage periodSilva, Luciano Ferreira Lopes da 20 March 2007 (has links)
The objective of this work to evaluate unique silages maniçoba leaves, according to their respective levels of desirability, obtained from químicobromatológicas and microbiological analyses. The variables analyzed were: dry matter, crude protein, neutral detergent fiber, acid detergent fibre, lignin, gray, soluble carbohydrates, pH, tamponante, epiphytic microflora capacity and aerobic stability. It was used a completely randomized design, considering how fixed the parameters emurchecimento (0 and 6 hours) and storage (15, 45 and 90 days), which totaled six treatments quadrupled, analyzed as the procedure for generalized linear models and optimized numerically as the current literature. In all the variables, emurchecimento and or the shelf showed significant differences. Obtained silage aerobic stability ranging from 48 to 240 hours. Silages of emurchecidas branches were those of better quality showing optimum values of 87.77 and 82.33 store days, respectively; well as desirability index equal to 1.00. / Fundação de Amparo a Pesquisa do Estado de Alagoas / Objetivou-se com este trabalho avaliar silagens exclusivas de folhas de maniçoba, de acordo com seus respectivos índices de desejabilidade, obtidos a partir de análises químicobromatológicas e microbiológicas. As variáveis analisadas foram: matéria seca, proteína bruta, fibra em detergente neutro, fibra em detergente ácido, lignina, cinza, carboidratos solúveis, pH, capacidade tamponante, microflora epífita e estabilidade aeróbica. Utilizou-se um delineamento inteiramente casualizado, considerando-se como parâmetros fixos o emurchecimento (0 e 6 horas) e o armazenamento (15, 45 e 90 dias), o que totalizou seis tratamentos quadruplicados, analisados conforme o procedimento para modelos lineares generalizados e otimizados numericamente conforme a literatura atual. Em todas as variáveis, o emurchecimento e ou o tempo de conservação apresentaram diferenças significativas. Obteve-se silagens com estabilidade aeróbica variando de 48 a 240 horas. As silagens de ramas emurchecidas foram as de melhor qualidade apresentando valores ótimos de armazenamento de 87,77 e 82,33 dias, respectivamente; bem como índices de desejabilidade iguais a 1,00.
|
425 |
Modelos de previsão de volatilidade: uma aplicação do modelo GARCH a taxas de câmbioMiguel Neto, Fernando Antonio 04 August 2014 (has links)
Submitted by Fernando Miguel Neto (fsarto@gmail.com) on 2014-09-01T01:32:47Z
No. of bitstreams: 1
DISSERTACAO-FERNANDO A. M. NETO.pdf: 1624618 bytes, checksum: e9aa12e644fe552abeff9856afcc489f (MD5) / Approved for entry into archive by JOANA MARTORINI (joana.martorini@fgv.br) on 2014-09-01T12:28:08Z (GMT) No. of bitstreams: 1
DISSERTACAO-FERNANDO A. M. NETO.pdf: 1624618 bytes, checksum: e9aa12e644fe552abeff9856afcc489f (MD5) / Made available in DSpace on 2014-09-01T12:42:06Z (GMT). No. of bitstreams: 1
DISSERTACAO-FERNANDO A. M. NETO.pdf: 1624618 bytes, checksum: e9aa12e644fe552abeff9856afcc489f (MD5)
Previous issue date: 2014-08-04 / In order to show an application of GARCH models to exchange rates, we used statistical techniques such as principal component analysis and multivariate time series analysis to model mean and variance (volatility). The use of principal component analysis helps to reduce the dataset size and lead to fit fewer models, without losing original set information. The use of GARCH models is justified by the presence of heteroskedasticity on the exchange rates returns variance. Based on the fitted models new daily series were simulated, using Monte Carlo method (MC), and used to create confidence interval estimates for exchange rates future scenarios. For the proposed application were chosen exchange rates with bigger market share according to the BIS study, released every three years. / Com o objetivo de mostrar uma aplicação dos modelos da família GARCH a taxas de câmbio, foram utilizadas técnicas estatísticas englobando análise multivariada de componentes principais e análise de séries temporais com modelagem de média e variância (volatilidade), primeiro e segundo momentos respectivamente. A utilização de análise de componentes principais auxilia na redução da dimensão dos dados levando a estimação de um menor número de modelos, sem contudo perder informação do conjunto original desses dados. Já o uso dos modelos GARCH justifica-se pela presença de heterocedasticidade na variância dos retornos das séries de taxas de câmbio. Com base nos modelos estimados foram simuladas novas séries diárias, via método de Monte Carlo (MC), as quais serviram de base para a estimativa de intervalos de confiança para cenários futuros de taxas de câmbio. Para a aplicação proposta foram selecionadas taxas de câmbio com maior market share de acordo com estudo do BIS, divulgado a cada três anos.
|
426 |
Diversidade em Capsicum chinense: análise química, morfológica e molecular / Diversity in Capsicum chinense: chemical, morphologic and molecular analysisLannes, Sérgio Dias 08 September 2005 (has links)
Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2017-06-05T17:54:52Z
No. of bitstreams: 1
texto completo.pdf: 1102782 bytes, checksum: d5cebd4b1752bf958d0a60bb4034c1e3 (MD5) / Made available in DSpace on 2017-06-05T17:54:52Z (GMT). No. of bitstreams: 1
texto completo.pdf: 1102782 bytes, checksum: d5cebd4b1752bf958d0a60bb4034c1e3 (MD5)
Previous issue date: 2005-09-08 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / A espécie Capsicum chinense Jacq. apresenta considerável importância na agricultura brasileira por empregar mão-de-obra familiar em pequenas propriedades. Seus frutos são muito utilizados como condimento, além de apresentarem propriedades farmacêuticas, como anestésicos e antiinflamatórios. O sucesso dos programas de melhoramento de plantas depende da variabilidade genética disponível, requisito básico que possibilita seleção de genótipos com características comerciais de interesse. O Banco de Germoplasma de Hortaliças da Universidade Federal de Viçosa possui cerca de cem acessos de C. chinense com grande potencial de utilização em programas de melhoramento. Entretanto, a falta de informações sobre as características agronômicas desses acessos impossibilita sua utilização em tais programas. Os objetivos deste trabalho foram caracterizar e estimar a diversidade genética em acessos de Capsicum chinense do Banco de Germoplasma de Hortaliças da Universidade Federal de Viçosa por meio da análise das características morfo-agronômicas e de DNA, utilizando marcadores moleculares RAPD. Foram avaliados quarenta e nove acessos de C. chinense quanto a características ligadas à qualidade dos frutos, características morfológicas da planta e padrão molecular. A diversidade genética foi mensurada através dos métodos de agrupamento de otimização de Tocher, bem como pelo método hierárquico UPGMA. Foi verificada a existência de variabilidade entre os acessos, cuja magnitude variou conforme a característica analisada. A concentração de capsaicina total foi responsável por 88,32% da variação total dos caracteres avaliados conforme o método de Sing, sendo, portanto, a característica que mais contribui para a discriminação da diversidade genética entre os acessos. Tendo como base a distância generalizada de Mahalanobis, os dados quantitativos formaram dez grupos, sendo os acessos BGH 1694-05 e BGH 1723-22 os menos divergentes. Os agrupamentos baseado nos dados de característica morfológica de planta formaram nove grupos, sendo os acessos BGH6371-93 e BGH 6371-94 os mais similares. O índice de dissimilaridade de Nei & Li agrupou os dados moleculares em 8 grupos, sendo os acessos BGH1714-09 e BGH 6387-100 os mais divergentes. Quando analisados os dados em conjunto, os acessos BGH 8344-86 e BGH6371-94 foram os que apresentaram maior divergência entre si. Os acessos foram mais bem discriminados pelos caracteres relacionados à qualidade dos frutos. Portanto, os acessos BGH 4733-56 e BGH 6771-93 foram os que possuíam melhores características para consumo seco e in natura, respectivamente. / The species Capsicum chinense Jacp. Presents large importance in Brazilian agriculture, because uses the family working labor in small farms. The fruits are used as condiments, for pharmaceutical purposes as anesthetic and anti-inflammatory. The success of a breeding program depends on genetic variability, which allows the selection of genotypes with commercial characteristics. The germoplasm bank of vegetable (BGH) from the Universidade Federal de Viçosa has close to 100 accesses of C. chinense with potential for utilization in breeding programs. However, the lack of information about the agronomic characteristics of the accesses diminishes the effectiveness of any breeding program. The goal of this was to characterize and evaluate the genetic diversity in the accesses of the BGH using agronomic traits and DNA analysis with RAPD markers. It was studied 49 accesses evaluating the fruit quality, morphological characteristics of the plants and molecular pattern. The genetic diversity was measured by the Tocher optimizing group and by UPGMA inheritance method. It was observed the existence of variability among the accesses, and magnitude varied with the analyzed characteristic. The concentration of capsaicin was responsible for 88.32% of the total variability among the characters evaluated by the Sing method, being the trait that most contributed for the genetic discrimination among the accesses. The Mahalanobis distance method established ten groups for the accesses, being the accesses BGH 1694-05 and BGH 1723-22 the less divergent. The grouping based in morphological characteristics established nine groups, being the accesses BGH 6371-93 and BGH 6371-94 the most similar. The index of dissimilarity by Ney & Li grouped the molecular data in eight groups, being the accesses BGH 1714-09 and BGH 6387-100 the most ixdivergent. When analyzed together, the accesses BGH 8344-86 and BGH 6371-94 were the most divergent between them. The accesses were more discriminated based on the fruits characteristics. Thus, the accesses BGH 4733-56 and BGH 6771-93 had the best characteristics for dry product and in natura consumption, respectively,
|
427 |
Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos / Multivariate approaches to variable selection in order to characterize medicinesYamashita, Gabrielli Harumi January 2015 (has links)
A averiguação da autenticidade de medicamentos tem se apoiado na análise de perfil por espectroscopia de infravermelho (ATR-FTIR). Contudo, tal análise tipicamente gera dados caracterizados por elevado número de variáveis (comprimentos de onda) ruidosas e correlacionadas, necessitando assim da aplicação de técnicas para seleção das variáveis mais relevantes e informativas, tornando os modelos preditivos e exploratórios mais robustos. Esta dissertação testa sistemáticas para a seleção de variáveis com vistas à clusterização e classificação de medicamentos. Para tanto, inicialmente faz-se uso dos parâmetros oriundos da Análise de Componentes Principais (ACP) para a geração de três índices de importância de variáveis; tais índices guiam um processo iterativo de eliminação de variáveis com vistas a uma clusterização mais consistente, medida através do Silhouette Index. Na sequência, utiliza-se o Algoritmo Genético (AG) combinado com a ferramenta de classificação k nearest neighbor (kNN) para selecionar o subconjunto de variáveis que resultem na maior acurácia média com propósito de classificação das amostras em dois grupos, originais ou falsificados. Por fim, aplica-se a divisão dos dados ATR-FTIR em intervalos para selecionar as regiões espectroscópicas mais relevantes para a classificação das amostras via kNN; na sequência, aplica-se o AG para refinar os intervalos retidos anteriormente. A aplicação dos métodos de seleção de variáveis propostos permitiu realizar clusterizações e classificações mais precisas com base em um subconjunto reduzido de variáveis. / The investigation of the authenticity of drugs has relied on the profile analysis by infrared spectroscopy (ATR-FTIR). However, such analysis typically yields a large number of correlated and noisy variables (wavelengths), which require the application of techniques for selecting the most informative and relevant variables to improve model ability. This thesis test an approach to variable selection aimed at clustering and classifying drug samples. For that matter, it derives three variable importance indices based on Principal Component Analysis (PCA) components that guide an iterative process of variable elimination; clustering performance based on the reduced sets is assessed via Silhouette Index. Next, we combine the Genetic Algorithm (GA) with the k nearest neighbor classification technique (kNN) to select the subset of variables yielding the highest average accuracy for classifying samples into authentic or counterfeit categories. Finally, we split the ATR-FTIR data into intervals to select the most relevant spectroscopic regions for sample classification via kNN; we then apply GA to refine the ranges previously retained. The implementation of the proposed variable selection methods led to more accurate clustering and classification procedures based on a small subset of variables.
|
428 |
Sistemática para seleção de variáveis e determinação da condição ótima de operação em processos contínuos multivariados em múltiplos estágiosLoreto, Éverton Miguel da Silva January 2014 (has links)
Esta tese apresenta uma sistemática para seleção de variáveis de processo e determinação da condição ótima de operação em processos contínuos multivariados e em múltiplos estágios. O método proposto é composto por seis etapas. Um pré-tratamento nos dados é realizado após a identificação das variáveis de processo e do estabelecimento dos estágios de produção, onde são descartadas observações com valores espúrios e dados remanescentes são padronizados. Em seguida, cada estágio é modelado através de uma regressão Partial Least Squares (PLS) que associa a variável dependente daquele estágio às variáveis independentes de todos os estágios anteriores. A posterior seleção de variáveis independentes apoia-se nos coeficientes da regressão PLS; a cada interação, a variável com menor coeficiente de regressão é removida e um novo modelo PLS é gerado. O erro de predição é então avaliado e uma nova eliminação é promovida até que o número de variáveis remanescentes seja igual ao número de variáveis latentes (condição limite para geração de novos modelos PLS). O conjunto com menor erro determina as variáveis de processo mais relevantes para cada modelo. O conjunto de modelos PLS constituído pelas variáveis selecionadas é então integrado a uma programação quadrática para definição das condições de operação que minimizem o desvio entre os valores preditos e nominais das variáveis de resposta. A sistemática proposta foi validada através de dois exemplos numéricos. O primeiro utilizou dados de uma empresa do setor avícola, enquanto que o segundo apoiou-se em dados simulados. / This dissertation proposes a novel approach for process variable selection and determination of the optimal operating condition in multiple stages, multivariate continuous processes. The proposed framework relies on six steps. First, a pre-treatment of the data is carried out followed by the definition of production stages and removal of outliers. Next, each stage is modeled by a Partial Least Squares regression (PLS) which associates the dependent variable of each stage to all independent variables from previous stages. Independent variables are then iteratively selected based on PLS regression coefficients as follows: the variable with the lowest regression coefficient is removed and a new PLS model is generated. The prediction error is then evaluated and a new elimination is promoted until the number of remaining variables is equal to the number of latent variables (boundary condition for the generation of new PLS models). The subset of independent variables yielding the lowest predictive in each PLS model error is chosen. The set of PLS models consisting of the selected variables is then integrated to a quadratic programming aimed at defining the optimal operating conditions that minimize the deviation between the predicted and nominal values of response variables. The proposed approach was validated through two numerical examples. The first was applied to data from a poultry company, while the second used simulated data.
|
429 |
Seleção de variáveis no desenvolvimento, classificação e predição de produtos / Selection of variables for the development, classification, and prediction of productsRossini, Karina January 2011 (has links)
O presente trabalho apresenta proposições para seleção de variáveis em avaliações sensoriais descritivas e de espectro infravermelho que contribuam com a indústria de alimentos e química através da utilização de métodos de análise multivariada. Desta forma, os objetivos desta tese são: (i) Estudar as principais técnicas de análise multivariada de dados, como são comumente organizadas e como podem contribuir no processo de seleção de variáveis; (ii) Identificar e estruturar técnicas de análise multivariada de dados de forma a construir um método que reduza o número de variáveis necessárias para fins de caracterização, classificação e predição dos produtos; (iii) Reduzir a lista de variáveis/atributos, selecionando aqueles relevantes e não redundantes, reduzindo o tempo de execução e a fadiga imposta aos membros de um painel em avaliações sensoriais; (iv) Validar o método proposto utilizando dados reais; e (v) Comparar diferentes abordagens de análise sensorial voltadas ao desenvolvimento de novos produtos. Os métodos desenvolvidos foram avaliados através da aplicação de estudos de caso, em exemplos com dados reais. Os métodos sugeridos variam com as características dos dados analisados, dados altamente multicolineares ou não e, com e sem variável dependente (variável de resposta). Os métodos apresentam bom desempenho, conduzindo a uma redução significativa no número de variáveis e apresentando índices de adequação de ajuste dos modelos ou acurácia satisfatórios quando comparados aos obtidos mediante retenção da totalidade das variáveis ou comparados a outros métodos dispostos na literatura. Conclui-se que os métodos propostos são adequados para a seleção de variáveis sensoriais e de espectro infravermelho. / This dissertation presents propositions for variable selection in data from descriptive sensory evaluations and near-infrared (NIR) spectrum analyses, based on multivariate analysis methods. There are five objectives here: (i) review the main multivariate analysis techniques, their relationships and potential use in variable selection procedures; (ii) propose a variable selection method based on the techniques in (i) that allows product prediction, classification, and description; (iii) reduce the list of variables/attributes to be analyzed in sensory panels identifying those relevant and non-redundant, such that the time to collect panel data and the fatigue imposed on panelists is minimized; (iv) validate methodological propositions using real life data; and (v) compare different sensory analysis approaches used in new product development. Proposed methods were evaluated through case studies, and vary according to characteristics in the datasets analyzed (data with different degrees of multicollinearity, presenting or not dependent variables). All methods presented good performance leading to significant reduction in the number of variables in the datasets, and leading to models with better adequacy of fit. We conclude that the methods are suitable for datasets from descriptive sensory evaluations and NIR analyses.
|
430 |
Método de mineração de dados para diagnóstico de câncer de mama baseado na seleção de variáveis / A data mining method for breast cancer diagnosis based on selected featuresHolsbach, Nicole January 2012 (has links)
A presente dissertação propõe métodos para mineração de dados para diagnóstico de câncer de mama (CM) baseado na seleção de variáveis. Partindo-se de uma revisão sistemática, sugere-se um método para a seleção de variáveis para classificação das observações (pacientes) em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. O método de seleção de variáveis para categorização das observações baseia-se em 4 passos operacionais: (i) dividir o banco de dados original em porções de treino e de teste, e aplicar a ACP (Análise de Componentes Principais) na porção de treino; (ii) gerar índices de importância das variáveis baseados nos pesos da ACP e na percentagem da variância explicada pelos componentes retidos; (iii) classificar a porção de treino utilizando as técnicas KVP (k-vizinhos mais próximos) ou AD (Análise Discriminante). Em seguida eliminar a variável com o menor índice de importância, classificar o banco de dados novamente e calcular a acurácia de classificação; continuar tal processo iterativo até restar uma variável; e (iv) selecionar o subgrupo de variáveis responsável pela máxima acurácia de classificação e classificar a porção de teste utilizando tais variáveis. Quando aplicado ao WBCD (Wisconsin Breast Cancer Database), o método proposto apresentou acurácia média de 97,77%, retendo uma média de 5,8 variáveis. Uma variação do método é proposta, utilizando quatro diferentes tipos de kernels polinomiais para remapear o banco de dados original; os passos (i) a (iv) acima descritos são então aplicados aos kernels propostos. Ao aplicar-se a variação do método ao WBCD, obteve-se acurácia média de 98,09%, retendo uma média de 17,24 variáveis de um total de 54 variáveis geradas pelo kernel polinomial recomendado. O método proposto pode auxiliar o médico na elaboração do diagnóstico, selecionando um menor número de variáveis (envolvidas na tomada de decisão) com a maior acurácia, obtendo assim o maior acerto possível. / This dissertation presents a data mining method for breast cancer (BC) diagnosis based on selected features. We first carried out a systematic literature review, and then suggested a method for feature selection and classification of observations, i.e., patients, into benign or malignant classes based on patients’ breast tissue measures. The proposed method relies on four operational steps: (i) split the original dataset into training and testing sets and apply PCA (Principal Component Analysis) on the training set; (ii) generate attribute importance indices based on PCA weights and percent of variance explained by the retained components; (iii) classify the training set using KNN (k-Nearest Neighbor) or DA (Discriminant Analysis) techniques, eliminate irrelevant features and compute the classification accuracy. Next, eliminate the feature with the lowest importance index, classify the dataset, and re-compute the accuracy. Continue such iterative process until one feature is left; and (iv) choose the subset of features yielding the maximum classification accuracy, and classify the testing set based on those features. When applied to the WBCD (Wisconsin Breast Cancer Database), the proposed method led to average 97.77% accurate classifications while retaining average 5.8 features. One variation of the proposed method is presented based on four different types of polynomial kernels aimed at remapping the original database; steps (i) to (iv) are then applied to such kernels. When applied to the WBCD, the proposed modification increased average accuracy to 98.09% while retaining average of 17.24 features from the 54 variables generated by the recommended kernel. The proposed method can assist the physician in making the diagnosis, selecting a smaller number of variables (involved in the decision-making) with greater accuracy, thereby obtaining the highest possible accuracy.
|
Page generated in 0.0701 seconds