301 |
Mandible and Skull Segmentation in Cone Bean Computed Tomography Data / Segmentação da mandíbula e o crânio em tomografia computadorizada de feixe cônicoLinares, Oscar Alonso Cuadros 18 December 2017 (has links)
Cone Beam Computed Tomography (CBCT) is a medical imaging technique routinely employed for diagnosis and treatment of patients with cranio-maxillo-facial defects. CBCT 3D reconstruction and segmentation of bones such as mandible or maxilla are essential procedures in orthodontic treatments. However, CBCT images present characteristics that are not desirable for processing, including low contrast, inhomogeneity, noise, and artifacts. Besides, values assigned to voxels are relative Hounsfield Units (HU), unlike traditional Computed Tomography (CT). Such drawbacks render CBCT segmentation a difficult and time-consuming task, usually performed manually with tools designed for medical image processing. We introduce two interactive two-stage methods for 3D segmentation of CBCT data: i) we first reduce the CBCT image resolution by grouping similar voxels into super-voxels defining a graph representation; ii) next, seeds placed by users guide graph clustering algorithms, splitting the bones into mandible and skull. We have evaluated our segmentation methods intensively by comparing the results against ground truth data of the mandible and the skull, in various scenarios. Results show that our methods produce accurate segmentation and are robust to changes in parameter settings. We also compared our approach with a similar segmentation strategy and we showed that it produces more accurate segmentation of the mandible and skull. In addition, we have evaluated our proposal with CT data of patients with deformed or missing bones. We obtained more accurate segmentation in all cases. As for the efficiency of our implementation, a segmentation of a typical CBCT image of the human head takes about five minutes. Finally, we carried out a usability test with orthodontists. Results have shown that our proposal not only produces accurate segmentation, as it also delivers an effortless and intuitive user interaction. / Tomografia Computadorizada de Feixe Cônico (TCFC) é uma modalidade para obtenção de imagens médicas 3D do crânio usada para diagnóstico e tratamento de pacientes com defeitos crânio-maxilo-faciais. A segmentação tridimensional de ossos como a mandíbula e a maxila são procedimentos essências em tratamentos ortodônticos. No entanto, a TCFC apresenta características não desejáveis para processamento digital como, por exemplo, baixo contraste, inomogeneidade, ruído e artefatos. Além disso, os valores atribuídos aos voxels são unidades de Hounsfield (HU) relativas, diferentemente da Tomografia Computadorizada (TC) tradicional. Esses inconvenientes tornam a segmentação de TCFC uma tarefa difícil e demorada, a qual é normalmente realizada por meio de ferramentas desenvolvidas para processamento digital de imagens médicas. Esta tese introduz dois métodos interativos para a segmentação 3D de TCFC, os quais são divididos em duas etapas: i) redução da resolução da TCFC por meio da agrupamento de voxels em super-voxels, seguida da criação de um grafo no qual os vértices são super-voxels; ii) posicionamento de sementes pelo usuário e segmentação por algoritmos de agrupamento em grafos, o que permite separar os ossos rotulados. Os métodos foram intensamente avaliados por meio da comparação dos resultados com padrão ouro da mandíbula e do crânio, considerando diversos cenários. Os resultados mostraram que os métodos não apenas produzem segmentações precisas, como também são robustos a mudanças nos parâmetros. Foi ainda realizada uma comparação com um trabalho relacionado, gerando melhores resultados tanto na segmentação da mandíbula quanto a do crânio. Além disso, foram avaliadas TCs de pacientes com ossos faltantes e quebrados. A segmentação de uma TCFC é realizada em cerca de 5 minutos. Por fim, foram realizados testes com usuarios ortodontistas. Os resultados mostraram que nossa proposta não apenas produz segmentações precisas, como também é de fácil interação.
|
302 |
IFT-SLIC: geração de superpixels com base em agrupamento iterativo linear simples e transformada imagem-floresta / IFT-SLIC: superpixel generation based on simple linear iterative clustering and image foresting transformAlexandre, Eduardo Barreto 29 June 2017 (has links)
A representação de imagem baseada em superpixels tem se tornado indispensável na melhoria da eficiência em sistemas de Visão Computacional. Reconhecimento de objetos, segmentação, estimativa de profundidade e estimativa de modelo corporal são alguns importantes problemas nos quais superpixels podem ser aplicados. Porém, superpixels podem influenciar a qualidade dos resultados do sistema positiva ou negativamente, dependendo de quão bem eles respeitam as fronteiras dos objetos na imagem. Neste trabalho, é proposto um método iterativo para geração de superpixels, conhecido por IFT-SLIC, baseado em sequências de Transformadas Imagem-Floresta, começando com uma grade regular de sementes. Um procedimento de recomputação de pixels sementes é aplicado a cada iteração, gerando superpixels conexos com melhor aderência às bordas dos objetos presentes na imagem. Os superpixels obtidos via IFT-SLIC correspondem, estruturalmente, a árvores de espalhamento enraizadas nessas sementes, que naturalmente definem superpixels como regiões de pixels fortemente conexas. Comparadas ao Agrupamento Iterativo Linear Simples (SLIC), o IFT-SLIC considera os custos dos caminhos mínimos entre pixels e os centros dos agrupamentos, em vez de suas distâncias diretas. Funções de conexidade não monotonicamente incrementais são exploradas em neste método resultando em melhor desempenho. Estudos experimentais indicam resultados de extração de superpixels superiores pelo método proposto em comparação com o SLIC. Também é analisada a efetividade do IFT-SLIC, em termos de medidas de eficiência e acurácia, em uma aplicação de segmentação do céu em fotos de paisagens. Os resultados mostram que o IFT-SLIC é competitivo com os melhores métodos do estado da arte e superior a muitos outros, motivando seu desenvolvimento para diferentes aplicações. / Image representation based on superpixels has become indispensable for improving efficiency in Computer Vision systems. Object recognition, segmentation, depth estimation, and body model estimation are some important problems where superpixels can be applied. However, superpixels can influence the quality of the system results in a positive or negative manner, depending on how well they respect the object boundaries in the image. In this work, we propose an iterative method for superpixels generation, known as IFT-SLIC, which is based on sequences of Image Foresting Transforms, starting with a regular grid for seed sampling. A seed pixel recomputation procedure is applied per each iteration, generating connected superpixels with a better adherence to objects borders present in the image. The superpixels obtained by IFT-SLIC structurally correspond to spanning trees rooted at those seeds, that naturally define superpixels as regions of strongly connected pixels. Compared to Simple Linear Iterative Clustering (SLIC), IFT-SLIC considers minimum path costs between pixel and cluster centers rather than their direct distances. Non-monotonically increasing connectivity functions are explored in our IFT-SLIC approach leading to improved performance. Experimental results indicate better superpixel extraction by the proposed approach in comparation to that of SLIC. We also analyze the effectiveness of IFT-SLIC, according to efficiency, and accuracy on an application -- namely sky segmentation. The results show that IFT-SLIC can be competitive to the best state-of-the-art methods and superior to many others, which motivates it\'s further development for different applications.
|
303 |
Exploração de sequências de otimização do compilador baseada em técnicas hibridas de mineração de dados complexos / Exploration of optimization sequences of the compiler based on hybrid techniques of complex data miningMartins, Luiz Gustavo Almeida 25 September 2015 (has links)
Devido ao grande número de otimizações fornecidas pelos compiladores modernos e à ampla possibilidade de ordenação dessas transformações, uma eficiente Exploração do Espaço de Projeto (DSE) se faz necessária para procurar a melhor sequência de otimização de uma determinada função ou fragmento de código. Como esta exploração é uma tarefa complexa e dispendiosa, apresentamos uma nova abordagem de DSE capaz de reduzir esse tempo de exploração e selecionar sequências de otimização que melhoraram o desempenho dos códigos transformados. Nossa abordagem utiliza um conjunto de funções de referência, para as quais uma representação simbólica do código (DNA) e a melhor sequência de otimização são conhecidas. O DSE de novas funções é baseado em uma abordagem de agrupamento aplicado sobre o código DNA que identifica similaridades entre funções. O agrupamento utiliza três técnicas para a mineração de dados: distância de compressão normalizada, algoritmo de reconstrução de árvores filogenéticas (Neighbor Joining) e identificação de grupos por ambiguidade. As otimizações das funções de referência identificadas como similares formam o espaço que é explorado para encontrar a melhor sequência para a nova função. O DSE pode utilizar o conjunto reduzido de otimizações de duas formas: como o espaço de projeto ou como a configuração inicial do algoritmo. Em ambos os casos, a adoção de uma pré-seleção baseada no agrupamento permite o uso de algoritmos de busca simples e rápidos. Os resultados experimentais revelam que a nova abordagem resulta numa redução significativa no tempo total de exploração, ao mesmo tempo que alcança um desempenho próximo ao obtido através de uma busca mais extensa e dispendiosa baseada em algoritmos genéticos. / Due to the large number of optimizations provided in modern compilers and to compiler optimization specific opportunities, a Design Space Exploration (DSE) is necessary to search for the best sequence of compiler optimizations for a given code fragment (e.g., function). As this exploration is a complex and time consuming task, we present new DSE strategies to reduce the exploration time and still select optimization sequences able to improve the performance of each function. The DSE is based on a clustering approach which groups functions with similarities and then explore the reduced search space provided by the optimizations previously suggested for the functions in each group. The identification of similarities between functions uses a data mining method which is applied to a symbolic representation of the source code. The DSE strategies uses the reduced optimizations set identified by clustering in two ways: as the design space or as the initial configuration of the algorithm. In both ways, the adoption of a pre-selection based on clustering allows the use of simple and fast DSE algorithms. Several experiments for evaluating the effectiveness of the proposed approach address the exploration of compiler optimization sequences. Besides, we investigate the impact of each technique or component employed in the selection process. Experimental results reveal that the use of our new clustering-based DSE approach achieved a significant reduction on the total exploration time of the search space at the same time that obtained performance speedups close to a traditional genetic algorithmbased approach.
|
304 |
Técnicas de projeção para identificação de grupos e comparação de dados multidimensionais usando diferentes medidas de similaridade / Projection techniques for group identification and multidimensional data comparison by using different similarity measuresJoia Filho, Paulo 14 October 2015 (has links)
Técnicas de projeção desempenham papel importante na análise e exploração de dados multidimensionais, já que permitem visualizar informações muitas vezes ocultas na alta dimensão. Esta tese explora o potencial destas técnicas para resolver problemas relacionados à: 1) identificação de agrupamentos e 2) busca por similaridade em dados multidimensionais. Para identificação de agrupamentos foi desenvolvida uma técnica de projeção local e interativa que, além de projetar dados com ótima preservação de distâncias, permite que o usuário modifique o layout da projeção, agrupando um número reduzido de amostras representativas no espaço visual, de acordo com suas características. Os mapeamentos produzidos tendem a seguir o layout das amostras organizadas pelo usuário, facilitando a organização dos dados e identificação de agrupamentos. Contudo, nem sempre é possível selecionar ou agrupar amostras com base em suas características visuais de forma confiável, principalmente quando os dados não são rotulados. Para estas situações, um novo método para identificação de agrupamentos baseado em projeção foi proposto, o qual opera no espaço visual, garantindo que os grupos obtidos não fiquem fragmentados durante a visualização. Além disso, é orientado por um mecanismo de amostragem determinístico, apto a identificar instâncias que representam bem o conjunto de dados como um todo e capaz de operar mesmo em conjuntos de dados desbalanceados. Para o segundo problema: busca por similaridade em dados multidimensionais, uma família de métricas baseada em classes foi construída para projetar os dados, com o objetivo de minimizar a dissimilaridade entre pares de objetos pertencentes à mesma classe e, ao mesmo tempo, maximizá-la para objetos pertencentes a classes distintas. As métricas classes-específicas são avaliadas no contexto de recuperação de imagens com base em conteúdo. Com o intuito de aumentar a precisão da família de métricas classes-específicas, outra técnica foi desenvolvida, a qual emprega a teoria dos conjuntos fuzzy para estimar um valor de incerteza que é transferido para a métrica, aumentando sua precisão. Os resultados confirmam a efetividade das técnicas desenvolvidas, as quais representam significativa contribuição na tarefa de identificação de grupos e busca por similaridade em dados multidimensionais. / Projection techniques play an important role in multidimensional data analysis and exploration, since they allow to visualize information frequently hidden in high-dimensional spaces. This thesis explores the potential of those techniques to solve problems related to: 1) clustering and 2) similarity search in multidimensional data. For clustering data, a local and interactive projection technique capable of projecting data with effective preservation of distances was developed. This one allows the user to manipulate a reduced number of representative samples in the visual space so as to better organize them. The final mappings tend to follow the layout of the samples organized by the user, therefore, the user can interactively steer the projection. This makes it easy to organize and group large data sets. However, it is not always possible to select or group samples visually, in a reliable manner, mainly when handling unlabeled data. For these cases, a new clustering method based on multidimensional projection was proposed, which operates in the visual space, ensuring that clusters are not fragmented during the visualization. Moreover, it is driven by a deterministic sampling mechanism, able to identify instances that are good representatives for the whole data set. The proposed method is versatile and robust when dealing with unbalanced data sets. For the second problem: similarity search in multidimensional data, we build a family of class-specific metrics to project data. Such metrics were tailored to minimize the dissimilarity measure among objects from the same class and, simultaneously to maximize the dissimilarity among objects in distinct classes. The class-specific metrics are assessed in the context of content-based image retrieval. With the aim of increasing the precision of the class-specific metrics, another technique was developed. This one, uses the fuzzy set theory to estimate a degree of uncertainty, which is embedded in the metric, increasing its precision. The results confirm the effectiveness of the developed techniques, which represent significant contributions for clustering and similarity search in multidimensional data.
|
305 |
Alternativas para seleção de touros da raça Nelore considerando características múltiplas de interesse econômico / Alternatives for election of bulls of the nelore race considering characteristic multiple of economic interestVal, José Eduardo do 25 May 2006 (has links)
Este estudo foi desenvolvido a partir de informações das avaliações genéticas de touros pertencentes a rebanhos participantes do Programa de Melhoramento Genético da Raça Nelore (PMGRN-Nelore Brasil), que desenvolve, desde 1995, um teste de progênie denominado Reprodução Programada (RP), o qual tem como finalidade principal de disponibilizar animais com valores genéticos mais confiáveis no mercado de reprodutores. Assim, as Diferenças Esperadas nas Progênies (DEPs) de 234 touros participantes da RP no período de 1996 a 2003 foram analisadas com os seguintes objetivos: 1- Avaliar o mérito genético dos touros ao longo dos anos, utilizando regressão linear entre a DEP e ano de participação do touro na RP para as características, peso aos 120 e 210 dias, efeitos direto e materno (DDPP120, DDPP210, DMPP120 e DMPP210); peso e perímetro escrotal aos 365 e 450 dias, efeito direto (DDP365, DDP450, DDPE365 e DDPE450) e idade ao primeiro parto (DDIPP); 2- Identificar, por meio de abordagens multivariadas, grupos de animais cujas DEPs apresentem padrões de semelhança, assim como discriminar as variáveis que mais influenciam na divisão dos grupos, numa tentativa de auxiliar a tomada de decisão nos sistemas de produção de bovinos de corte, com vistas a maximizar a produtividade. Os procedimentos multivariados de análises de agrupamento e componentes principais foram aplicados às DEPs de sete características (DMPP120, DMPP210, DDPP365, DDPP450, DDPE365, DDPE450 e DDIPP). As análises foram processadas com o auxílio do software Statistica (STATSOFT, 2004). As tendências genéticas das DEPs relacionadas com as características de fertilidade, DDPE365, DDPE450 e DDIPP, mostraram progressos genéticos de 0,051 e 0,061 cm e -0,026 mês por ano respectivamente, enquanto que DDPP450 foi à característica que obteve maior ganho genético dentre as DEPs de crescimento, 1,467 kg/ano. Com referência às abordagens multivariadas, a análise de agrupamento k-médias foi aplicada e o resultado envolvendo três grupos foi o melhor obtido, dos quais dois se destacaram quanto aos valores médios das DEPs. A importância desses dois grupos de touros foi confirmada pela análise de componentes principais que associou a eles valores superiores de DEPs diretas de peso e perímetro escrotal. A quantidade de variabilidade original retida pelos dois primeiros componentes principais foi de 70,22%. Foram observados progressos genéticos nos touros da Reprodução Programada para todas as características durante o período estudado, indicando que a estratégia de seleção praticada vem sendo efetiva e evidenciando a importância da contribuição dos touros da RP para o melhoramento das características reprodutivas e de crescimento da raça Nelore. Neste estudo pode-se verificar o poder classificatório e discriminatório das análises de agrupamentos e componentes principais, o que muito pode contribuir na classificação de touros, facilitando a seleção de animais em Programas de Melhoramento Genético. / This research was developed with genetic information of sires that belong to herds of the ?Programa de Melhoramento Genético da Raça Nelore? (PMGRN-Nelore Brasil), witch has been carried on, since 1995, a progeny test denominated ?Reprodução Programada? (RP), whose the main aim is to obtain reliable genetic values for sires market. Therefore, the Expected Progeny Difference (EPD) of 243 sires taking part of the RP from 1996 to 2003 were used with the following objectives of: 1- Evaluating the genetic merit over the years applying linear regression between the EPD and the year of the sires RP participation, for the following traits: weight at 120 and 210 days of age, direct and maternal effects (DDPP120, DDPP210, DMPP120 and DMPP210) weight and scrotal circumference at 365 and 450 days of age, direct effect (DDPP365, DDPP450, DDPE365 and DDPE450) and age at first calving (DDIPP); 2- Identifying groups of animals, whose, EPDs show similarity patterns, as well as, verifying which were the variable that showed greater power in discriminating group formations, trying to help the decisions making support in the beef cattle production system by multivariate approaches, in order to maximizing the productivity. The multivariate procedures of clusters analysis and principal components were applied in the EPDs from seven traits (DMPP120, DMPP210, DDPP365, DDPP450, DDPE365, DDPE450 and DDIPP). The analyses were performed by software Statistica (STATSOFT, 2004). The genetic trends of the EPD related to the fertility traits, DDDPE365, DDPE450 e DDIPP, showed some genetic progress of 0.051 and 0.061 cm and ? 0.026 month per year respectively, while, the DDPP450 was the trait that obtained the highest genetic gain in the growth EPDs, 1.467 kg/year. About the multivariate approaches, the k-means clustering analysis was applied and the results of three groups formation were the best option, two of them stood out in relation to values of the EPDs means. The importance of these two groups was confirmed by the analyses of principal components that associate the direct EPDs of weight and scrotal circumference values to them. The quantity of original variability kept in the first main components was 70.22%. It was observed genetic progress in the RP sires for every trait during the studied period, indicating that the selection has been effective and evidencing how important the contribution of the RP sires for the reproductive and growth traits for the Nelore breed improvement is. In this research, the classificatory and discriminatory power of cluster analyses and principal components could be verify, and certainly could contribute in the sire classification, helping the selection in the Animal Breeding Program.
|
306 |
Selecionando candidatos a descritores para agrupamentos hierárquicos de documentos utilizando regras de associação / Selecting candidate labels for hierarchical document clusters using association rulesSantos, Fabiano Fernandes dos 17 September 2010 (has links)
Uma forma de extrair e organizar o conhecimento, que tem recebido muita atenção nos últimos anos, é por meio de uma representação estrutural dividida por tópicos hierarquicamente relacionados. Uma vez construída a estrutura hierárquica, é necessário encontrar descritores para cada um dos grupos obtidos pois a interpretação destes grupos é uma tarefa complexa para o usuário, já que normalmente os algoritmos não apresentam descrições conceituais simples. Os métodos encontrados na literatura consideram cada documento como uma bag-of-words e não exploram explicitamente o relacionamento existente entre os termos dos documento do grupo. No entanto, essas relações podem trazer informações importantes para a decisão dos termos que devem ser escolhidos como descritores dos nós, e poderiam ser representadas por regras de associação. Assim, o objetivo deste trabalho é avaliar a utilização de regras de associação para apoiar a identificação de descritores para agrupamentos hierárquicos. Para isto, foi proposto o método SeCLAR (Selecting Candidate Labels using Association Rules), que explora o uso de regras de associação para a seleção de descritores para agrupamentos hierárquicos de documentos. Este método gera regras de associação baseadas em transações construídas à partir de cada documento da coleção, e utiliza a informação de relacionamento existente entre os grupos do agrupamento hierárquico para selecionar candidatos a descritores. Os resultados da avaliação experimental indicam que é possível obter uma melhora significativa com relação a precisão e a cobertura dos métodos tradicionais / One way to organize knowledge, that has received much attention in recent years, is to create a structural representation divided by hierarchically related topics. Once this structure is built, it is necessary to find labels for each of the obtained clusters, since most algorithms do not produce simple descriptions and the interpretation of these clusters is a difficult task for users. The related works consider each document as a bag-of-words and do not explore explicitly the relationship between the terms of the documents. However, these relationships can provide important information to the decision of the terms that must be chosen as descriptors of the nodes, and could be represented by rass. This works aims to evaluate the use of association rules to support the identification of labels for hierarchical document clusters. Thus, this paper presents the SeCLAR (Selecting Candidate Labels using Association Rules) method, which explores the use of association rules for the selection of good candidates for labels of hierarchical clusters of documents. This method generates association rules based on transactions built from each document in the collection, and uses the information relationship between the nodes of hierarchical clustering to select candidates for labels. The experimental results show that it is possible to obtain a significant improvement with respect to precision and recall of traditional methods
|
307 |
Interação genótipo-ambiente em bovinos de corte compostos / Genotype-environment interaction in composite beef cattleSantana Júnior, Mário Luiz 29 July 2011 (has links)
Objetivou-se com o presente estudo foram caracterizar e definir ambientes homogêneos de produção de bovinos de corte compostos no Brasil com relação às variáveis climáticas e geográficas, utilizando técnicas exploratórias multivariadas. Verificar a presença de interação genótipo-ambiente (GxE) nas características peso ao nascimento (PN), peso a desmama (PD), ganho de peso da desmama ao sobreano (GP), perímetro escrotal (PE) e musculosidade (MUS). Pela análise de agrupamento não-hierárquico foram agrupadas as regiões similares com relação às variáveis ambientais. Foram formados seis grupos de fazendas. A inclusão do efeito de interação touro-grupo foi avaliada em análises uni-característica. Comparou-se um modelo com o efeito de interação touro-grupo com outro sem esse efeito. Incluir o efeito de interação touro-GEO no modelo de avaliação genética do PN, PD e PE não resultou melhor ajuste aos dados, no entanto não deve ser descartada a hipótese de se considerar outros tipos de efeitos de GxE. Foram estimados parâmetros genéticos por meio de análises multi-característica, considerando-se a mesma característica como diferente em cada grupo de fazendas. Foi verificada heterogeneidade de variância para todas as características. Os coeficientes de herdabilidade nos grupos de fazendas para PN, PD, GP, PE e MUS variaram de 0,15 a 0,25; 0,16 a 0,25; 0,10 a 0,20; 0,17 a 0,31 e 0,17 a 0,24, respectivamente. As correlações genéticas variaram de 0,19 a 0,90 para PN, -0,02 a 0,92 para PD, 0,31 a 0,93 para GP, 0,64 a 0,89 para PE e de 0,18 a 0,80 para MUS nos grupos fazendas. As diferentes estimativas de herdabilidade obtidas entre grupos de fazendas implicam resposta à seleção diferenciada conforme o ambiente em que os animais são criados e selecionados. Pelas correlações genéticas entre as características nas diversas regiões, constatou-se GxE, indicando que os melhores reprodutores para uma determinada região não são sempre os mesmos para as demais. Um modelo hierárquico de norma de reação sob abordagem Bayesiana também foi utilizado para estimação dos componentes de variância, parâmetros genéticos e verificação da existência de GxE. Os gradientes ambientais baseados nas soluções para o efeito de grupo de contemporâneos para PN, PD, GP e PE foram -6,45 a +4,75 kg, -65 a +65 kg, -72 a +112 kg e -6.5 a +5.5 cm, respectivamente. As estimativas de herdabilidade foram crescentes no gradiente ambiental, PN (0,04 a 0,55), PD (0,39 a 0,47), GP (0,01 a 0,43) e PE (0,21 a 0,23). A correlação entre o nível e a inclinação da norma de reação para PN e GP foi de alta magnitude, indicando que os animais de maior valor genético médio foram os que apresentaram maior resposta à melhoria das condições ambientais, caracterizando o efeito de escala da GxE. Para PD e PE, a correlação entre intercepto e inclinação foi baixa implicando reclassificação dos animais em ambientes diferentes. O modelo hierárquico de normas de reação foi útil para descrever alterações nos componentes de variância decorrentes do ambiente e para descrever a presença de GxE nas características estudadas de bovinos compostos. Existe variação genética com respeito à sensibilidade dos animais, o que possibilita a seleção de genótipos mais plásticos ou mais robustos. / The objectives of this study were to characterize and define homogenous production environments of composite beef cattle in Brazil in terms of climatic and geographic variables using multivariate exploratory techniques; to evaluate the presence of genotype by environment interaction (GxE) for birth weight (BW), weaning weight (WW), postweaning gain (PWG), scrotal circumference (SC) and muscling. Nonhierarchical cluster analysis was used to group farms located in regions with similar environmental variables into clusters. Six clusters of farms were formed. The effect of sire-cluster interaction was tested by single-trait analysis. The inclusion of sire-cluster interaction in the genetic evaluation model may not result in better fit to the data for BW, WW and SC. Genetic parameters were estimated by multiple-trait analysis considering the same trait to be different in each cluster. The heritability coefficient in the clusters for BW, WW, PWG, SC and muscling ranged from 0.15 to 0.25; 0.16 to 0.25; 0.10 to 0.20; 0.17 to 0.31 and 0.17 to 0.24, respectively. The genetic correlations ranged from 0.19 to 0.90 for BW, -0.02 to 0.92 for WW, 0.31 to 0.93 for PWG, 0.64 a 0.89 for SC and 0.18 to 0.80 for muscling in the clusters of farms. The different heritability estimates between groups of farms indicates that the response to selection varies with the environment in which animals are selected. The low genetic correlations between traits in the different regions demonstrated the presence of GxE, indicating that the best sires in a certain region are not the same for the other regions. A reaction norm hierarchical model using Bayesian approach was also used for estimation of variance components, genetic parameters and to verify the existence of GxE. Environmental gradients based in solutions for the effect of contemporary groups for BW, WW, PWG and SC were -6.45 to +4.75 kg, -65 kg to +65, -72 to +112 kg and -6.5 to +5.5 cm, respectively. Heritability estimates were increasing in the environmental gradient, BW (0.04 to 0.55), WW (0.39 to 0.47), PWG (0.01 to 0.43) and SC (0.21 to 0.23). The correlation between the level and slope of reaction norm for BW and PWG was of high magnitude, indicating that animals of higher average breeding value were the ones which presented a best response to environmental improvement, characterizing a scale effect on GxE. For WW and SC, the correlation between intercept and slope was low implying reranking of animals in different environments. The reaction norm hierarchical model has been useful to describe changes in the variance components due to the environment and to describe the presence of GxE traits in composite beef cattle. There is genetic variation with respect to the sensitivity of the animals, which enables the selection of genotypes most plastics or more robust.
|
308 |
Modelos de mistura para dados com distribuições Poisson truncadas no zero / Mixture models for data with zero truncated Poisson distributionsGigante, Andressa do Carmo 22 September 2017 (has links)
Modelo de mistura de distribuições tem sido utilizado desde longa data, mas ganhou maior atenção recentemente devido ao desenvolvimento de métodos de estimação mais eficientes. Nesta dissertação, o modelo de mistura foi utilizado como uma forma de agrupar ou segmentar dados para as distribuições Poisson e Poisson truncada no zero. Para solucionar o problema do truncamento foram estudadas duas abordagens. Na primeira, foi considerado o truncamento em cada componente da mistura, ou seja, a distribuição Poisson truncada no zero. E, alternativamente, o truncamento na resultante do modelo de mistura utilizando a distribuição Poisson usual. As estimativas dos parâmetros de interesse do modelo de mistura foram calculadas via metodologia de máxima verossimilhança, sendo necessária a utilização de um método iterativo. Dado isso, implementamos o algoritmo EM para estimar os parâmetros do modelo de mistura para as duas abordagens em estudo. Para analisar a performance dos algoritmos construídos elaboramos um estudo de simulação em que apresentaram estimativas próximas dos verdadeiros valores dos parâmetros de interesse. Aplicamos os algoritmos à uma base de dados real de uma determinada loja eletrônica e para determinar a escolha do melhor modelo utilizamos os critérios de seleção de modelos AIC e BIC. O truncamento no zero indica afetar mais a metodologia na qual aplicamos o truncamento em cada componente da mistura, tornando algumas estimativas para a distribuição Poisson truncada no zero com viés forte. Ao passo que, na abordagem em que empregamos o truncamento no zero diretamente no modelo as estimativas apontaram menor viés. / Mixture models has been used since long but just recently attracted more attention for the estimations methods development more efficient. In this dissertation, we consider the mixture model like a method for clustering or segmentation data with the Poisson and Poisson zero truncated distributions. About the zero truncation problem we have two emplacements. The first, consider the zero truncation in the mixture component, that is, we used the Poisson zero truncated distribution. And, alternatively, we do the zero truncation in the mixture model applying the usual Poisson. We estimated parameters of interest for the mixture model through maximum likelihood estimation method in which we need an iterative method. In this way, we implemented the EM algorithm for the estimation of interested parameters. We apply the algorithm in one real data base about one determined electronic store and towards determine the better model we use the criterion selection AIC and BIC. The zero truncation appear affect more the method which we truncated in the component mixture, return some estimates with strong bias. In the other hand, when we truncated the zero directly in the model the estimates pointed less bias.
|
309 |
Método rápido para análise de contingências e seleção de controles preventivos no contexto de estabilidade de tensão / A fast method for analysis of contingency and selection in the context of preventive control of voltage stabilityMansour, Moussa Reda 29 April 2013 (has links)
Nos últimos anos verificou-se um crescimento acentuado da complexidade da avaliação da segurança em Sistemas Elétricos de Potência (SEPs). O aumento das interligações, aliado à operação das redes com altos níveis de carregamento, aumenta a probabilidade de ocorrência de incidentes que podem levar o SEP à instabilidade de tensão, culminando com o colapso de tensão e grandes prejuízos à qualidade do fornecimento de energia elétrica. Neste trabalho foi proposta uma ferramenta rápida para a manutenção da segurança de SEPs no contexto da Estabilidade de Tensão (ET). Para tal, foi desenvolvida uma metodologia rápida para a análise de contingências. Selecionadas as críticas, a eliminação da criticalidade das mesmas é realizada via ações preventivas. Neste contexto, foram desenvolvidas duas abordagens para a seleção de ações preventivas. Na primeira procura-se minimizar o número de controles via técnicas de agrupamento de dados, para eliminar a criticalidade de uma contingência. Na segunda abordagem foi desenvolvida uma estratégia para obtenção de um grupo de controles para eliminar a criticalidade de todas as contingências. Ambas as abordagens baseiam-se em uma metodologia de análise de sensibilidade da margem de ET em relação aos controles preventivos que também foi proposta nesta tese. A eficácia da ferramenta foi comprovada por intermédio de simulações em um SEP. Os resultados foram bastante satisfatórios, os grupos de controles obtidos pela primeira abordagem representam um conjunto mínimo de ações preventivas para eliminar a criticalidade de uma contingência específica. Já na segunda abordagem, foi possível determinar um grupo de controles para a eliminar simultaneamente a criticalidade de todas as contingências. Como produto científico deste doutorado foram obtidas novas metodologias rápidas para a análise de segurança do SEP no contexto da ET. / The complexity of the security assessment in Electric Power Systems (EPS) has received much attention from researches in recent years. The continuous growth in the number of interconnections, allied to networks operating with high loading levels, enhance the probability of incidents that can lead the EPS to voltage instability. Voltage collapse and considerably loss of the electric supply are the principal consequences of this scenery. In this study, we propose a fast tool for supporting the EPS security, in the context of Voltage Stability (VS). To this end, a fast methodology was developed for contingency analysis. Once the critical contingencies are selected, their criticalities are eliminated through the selection of preventive actions. In this context, two approaches were developed. In the first one, we aim at minimizing eh number of controls by using clustering techniques. In this case, the principal objective is to eliminate the criticality of a contingency. In the second approach, we developed a strategy for obtaining a groups of controls in order to eliminate the criticality of all contingencies. Both approaches are based on a methodology for sensitivity analysis of the VS margin with respect to preventive controls which is also proposed in this thesis. The effectiveness of the tool was corroborated by simulations in a EPS. We found the results satisfactory, since the groups of controls achieved by the first approach represent a minimum set of preventive actions that can be taken to eliminate the criticality of a specific contingency. In the second approach, it was possible to determine a minimum group of controls that eliminate the criticality of all contingencies simultaneously. New fast methodologies for security analysis of the EPS in the context of the VS is considered the main scientific product result of this doctorate.
|
310 |
Employing nonlinear time series analysis tools with stable clustering algorithms for detecting concept drift on data streams / Aplicando ferramentas de análise de séries temporais não lineares e algoritmos de agrupamento estáveis para a detecção de mudanças de conceito em fluxos de dadosCosta, Fausto Guzzo da 17 August 2017 (has links)
Several industrial, scientific and commercial processes produce open-ended sequences of observations which are referred to as data streams. We can understand the phenomena responsible for such streams by analyzing data in terms of their inherent recurrences and behavior changes. Recurrences support the inference of more stable models, which are deprecated by behavior changes though. External influences are regarded as the main agent actuacting on the underlying phenomena to produce such modifications along time, such as new investments and market polices impacting on stocks, the human intervention on climate, etc. In the context of Machine Learning, there is a vast research branch interested in investigating the detection of such behavior changes which are also referred to as concept drifts. By detecting drifts, one can indicate the best moments to update modeling, therefore improving prediction results, the understanding and eventually the controlling of other influences governing the data stream. There are two main concept drift detection paradigms: the first based on supervised, and the second on unsupervised learning algorithms. The former faces great issues due to the labeling infeasibility when streams are produced at high frequencies and large volumes. The latter lacks in terms of theoretical foundations to provide detection guarantees. In addition, both paradigms do not adequately represent temporal dependencies among data observations. In this context, we introduce a novel approach to detect concept drifts by tackling two deficiencies of both paradigms: i) the instability involved in data modeling, and ii) the lack of time dependency representation. Our unsupervised approach is motivated by Carlsson and Memolis theoretical framework which ensures a stability property for hierarchical clustering algorithms regarding to data permutation. To take full advantage of such framework, we employed Takens embedding theorem to make data statistically independent after being mapped to phase spaces. Independent data were then grouped using the Permutation-Invariant Single-Linkage Clustering Algorithm (PISL), an adapted version of the agglomerative algorithm Single-Linkage, respecting the stability property proposed by Carlsson and Memoli. Our algorithm outputs dendrograms (seen as data models), which are proven to be equivalent to ultrametric spaces, therefore the detection of concept drifts is possible by comparing consecutive ultrametric spaces using the Gromov-Hausdorff (GH) distance. As result, model divergences are indeed associated to data changes. We performed two main experiments to compare our approach to others from the literature, one considering abrupt and another with gradual changes. Results confirm our approach is capable of detecting concept drifts, both abrupt and gradual ones, however it is more adequate to operate on complicated scenarios. The main contributions of this thesis are: i) the usage of Takens embedding theorem as tool to provide statistical independence to data streams; ii) the implementation of PISL in conjunction with GH (called PISLGH); iii) a comparison of detection algorithms in different scenarios; and, finally, iv) an R package (called streamChaos) that provides tools for processing nonlinear data streams as well as other algorithms to detect concept drifts. / Diversos processos industriais, científicos e comerciais produzem sequências de observações continuamente, teoricamente infinitas, denominadas fluxos de dados. Pela análise das recorrências e das mudanças de comportamento desses fluxos, é possível obter informações sobre o fenômeno que os produziu. A inferência de modelos estáveis para tais fluxos é suportada pelo estudo das recorrências dos dados, enquanto é prejudicada pelas mudanças de comportamento. Essas mudanças são produzidas principalmente por influências externas ainda desconhecidas pelos modelos vigentes, tal como ocorre quando novas estratégias de investimento surgem na bolsa de valores, ou quando há intervenções humanas no clima, etc. No contexto de Aprendizado de Máquina (AM), várias pesquisas têm sido realizadas para investigar essas variações nos fluxos de dados, referidas como mudanças de conceito. Sua detecção permite que os modelos possam ser atualizados a fim de apurar a predição, a compreensão e, eventualmente, controlar as influências que governam o fluxo de dados em estudo. Nesse cenário, algoritmos supervisionados sofrem com a limitação para rotular os dados quando esses são gerados em alta frequência e grandes volumes, e algoritmos não supervisionados carecem de fundamentação teórica para prover garantias na detecção de mudanças. Além disso, algoritmos de ambos paradigmas não representam adequadamente as dependências temporais entre observações dos fluxos. Nesse contexto, esta tese de doutorado introduz uma nova metodologia para detectar mudanças de conceito, na qual duas deficiências de ambos paradigmas de AM são confrontados: i) a instabilidade envolvida na modelagem dos dados, e ii) a representação das dependências temporais. Essa metodologia é motivada pelo arcabouço teórico de Carlsson e Memoli, que provê uma propriedade de estabilidade para algoritmos de agrupamento hierárquico com relação à permutação dos dados. Para usufruir desse arcabouço, as observações são embutidas pelo teorema de imersão de Takens, transformando-as em independentes. Esses dados são então agrupados pelo algoritmo Single-Linkage Invariante à Permutação (PISL), o qual respeita a propriedade de estabilidade de Carlsson e Memoli. A partir dos dados de entrada, esse algoritmo gera dendrogramas (ou modelos), que são equivalentes a espaços ultramétricos. Modelos sucessivos são comparados pela distância de Gromov-Hausdorff a fim de detectar mudanças de conceito no fluxo. Como resultado, as divergências dos modelos são de fato associadas a mudanças nos dados. Experimentos foram realizados, um considerando mudanças abruptas e o outro mudanças graduais. Os resultados confirmam que a metodologia proposta é capaz de detectar mudanças de conceito, tanto abruptas quanto graduais, no entanto ela é mais adequada para cenários mais complicados. As contribuições principais desta tese são: i) o uso do teorema de imersão de Takens para transformar os dados de entrada em independentes; ii) a implementação do algoritmo PISL em combinação com a distância de Gromov-Hausdorff (chamado PISLGH); iii) a comparação da metodologia proposta com outras da literatura em diferentes cenários; e, finalmente, iv) a disponibilização de um pacote em R (chamado streamChaos) que provê tanto ferramentas para processar fluxos de dados não lineares quanto diversos algoritmos para detectar mudanças de conceito.
|
Page generated in 0.089 seconds