241 |
Fatoração de matrizes no problema de coagrupamento com sobreposição de colunas / Matrix factorization for overlapping columns coclusteringLucas Fernandes Brunialti 31 August 2016 (has links)
Coagrupamento é uma estratégia para análise de dados capaz de encontrar grupos de dados, então denominados cogrupos, que são formados considerando subconjuntos diferentes das características descritivas dos dados. Contextos de aplicação caracterizados por apresentar subjetividade, como mineração de texto, são candidatos a serem submetidos à estratégia de coagrupamento; a flexibilidade em associar textos de acordo com características parciais representa um tratamento adequado a tal subjetividade. Um método para implementação de coagrupamento capaz de lidar com esse tipo de dados é a fatoração de matrizes. Nesta dissertação de mestrado são propostas duas estratégias para coagrupamento baseadas em fatoração de matrizes não-negativas, capazes de encontrar cogrupos organizados com sobreposição de colunas em uma matriz de valores reais positivos. As estratégias são apresentadas em termos de suas definições formais e seus algoritmos para implementação. Resultados experimentais quantitativos e qualitativos são fornecidos a partir de problemas baseados em conjuntos de dados sintéticos e em conjuntos de dados reais, sendo esses últimos contextualizados na área de mineração de texto. Os resultados são analisados em termos de quantização do espaço e capacidade de reconstrução, capacidade de agrupamento utilizando as métricas índice de Rand e informação mútua normalizada e geração de informação (interpretabilidade dos modelos). Os resultados confirmam a hipótese de que as estratégias propostas são capazes de descobrir cogrupos com sobreposição de forma natural, e que tal organização de cogrupos fornece informação detalhada, e portanto de valor diferenciado, para as áreas de análise de agrupamento e mineração de texto / Coclustering is a data analysis strategy which is able to discover data clusters, known as coclusters. This technique allows data to be clustered based on different subsets defined by data descriptive features. Application contexts characterized by subjectivity, such as text mining, are candidates for applying coclustering strategy due to the flexibility to associate documents according to partial features. The coclustering method can be implemented by means of matrix factorization, which is suitable to handle this type of data. In this thesis two strategies are proposed in non-negative matrix factorization for coclustering. These strategies are able to find column overlapping coclusters in a given dataset of positive data and are presented in terms of their formal definitions as well as their algorithms\' implementation. Quantitative and qualitative experimental results are presented through applying synthetic datasets and real datasets contextualized in text mining. This is accomplished by analyzing them in terms of space quantization, clustering capabilities and generated information (interpretability of models). The well known external metrics Rand index and normalized mutual information are used to achieve the analysis of clustering capabilities. Results confirm the hypothesis that the proposed strategies are able to discover overlapping coclusters naturally. Moreover, these coclusters produced by the new algorithms provide detailed information and are thus valuable for future research in cluster analysis and text mining
|
242 |
An?lise multivariada de caracter?sticas reprodutivas em f?meas e avalia??o da produ??o in vitro de embri?es na ra?a Sindi (Bos indicus) / Multivariate analysis of reproductive traits in females and evaluation of in vitro production of embryos in Sindhi breed (Bos indicus)MELLO, Raquel Rodrigues Costa 29 January 2016 (has links)
Submitted by Jorge Silva (jorgelmsilva@ufrrj.br) on 2016-10-26T17:13:33Z
No. of bitstreams: 1
2016 - Raquel Rodrigues Costa Mello.pdf: 1199112 bytes, checksum: bcda4e1218e0674de384583a345b56eb (MD5) / Made available in DSpace on 2016-10-26T17:13:33Z (GMT). No. of bitstreams: 1
2016 - Raquel Rodrigues Costa Mello.pdf: 1199112 bytes, checksum: bcda4e1218e0674de384583a345b56eb (MD5)
Previous issue date: 2016-01-29 / CAPES / The aim of this study was to investigate the possibility to generate different productive groups in Sindhi breed through multivariate techniques, in order to give directions to genetic improvement programs in this breed. For this goal, performance data provided by the Brazilian Association of Zebu Breeders related to 560 Sindhi breed females from 28 different herds in Brazil, born in the period from 1987 to 2011, were used. The traits age at first calving, calving interval, reproductive efficiency, total milk yield and lactation period were analyzed, being submitted to the principal components and cluster analysis, with the aid of GENES? statistical program. By the principal components analysis, these five components were estimated, and the first three explained 90.79% of the data?s total variation. The traits considered most relevant to the discrimination of the data set, in decreasing order of importance, were: calving interval, lactation period, age at first calving, total milk yield, and reproductive efficiency. By cluster analysis, twelve different groups were generated from the pool of Sindhi herds analyzed, with a great homogeneity among females for the traits evaluated, and only few females generating separate groups. Four hundred and twenty-nine females were clustered in one group, representing 76.60% of the genotypes. This indicates that, although there are genotypes with large genetic diversity, more than two thirds of the animals are similar to the traits evaluated, showing a high degree of relationship between them. The traits for total milk yield showed 71.92% of the total variation, and age at first calving contributed with 23.06% of the variation, being the two most important traits for the variability of the data. Thus, there is evidence of divergence between the groups regarding total milk yield, indicating that this trait stands out in the differentiation of groups, and these groups could be benchmarks for the use of genetic improvement programs whose focus is the increase in milk yield. In conclusion, the multivariate procedures were effective to summarize the evaluated information and to discriminate the most important traits, providing better identification of the most appropriate females to certain herds or milk production systems. The analysis of the relative contribution was effective in identifying total milk yield and age at first calving as the most relevant traits for the differentiation of groups, and they can be useful targets for genetic improvement programs that focus on milk yield and reproductive precocity. / O objetivo deste trabalho foi verificar a possibilidade de forma??o de diferentes grupos produtivos na ra?a Sindi por meio de t?cnicas multivariadas, a fim de se direcionar as a??es nos programas de melhoramento gen?tico nesta ra?a. Para tanto, foram utilizados dados de desempenho fornecidos pela Associa??o Brasileira dos Criadores de Zebu (ABCZ) referentes a 560 f?meas da ra?a Sindi procedentes de 28 rebanhos dos diferentes estados do Brasil, nascidas entre 1987 a 2011. Desse modo, foram analisadas as caracter?sticas idade ao primeiro parto, intervalo de partos, efici?ncia reprodutiva, produ??o de leite e dura??o da lacta??o, sendo submetidas ?s an?lises dos componentes principais e de agrupamento com o aux?lio do programa estat?stico GENES?. Pela an?lise dos componentes principais, foram estimados cinco componentes, dos quais os tr?s primeiros explicaram 90,79% da varia??o total dos dados. O primeiro componente explicou 37,18%, o segundo 33,63% e o terceiro 19,97% da vari?ncia total, sendo que esta an?lise possibilitou a discrimina??o das caracter?sticas mais importantes e menos importantes para a varia??o total no conjunto dos dados. As caracter?sticas consideradas mais relevantes para a caracteriza??o do conjunto de dados, em ordem decrescente de import?ncia, foram intervalo de partos, dura??o da lacta??o, idade ao primeiro parto, produ??o total de leite e efici?ncia reprodutiva. Pela an?lise de agrupamentos, observou-se a forma??o de doze diferentes grupos no rebanho Sindi estudado, com uma grande homogeneidade entre os animais para as caracter?sticas avaliadas, com alguns poucos animais formando grupos distintos. Houve a forma??o de um grupo com 429 f?meas, ou seja, 76,60% dos gen?tipos, o que indica que, embora haja gen?tipos com grande diverg?ncia gen?tica entre si, mais da metade ? similar para as caracter?sticas avaliadas, evidenciando um grau estreito de rela??o entre elas. Al?m disso, foi poss?vel observar as caracter?sticas produ??o total de leite, com 71,92% da varia??o total, e idade ao primeiro parto, com 23,06% da varia??o total, como as mais importantes para a variabilidade dos dados. As caracter?sticas com menor variabilidade e, portanto, consideradas menos importantes foram intervalo de partos, dura??o da lacta??o e efici?ncia reprodutiva, com 4,37; 0,61 e 0,02% da varia??o total, respectivamente. Assim, evidenciou-se o distanciamento entre os grupos para as diferentes m?dias de produ??o total de leite, indicando que tal caracter?stica se destaca na diferencia??o dos grupos e que tais grupos poderiam ser referenciais para utiliza??o em programas de melhoramento gen?tico, cujo enfoque seja a obten??o de maiores produ??es de leite. Portanto, conclui-se que os procedimentos multivariados foram eficientes para resumir as informa??es avaliadas e discriminar as caracter?sticas mais importantes, promovendo maior facilidade na identifica??o das f?meas mais adequadas para determinados rebanhos ou sistemas de produ??o de leite. A an?lise da contribui??o relativa das vari?veis foi efetiva na identifica??o das caracter?sticas produ??o total de leite e idade ao primeiro parto como mais relevantes para a diferencia??o dos grupos formados, sendo ?teis para o direcionamento em programas de melhoramento gen?tico cujo enfoque seja maior produ??o de leite e precocidade sexual.
|
243 |
Agrupamento de textos utilizando divergência Kullback-Leibler / Texts grouping using Kullback-Leibler divergenceWillian Darwin Junior 22 February 2016 (has links)
O presente trabalho propõe uma metodologia para agrupamento de textos que possa ser utilizada tanto em busca textual em geral como mais especificamente na distribuição de processos jurídicos para fins de redução do tempo de resolução de conflitos judiciais. A metodologia proposta utiliza a divergência Kullback-Leibler aplicada às distribuições de frequência dos radicais (semantemas) das palavras presentes nos textos. Diversos grupos de radicais são considerados, formados a partir da frequência com que ocorrem entre os textos, e as distribuições são tomadas em relação a cada um desses grupos. Para cada grupo, as divergências são calculadas em relação à distribuição de um texto de referência formado pela agregação de todos os textos da amostra, resultando em um valor para cada texto em relação a cada grupo de radicais. Ao final, esses valores são utilizados como atributos de cada texto em um processo de clusterização utilizando uma implementação do algoritmo K-Means, resultando no agrupamento dos textos. A metodologia é testada em exemplos simples de bancada e aplicada a casos concretos de registros de falhas elétricas, de textos com temas em comum e de textos jurídicos e o resultado é comparado com uma classificação realizada por um especialista. Como subprodutos da pesquisa realizada, foram gerados um ambiente gráfico de desenvolvimento de modelos baseados em Reconhecimento de Padrões e Redes Bayesianas e um estudo das possibilidades de utilização de processamento paralelo na aprendizagem de Redes Bayesianas. / This work proposes a methodology for grouping texts for the purposes of textual searching in general but also specifically for aiding in distributing law processes in order to reduce time applied in solving judicial conflicts. The proposed methodology uses the Kullback-Leibler divergence applied to frequency distributions of word stems occurring in the texts. Several groups of stems are considered, built up on their occurrence frequency among the texts and the resulting distributions are taken regarding each one of those groups. For each group, divergences are computed based on the distribution taken from a reference text originated from the assembling of all sample texts, yelding one value for each text in relation to each group of stems. Finally, those values are taken as attributes of each text in a clusterization process driven by a K-Means algorithm implementation providing a grouping for the texts. The methodology is tested for simple toy examples and applied to cases of electrical failure registering, texts with similar issues and law texts and compared to an expert\'s classification. As byproducts from the conducted research, a graphical development environment for Pattern Recognition and Bayesian Networks based models and a study on the possibilities of using parallel processing in Bayesian Networks learning have also been obtained.
|
244 |
Identificação de zonas de manejo com a experiência do produtor / Identification of management areas using the farmer's experienceSchenatto, Kelyn 16 February 2017 (has links)
Made available in DSpace on 2017-05-12T14:47:42Z (GMT). No. of bitstreams: 1
= KELYN .pdf: 4270156 bytes, checksum: b98965e59fc3d3b1268d9d7e57705ee8 (MD5)
Previous issue date: 2017-02-16 / The process of generating management zones (MZs) comprises several steps, among them the choice of variables to be used in the grouping process, the choice of the best interpolator, the use of a data normalization method and the choice of an algorithm suitable for the grouping process, as well as adequate evaluation indices. In this work, it was attempted to improve techniques used in the MZs generation process. First, the influence of data normalization techniques in the clustering process was studied using the Fuzzy C-Means algorithm data proposed in the literature. It was also evaluated the use of the producer s experience as a new variable for the generation of the MZs and a piece of software was developed for the purpose of capturing this variable and managing agricultural data. The experiments were carried out with data obtained between the years of 2011 and 2016 from four commercial agricultural areas, located in the State of Paraná, where corn and soybean had been grown. With the experiments concluded, it was possible to assert that the technique of normalization of data influences the process of grouping when more than one variable is used with different scales of values and that the technique that presented better results was the normalization by amplitude. The proposed variable "farmer s experience" showed good results in the generation of the MZs and, with such, it was possible to generate management areas with different productive potential between the classes and thus, it can be used as a new variable to be used combined with the variables of stable soil conditions. Based on the positive results generated by the variable experience of the producer in three agricultural areas, a piece of software was developed that allows the insertion of this variable by the producer. The software called AgData-Mobile also allows the management of field data, allowing the producer to insert data of all the operations performed in each field and to keep a record of their areas. In addition this tool stands out for being free and for using clod storage / O processo de geração de zonas de manejo (ZMs) compreende várias etapas, entre elas a escolha das variáveis a serem utilizadas no processo de agrupamento, a escolha do melhor interpolador, o uso de um método de normalização de dados e a escolha de um algoritmo adequado para o processo de agrupamento, além de índices de avaliação adequados. Neste trabalho, buscou-se melhorar técnicas utilizadas no processo de geração de ZMs e, para isso, primeiro foi estudada a influência de técnicas de normalização de dados no processo de agrupamento utilizando o algoritmo Fuzzy C-Means, em que foram avaliadas as três principais técnicas de normalização de dados propostas na literatura. Avaliou-se também a utilização da experiência do produtor como uma nova variável para a geração das ZMs, e foi desenvolvido um software para fins de definição dessa variável e para gerenciamento de dados agrícolas. Os experimentos foram realizados com dados obtidos entre os anos de 2011 e 2016 de quatro áreas agrícolas comerciais, localizadas no estado do Paraná, nas quais se cultivaram milho e soja. Com os experimentos realizados foi possível concluir que a técnica de normalização de dados exerce influência no processo de agrupamento quando é utilizada mais de uma variável com diferentes escalas de valores e que a técnica que apresentou melhores resultados foi a de normalização pela amplitude dos dados. A variável proposta "experiência do produtor" apresentou bons resultados na geração das ZMs. Fazendo uso dessa variável foi possível gerar zonas de manejo com potencial produtivo distinto entre as classes e, sendo assim, pode ser utilizada como uma nova variável a ser utilizada juntamente com as variáveis estáveis do solo. Com base nos bons resultados obtidos pela variável experiência do produtor em três áreas agrícolas, foi desenvolvido um software que permite a inserção dessa variável pelo produtor. O software chamado AgData-Mobile permite, ainda, realizar o gerenciamento de dados de campo, possibilitando que o produtor insira dados de todas as operações realizadas em cada talhão e mantenha um registro de suas áreas. Além disso, tal ferramenta se destaca por ser de uso gratuito e pelo armazenamento de dados em nuvem
|
245 |
Ensemble de agrupamentos para sistemas de recomendação baseados em conteúdo / Cluster ensemble to content-based recommender systemsFernando Henrique da Silva Costa 05 November 2018 (has links)
O crescimento acelerado da internet proporcionou uma quantidade grande de informações acessíveis aos usuários. Ainda que tal quantidade possua algumas vantagens, os usuários que possuem pouca ou nenhuma experiência para escolher uma alternativa dentre as várias apresentadas terão dificuldades em encontrar informações (ou itens, considerando o escopo deste trabalho) úteis e que atendam às suas necessidades. Devido a esse contexto, os sistemas de recomendação foram desenvolvidos para auxiliar os usuários a encontrar itens relevantes e personalizados. Tais sistemas são divididos em diversas arquiteturas. Como exemplo estão as arquiteturas baseadas em: conteúdo, filtro colaborativo e conhecimento. Para este trabalho, a primeira arquitetura foi explorada. A arquitetura baseada em conteúdo recomenda itens ao usuário com base na similaridade desses aos itens que o usuário mostrou interesse no passado. Por consequência, essa arquitetura possui a limitação de, geralmente, realizar recomendações com baixa serendipidade, uma vez que os itens recomendados tendem a ser semelhantes àqueles observados pelo o usuário e, portanto, não apresentam novidade ou surpresa. Diante desta limitação, o aspecto de serendipidade tem destaque nas discussões apresentadas neste trabalho. Assim, o objetivo deste trabalho é minimizar o problema da baixa serendipidade das recomendações por meio da utilização da análise de similaridades parciais implementada usando ensemble de agrupamentos. Para alcançar este objetivo, estratégias de recomendação baseadas em conteúdo implementadas usando agrupamento e ensemble de agrupamento foram propostas e avaliadas neste trabalho. A avaliação contou com análises qualitativas sobre as recomendações produzidas e com um estudo com usuários. Nesse estudo, quatro estratégias de recomendação de notícias foram avaliadas, incluindo as duas propostas neste trabalhos, uma estratégia baseada em recomendação aleatória, e uma estratégia baseada em coagrupamento. As avaliações consideraram aspectos de relevância, surpresa e serendipidade de recomendações. Esse último aspecto é descrito como itens que apresentam tanto surpresa quanto relevância ao usuário. Os resultados de ambas análises mostraram a viabilidade da utilização de agrupamento como base de recomendação, uma vez que o ensemble de agrupamentos obteve resultados satisfatórios em todos os aspectos, principalmente em surpresa, enquanto a estratégia baseada em agrupamento simples obteve os melhores resultados em relevância e serendipidade / The accelerated growth of the internet has provided a large amount of information accessible to users. Although this amount of information has some advantages, users who have little or no experience in choosing one of several alternatives will find it difficulty to find useful information (or items, considering the scope of this work) that meets their needs. Due to this context, recommender systems have been developed to help users find relevant and personalized items. Such systems are divided into several architectures as content-based, collaborative filtering and knowledge-based. The first architecture was explored in this work. The content-based architecture recommends items to the user based on their similarity to items that the user has shown interest in the past. Consequently, this architecture has the limitation of generally making recommendations with low serendipity, since the recommended items tend to be similar to those observed by the user and, therefore, do not present novelty or surprise. Given this limitation, the aspect of serendipity is highlighted in the discussions presented in this work. Thus, the objective of this work is to minimize the problem of the low serendipity of the recommendations through the use of the partial similarity analysis implemented using cluster ensemble. To achieve this goal, content-based recommendation strategies implemented using clustering and cluster ensemble were proposed and evaluated. The evaluation involved qualitative analysis of the recommendations and a study with users. In such a study, four news recommendation strategies were evaluated including the two strategies proposed in this work, a strategy based on random recommendation, and a strategy based on co-clustering. The evaluations considered aspects of relevance, surprise and serendipity of recommendations. This last aspect is described as items that present both surprise and relevance to the user. The results of both analyzes showed the feasibility of using clustering as the basis of recommendation, since cluster ensemble had satisfactory results in all aspects, mainly in surprise, whereas the simple clustering-based strategy obtained the best results in relevance and serendipity
|
246 |
Análise de dados por meio de agrupamento fuzzy semi-supervisionado e mineração de textos / Data analysis using semisupervised fuzzy clustering and text miningMedeiros, Debora Maria Rossi de 08 December 2010 (has links)
Esta Tese apresenta um conjunto de técnicas propostas com o objetivo de aprimorar processos de Agrupamento de Dados (AD). O principal objetivo é fornecer à comunidade científica um ferramental para uma análise completa de estruturas implícitas em conjuntos de dados, desde a descoberta dessas estruturas, permitindo o emprego de conhecimento prévio sobre os dados, até a análise de seu significado no contexto em que eles estão inseridos. São dois os pontos principais desse ferramental. O primeiro se trata do algoritmo para AD fuzzy semi-supervisionado SSL+P e sua evolução SSL+P*, capazes de levar em consideração o conhecimento prévio disponível sobre os dados em duas formas: rótulos e níveis de proximidade de pares de exemplos, aqui denominados Dicas de Conhecimento Prévio (DCPs). Esses algoritmos também permitem que a métrica de distância seja ajustada aos dados e às DCPs. O algoritmo SSL+P* também busca estimar o número ideal de clusters para uma determinada base de dados, levando em conta as DCPs disponíveis. Os algoritmos SSL+P e SSL+P* envolvem a minimização de uma função objetivo por meio de um algoritmo de Otimização Baseado em População (OBP). Esta Tese também fornece ferramentas que podem ser utilizadas diretamente neste ponto: as duas versões modificadas do algoritmo Particle Swarm Optimization (PSO), DPSO-1 e DPSO-2 e 4 formas de inicialização de uma população inicial de soluções. O segundo ponto principal do ferramental proposto nesta Tese diz respeito à análise de clusters resultantes de um processo de AD aplicado a uma base de dados de um domínio específico. É proposta uma abordagem baseada em Mineração de Textos (MT) para a busca em informações textuais, disponibilizadas digitalmente e relacionadas com as entidades representadas nos dados. Em seguida, é fornecido ao pesquisador um conjunto de palavras associadas a cada cluster, que podem sugerir informações que ajudem a identificar as relações compartilhadas por exemplos atribuídos ao mesmo cluster / This Thesis presents a whole set of techniques designed to improve the data clustering proccess. The main goal is to provide to the scientific community a tool set for a complete analyses of the implicit structures in datasets, from the identification of these structures, allowing the use of previous knowledge about the data, to the analysis of its meaning in their context. There are two main points involved in that tool set. The first one is the semi-supervised clustering algorithm SSL+P and its upgraded version SSL+P*, which are able of take into account the available knowlegdge about de data in two forms: class labels and pairwise proximity levels, both refered here as hints. These algorithms are also capable of adapting the distance metric to the data and the available hints. The SSL+P* algorithm searches the ideal number of clusters for a dataset, considering the available hints. Both SSL+P and SSL+P* techniques involve the minimization of an objective function by a Population-based Optimization algorithm (PBO). This Thesis also provides tools that can be directly employed in this area: the two modified versions of the Particle Swarm Optimization algorithm (PSO), DPSO-1 and DPSO-2, and 4 diferent methods for initializing a population of solutions. The second main point of the tool set proposed by this Thesis regards the analysis of clusters resulting from a clustering process applied to a domain specific dataset. A Text Mining based approach is proposed to search for textual information related to the entities represented by the data, available in digital repositories. Next, a set of words associated with each cluster is presented to the researcher, which can suggest information that can support the identification of relations shared by objects assigned to the same cluster
|
247 |
Agrupamento de textos utilizando divergência Kullback-Leibler / Texts grouping using Kullback-Leibler divergenceDarwin Junior, Willian 22 February 2016 (has links)
O presente trabalho propõe uma metodologia para agrupamento de textos que possa ser utilizada tanto em busca textual em geral como mais especificamente na distribuição de processos jurídicos para fins de redução do tempo de resolução de conflitos judiciais. A metodologia proposta utiliza a divergência Kullback-Leibler aplicada às distribuições de frequência dos radicais (semantemas) das palavras presentes nos textos. Diversos grupos de radicais são considerados, formados a partir da frequência com que ocorrem entre os textos, e as distribuições são tomadas em relação a cada um desses grupos. Para cada grupo, as divergências são calculadas em relação à distribuição de um texto de referência formado pela agregação de todos os textos da amostra, resultando em um valor para cada texto em relação a cada grupo de radicais. Ao final, esses valores são utilizados como atributos de cada texto em um processo de clusterização utilizando uma implementação do algoritmo K-Means, resultando no agrupamento dos textos. A metodologia é testada em exemplos simples de bancada e aplicada a casos concretos de registros de falhas elétricas, de textos com temas em comum e de textos jurídicos e o resultado é comparado com uma classificação realizada por um especialista. Como subprodutos da pesquisa realizada, foram gerados um ambiente gráfico de desenvolvimento de modelos baseados em Reconhecimento de Padrões e Redes Bayesianas e um estudo das possibilidades de utilização de processamento paralelo na aprendizagem de Redes Bayesianas. / This work proposes a methodology for grouping texts for the purposes of textual searching in general but also specifically for aiding in distributing law processes in order to reduce time applied in solving judicial conflicts. The proposed methodology uses the Kullback-Leibler divergence applied to frequency distributions of word stems occurring in the texts. Several groups of stems are considered, built up on their occurrence frequency among the texts and the resulting distributions are taken regarding each one of those groups. For each group, divergences are computed based on the distribution taken from a reference text originated from the assembling of all sample texts, yelding one value for each text in relation to each group of stems. Finally, those values are taken as attributes of each text in a clusterization process driven by a K-Means algorithm implementation providing a grouping for the texts. The methodology is tested for simple toy examples and applied to cases of electrical failure registering, texts with similar issues and law texts and compared to an expert\'s classification. As byproducts from the conducted research, a graphical development environment for Pattern Recognition and Bayesian Networks based models and a study on the possibilities of using parallel processing in Bayesian Networks learning have also been obtained.
|
248 |
Hardware reconfigurável para identificação de radionuclídeos utilizando o método de agrupamento subtrativo. / Identification of radionuclides reconfigurable hardware using the subtractive method of grouping.Marcos Santana Farias 27 February 2012 (has links)
Fontes radioativas possuem radionuclídeos. Um radionuclídeo é um átomo com um núcleo instável, ou seja, um núcleo caracterizado pelo excesso de energia que está disponível para ser emitida. Neste processo, o radionuclídeo sofre o decaimento radioativo e emite raios gama e partículas subatômicas, constituindo-se na radiação ionizante. Então, a radioatividade é a emissão espontânea de energia a partir de átomos instáveis. A identificação correta de radionuclídeos pode ser crucial para o planejamento de medidas de proteção, especialmente em situações de emergência, definindo o tipo de fonte de radiação e seu perigo radiológico. Esta dissertação apresenta a aplicação do método de agrupamento subtrativo, implementada em hardware, para um sistema de identificação de elementos radioativos com uma resposta rápida e eficiente. Quando implementados em software, os algoritmos de agrupamento consumem muito tempo de processamento. Assim, uma implementação dedicada para hardware reconfigurável é uma boa opção em sistemas embarcados, que requerem execução em tempo real, bem como baixo consumo de energia. A arquitetura proposta para o hardware de cálculo do agrupamento subtrativo é escalável, permitindo a inclusão de mais unidades de agrupamento subtrativo para operarem em paralelo. Isso proporciona maior flexibilidade para acelerar o processo de acordo com as restrições de tempo e de área. Os resultados mostram que o centro do agrupamento pode ser identificado com uma boa eficiência. A identificação desses pontos pode classificar os elementos radioativos presentes em uma amostra. Utilizando este hardware foi possível identificar mais do que um centro de agrupamento, o que permite reconhecer mais de um radionuclídeo em fontes radioativas. Estes resultados revelam que o hardware proposto pode ser usado para desenvolver um sistema portátil para identificação radionuclídeos. / Radioactive sources include radionuclides. A radionuclide is an atom with an unstable nucleus, i.e. a nucleus characterized by excess of energy, which is available to be imparted. In this process, the radionuclide undergoes radioactive decay and emits gamma rays and subatomic particles, constituting the ionizing radiation. So, radioactivity is the spontaneous emission of energy from unstable atoms. Correct radionuclide identification can be crucial to planning protective measures, especially in emergency situations, by defining the type of radiation source and its radiological hazard. This project introduces the application of subtractive clustering method, in a hardware implemnetation, for an identification system of radioactive elements that allows a rapid and efficient identification. In software implementations, clustering algorithms, usually, are demanding in terms of processing time. Thus, a custom implementation on reconfigurable hardware is a viable choice in embedded systems, so as to achieve real-time execution as well as low power consumption. The proposed architecture for the hardware of subtractive clustering is scalable, allowing for the inclusion of more of subtractive clustering unit that operate in parallel. This provides greater flexibility to accelerate the hardware with respect to the time and area requirements. The results show that the expected cluster center can be identified with efficiently. The identification of these points can classify the radioactive elements present in a sample. Using the designed hardware, it is possible to identify more than one cluster center, which would lead to the recognition of more than one radionuclide in radioactive sources. These results reveal that the proposed hardware to subtractive cluster can be used to design a portable system for radionuclides identification.
|
249 |
Anatomia da madeira de espécies arbóreas da floresta ombrófila mista / Wood anatomy of arborial species of araucaria forestVieira, Helena Cristina 24 February 2017 (has links)
Submitted by Claudia Rocha (claudia.rocha@udesc.br) on 2017-12-14T12:35:51Z
No. of bitstreams: 1
PGEF17MA078.pdf: 124602 bytes, checksum: 743d0f80327ad1bfc6c95e6e3c31ebac (MD5) / Made available in DSpace on 2017-12-14T12:35:51Z (GMT). No. of bitstreams: 1
PGEF17MA078.pdf: 124602 bytes, checksum: 743d0f80327ad1bfc6c95e6e3c31ebac (MD5)
Previous issue date: 2017-02-24 / Capes / The objective of this work was: (I) to characterize macroscopically and microscopically the anatomical structures of the wood of 31 species of Ombrophilous Mixed Forest, following the standardization of the International Association of Wood Anatomists (IAWA); (II) Identify its characteristics of taxonomic value; (III) Make identification keys using the microscopic characteristics of these species; (IV) To evaluate similarities and main anatomical components of the wood among 14 species. For the characterizations, the wood of species previously collected from the flooded areas for the implantation of the Hydroelectric Plant (HPP) of São Roque - Santa Catarina was used. Three specimens of each specimen were randomly selected from the specimens. One specimen was taken from each individual in the Diameter at Chest Height (DAP), after which two specimens were removed from the intermediate region of the disc. For the macroscopic characterization the wood was polished and classified according to the International Association of Wood Anatomists. In the microscopic description, two permanent slides and a macerated material were made for each test specimen. In the measurement of anatomical elements, the mean, minimum, maximum and standard deviation values were determined. Also, using the characterizations made, an identification key was made using the microscopic characteristics peculiar to each genus. Subsequently, of these 31 species, 14 were randomly selected to evaluate their similarities and their main anatomical components. In these 14 species, it was observed that the species present common characteristics such as diffuse porosity, vascular elements with simple perforation plate and stitches of the wall of the alternate vessels. In the Principal Components Analysis (PCA), the pore diameter, the length and thickness of the radius in micrometers, the length of the radius in number of cells, the vessel wall and the vascular wall were recorded / Este trabalho teve como objetivos: (I) Caracterizar macroscopicamente e microscopicamente as estruturas anatômicas da madeira de 31 espécies de Floresta Ombrófila Mista, seguindo a padronização da International Association of Wood Anatomists (IAWA); (II) Identificar suas características de valor taxonômico; (III) Confeccionar chaves de identificação utilizando as características microscópicas dessas espécies; (IV) Avaliar similaridades e componentes anatômicos principais da madeira entre 14 espécies. Para as caracterizações, foram utilizadas as madeiras de espécies previamente coletadas das áreas alagadas para a implantação da Hidrelétrica (UHE) de São Roque – Santa Catarina. Na obtenção dos corpos de prova foram selecionados aleatoriamente três indivíduos de cada espécie, sendo retirado um disco de cada indivíduo no Diâmetro a Altura do Peito (DAP), posteriormente foram retirados dois corpos de prova da região intermediária do disco. Para a caracterização macroscópica a madeira foi polida e classificada seguindo a norma da International Association of Wood Anatomists. Na descrição microscópica, para cada corpo de prova foram confeccionadas duas lâminas permanentes e um material macerado. Na mensuração dos elementos anatômicos determinou-se os valores médios, mínimos, máximos e o desvio padrão. Ainda, utilizando as caracterizações feitas, confeccionou-se uma chave de identificação utilizando as características microscópicas peculiares de cada gênero. Posteriormente, destas 31 espécies, foram selecionadas aleatoriamente 14 para avaliar suas similaridades e seus componentes anatômicos principais. Nestas 14 espécies, observou-se que as espécies apresentam características comuns como a porosidade difusa, elementos vasculares com placa de perfuração simples e pontoações da parede dos vasos alternas. Na Análise dos Componentes Principais (PCA), destacaram-se o diâmetro do poro, o comprimento e espessura do raio em micrômetros, o comprimento do raio em número de células, as pontoações da parede dos vasos e raio-vasculares
|
250 |
Categorização de dados quantitativos para estudos de diversidade genética / Categorization quantitative data for studies of genetic diversityBarroso, Natália Caixeta 15 December 2010 (has links)
Made available in DSpace on 2015-03-26T13:32:11Z (GMT). No. of bitstreams: 1
texto completo.pdf: 2217621 bytes, checksum: 73d2ddc4b72290d7ed609d146e107caf (MD5)
Previous issue date: 2010-12-15 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The genetic diversity study is an important tool in the identification of genetically divergent individuals, wich, can increase the effect of heterosis in the progeny when combinaded. A statistical technique usually applied in this type of study is the cluster analysis. However, before applying this technique, it must be obtained a similarity matrix (or distance) between the genotypes. These distances can be calculated in several ways, which different proposals are found in the literature for quantitative variables, binary and multicategoric. The transformation of quantitative variables in multicategoric can be used to facilitate their characterization with preliminary useful information. There are quite a few methods to make such changes, but they need to be better understood so that the loss of information occurred in such changes does not damage significantly the results of the analysis. Therefore the purposes of this study are: to determine which of these variables categorization methods are efficient; to research the influence of the choice of different coefficients of dissimilarity in cluster analysis, made from simulated data by using quantitative variables and multicategoric; and to investigate whether some hierarchical methods group efficiently the simulated data. For that, there were made 50 simulations of ten quantitative variables to twenty genotypes of a species of reference as corn, each one with four replications. These data were converted in multicategoric using the following methods: equitable division of amplitude, equitable percentage, square rule, Sturges rule and normal distribution. A number of classes had to be established for the first two methods, which were used four and five classes for both. Were used to create distance matrices, in the original data and multicategoric, the dissimilarity measures: Euclidean distance, the average Euclidean, squared Euclidean distance, Mahalanobis distance and weighted distance. Subsequently, the grouping was done by the method of nearest neighbor and the average linkage between groups (UPGMA). The efficiency of these was verified by the statistics of efficiency cophenetic correlation coefficient, stress and distortion degree between the phenetic and cophenetic matrices. The results showed that the cluster method UPGMA was superior to method of nearest neighbor for all distance measures used. Euclidean distances and average Euclidean showed similar performance in all cluster analysis done. Moreover, these two measures got the best performance in all groups performed. All methods of data categorization achieved a satisfactory performance when grouped by UPGMA, except the method of equal percentage with four and five classes. However, the data which have their classes estimated by the square rule had the most similar dendrogram when compared to the obtained using the original data, and therefore, this is the recommended method to perform the categorization of data. / O estudo da divergência genética é uma ferramenta importante na identificação de indivíduos geneticamente divergentes que, ao serem combinados, possam aumentar o efeito heterótico na progênie. Uma técnica estatística muito aplicada nesse tipo de estudo é a análise de agrupamento. Entretanto, antes dessa técnica ser empregada, deve ser obtida uma matriz de similaridade (ou distância) entre os genótipos. Essas distâncias podem ser calculadas de diversas maneiras, sendo que diferentes propostas são encontradas na literatura para as variáveis quantitativas, binárias e multicategóricas. A transformação de variáveis quantitativas em multicategóricas pode ser utilizada para facilitar sua caracterização com informações preliminares de grande utilidade. Existem vários métodos para se fazer essa transformação, porém estes precisam ser melhor entendidos para que a perda de informações ocorrida na transformação não prejudique significativamente os resultados da análise. Portanto, este trabalho teve como objetivos: verificar quais desses métodos de categorização de variáveis são eficientes; pesquisar a influência da escolha de diferentes coeficientes de dissimilaridades na análise de agrupamentos, feita a partir de dados simulados utilizando variáveis quantitativas e multicategóricas; e averiguar se alguns métodos hierárquicos agrupam com eficiência os dados simulados. Para isto, foram feitas 50 simulações de dez variáveis quantitativas para vinte genótipos de uma espécie de referência como o milho, cada um com quatro repetições. Estes dados foram transformados em multicategóricos através dos métodos: divisão equitativa da amplitude, percentual equitativo, regra do Quadrado, regra de Sturges e distribuição normal. O número de classes tinha que ser estabelecido para os dois primeiros, no caso, foi utilizado quatro e cinco classes para ambos. Foram utilizadas para construir as matrizes de distâncias, nos dados originais e multicategóricos, as medidas de dissimilaridade: distância euclidiana, euclidiana média, quadrado da distância euclidiana, distância de Mahalanobis e distância ponderada. Posteriormente, o agrupamento foi feito pelo método do vizinho mais próximo e pela ligação média entre grupos (UPGMA). A eficiência destes foi verificada através das estatísticas de eficiência coeficiente de correlação cofenética, estresse e grau de distorção entre as matrizes fenéticas e cofenéticas. Os resultados mostraram que o método de agrupamento UPGMA foi superior ao método do vizinho mais próximo para todas as medidas de distância utilizadas. As distâncias euclidiana e euclidiana média apresentaram a mesma performance em todas as análises de agrupamento feitas. Além disso, essas duas medidas obtiveram os melhores desempenhos em todos os agrupamentos realizados. Todos os métodos de categorização de dados conseguiram um desempenho satisfatório quando agrupados por UPGMA, exceto o método do percentual equitativo com quatro e cinco classes. Contudo, os dados que possuem suas classes estimadas pela regra do Quadrado apresentaram o dendrograma mais semelhante com o obtido pormeio dos dados originais, sendo este, então, o método mais recomendado para se fazer a categorização de dados.
|
Page generated in 0.0746 seconds