Global ETD Search

1	Sistema para segmentação de imagens por agrupamento hierárquico baseado no comportamento superparamagnético do modelo de Potts Matos Horta, Michelle January 2004 (has links) Made available in DSpace on 2014-06-12T15:59:09Z (GMT). No. of bitstreams: 2 arquivo4920_1.pdf: 2771245 bytes, checksum: 173c72727ac29962087807a39d216e3e (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2004 / Recentemente foi estabelecida uma analogia entre o problema de agrupamento e a procura de configurações típicas de um modelo físico, o modelo de Potts. Para ilustrar essa analogia foi desenvolvido um programa, em linguagem C, pelo Professor Eytan Domany, do Departamento de Física de Sistemas Complexos, do Weizmann Institute of Science, de Israel. A função principal desse programa é a realização do agrupamento hierárquico de dados baseado no comportamento superparamagnético do modelo de Potts (SPC - Superparamagnetic Clustering). Essa coleção de agrupamentos é obtida simulando ocorrências de um modelo de Potts não-homogêneo em um estágio intermediário entre as fases ferromagnética e paramagnética. O foco deste trabalho é o desenvolvimento de um sistema que permite a aplicação dessa técnica à segmentação de imagens. Para tanto, foi desenvolvida uma interface, utilizando IDL e ENVI, para auxiliar o usuário na utilização dessa e de outras técnicas de agrupamento e na compreensão dos resultados provenientes de técnicas hierárquicas de agrupamento de dados. Os agrupamentos obtidos s.ao ilustrados através de imagens, de gráficos hierárquicos (dendrogramas) interativos e por animações Segmentação de imagens Agrupamento hierárquico de dados Modelo de Potts Interface
2	Aprendizado de máquina com informação privilegiada: abordagens para agrupamento hierárquico de textos / Machine learning with privileged information: approaches for hierarchical text clustering Marcacini, Ricardo Marcondes 14 October 2014 (has links) Métodos de agrupamento hierárquico de textos são muito úteis para analisar o conhecimento embutido em coleções textuais, organizando os documentos textuais em grupos e subgrupos para facilitar a exploração do conhecimento em diversos níveis de granularidade. Tais métodos pertencem à área de aprendizado não supervisionado de máquina, uma que vez obtêm modelos de agrupamento apenas pela observação de regularidades existentes na coleção textual, sem supervisão humana. Os métodos tradicionais de agrupamento assumem que a coleção textual é representada apenas pela informação técnica, ou seja, palavras e frases extraídas diretamente dos textos. Por outro lado, em muitas tarefas de agrupamento existe conhecimento adicional e valioso a respeito dos dados, geralmente extraído por um processo avançado com apoio de usuários especialistas do domínio do problema. Devido ao alto custo para obtenção desses dados, esta informação adicional é definida como privilegiada e usualmente está disponível para representar apenas um subconjunto dos documentos textuais. Recentemente, um novo paradigma de aprendizado de máquina denominado LUPI (Learning Using Privileged Information) foi proposto por Vapnik para incorporar informação privilegiada em métodos aprendizado supervisionado. Neste trabalho de doutorado, o paradigma LUPI foi estendido para aprendizado não supervisionado, em especial, para agrupamento hierárquico de textos. Foram propostas e avaliadas abordagens para lidar com diferentes desafios existentes em tarefas de agrupamento, envolvendo a extração e estruturação da informação privilegiada e seu uso para refinar ou corrigir modelos de agrupamento. As abordagens propostas se mostraram eficazes em (i) consenso de agrupamentos, permitindo combinar diferentes representações e soluções de agrupamento; (ii) aprendizado de métricas, em que medidas de proximidades mais robustas foram obtidas com base na informação privilegiada; e (iii) seleção de modelos, em que a informação privilegiada é explorada para identificar relevantes estruturas de agrupamento hierárquico. Todas as abordagens apresentadas foram investigadas em um cenário de agrupamento incremental, permitindo seu uso em aplicações práticas caracterizadas pela necessidade de eficiência computacional e alta frequência de publicação de novo conhecimento textual. / Hierarchical text clustering methods are very useful to analyze the implicit knowledge in textual collections, enabling the organization of textual documents into clusters and subclusters to facilitate the knowledge browsing at various levels of granularity. Such methods are classified as unsupervised machine learning, since the clustering models are obtained only by observing regularities of textual data without human supervision. Traditional clustering methods assume that the text collection is represented only by the technical information, i.e., words and phrases extracted directly from the texts. On the other hand, in many text clustering tasks there is an additional and valuable knowledge about the problem domain, usually extracted by an advanced process with support of the domain experts. Due to the high cost of obtaining such expert knowledge, this additional information is defined as privileged and is usually available to represent only a subset of the textual documents. Recently, a new machine learning paradigm called LUPI (Learning Using Privileged Information) was proposed by Vapnik to incorporate privileged information into supervised learning methods. In this thesis, the LUPI paradigm was extended to unsupervised learning setting, in particular for hierarchical text clustering. We propose and evaluate approaches to deal with different challenges for clustering tasks, involving the extraction and structuring of privileged information and using this additional information to refine or correct clustering models. The proposed approaches were effective in (i) consensus clustering, allowing to combine different clustering solutions and textual representations; (ii) metric learning, in which more robust proximity measures are obtained from privileged information; and (iii) model selection, in which the privileged information is exploited to identify the relevant structures of hierarchical clustering. All the approaches presented in this thesis were investigated in an incremental clustering scenario, allowing its use in practical applications that require computational efficiency as well as deal with high frequency of publication of new textual knowledge. Agrupamento hierárquico de textos Aprendizado de máquina Hierarchical text clustering Informação privilegiada Machine learning Privileged information
3	Aprendizado de máquina com informação privilegiada: abordagens para agrupamento hierárquico de textos / Machine learning with privileged information: approaches for hierarchical text clustering Ricardo Marcondes Marcacini 14 October 2014 (has links) Métodos de agrupamento hierárquico de textos são muito úteis para analisar o conhecimento embutido em coleções textuais, organizando os documentos textuais em grupos e subgrupos para facilitar a exploração do conhecimento em diversos níveis de granularidade. Tais métodos pertencem à área de aprendizado não supervisionado de máquina, uma que vez obtêm modelos de agrupamento apenas pela observação de regularidades existentes na coleção textual, sem supervisão humana. Os métodos tradicionais de agrupamento assumem que a coleção textual é representada apenas pela informação técnica, ou seja, palavras e frases extraídas diretamente dos textos. Por outro lado, em muitas tarefas de agrupamento existe conhecimento adicional e valioso a respeito dos dados, geralmente extraído por um processo avançado com apoio de usuários especialistas do domínio do problema. Devido ao alto custo para obtenção desses dados, esta informação adicional é definida como privilegiada e usualmente está disponível para representar apenas um subconjunto dos documentos textuais. Recentemente, um novo paradigma de aprendizado de máquina denominado LUPI (Learning Using Privileged Information) foi proposto por Vapnik para incorporar informação privilegiada em métodos aprendizado supervisionado. Neste trabalho de doutorado, o paradigma LUPI foi estendido para aprendizado não supervisionado, em especial, para agrupamento hierárquico de textos. Foram propostas e avaliadas abordagens para lidar com diferentes desafios existentes em tarefas de agrupamento, envolvendo a extração e estruturação da informação privilegiada e seu uso para refinar ou corrigir modelos de agrupamento. As abordagens propostas se mostraram eficazes em (i) consenso de agrupamentos, permitindo combinar diferentes representações e soluções de agrupamento; (ii) aprendizado de métricas, em que medidas de proximidades mais robustas foram obtidas com base na informação privilegiada; e (iii) seleção de modelos, em que a informação privilegiada é explorada para identificar relevantes estruturas de agrupamento hierárquico. Todas as abordagens apresentadas foram investigadas em um cenário de agrupamento incremental, permitindo seu uso em aplicações práticas caracterizadas pela necessidade de eficiência computacional e alta frequência de publicação de novo conhecimento textual. / Hierarchical text clustering methods are very useful to analyze the implicit knowledge in textual collections, enabling the organization of textual documents into clusters and subclusters to facilitate the knowledge browsing at various levels of granularity. Such methods are classified as unsupervised machine learning, since the clustering models are obtained only by observing regularities of textual data without human supervision. Traditional clustering methods assume that the text collection is represented only by the technical information, i.e., words and phrases extracted directly from the texts. On the other hand, in many text clustering tasks there is an additional and valuable knowledge about the problem domain, usually extracted by an advanced process with support of the domain experts. Due to the high cost of obtaining such expert knowledge, this additional information is defined as privileged and is usually available to represent only a subset of the textual documents. Recently, a new machine learning paradigm called LUPI (Learning Using Privileged Information) was proposed by Vapnik to incorporate privileged information into supervised learning methods. In this thesis, the LUPI paradigm was extended to unsupervised learning setting, in particular for hierarchical text clustering. We propose and evaluate approaches to deal with different challenges for clustering tasks, involving the extraction and structuring of privileged information and using this additional information to refine or correct clustering models. The proposed approaches were effective in (i) consensus clustering, allowing to combine different clustering solutions and textual representations; (ii) metric learning, in which more robust proximity measures are obtained from privileged information; and (iii) model selection, in which the privileged information is exploited to identify the relevant structures of hierarchical clustering. All the approaches presented in this thesis were investigated in an incremental clustering scenario, allowing its use in practical applications that require computational efficiency as well as deal with high frequency of publication of new textual knowledge. Agrupamento hierárquico de textos Aprendizado de máquina Informação privilegiada Hierarchical text clustering Machine learning Privileged information
4	Propagação de secas na bacia do Rio Paraná: do evento climático ao impacto hidrológico / Drougth propagation in the Paraná river basin: from the climatic event to the hydrologic impact Melo, Davi de Carvalho Diniz 26 April 2017 (has links) Desastres naturais (secas, enchentes, etc) têm resultado em perdas humanas e grandes prejuízos financeiros em diversos lugares do mundo. Os recentes períodos de seca ocorridos na região sudeste do Brasil mostraram a importância de se dispor de estratégias de mitigação dos efeitos decorrentes desses eventos extremos. Um pré-requisito para prever impactos desses eventos no futuro, é compreender como os mesmos ocorreram no passado, caracterizando-os espacial e temporalmente. Diante do exposto, o objetivo deste trabalho é quantificar os impactos regionais no sistema hidrológico causados por eventos extremos e identificar conexões entre as secas meteorológicas e hidrológicas, usando a bacia do rio Paraná como estudo de caso. Para tanto, foram identificados e caracterizados os principais eventos de seca ocorridos entre 1995 e 2015, analisaram-se as perdas de água nos componentes do balanço hídrico e no armazenamento total de água. Foram utilizados dados de sensoriamento remoto, incluindo medições da missão GRACE de anomalias no armazenamento total de água terrestre (TWSA), e estimativas de precipitação e evapotranspiração pelos satélites TRMM e MODIS, respectivamente. Simulações de modelos globais de assimilação de dados de superfície terrestre forneceram estimativas de escoamento superficial e umidade do solo. Foram coletados dados de 37 reservatórios para quantificar as perdas de água no armazenamento em terra. Os resultados mostram que o TWSA diminuiu 150 ± 50 km3 entre 2011 e 2015 na bacia do rio Paraná, o armazenamento dos reservatórios diminuiu 30% em relação à capacidade máxima do sistema com taxas de -17 a -25 km3 ano-1 durante as secas. Foram identificados seis grupos de reservatórios cujas respostas são variáveis de acordo com tipo de forçante (natural ou antropogênica) de maior controle. A análise dos tempos de resposta do sistema hidrológico sugere um tempo de até aproximadamente 6 meses para que medidas de combate às secas sejam tomadas. Este estudo ressalta as vantagens do uso combinado de dados de diferentes fontes em estudos regionais. / Natural disasters have caused major economics and human losses globally. Recent droughts over Southeast Brazil underscored the importance of having mitigation strategies to fight the effects from extreme events and a prerequisite to anticipate the impacts from future events is an understanding of past droughts by means of spatial and temporal characterization. The objective of this study is to quantify regional impacts of extreme events on the hydrological system and identify linkages between meteorological and hydrological droughts. To this end, major droughts events between 1995 and 2015 were identified and characterized. Depletion in total water storage (TWS) and main components of the water budget were analyzed. Simulated soil moisture and runoff from land surface models and remote sensing data were used, including measurements of TWS anomalies (TWSA) data from GRACE mission, rainfall and evapotranspiration estimates from TRMM and MODIS satellites, respectively. To quantify reservoir storage depletion, data from 37 reservoirs were collected. Results show that TWSA declined by 150 ± 50 km3 between 2011 and 2015 in the Paraná basin; and reservoir storage decreased 30% relative to the system\'s maximum capacity, with negative trends ranging from -17 to -25 km3 yr-1 during the droughts. Six groups of reservoirs were identified whose response vary according to the main forcing type: human and/or natural controls. Analysis of the system\'s time lag responses indicated a 6 month window during which actions could be taken to combat the drought impacts. This study emphasizes the importance of integrating remote sensing, modelling and monitoring data to evaluate droughts and develop a comprehensive understanding of the linkages between meteorological and hydrological droughts for future management. Agrupamento hierárquico GLDAS GLDAS GRACE mission Hierarchical clustering Hydrological drought Missão GRACE Remote sensing Seca hidrológica Sensoriamento remoto
5	Representações hierárquicas de vocábulos de línguas indígenas brasileiras: modelos baseados em mistura de Gaussianas / Hierarchical representations of words of brazilian indigenous languages: models based on Gaussian mixture Sepúlveda Torres, Lianet 08 December 2010 (has links) Apesar da ampla diversidade de línguas indígenas no Brasil, poucas pesquisas estudam estas línguas e suas relações. Inúmeros esforços têm sido dedicados a procurar similaridades entre as palavras das línguas indígenas e classificá-las em famílias de línguas. Seguindo a classificação mais aceita das línguas indígenas do Brasil, esta pesquisa propõe comparar palavras de 10 línguas indígenas brasileiras. Para isso, considera-se que estas palavras são sinais de fala e estima-se a função de distribuição de probabilidade (PDF) de cada palavra, usando um modelo de mistura de gaussianas (GMM). A PDF foi considerada um modelo para representar as palavras. Os modelos foram comparados utilizando medidas de distância para construir estruturas hierárquicas que evidenciaram possíveis relações entre as palavras. Seguindo esta linha, a hipótese levantada nesta pesquisa é que as PDFs baseadas em GMM conseguem caracterizar as palavras das línguas indígenas, permitindo o emprego de medidas de distância entre elas para estabelecer relações entre as palavras, de forma que tais relações confirmem algumas das classificações. Os parâmetros do GMM foram calculados utilizando o algoritmo Maximização da Expectância (em inglês, Expectation Maximization (EM)). A divergência Kullback Leibler (KL) foi empregada para medir semelhança entre as PDFs. Esta divergência serve de base para estabelecer as estruturas hierárquicas que ilustram as relações entre os modelos. A estimativa da PDF, baseada em GMM foi testada com o auxílio de sinais simulados, sendo possível confirmar que os parâmetros obtidos são próximos dos originais. Foram implementadas várias medidas de distância para avaliar se a semelhança entre os modelos estavam determinadas pelos modelos e não pelas medidas adotadas neste estudo. Os resultados de todas as medidas foram similares, somente foi observada alguma diferença nos agrupamentos realizados pela distância C2, por isso foi proposta como complemento da divergência KL. Estes resultados sugerem que as relações entre os modelos dependem das suas características, não das métricas de distância selecionadas no estudo e que as PDFs baseadas em GMM, conseguem fazer uma caracterização adequada das palavras. Em geral, foram observados agrupamentos entre palavras que pertenciam a línguas de um mesmo tronco linguístico, assim como se observou uma tendência a incluir línguas isoladas nos agrupamentos dos troncos linguísticos. Palavras que pertenciam a determinada língua apresentaram um comportamento padrão, sendo identificadas por esse tipo de comportamento. Embora os resultados para as palavras das línguas indígenas sejam inconclusivos, considera-se que o estudo foi útil para aumentar o conhecimento destas 10 línguas estudadas, propondo novas linhas de pesquisas dedicadas à análise destas palavras. / Although there exists a large diversity of indigenous languages in Brazil, there are few researches on these languages and their relationships. Numerous efforts have been dedicated to search for similarities among words of indigenous languages to classify them into families. Following the most accepted classification of Brazilian indigenous languages, this research proposes to compare words of 10 Brazilian indigenous languages. The words of the indigenous languages are considered speech signals and the Probability Distribution Function (PDF) of each word was estimated using the Gaussian Mixture Models (GMM). This estimation was considered a model to represent each word. The models were compared using distance measures to construct hierarchical structures that illustrate possible relationships among words. The hypothesis in this research is that the estimation of the PDF, based on GMM can characterize the words of indigenous languages, allowing the use of distance measures between the PDFs to establish relationships among the words and confirm some of the classifications. The Expectation Maximization algorithm (EM) was implemented to estimate the parameters that describe the GMM. The Kullback Leibler (KL) divergence was used to measure similarities between two PDFs. This divergence is the basis to establish the hierarchical structures that show the relationships among the models. The PDF estimation, based on GMM was tested using simulated signals, allowing confirming the useful approximation of the original parameters. Several distance measures were implemented to prove that the similarities among the models depended on the model of each word, and not on the distance measure adopted in this study. The results of all measures were similar, however, as the clustering results of the C2 distances showed some differences from the other clusters, C2 distance was proposed to complement the KL divergence. The results suggest that the relationships between models depend on their characteristics, and not on the distance measures selected in this study, and the PDFs based on GMM can properly characterize the words. In general, relations among languages that belong to the same linguistic branch were illustrated, showing a tendency to include isolated languages in groups of languages that belong to the same linguistic branches. As the GMM of some language families presents a standard behavior, it allows identifying each family. Although the results of the words of indigenous languages are inconclusive, this study is considered very useful to increase the knowledge of these types of languages and to propose new research lines directed to analyze this type of signals. Agrupamento hierárquico Dendogram Dendrograma Divergência KL Gaussian mixture models Hierarchical clustering Indigenous languages KL divergence Línguas indígenas Mistura de gaussianas
6	Métodos Bayesianos aplicados em taxonomia molecular / Bayesian methods applied in molecular taxonomy Edwin Rafael Villanueva Talavera 31 August 2007 (has links) Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na escolha da métrica de distância e a falta de tratamento e aproveitamento do conhecimento a priori disponível. Os métodos apresentados combinam por meio do teorema de Bayes a informação extraída dos dados com o conhecimento a priori que se dispõe, razão pela qual são denominados métodos Bayesianos. O primeiro método, método de agrupamento hierárquico Bayesiano, está baseado no algoritmo HBC (Hierarchical Bayesian Clustering). Este método constrói uma hierarquia de partições (dendrograma) baseado no critério da máxima probabilidade a posteriori de cada partição. O segundo método é baseado em um tipo de modelo gráfico probabilístico conhecido como redes Gaussianas condicionais, o qual foi adaptado para problemas de agrupamento. Ambos métodos foram avaliados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplicação real: a taxonomia de uma coleção brasileira de estirpes de bactérias do gênero Bradyrhizobium (conhecidas por sua capacidade de fixar o \'N IND.2\' do ar no solo). Este banco de dados é composto por dados genotípicos resultantes da análise do RNA ribossômico. Os resultados mostraram que o método hierárquico Bayesiano gera dendrogramas de boa qualidade, em alguns casos superior que o melhor dos algoritmos hierárquicos analisados. O método baseado em redes gaussianas condicionais também apresentou resultados aceitáveis, mostrando um adequado aproveitamento do conhecimento a priori sobre as classes tanto na determinação do número ótimo de grupos, quanto no melhoramento da qualidade dos agrupamentos. / In this work are presented two clustering methods thought to be applied in molecular taxonomy. These methods are based in probabilistic models which overcome some problems observed in traditional clustering methods such as the difficulty to know which distance metric must be used or the lack of treatment of available prior information. The proposed methods use the Bayes theorem to combine the information of the data with the available prior information, reason why they are called Bayesian methods. The first method implemented in this work was the hierarchical Bayesian clustering, which is an agglomerative hierarchical method that constructs a hierarchy of partitions (dendogram) guided by the criterion of maximum Bayesian posterior probability of the partition. The second method is based in a type of probabilistic graphical model knows as conditional Gaussian network, which was adapted for data clustering. Both methods were validated in 3 datasets where the labels are known. The methods were used too in a real problem: the clustering of a brazilian collection of bacterial strains belonging to the genus Bradyrhizobium, known by their capacity to transform the nitrogen (\'N IND.2\') of the atmosphere into nitrogen compounds useful for the host plants. This dataset is formed by genetic data resulting of the analysis of the ribosomal RNA. The results shown that the hierarchical Bayesian clustering method built dendrograms with good quality, in some cases, better than the other hierarchical methods. In the method based in conditional Gaussian network was observed acceptable results, showing an adequate utilization of the prior information (about the clusters) to determine the optimal number of clusters and to improve the quality of the groups. Agrupamento Agrupamento hierárquico Modelos gráficos probabilísticos Modelos probabilísticos Taxonomia molecular Clustering Hierarchical clustering Molecular taxonomy Probabilistic graphical models Probabilistic models
7	Representações hierárquicas de vocábulos de línguas indígenas brasileiras: modelos baseados em mistura de Gaussianas / Hierarchical representations of words of brazilian indigenous languages: models based on Gaussian mixture Lianet Sepúlveda Torres 08 December 2010 (has links) Apesar da ampla diversidade de línguas indígenas no Brasil, poucas pesquisas estudam estas línguas e suas relações. Inúmeros esforços têm sido dedicados a procurar similaridades entre as palavras das línguas indígenas e classificá-las em famílias de línguas. Seguindo a classificação mais aceita das línguas indígenas do Brasil, esta pesquisa propõe comparar palavras de 10 línguas indígenas brasileiras. Para isso, considera-se que estas palavras são sinais de fala e estima-se a função de distribuição de probabilidade (PDF) de cada palavra, usando um modelo de mistura de gaussianas (GMM). A PDF foi considerada um modelo para representar as palavras. Os modelos foram comparados utilizando medidas de distância para construir estruturas hierárquicas que evidenciaram possíveis relações entre as palavras. Seguindo esta linha, a hipótese levantada nesta pesquisa é que as PDFs baseadas em GMM conseguem caracterizar as palavras das línguas indígenas, permitindo o emprego de medidas de distância entre elas para estabelecer relações entre as palavras, de forma que tais relações confirmem algumas das classificações. Os parâmetros do GMM foram calculados utilizando o algoritmo Maximização da Expectância (em inglês, Expectation Maximization (EM)). A divergência Kullback Leibler (KL) foi empregada para medir semelhança entre as PDFs. Esta divergência serve de base para estabelecer as estruturas hierárquicas que ilustram as relações entre os modelos. A estimativa da PDF, baseada em GMM foi testada com o auxílio de sinais simulados, sendo possível confirmar que os parâmetros obtidos são próximos dos originais. Foram implementadas várias medidas de distância para avaliar se a semelhança entre os modelos estavam determinadas pelos modelos e não pelas medidas adotadas neste estudo. Os resultados de todas as medidas foram similares, somente foi observada alguma diferença nos agrupamentos realizados pela distância C2, por isso foi proposta como complemento da divergência KL. Estes resultados sugerem que as relações entre os modelos dependem das suas características, não das métricas de distância selecionadas no estudo e que as PDFs baseadas em GMM, conseguem fazer uma caracterização adequada das palavras. Em geral, foram observados agrupamentos entre palavras que pertenciam a línguas de um mesmo tronco linguístico, assim como se observou uma tendência a incluir línguas isoladas nos agrupamentos dos troncos linguísticos. Palavras que pertenciam a determinada língua apresentaram um comportamento padrão, sendo identificadas por esse tipo de comportamento. Embora os resultados para as palavras das línguas indígenas sejam inconclusivos, considera-se que o estudo foi útil para aumentar o conhecimento destas 10 línguas estudadas, propondo novas linhas de pesquisas dedicadas à análise destas palavras. / Although there exists a large diversity of indigenous languages in Brazil, there are few researches on these languages and their relationships. Numerous efforts have been dedicated to search for similarities among words of indigenous languages to classify them into families. Following the most accepted classification of Brazilian indigenous languages, this research proposes to compare words of 10 Brazilian indigenous languages. The words of the indigenous languages are considered speech signals and the Probability Distribution Function (PDF) of each word was estimated using the Gaussian Mixture Models (GMM). This estimation was considered a model to represent each word. The models were compared using distance measures to construct hierarchical structures that illustrate possible relationships among words. The hypothesis in this research is that the estimation of the PDF, based on GMM can characterize the words of indigenous languages, allowing the use of distance measures between the PDFs to establish relationships among the words and confirm some of the classifications. The Expectation Maximization algorithm (EM) was implemented to estimate the parameters that describe the GMM. The Kullback Leibler (KL) divergence was used to measure similarities between two PDFs. This divergence is the basis to establish the hierarchical structures that show the relationships among the models. The PDF estimation, based on GMM was tested using simulated signals, allowing confirming the useful approximation of the original parameters. Several distance measures were implemented to prove that the similarities among the models depended on the model of each word, and not on the distance measure adopted in this study. The results of all measures were similar, however, as the clustering results of the C2 distances showed some differences from the other clusters, C2 distance was proposed to complement the KL divergence. The results suggest that the relationships between models depend on their characteristics, and not on the distance measures selected in this study, and the PDFs based on GMM can properly characterize the words. In general, relations among languages that belong to the same linguistic branch were illustrated, showing a tendency to include isolated languages in groups of languages that belong to the same linguistic branches. As the GMM of some language families presents a standard behavior, it allows identifying each family. Although the results of the words of indigenous languages are inconclusive, this study is considered very useful to increase the knowledge of these types of languages and to propose new research lines directed to analyze this type of signals. Agrupamento hierárquico Dendrograma Divergência KL Línguas indígenas Mistura de gaussianas Dendogram Gaussian mixture models Hierarchical clustering Indigenous languages KL divergence
8	Métodos Bayesianos aplicados em taxonomia molecular / Bayesian methods applied in molecular taxonomy Villanueva Talavera, Edwin Rafael 31 August 2007 (has links) Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na escolha da métrica de distância e a falta de tratamento e aproveitamento do conhecimento a priori disponível. Os métodos apresentados combinam por meio do teorema de Bayes a informação extraída dos dados com o conhecimento a priori que se dispõe, razão pela qual são denominados métodos Bayesianos. O primeiro método, método de agrupamento hierárquico Bayesiano, está baseado no algoritmo HBC (Hierarchical Bayesian Clustering). Este método constrói uma hierarquia de partições (dendrograma) baseado no critério da máxima probabilidade a posteriori de cada partição. O segundo método é baseado em um tipo de modelo gráfico probabilístico conhecido como redes Gaussianas condicionais, o qual foi adaptado para problemas de agrupamento. Ambos métodos foram avaliados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplicação real: a taxonomia de uma coleção brasileira de estirpes de bactérias do gênero Bradyrhizobium (conhecidas por sua capacidade de fixar o \'N IND.2\' do ar no solo). Este banco de dados é composto por dados genotípicos resultantes da análise do RNA ribossômico. Os resultados mostraram que o método hierárquico Bayesiano gera dendrogramas de boa qualidade, em alguns casos superior que o melhor dos algoritmos hierárquicos analisados. O método baseado em redes gaussianas condicionais também apresentou resultados aceitáveis, mostrando um adequado aproveitamento do conhecimento a priori sobre as classes tanto na determinação do número ótimo de grupos, quanto no melhoramento da qualidade dos agrupamentos. / In this work are presented two clustering methods thought to be applied in molecular taxonomy. These methods are based in probabilistic models which overcome some problems observed in traditional clustering methods such as the difficulty to know which distance metric must be used or the lack of treatment of available prior information. The proposed methods use the Bayes theorem to combine the information of the data with the available prior information, reason why they are called Bayesian methods. The first method implemented in this work was the hierarchical Bayesian clustering, which is an agglomerative hierarchical method that constructs a hierarchy of partitions (dendogram) guided by the criterion of maximum Bayesian posterior probability of the partition. The second method is based in a type of probabilistic graphical model knows as conditional Gaussian network, which was adapted for data clustering. Both methods were validated in 3 datasets where the labels are known. The methods were used too in a real problem: the clustering of a brazilian collection of bacterial strains belonging to the genus Bradyrhizobium, known by their capacity to transform the nitrogen (\'N IND.2\') of the atmosphere into nitrogen compounds useful for the host plants. This dataset is formed by genetic data resulting of the analysis of the ribosomal RNA. The results shown that the hierarchical Bayesian clustering method built dendrograms with good quality, in some cases, better than the other hierarchical methods. In the method based in conditional Gaussian network was observed acceptable results, showing an adequate utilization of the prior information (about the clusters) to determine the optimal number of clusters and to improve the quality of the groups. Agrupamento Agrupamento hierárquico Clustering Hierarchical clustering Modelos gráficos probabilísticos Modelos probabilísticos Molecular taxonomy Probabilistic graphical models Probabilistic models Taxonomia molecular
9	Propagação de secas na bacia do Rio Paraná: do evento climático ao impacto hidrológico / Drougth propagation in the Paraná river basin: from the climatic event to the hydrologic impact Davi de Carvalho Diniz Melo 26 April 2017 (has links) Desastres naturais (secas, enchentes, etc) têm resultado em perdas humanas e grandes prejuízos financeiros em diversos lugares do mundo. Os recentes períodos de seca ocorridos na região sudeste do Brasil mostraram a importância de se dispor de estratégias de mitigação dos efeitos decorrentes desses eventos extremos. Um pré-requisito para prever impactos desses eventos no futuro, é compreender como os mesmos ocorreram no passado, caracterizando-os espacial e temporalmente. Diante do exposto, o objetivo deste trabalho é quantificar os impactos regionais no sistema hidrológico causados por eventos extremos e identificar conexões entre as secas meteorológicas e hidrológicas, usando a bacia do rio Paraná como estudo de caso. Para tanto, foram identificados e caracterizados os principais eventos de seca ocorridos entre 1995 e 2015, analisaram-se as perdas de água nos componentes do balanço hídrico e no armazenamento total de água. Foram utilizados dados de sensoriamento remoto, incluindo medições da missão GRACE de anomalias no armazenamento total de água terrestre (TWSA), e estimativas de precipitação e evapotranspiração pelos satélites TRMM e MODIS, respectivamente. Simulações de modelos globais de assimilação de dados de superfície terrestre forneceram estimativas de escoamento superficial e umidade do solo. Foram coletados dados de 37 reservatórios para quantificar as perdas de água no armazenamento em terra. Os resultados mostram que o TWSA diminuiu 150 ± 50 km3 entre 2011 e 2015 na bacia do rio Paraná, o armazenamento dos reservatórios diminuiu 30% em relação à capacidade máxima do sistema com taxas de -17 a -25 km3 ano-1 durante as secas. Foram identificados seis grupos de reservatórios cujas respostas são variáveis de acordo com tipo de forçante (natural ou antropogênica) de maior controle. A análise dos tempos de resposta do sistema hidrológico sugere um tempo de até aproximadamente 6 meses para que medidas de combate às secas sejam tomadas. Este estudo ressalta as vantagens do uso combinado de dados de diferentes fontes em estudos regionais. / Natural disasters have caused major economics and human losses globally. Recent droughts over Southeast Brazil underscored the importance of having mitigation strategies to fight the effects from extreme events and a prerequisite to anticipate the impacts from future events is an understanding of past droughts by means of spatial and temporal characterization. The objective of this study is to quantify regional impacts of extreme events on the hydrological system and identify linkages between meteorological and hydrological droughts. To this end, major droughts events between 1995 and 2015 were identified and characterized. Depletion in total water storage (TWS) and main components of the water budget were analyzed. Simulated soil moisture and runoff from land surface models and remote sensing data were used, including measurements of TWS anomalies (TWSA) data from GRACE mission, rainfall and evapotranspiration estimates from TRMM and MODIS satellites, respectively. To quantify reservoir storage depletion, data from 37 reservoirs were collected. Results show that TWSA declined by 150 ± 50 km3 between 2011 and 2015 in the Paraná basin; and reservoir storage decreased 30% relative to the system\'s maximum capacity, with negative trends ranging from -17 to -25 km3 yr-1 during the droughts. Six groups of reservoirs were identified whose response vary according to the main forcing type: human and/or natural controls. Analysis of the system\'s time lag responses indicated a 6 month window during which actions could be taken to combat the drought impacts. This study emphasizes the importance of integrating remote sensing, modelling and monitoring data to evaluate droughts and develop a comprehensive understanding of the linkages between meteorological and hydrological droughts for future management. Agrupamento hierárquico GLDAS Missão GRACE Seca hidrológica Sensoriamento remoto GLDAS GRACE mission Hierarchical clustering Hydrological drought Remote sensing
10	Selecionando candidatos a descritores para agrupamentos hierárquicos de documentos utilizando regras de associação / Selecting candidate labels for hierarchical document clusters using association rules Santos, Fabiano Fernandes dos 17 September 2010 (has links) Uma forma de extrair e organizar o conhecimento, que tem recebido muita atenção nos últimos anos, é por meio de uma representação estrutural dividida por tópicos hierarquicamente relacionados. Uma vez construída a estrutura hierárquica, é necessário encontrar descritores para cada um dos grupos obtidos pois a interpretação destes grupos é uma tarefa complexa para o usuário, já que normalmente os algoritmos não apresentam descrições conceituais simples. Os métodos encontrados na literatura consideram cada documento como uma bag-of-words e não exploram explicitamente o relacionamento existente entre os termos dos documento do grupo. No entanto, essas relações podem trazer informações importantes para a decisão dos termos que devem ser escolhidos como descritores dos nós, e poderiam ser representadas por regras de associação. Assim, o objetivo deste trabalho é avaliar a utilização de regras de associação para apoiar a identificação de descritores para agrupamentos hierárquicos. Para isto, foi proposto o método SeCLAR (Selecting Candidate Labels using Association Rules), que explora o uso de regras de associação para a seleção de descritores para agrupamentos hierárquicos de documentos. Este método gera regras de associação baseadas em transações construídas à partir de cada documento da coleção, e utiliza a informação de relacionamento existente entre os grupos do agrupamento hierárquico para selecionar candidatos a descritores. Os resultados da avaliação experimental indicam que é possível obter uma melhora significativa com relação a precisão e a cobertura dos métodos tradicionais / One way to organize knowledge, that has received much attention in recent years, is to create a structural representation divided by hierarchically related topics. Once this structure is built, it is necessary to find labels for each of the obtained clusters, since most algorithms do not produce simple descriptions and the interpretation of these clusters is a difficult task for users. The related works consider each document as a bag-of-words and do not explore explicitly the relationship between the terms of the documents. However, these relationships can provide important information to the decision of the terms that must be chosen as descriptors of the nodes, and could be represented by rass. This works aims to evaluate the use of association rules to support the identification of labels for hierarchical document clusters. Thus, this paper presents the SeCLAR (Selecting Candidate Labels using Association Rules) method, which explores the use of association rules for the selection of good candidates for labels of hierarchical clusters of documents. This method generates association rules based on transactions built from each document in the collection, and uses the information relationship between the nodes of hierarchical clustering to select candidates for labels. The experimental results show that it is possible to obtain a significant improvement with respect to precision and recall of traditional methods Agrupamento hierárquico de documantos Association rules Hierarchical document clustering Label hierarchical clustering Mineração de texto Regras de associação Text mining

Search results