Global ETD Search

1	[en] ENTROPY GUIDED FEATURE GENERATION FOR STRUCTURE LEARNING / [pt] GERAÇÃO DE ATRIBUTOS GUIADA POR ENTROPIA PARA APRENDIZADO DE ESTRUTURAS 17 December 2014 (has links) [pt] Aprendizado de estruturas consiste em aprender um mapeamento de variáveis de entrada para saídas estruturadas a partir de exemplos de pares entrada-saída. Vários problemas importantes podem ser modelados desta maneira. O processamento de linguagem natural provê diversas tarefas que podem ser formuladas e solucionadas através do aprendizado de estruturas. Por exemplo, parsing de dependência envolve o reconhecimento de uma árvore implícita em uma frase. Geração de atributos é uma sub-tarefa importante do aprendizado de estruturas. Geralmente, esta sub-tarefa é realizada por um especialista que constrói gabaritos de atributos complexos e discriminativos através da combinação dos atributos básicos disponíveis na entrada. Esta é uma forma limitada e cara para geração de atributos e é reconhecida como um gargalo de modelagem. Neste trabalho, propomos um método automático para geração de atributos para problemas de aprendizado de estruturas. Este método é guiado por entropia já que é baseado na entropia condicional de variáveis locais de saída dados os atributos básicos. Comparamos experimentalmente o método proposto com dois métodos alternativos para geração de atributos: geração manual e métodos de kernel polinomial. Nossos resultados mostram que o método de geração de atributos guiado por entropia é superior aos dois métodos alternativos em diferentes aspectos. Nosso método é muito mais barato do que o método manual e computacionalmente mais rápido que o método baseado em kernel. Adicionalmente, ele permite o controle do seu poder de generalização mais facilmente do que métodos de kernel. Nós avaliamos nosso método em nove datasets envolvendo cinco tarefas de linguística computacional e quatro idiomas. Os sistemas desenvolvidos apresentam resultados comparáveis aos melhores sistemas atualmente e, particularmente para etiquetagem morfossintática, identificação de sintagmas, extração de citações e resolução de coreferência, obtêm os melhores resultados conhecidos para diferentes idiomas como Árabe, Chinês, Inglês e Português. Adicionalmente, nosso sistema de resolução de coreferência obteve o primeiro lugar na competição Conference on Computational Natural Language Learning 2012 Shared Task. O sistema vencedor foi determinado pela média de desempenho em três idiomas: Árabe, Chinês e Inglês. Nosso sistema obteve o melhor desempenho nos três idiomas avaliados. Nosso método de geração de atributos estende naturalmente o framework de aprendizado de estruturas e não está restrito a tarefas de processamento de linguagem natural. / [en] Structure learning consists in learning a mapping from inputs to structured outputs by means of a sample of correct input-output pairs. Many important problems fit into this setting. Natural language processing provides several tasks that can be formulated and solved as structure learning problems. Dependency parsing, for instance, involves the prediction of a tree underlying a sentence. Feature generation is an important subtask of structure learning which, usually, is partially solved by a domain expert that builds complex discriminative feature templates by conjoining the available basic features. This is a limited and expensive way to generate features and is recognized as a modeling bottleneck. In this work, we propose an automatic feature generation method for structure learning problems. This method is entropy guided since it generates complex features based on the conditional entropy of local output variables given the available input features. We experimentally compare the proposed method with two important alternative feature generation methods, namely manual template generation and polynomial kernel methods. Our experimental findings indicate that the proposed method is more attractive than both alternatives. It is much cheaper than manual templates and computationally faster than kernel methods. Additionally, it is simpler to control its generalization performance than with kernel methods. We evaluate our method on nine datasets involving five natural language processing tasks and four languages. The resulting systems present state-of-the-art comparable performances and, particularly on part-of-speech tagging, text chunking, quotation extraction and coreference resolution, remarkably achieve the best known performances on different languages like Arabic, Chinese, English, and Portuguese. Furthermore, our coreference resolution systems achieve the very first place on the Conference on Computational Natural Language Learning 2012 Shared Task. The competing systems were ranked by the mean score over three languages: Arabic, Chinese and English. Our approach obtained the best performances among all competitors for all the three languages. Our feature generation method naturally extends the general structure learning framework and is not restricted to natural language processing tasks. [pt] ENTROPIA [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] GERACAO DE ATRIBUTOS [pt] APRENDIZADO DE ESTRUTURAS [en] ENTROPY [en] NATURAL LANGUAGE PROCESSING
2	Aprendizado de estruturas de dependência entre fenótipos da síndrome metabólica em estudos genômicos / Structure learning of the metabolic syndrome phenotypes network in family genomic studies Wilk, Lilian Skilnik 26 June 2017 (has links) Introdução: O número de estudos relacionados à Síndrome Metabólica (SM) vem aumentando nos últimos anos, muitas vezes motivados pelo aumento do número de casos de sobrepeso/obesidade e diabetes Tipo II levando ao desenvolvimento de doenças cardiovasculares e, como consequência, infarto agudo do miocárdio e AVC, dentre outros desfechos desfavoráveis. A SM é uma doença multifatorial composta de cinco características, porém, para que um indivíduo seja diagnosticado com ela, possuir pelo menos três dessas características torna-se condição suficiente. Essas cinco características são: Obesidade visceral, caracterizada pelo aumento da circunferência da cintura, Glicemia de jejum elevada, Triglicérides aumentado, HDL-colesterol reduzido, Pressão Arterial aumentada. Objetivo: Estabelecer a rede de associações entre os fenótipos que compõem a Síndrome Metabólica através do aprendizado de estruturas de dependência, decompor a rede em componentes de correlação genética e ambiental e avaliar o efeito de ajustes por covariáveis e por variantes genéticas exclusivamente relacionadas à cada um dos fenótipos da rede. Material e Métodos: A amostra do estudo corresponderá a 79 famílias da cidade mineira de Baependi, composta por 1666 indivíduos. O aprendizado de estruturas de redes será feito por meio da Teoria de Grafos e Modelos de Equações Estruturais envolvendo o modelo linear misto poligênico para determinar as relações de dependência entre os fenótipos que compõem a Síndrome Metabólica / Introduction: The number of studies related to Metabolic Syndrome (MetS) has been increasing in the last years, encouraged by the increase on the overweight / obesity and Type II Diabetes cases, leading to the development of cardiovascular disease and, therefore, acute myocardial infarction and stroke, and others unfavorable outcomes. MetS is a multifactorial disease containing five characteristics, however, for an individual to be diagnosed with MetS, he/she may have at least three of them. These characteristics are: Truncal Obesity, characterized by increasing on the waist circumference, increasing on Fasting Blood Glucose, increasing on Triglycerides, decreasing on HDL cholesterol and increasing on Blood Pressure. Aims: Establish the best association network between MetS phenotypes through structured dependency learning between phenotypes considering genetic variants exclusively related to each phenotype. Materials and Methods: The study sample is composed of 79 families, 1666 individuals of a city in a rural area of Brazil, called Beapendi. Structured learning will use graph theory and Structural Equations Models to establish the dependency relations between MetS phenotypes Acyclic Directed Graphs Aprendizado de Estruturas Dados de Famílias Family Data Grafos Acíclicos Direcionados Grafos Não Direcionados Markov Properties Metabolic Syndrome Propriedades de Markov Síndrome Metabólica SNPs SNPs Structural Equation Models Structured Learning Undirected Graphs
3	Aprendizado de estruturas de dependência entre fenótipos da síndrome metabólica em estudos genômicos / Structure learning of the metabolic syndrome phenotypes network in family genomic studies Lilian Skilnik Wilk 26 June 2017 (has links) Introdução: O número de estudos relacionados à Síndrome Metabólica (SM) vem aumentando nos últimos anos, muitas vezes motivados pelo aumento do número de casos de sobrepeso/obesidade e diabetes Tipo II levando ao desenvolvimento de doenças cardiovasculares e, como consequência, infarto agudo do miocárdio e AVC, dentre outros desfechos desfavoráveis. A SM é uma doença multifatorial composta de cinco características, porém, para que um indivíduo seja diagnosticado com ela, possuir pelo menos três dessas características torna-se condição suficiente. Essas cinco características são: Obesidade visceral, caracterizada pelo aumento da circunferência da cintura, Glicemia de jejum elevada, Triglicérides aumentado, HDL-colesterol reduzido, Pressão Arterial aumentada. Objetivo: Estabelecer a rede de associações entre os fenótipos que compõem a Síndrome Metabólica através do aprendizado de estruturas de dependência, decompor a rede em componentes de correlação genética e ambiental e avaliar o efeito de ajustes por covariáveis e por variantes genéticas exclusivamente relacionadas à cada um dos fenótipos da rede. Material e Métodos: A amostra do estudo corresponderá a 79 famílias da cidade mineira de Baependi, composta por 1666 indivíduos. O aprendizado de estruturas de redes será feito por meio da Teoria de Grafos e Modelos de Equações Estruturais envolvendo o modelo linear misto poligênico para determinar as relações de dependência entre os fenótipos que compõem a Síndrome Metabólica / Introduction: The number of studies related to Metabolic Syndrome (MetS) has been increasing in the last years, encouraged by the increase on the overweight / obesity and Type II Diabetes cases, leading to the development of cardiovascular disease and, therefore, acute myocardial infarction and stroke, and others unfavorable outcomes. MetS is a multifactorial disease containing five characteristics, however, for an individual to be diagnosed with MetS, he/she may have at least three of them. These characteristics are: Truncal Obesity, characterized by increasing on the waist circumference, increasing on Fasting Blood Glucose, increasing on Triglycerides, decreasing on HDL cholesterol and increasing on Blood Pressure. Aims: Establish the best association network between MetS phenotypes through structured dependency learning between phenotypes considering genetic variants exclusively related to each phenotype. Materials and Methods: The study sample is composed of 79 families, 1666 individuals of a city in a rural area of Brazil, called Beapendi. Structured learning will use graph theory and Structural Equations Models to establish the dependency relations between MetS phenotypes Aprendizado de Estruturas Dados de Famílias Grafos Acíclicos Direcionados Grafos Não Direcionados Propriedades de Markov Síndrome Metabólica SNPs Acyclic Directed Graphs Family Data Markov Properties Metabolic Syndrome SNPs Structural Equation Models Structured Learning Undirected Graphs
4	Structure learning of Bayesian networks via data perturbation / Aprendizagem estrutural de Redes Bayesianas via perturbação de dados Gross, Tadeu Junior 29 November 2018 (has links) Structure learning of Bayesian Networks (BNs) is an NP-hard problem, and the use of sub-optimal strategies is essential in domains involving many variables. One of them is to generate multiple approximate structures and then to reduce the ensemble to a representative structure. It is possible to use the occurrence frequency (on the structures ensemble) as the criteria for accepting a dominant directed edge between two nodes and thus obtaining the single structure. In this doctoral research, it was made an analogy with an adapted one-dimensional random-walk for analytically deducing an appropriate decision threshold to such occurrence frequency. The obtained closed-form expression has been validated across benchmark datasets applying the Matthews Correlation Coefficient as the performance metric. In the experiments using a recent medical dataset, the BN resulting from the analytical cutoff-frequency captured the expected associations among nodes and also achieved better prediction performance than the BNs learned with neighbours thresholds to the computed. In literature, the feature accounted along of the perturbed structures has been the edges and not the directed edges (arcs) as in this thesis. That modified strategy still was applied to an elderly dataset to identify potential relationships between variables of medical interest but using an increased threshold instead of the predict by the proposed formula - such prudence is due to the possible social implications of the finding. The motivation behind such an application is that in spite of the proportion of elderly individuals in the population has increased substantially in the last few decades, the risk factors that should be managed in advance to ensure a natural process of mental decline due to ageing remain unknown. In the learned structural model, it was graphically investigated the probabilistic dependence mechanism between two variables of medical interest: the suspected risk factor known as Metabolic Syndrome and the indicator of mental decline referred to as Cognitive Impairment. In this investigation, the concept known in the context of BNs as D-separation has been employed. Results of the carried out study revealed that the dependence between Metabolic Syndrome and Cognitive Variables indeed exists and depends on both Body Mass Index and age. / O aprendizado da estrutura de uma Rede Bayesiana (BN) é um problema NP-difícil, e o uso de estratégias sub-ótimas é essencial em domínios que envolvem muitas variáveis. Uma delas consiste em gerar várias estruturas aproximadas e depois reduzir o conjunto a uma estrutura representativa. É possível usar a frequência de ocorrência (no conjunto de estruturas) como critério para aceitar um arco dominante entre dois nós e assim obter essa estrutura única. Nesta pesquisa de doutorado, foi feita uma analogia com um passeio aleatório unidimensional adaptado para deduzir analiticamente um limiar de decisão apropriado para essa frequência de ocorrência. A expressão de forma fechada obtida foi validada usando bases de dados de referência e aplicando o Coeficiente de Correlação de Matthews como métrica de desempenho. Nos experimentos utilizando dados médicos recentes, a BN resultante da frequência de corte analítica capturou as associações esperadas entre os nós e também obteve melhor desempenho de predição do que as BNs aprendidas com limiares vizinhos ao calculado. Na literatura, a característica contabilizada ao longo das estruturas perturbadas tem sido as arestas e não as arestas direcionadas (arcos) como nesta tese. Essa estratégia modificada ainda foi aplicada a um conjunto de dados de idosos para identificar potenciais relações entre variáveis de interesse médico, mas usando um limiar aumentado em vez do previsto pela fórmula proposta - essa cautela deve-se às possíveis implicações sociais do achado. A motivação por trás dessa aplicação é que, apesar da proporção de idosos na população ter aumentado substancialmente nas últimas décadas, os fatores de risco que devem ser controlados com antecedência para garantir um processo natural de declínio mental devido ao envelhecimento permanecem desconhecidos. No modelo estrutural aprendido, investigou-se graficamente o mecanismo de dependência probabilística entre duas variáveis de interesse médico: o fator de risco suspeito conhecido como Síndrome Metabólica e o indicador de declínio mental denominado Comprometimento Cognitivo. Nessa investigação, empregou-se o conceito conhecido no contexto de BNs como D-separação. Esse estudo revelou que a dependência entre Síndrome Metabólica e Variáveis Cognitivas de fato existe e depende tanto do Índice de Massa Corporal quanto da idade. Analytical threshold Aprendizado de estruturas robustas Associations discovery Bayesian network Cognitive impairment D-separação D-separation Data perturbation via bootstrap replicas Descoberta de associações Directed acyclic graph Envelhecimento da população Estabilidade de arcos Fatores de risco Grafo acíclico dirigido Learning of robust structures limiar analítico Média de modelos Metabolic syndrome Model averaging Perturbação de dados via bootstrap Population ageing Rede Bayesiana Risk factors Síndrome metabólica Stability of arcs Transtorno cognitivo
5	Structure learning of Bayesian networks via data perturbation / Aprendizagem estrutural de Redes Bayesianas via perturbação de dados Tadeu Junior Gross 29 November 2018 (has links) Structure learning of Bayesian Networks (BNs) is an NP-hard problem, and the use of sub-optimal strategies is essential in domains involving many variables. One of them is to generate multiple approximate structures and then to reduce the ensemble to a representative structure. It is possible to use the occurrence frequency (on the structures ensemble) as the criteria for accepting a dominant directed edge between two nodes and thus obtaining the single structure. In this doctoral research, it was made an analogy with an adapted one-dimensional random-walk for analytically deducing an appropriate decision threshold to such occurrence frequency. The obtained closed-form expression has been validated across benchmark datasets applying the Matthews Correlation Coefficient as the performance metric. In the experiments using a recent medical dataset, the BN resulting from the analytical cutoff-frequency captured the expected associations among nodes and also achieved better prediction performance than the BNs learned with neighbours thresholds to the computed. In literature, the feature accounted along of the perturbed structures has been the edges and not the directed edges (arcs) as in this thesis. That modified strategy still was applied to an elderly dataset to identify potential relationships between variables of medical interest but using an increased threshold instead of the predict by the proposed formula - such prudence is due to the possible social implications of the finding. The motivation behind such an application is that in spite of the proportion of elderly individuals in the population has increased substantially in the last few decades, the risk factors that should be managed in advance to ensure a natural process of mental decline due to ageing remain unknown. In the learned structural model, it was graphically investigated the probabilistic dependence mechanism between two variables of medical interest: the suspected risk factor known as Metabolic Syndrome and the indicator of mental decline referred to as Cognitive Impairment. In this investigation, the concept known in the context of BNs as D-separation has been employed. Results of the carried out study revealed that the dependence between Metabolic Syndrome and Cognitive Variables indeed exists and depends on both Body Mass Index and age. / O aprendizado da estrutura de uma Rede Bayesiana (BN) é um problema NP-difícil, e o uso de estratégias sub-ótimas é essencial em domínios que envolvem muitas variáveis. Uma delas consiste em gerar várias estruturas aproximadas e depois reduzir o conjunto a uma estrutura representativa. É possível usar a frequência de ocorrência (no conjunto de estruturas) como critério para aceitar um arco dominante entre dois nós e assim obter essa estrutura única. Nesta pesquisa de doutorado, foi feita uma analogia com um passeio aleatório unidimensional adaptado para deduzir analiticamente um limiar de decisão apropriado para essa frequência de ocorrência. A expressão de forma fechada obtida foi validada usando bases de dados de referência e aplicando o Coeficiente de Correlação de Matthews como métrica de desempenho. Nos experimentos utilizando dados médicos recentes, a BN resultante da frequência de corte analítica capturou as associações esperadas entre os nós e também obteve melhor desempenho de predição do que as BNs aprendidas com limiares vizinhos ao calculado. Na literatura, a característica contabilizada ao longo das estruturas perturbadas tem sido as arestas e não as arestas direcionadas (arcos) como nesta tese. Essa estratégia modificada ainda foi aplicada a um conjunto de dados de idosos para identificar potenciais relações entre variáveis de interesse médico, mas usando um limiar aumentado em vez do previsto pela fórmula proposta - essa cautela deve-se às possíveis implicações sociais do achado. A motivação por trás dessa aplicação é que, apesar da proporção de idosos na população ter aumentado substancialmente nas últimas décadas, os fatores de risco que devem ser controlados com antecedência para garantir um processo natural de declínio mental devido ao envelhecimento permanecem desconhecidos. No modelo estrutural aprendido, investigou-se graficamente o mecanismo de dependência probabilística entre duas variáveis de interesse médico: o fator de risco suspeito conhecido como Síndrome Metabólica e o indicador de declínio mental denominado Comprometimento Cognitivo. Nessa investigação, empregou-se o conceito conhecido no contexto de BNs como D-separação. Esse estudo revelou que a dependência entre Síndrome Metabólica e Variáveis Cognitivas de fato existe e depende tanto do Índice de Massa Corporal quanto da idade. Aprendizado de estruturas robustas D-separação Descoberta de associações Envelhecimento da população Estabilidade de arcos Fatores de risco Grafo acíclico dirigido limiar analítico Média de modelos Perturbação de dados via bootstrap Rede Bayesiana Síndrome metabólica Transtorno cognitivo Analytical threshold Associations discovery Bayesian network Cognitive impairment D-separation Data perturbation via bootstrap replicas Directed acyclic graph Learning of robust structures Metabolic syndrome Model averaging Population ageing Risk factors Stability of arcs

1

Page generated in 0.1111 seconds