Spelling suggestions: "subject:"[een] FUSION TECHNIQUES"" "subject:"[enn] FUSION TECHNIQUES""
1 |
Hypergraphs and information fusion for term representation enrichment : applications to named entity recognition and word sense disambiguation / Hypergraphes et fusion d’information pour l’enrichissement de la représentation de termes : applications à la reconnaissance d’entités nommées et à la désambiguïsation du sens des motsSoriano-Morales, Edmundo-Pavel 07 February 2018 (has links)
Donner du sens aux données textuelles est une besoin essentielle pour faire les ordinateurs comprendre notre langage. Pour extraire des informations exploitables du texte, nous devons les représenter avec des descripteurs avant d’utiliser des techniques d’apprentissage. Dans ce sens, le but de cette thèse est de faire la lumière sur les représentations hétérogènes des mots et sur la façon de les exploiter tout en abordant leur nature implicitement éparse.Dans un premier temps, nous proposons un modèle de réseau basé sur des hypergraphes qui contient des données linguistiques hétérogènes dans un seul modèle unifié. En d’autres termes, nous introduisons un modèle qui représente les mots au moyen de différentes propriétés linguistiques et les relie ensemble en fonction desdites propriétés. Notre proposition diffère des autres types de réseaux linguistiques parce que nous visons à fournir une structure générale pouvant contenir plusieurstypes de caractéristiques descriptives du texte, au lieu d’une seule comme dans la plupart des représentations existantes.Cette représentation peut être utilisée pour analyser les propriétés inhérentes du langage à partir de différents points de vue, oupour être le point de départ d’un pipeline de tâches du traitement automatique de langage. Deuxièmement, nous utilisons des techniques de fusion de caractéristiques pour fournir une représentation enrichie unique qui exploite la nature hétérogènedu modèle et atténue l’eparsité de chaque représentation. Ces types de techniques sont régulièrement utilisés exclusivement pour combiner des données multimédia.Dans notre approche, nous considérons différentes représentations de texte comme des sources d’information distinctes qui peuvent être enrichies par elles-mêmes. Cette approche n’a pas été explorée auparavant, à notre connaissance. Troisièmement, nous proposons un algorithme qui exploite les caractéristiques du réseau pour identifier et grouper des mots liés sémantiquement en exploitant les propriétés des réseaux. Contrairement aux méthodes similaires qui sont également basées sur la structure du réseau, notre algorithme réduit le nombre de paramètres requis et surtout, permet l’utilisation de réseaux lexicaux ou syntaxiques pour découvrir les groupes de mots, au lieu d’un type unique des caractéristiques comme elles sont habituellement employées.Nous nous concentrons sur deux tâches différentes de traitement du langage naturel: l’induction et la désambiguïsation des sens des mots (en anglais, Word Sense, Induction and Disambiguation, ou WSI/WSD) et la reconnaissance d’entité nommées(en anglais, Named Entity Recognition, ou NER). Au total, nous testons nos propositions sur quatre ensembles de données différents. Nous effectuons nos expériences et développements en utilisant des corpus à accès libre. Les résultats obtenus nous permettent de montrer la pertinence de nos contributions et nous donnent également un aperçu des propriétés des caractéristiques hétérogènes et de leurs combinaisons avec les méthodes de fusion. Plus précisément, nos expériences sont doubles: premièrement, nous montrons qu’en utilisant des caractéristiques hétérogènes enrichies par la fusion, provenant de notre réseau linguistique proposé, nous surpassons la performance des systèmes à caractéristiques uniques et basés sur la simple concaténation de caractéristiques. Aussi, nous analysons les opérateurs de fusion utilisés afin de mieux comprendre la raison de ces améliorations. En général, l’utilisation indépendante d’opérateurs de fusion n’est pas aussi efficace que l’utilisation d’une combinaison de ceux-ci pour obtenir une représentation spatiale finale. Et deuxièmement, nous abordons encore une fois la tâche WSI/WSD, cette fois-ci avec la méthode à base de graphes proposée afin de démontrer sa pertinence par rapport à la tâche. Nous discutons les différents résultats obtenus avec des caractéristiques lexicales ou syntaxiques. / Making sense of textual data is an essential requirement in order to make computers understand our language. To extract actionable information from text, we need to represent it by means of descriptors before using knowledge discovery techniques.The goal of this thesis is to shed light into heterogeneous representations of words and how to leverage them while addressing their implicit sparse nature.First, we propose a hypergraph network model that holds heterogeneous linguistic data in a single unified model. In other words, we introduce a model that represents words by means of different linguistic properties and links them together accordingto said properties. Our proposition differs to other types of linguistic networks in that we aim to provide a general structure that can hold several types of descriptive text features, instead of a single one as in most representations. This representationmay be used to analyze the inherent properties of language from different points of view, or to be the departing point of an applied NLP task pipeline. Secondly, we employ feature fusion techniques to provide a final single enriched representation that exploits the heterogeneous nature of the model and alleviates the sparseness of each representation.These types of techniques are regularly used exclusively to combine multimedia data. In our approach, we consider different text representations as distinct sources of information which can be enriched by themselves. This approach has not been explored before, to the best of our knowledge. Thirdly, we propose an algorithm that exploits the characteristics of the network to identify and group semantically related words by exploiting the real-world properties of the networks. In contrast with similar methods that are also based on the structure of the network, our algorithm reduces the number of required parameters and more importantly, allows for the use of either lexical or syntactic networks to discover said groups of words, instead of the singletype of features usually employed.We focus on two different natural language processing tasks: Word Sense Induction and Disambiguation (WSI/WSD), and Named Entity Recognition (NER). In total, we test our propositions on four different open-access datasets. The results obtained allow us to show the pertinence of our contributions and also give us some insights into the properties of heterogeneous features and their combinations with fusion methods. Specifically, our experiments are twofold: first, we show that using fusion-enriched heterogeneous features, coming from our proposed linguistic network, we outperform the performance of single features’ systems and other basic baselines. We note that using single fusion operators is not efficient compared to using a combination of them in order to obtain a final space representation. We show that the features added by each combined fusion operation are important towards the models predicting the appropriate classes. We test the enriched representations on both WSI/WSD and NER tasks. Secondly, we address the WSI/WSD task with our network-based proposed method. While based on previous work, we improve it by obtaining better overall performance and reducing the number of parameters needed. We also discuss the use of either lexical or syntactic networks to solve the task.Finally, we parse a corpus based on the English Wikipedia and then store it following the proposed network model. The parsed Wikipedia version serves as a linguistic resource to be used by other researchers. Contrary to other similar resources, insteadof just storing its part of speech tag and its dependency relations, we also take into account the constituency-tree information of each word analyzed. The hope is for this resource to be used on future developments without the need to compile suchresource from zero.
|
2 |
[en] MULTIPLE CLASSIFIER SYSTEM FOR MOTOR IMAGERY TASK CLASSIFICATION / [pt] SISTEMA DE MÚLTIPLOS CLASSIFICADORES PARA CLASSIFICAÇÃO DE TAREFAS DE IMAGINAÇÃO MOTORAALIMED CELECIA RAMOS 09 August 2017 (has links)
[pt] Interfaces Cérebro Computador (BCIs) são sistemas artificiais que permitem a interação entre a pessoa e seu ambiente empregando a tradução de sinais elétricos cerebrais como controle para qualquer dispositivo externo. Um Sistema de neuroreabilitação baseado em EEG pode combinar portabilidade e baixo custo com boa resolução temporal e nenhum risco para a vida do usuário. Este sistema pode estimular a plasticidade cerebral, desde que ofereça confiabilidade no reconhecimento das tarefas de imaginação motora realizadas pelo usuário. Portanto, o objetivo deste trabalho é o projeto de um sistema de aprendizado de máquinas que, baseado no sinal de EEG de somente dois eletrodos, C3 e C4, consiga classificar tarefas de imaginação motora com alta acurácia, robustez às variações do sinal entre experimentos e entre sujeitos, e tempo de processamento razoável. O sistema de aprendizado de máquina proposto é composto de quatro etapas principais: pré-processamento, extração de atributos, seleção de atributos, e classificação. O pré-processamento e extração de atributos são implementados mediante a extração de atributos estatísticos, de potência e de fase das sub-bandas de frequência obtidas utilizando a Wavelet Packet Decomposition. Já a seleção de atributos é efetuada por um Algoritmo Genético e o modelo de classificação é constituído por um Sistema de Múltiplos Classificadores, composto por diferentes classificadores, e combinados por uma rede neural Multi-Layer Perceptron. O sistema foi testado em seis sujeitos de bases de dados obtidas das Competições de BCIs e comparados com trabalhos benchmark da literatura, superando os resultados dos outros métodos. Adicionalmente, um sistema real de BCI para neurorehabilitação foi projetado, desenvolvido e testado, produzindo também bons resultados. / [en] Brain Computer Interfaces (BCIs) are artificial systems that allow the interaction between a person and their environment using the translated brain electrical signals to control any external device. An EEG neurorehabilitation system can combine portability and affordability with good temporal resolution and no health risks to the user. This system can stimulate the brain plasticity, provided that the system offers reliability on the recognition of the motor imagery (MI) tasks performed by the user. Therefore, the aim of this work is the design of a machine learning system that, based on the EEG signal from only C3 and C4 electrodes, can classify MI tasks with high accuracy, robustness to trial and inter-subject signal variations, and reasonable processing time. The proposed machine learning system has four main stages: preprocessing, feature extraction, feature selection, and classification. The preprocessing and feature extraction are implemented by the extraction of statistical, power and phase features of the frequency sub-bands obtained by the Wavelet Packet Decomposition. The feature selection process is effectuated by a Genetic Algorithm and the classifier model is constituted by a Multiple Classifier System composed by different classifiers and combined by a Multilayer Perceptron Neural Network as meta-classifier. The system is tested on six subjects from datasets offered by the BCIs Competitions and compared with benchmark works founded in the literature, outperforming the other methods. In addition, a real BCI system for neurorehabilitation is designed and tested, producing good results as well.
|
Page generated in 0.0541 seconds