Global ETD Search

21	Les réseaux bayésiens : classification et recherche de réseaux locaux en cancérologie / Classification and capture of regulation networks with bayesian networks in oncology Prestat, Emmanuel 25 May 2010 (has links) En cancérologie, les puces à ADN mesurant le transcriptome sont devenues un outil commun pour chercher à caractériser plus finement les pathologies, dans l’espoir de trouver au travers des expressions géniques : des mécanismes,des classes, des associations entre molécules, des réseaux d’interactions cellulaires. Ces réseaux d’interactions sont très intéressants d’un point de vue biologique car ils concentrent un grand nombre de connaissances sur le fonctionnement cellulaire. Ce travail de thèse a pour but, à partir de ces mêmes données d’expression, d’extraire des structures pouvant s’apparenter à des réseaux d’interactions génétiques. Le cadre méthodologique choisi pour appréhender cette problématique est les « Réseaux Bayésiens », c’est-à-dire une méthode à la fois graphique et probabiliste permettant de modéliser des systèmes pourtant statiques (ici le réseau d’expression génétique) à l’aide d’indépendances conditionnelles sous forme d’un réseau. L’adaptation de cette méthode à des données dont la dimension des variables (ici l’expression des gènes, dont l’ordre de grandeur est 105) est très supérieure à la dimension des échantillons (ordre102 en cancérologie) pose des problèmes statistiques (de faux positifs et négatifs) et combinatoires (avec seulement 10gènes on a 4×1018 graphes orientés sans circuit possibles). A partir de plusieurs problématiques de cancers (leucémies et cancers du sein), ce projet propose une stratégie d’accélération de recherche de réseaux d’expression à l’aide de Réseaux Bayésiens, ainsi que des mises en œuvre de cette méthode pour classer des tumeurs, sélectionner un ensemble de gènes d’intérêt reliés à une condition biologique particulière, rechercher des réseaux locaux autour d’un gène d’intérêt.On propose parallèlement de modéliser un Réseau Bayésien à partir d’un réseau biologique connu, utile pour simuler des échantillons et tester des méthodes de reconstruction de graphes à partir de données contrôlées. / In oncology, microarrays have become a classical tool to search and characterize pathologies at a deeper level than previous methods, using genetic expression to find the mechanisms, classes, molecular associations, and cellular interaction networks of different cancers. From a biological point of view, these cellular networks are interesting because they concentrate a large amount of knowledge about cellular processes. The goal of this PhD thesis project is to extract structures that could correspond to genetic interaction networks from the expression data. "Bayesian Networks", i.e. a graphic and probabilistic method that models even static systems (like the expression network) with conditional independences, are used as the framework to investigate this problem. The adaptation of this method to data where the dimension of the variables (about 105 for gene expression) is much greater than the dimension of the samples (about 102 in oncology) aggravates some statistical and combinatorial problems. For several cancer problematics, this project proposes an acceleration strategy for capturing expression networks with Bayesian Networks and some methods to classify tumors, finding gene signatures of particular biological conditions by searching for local networks in the neighborhood of a gene of interest. In parallel, we propose to model a Bayesian Network from a known biological network, which is useful to simulate samples and to test these methods to reconstruct graphs from Réseaux cellulaires Transcriptome Réseaux Bayésiens Classification Sélection de variables Cancer Cellular networks Transcriptome Bayesian Networks Classification Gene selection Cancer
22	Estimation Statistique En Grande Dimension, Parcimonie et Inégalités D'Oracle Lounici, Karim 24 November 2009 (has links) (PDF) Dans cette thèse nous traitons deux sujets. Le premier sujet concerne l'apprentissage statistique en grande dimension, i.e. les problèmes où le nombre de paramètres potentiels est beaucoup plus grand que le nombre de données à disposition. Dans ce contexte, l'hypothèse généralement adoptée est que le nombre de paramètres intervenant effectivement dans le modèle est petit par rapport au nombre total de paramètres potentiels et aussi par rapport au nombre de données. Cette hypothèse est appelée ``\emph{sparsity assumption}''. Nous étudions les propriétés statistiques de deux types de procédures : les procédures basées sur la minimisation du risque empirique muni d'une pénalité $l_{1}$ sur l'ensemble des paramètres potentiels et les procédures à poids exponentiels. Le second sujet que nous abordons concerne l'étude de procédures d'agrégation dans un modèle de densité. Nous établissons des inégalités oracles pour la norme $L^{\pi}$, $1\leqslant \pi \leqslant \infty$. Nous proposons ensuite une application à l'estimation minimax et adaptative en la régularité de la densité. [MATH] Mathematics Inégalités d'oracle optimisation stochastique agrégation apprentissage statistique grande dimension sparsité sélection de variables Lasso Dantzig Selector estimation adaptative minimax
23	Méthodes pour l'analyse de grands volumes d'images appliquées à la détection précoce de la maladie d'Alzheimer par analyse de PDG-PET scans Kodewitz, Andreas 18 March 2013 (has links) (PDF) Dans cette thèse, nous explorons de nouvelles méthodes d'analyse d'images pour la détection précoce des changements métaboliques cérébraux causés par la maladie d'Alzheimer (MA). Nous introduisons deux apports méthodologiques que nous appliquons à un ensemble de données réelles. Le premier est basé sur l'apprentissage automatique pour créer une carte des informations de classification pertinente dans un ensemble d'images. Pour cela nous échantillonnons des blocs de voxels de l'image selon un algorithme de Monte-Carlo. La mise en oeuvre d'une classification basée sur ces patchs 3D a pour conséquence importante la réduction significative du volume de patchs à traiter, et l'extraction de caractéristiques dont l'importance est statistiquement quantifiable. Cette méthode s'applique à différentes caractéristiques de l'image et donc est adaptée à des types d'images très variés. La résolution des cartes produites par cette méthode peut être affinée à volonté et leur contenu informatif est cohérent avec les résultats antérieurs basés sur les statistiques sur les voxels obtenus dans la littérature. Le second apport méthodologique porte sur la conception d'un nouvel algorithme de décomposition de tenseur d'ordre important, adapté à notre application. Cet algorithme permet de réduire considérablement la consommation de mémoire et donc évite la surcharge de la mémoire. Il autorise la décomposition rapide de tenseurs, y compris ceux de dimensions très déséquilibrées. Nous appliquons cet algorithme en tant que méthode d'extraction de caractéristiques dans une situation où le clinicien doit diagnostiquer des stades MA précoce ou MCI (Mild Cognitive Impairment) en utilisant la TEP FDG seule. Les taux de classification obtenus sont souvent au-dessus des niveaux de l'état de l'art. Dans le cadre de ces tâches d'analyse d'images, nous présentons notre source de données, les scans de patients retenus et les pré-traitements réalisés. Les principaux aspects que nous voulons prendre en compte sont la nature volumétrique des données, l'information a priori disponible sur la localisation des changements métaboliques et comment l'identification des zones de changements métaboliques participe à la réduction de la quantité de données à analyser et d'extraire des caractéristiques discriminantes. Les méthodes présentées fournissent des informations précises sur la localisation de ces changements métaboliques. Les taux de classification allant jusqu'à 92,6% pour MA et 83,8% pour MCI. En outre, nous sommes capables de séparer les patients MCI stables des MCI patients évoluant vers la MA dans les 2 ans après l'acquisition du PET-scan avec un taux de classification de 84.7%. Ce sont des étapes importantes vers une détection fiable et précoce de la MA. Maladie d'Alzheimer factorisation de tenseur classification sélection de variables extraction de caractéristiques
24	Outil d'aide au diagnostic du cancer à partir d'extraction d'informations issues de bases de données et d'analyses par biopuces Hedjazi, Lyamine 08 December 2011 (has links) (PDF) Le cancer est l'une des causes les plus fréquentes de décès dans le monde. Actuellement, le cancer du sein est le plus répandu dans les cancers féminins. Malgré les avancées significatives faites ces dernières décennies en vue d'améliorer la gestion du cancer, des outils plus précis sont toujours nécessaires pour aider les oncologues à choisir le traitement nécessaire à des fins de guérison ou de prévention de récidive tout en réduisant les effets néfastes des ces traitements ainsi que leurs coûts élevés. Ce travail porte sur l'utilisation de techniques d'apprentissage automatique pour développer de tels outils de gestion du cancer du sein. Les facteurs cliniques, tels que l'âge du patient et les variables histo-pathologiques, constituent encore la base quotidienne de prise de décision pour la gestion du cancer du sein. Cependant, avec l'émergence de la technologie à haut débit, le profil d'expression génique suscite un intérêt croissant pour construire des outils plus précis de prédiction du cancer du sein. Néanmoins, plusieurs challenges doivent être relevés pour le développement de tels outils, principalement: (1) la dimensionnalité des données issues de la technologie des puces, (2) le faible rapport signal sur bruit dans la mesure de biopuces, (3) l'incertitude d'appartenance des patients aux différents groupes du cancer, et (4) l'hétérogénéité des données présentes habituellement dans les bases de données cliniques. Dans ce travail, nous proposons quelques approches pour surmonter de manière appropriée de tels challenges. Une première approche aborde le problème de haute dimensionnalité des données en utilisant les capacités d'apprentissage dit normé ℓ1 pour la conception d'un algorithme de sélection de variables intégré à la méthode SVM (machines à vecteurs supports), algorithme basé sur une technique de gradient. Une deuxième approche permet de gérer simultanément tous les problèmes, en particulier l'intégration de plusieurs sources de données (cliniques, pu ces à ADN, ...) pour construire des outils prédictifs plus précis. Pour cela, un principe unifié est proposé pour surmonter le problème de l'hétérogénéité des données. Pour tenir compte de l'incertitude d'appartenance et augmenter l'interprétabilité du modèle, ce principe est proposé dans le cadre de la logique floue. Par ailleurs, afin d'atténuer le problème du bruit de niveau élevé, une approche symbolique est proposée suggérant l'utilisation de la représentation par intervalle pour modéliser les mesures bruitées. Nous avons conçu en particulier, basée sur ce principe, une approche floue supervisée de pondération de variables. Le processus de pondération repose essentiellement sur la définition d'une marge d'appartenance pour chaque échantillon. Il optimise une fonction objective basée sur la marge d'appartenance afin d'éviter la recherche combinatoire. Une extension de cette approche au cas non supervisé est effectuée pour développer un algorithme de regroupement automatique basé sur la pondération des règles floues. L'efficacité de toutes les approches a été évaluée par des études expérimentales extensives, et comparée avec des méthodes bien connues de l'état de l'art. Enfin, un dernier travail est consacré à des applications des approches proposées dans le domaine du cancer du sein. En particulier, des modèles prédictifs et pronostiques ont été extraits à partir des données de puces à ADN et/ou des données cliniques, et leurs performances comparées avec celles d'approches génétiques et cliniques existantes. [INFO:INFO_AU] Informatique/Automatique
25	Développement d'une méthodologie robuste de sélection de gènes dans le cadre d'une activation pharmacologique de la voie PPAR / Development of a robust methodology of selected genes in the context of pharmacological activation of the PPAR pathway Cotillard, Aurélie 03 December 2009 (has links) De part leur dimension élevée, les données de puces à ADN nécessitent l’application de méthodes statistiques pour en extraire une information pertinente. Dans le cadre de l’étude des différences entre deux agonistes de PPAR (Peroxisome Proliferator-Activated Receptor), nous avons sélectionné trois méthodes de sélection de variables : T-test, Nearest Shrunken Centroids (NSC) et Support Vector Machine – Recursive Feature Elimination. Ces méthodes ont été testées sur des données simulées et sur les données réelles de l’étude PPAR. En parallèle, une nouvelle méthodologie, MetRob, a été développée afin d’améliorer la robustesse ce ces méthodes vis à vis de la variabilité technique des puces à ADN, ainsi que leur reproductibilité. Cette nouvelle méthodologie permet principalement d’améliorer la valeur prédictive positive, c’est-à-dire la confiance accordée aux résultats. La méthode NSC s’est révélée la plus robuste et ce sont donc les résultats de cette méthode, associée à MetRob, qui ont été étudiés d’un point de vue biologique. / The microarray technology provides high dimensional data that need to be statistically treated for extracting relevant information. Within the context of the study of the differences between two PPAR (Peroxisome Proliferator-Activated Receptor) agonists, we selected three feature selection methods : T-test, Nearest Shrunken Centroids (NSC) and Support Vector Machine – Recursive Feature Elimination. These methods were tested on simulated and on real data. At the same time, a new methodology, MetRob, was developed in order to improve the robustness of these methods towards the technical variability of microarrays, as well as their reproducibility. This new methodology mainly improves the positive predictive value, which means the confidence in the results. The NSC method was found to be the most robust. The results of the association of MetRob and NSC were thus studied from a biological point of view. Puces à ADN Sélection de variables Traitement de données PPAR Diabète de type 2 Microarray Feature selection Data Mining PPAR Type 2 Diabetes
26	Stabilité de la sélection de variables pour la régression et la classification de données corrélées en grande dimension / Stability of variable selection in regression and classification issues for correlated data in high dimension Perthame, Emeline 16 October 2015 (has links) Les données à haut-débit, par leur grande dimension et leur hétérogénéité, ont motivé le développement de méthodes statistiques pour la sélection de variables. En effet, le signal est souvent observé simultanément à plusieurs facteurs de confusion. Les approches de sélection habituelles, construites sous l'hypothèse d'indépendance des variables, sont alors remises en question car elles peuvent conduire à des décisions erronées. L'objectif de cette thèse est de contribuer à l'amélioration des méthodes de sélection de variables pour la régression et la classification supervisée, par une meilleure prise en compte de la dépendance entre les statistiques de sélection. L'ensemble des méthodes proposées s'appuie sur la description de la dépendance entre covariables par un petit nombre de variables latentes. Ce modèle à facteurs suppose que les covariables sont indépendantes conditionnellement à un vecteur de facteurs latents. Une partie de ce travail de thèse porte sur l'analyse de données de potentiels évoqués (ERP). Les ERP sont utilisés pour décrire par électro-encéphalographie l'évolution temporelle de l'activité cérébrale. Sur les courts intervalles de temps durant lesquels les variations d'ERPs peuvent être liées à des conditions expérimentales, le signal psychologique est faible, au regard de la forte variabilité inter-individuelle des courbes ERP. En effet, ces données sont caractérisées par une structure de dépendance temporelle forte et complexe. L'analyse statistique de ces données revient à tester pour chaque instant un lien entre l'activité cérébrale et des conditions expérimentales. Une méthode de décorrélation des statistiques de test est proposée, basée sur la modélisation jointe du signal et de la dépendance à partir d'une connaissance préalable d'instants où le signal est nul. Ensuite, l'apport du modèle à facteurs dans le cadre général de l'Analyse Discriminante Linéaire est étudié. On démontre que la règle linéaire de classification optimale conditionnelle aux facteurs latents est plus performante que la règle non-conditionnelle. Un algorithme de type EM pour l'estimation des paramètres du modèle est proposé. La méthode de décorrélation des données ainsi définie est compatible avec un objectif de prédiction. Enfin, on aborde de manière plus formelle les problématiques de détection et d'identification de signal en situation de dépendance. On s'intéresse plus particulièrement au Higher Criticism (HC), défini sous l'hypothèse d'un signal rare de faible amplitude et sous l'indépendance. Il est montré dans la littérature que cette méthode atteint des bornes théoriques de détection. Les propriétés du HC en situation de dépendance sont étudiées et les bornes de détectabilité et d'estimabilité sont étendues à des situations arbitrairement complexes de dépendance. Dans le cadre de l'identification de signal, une adaptation de la méthode Higher Criticism Thresholding par décorrélation par les innovations est proposée. / The analysis of high throughput data has renewed the statistical methodology for feature selection. Such data are both characterized by their high dimension and their heterogeneity, as the true signal and several confusing factors are often observed at the same time. In such a framework, the usual statistical approaches are questioned and can lead to misleading decisions as they are initially designed under independence assumption among variables. The goal of this thesis is to contribute to the improvement of variable selection methods in regression and supervised classification issues, by accounting for the dependence between selection statistics. All the methods proposed in this thesis are based on a factor model of covariates, which assumes that variables are conditionally independent given a vector of latent variables. A part of this thesis focuses on the analysis of event-related potentials data (ERP). ERPs are now widely collected in psychological research to determine the time courses of mental events. In the significant analysis of the relationships between event-related potentials and experimental covariates, the psychological signal is often both rare, since it only occurs on short intervals and weak, regarding the huge between-subject variability of ERP curves. Indeed, this data is characterized by a temporal dependence pattern both strong and complex. Moreover, studying the effect of experimental condition on brain activity for each instant is a multiple testing issue. We propose to decorrelate the test statistics by a joint modeling of the signal and time-dependence among test statistics from a prior knowledge of time points during which the signal is null. Second, an extension of decorrelation methods is proposed in order to handle a variable selection issue in the linear supervised classification models framework. The contribution of factor model assumption in the general framework of Linear Discriminant Analysis is studied. It is shown that the optimal linear classification rule conditionally to these factors is more efficient than the non-conditional rule. Next, an Expectation-Maximization algorithm for the estimation of the model parameters is proposed. This method of data decorrelation is compatible with a prediction purpose. At last, the issues of detection and identification of a signal when features are dependent are addressed more analytically. We focus on the Higher Criticism (HC) procedure, defined under the assumptions of a sparse signal of low amplitude and independence among tests. It is shown in the literature that this method reaches theoretical bounds of detection. Properties of HC under dependence are studied and the bounds of detectability and estimability are extended to arbitrarily complex situations of dependence. Finally, in the context of signal identification, an extension of Higher Criticism Thresholding based on innovations is proposed. Statistique Grande dimension Sélection de variables Dépendance Régression Modèle linéaire généralisé Statistics High dimension Variable selection Dependence Regression Generalized linear model
27	Stabilité de la sélection de variables sur des données haute dimension : une application à l'expression génique / Feature selection stability on high dimensional data : an application to gene expression data Dernoncourt, David 15 October 2014 (has links) Les technologies dites « haut débit » permettent de mesurer de très grandes quantités de variables à l'échelle de chaque individu : séquence ADN, expressions des gènes, profil lipidique… L'extraction de connaissances à partir de ces données peut se faire par exemple par des méthodes de classification. Ces données contenant un très grand nombre de variables, mesurées sur quelques centaines de patients, la sélection de variables est une étape préalable indispensable pour réduire le risque de surapprentissage, diminuer les temps de calcul, et améliorer l'interprétabilité des modèles. Lorsque le nombre d’observations est faible, la sélection tend à être instable, et on observe souvent que sur deux jeux de données différents mais traitant d’un même problème, les variables sélectionnées ne se recoupent presque pas. Pourtant, obtenir une sélection stable semble crucial si l'on veut avoir confiance dans la pertinence effective des variables sélectionnées à des fins d'extraction de connaissances. Dans ce travail, nous avons d'abord cherché à déterminer quels sont les facteurs qui influencent le plus la stabilité de la sélection. Puis nous avons proposé une approche, spécifique aux données puces à ADN, faisant appel aux annotations fonctionnelles pour assister les méthodes de sélection habituelles, en enrichissant les données avec des connaissances a priori. Nous avons ensuite travaillé sur deux aspects des méthodes d'ensemble : le choix de la méthode d'agrégation et les ensembles hybrides. Dans un dernier chapitre, nous appliquons les méthodes étudiées à un problème de prédiction de la reprise de poids suite à un régime, à partir de données puces, chez des patients obèses. / High throughput technologies allow us to measure very high amounts of variables in patients: DNA sequence, gene expression, lipid profile… Knowledge discovery can be performed on such data using, for instance, classification methods. However, those data contain a very high number of variables, which are measured, in the best cases, on a few hundreds of patients. This makes feature selection a necessary first step so as to reduce the risk of overfitting, reduce computation time, and improve model interpretability. When the amount of observations is low, feature selection tends to be unstable. It is common to observe that two selections obtained from two different datasets dealing with the same problem barely overlap. Yet, it seems important to obtain a stable selection if we want to be confident that the selected variables are really relevant, in an objective of knowledge discovery. In this work, we first tried to determine which factors have the most influence on feature selection stability. We then proposed a feature selection method, specific to microarray data, using functional annotations from Gene Ontology in order to assist usual feature selection methods, with the addition of a priori knowledge to the data. We then worked on two aspects of ensemble methods: the choice of the aggregation method, and hybrid ensemble methods. In the final chapter, we applied the methods studied in the thesis to a dataset from our lab, dealing with the prediction of weight regain after a diet, from microarray data, in obese patients. Sélection de variables Stabilité Données biopuces Données haute dimension Extraction de connaissances Obésité Feature selection High dimensional data 614.4
28	Forêts aléatoires et sélection de variables : analyse des données des enregistreurs de vol pour la sécurité aérienne / Random forests and variable selection : analysis of the flight data recorders for aviation safety Gregorutti, Baptiste 11 March 2015 (has links) De nouvelles réglementations imposent désormais aux compagnies aériennes d'établir une stratégie de gestion des risques pour réduire encore davantage le nombre d'accidents. Les données des enregistreurs de vol, très peu exploitées à ce jour, doivent être analysées de façon systématique pour identifier, mesurer et suivre l'évolution des risques. L'objectif de cette thèse est de proposer un ensemble d'outils méthodologiques pour répondre à la problématique de l'analyse des données de vol. Les travaux présentés dans ce manuscrit s'articulent autour de deux thèmes statistiques : la sélection de variables en apprentissage supervisé d'une part et l'analyse des données fonctionnelles d'autre part. Nous utilisons l'algorithme des forêts aléatoires car il intègre des mesures d'importance pouvant être employées dans des procédures de sélection de variables. Dans un premier temps, la mesure d'importance par permutation est étudiée dans le cas où les variables sont corrélées. Nous étendons ensuite ce critère pour des groupes de variables et proposons une nouvelle procédure de sélection de variables fonctionnelles. Ces méthodes sont appliquées aux risques d'atterrissage long et d'atterrissage dur, deux questions importantes pour les compagnies aériennes. Nous présentons enfin l'intégration des méthodes proposées dans le produit FlightScanner développé par Safety Line. Cette solution innovante dans le transport aérien permet à la fois le monitoring des risques et le suivi des facteurs qui les influencent. / New recommendations require airlines to establish a safety management strategy to keep reducing the number of accidents. The flight data recorders have to be systematically analysed in order to identify, measure and monitor the risk evolution. The aim of this thesis is to propose methodological tools to answer the issue of flight data analysis. Our work revolves around two statistical topics: variable selection in supervised learning and functional data analysis. The random forests are used as they implement importance measures which can be embedded in selection procedures. First, we study the permutation importance measure when the variables are correlated. This criterion is extended for groups of variables and a new selection algorithm for functional variables is introduced. These methods are applied to the risks of long landing and hard landing which are two important questions for airlines. Finally, we present the integration of the proposed methods in the software FlightScanner implemented by Safety Line. This new solution in the air transport helps safety managers to monitor the risks and identify the contributed factors. Forêts aléatoires Sélection de variables Mesure d'importance par permutation Corrélation Analyse des données fonctionnelles Sécurité aérienne Random forests Variables selection 519.5
29	A Markovian approach to distributional semantics / Une approche Markovienne à la sémantique distributionnelle Grave, Edouard 20 January 2014 (has links) Cette thèse, organisée en deux parties indépendantes, a pour objet la sémantique distributionnelle et la sélection de variables. Dans la première partie, nous introduisons une nouvelle méthode pour l'apprentissage de représentations de mots à partir de grandes quantités de texte brut. Cette méthode repose sur un modèle probabiliste de la phrase, utilisant modèle de Markov caché et arbre de dépendance. Nous présentons un algorithme efficace pour réaliser l'inférence et l'apprentissage dans un tel modèle, fondé sur l'algorithme EM en ligne et la propagation de message approchée. Nous évaluons les modèles obtenus sur des taches intrinsèques, telles que prédire des jugements de similarité humains ou catégoriser des mots et deux taches extrinsèques~: la reconnaissance d'entités nommées et l'étiquetage en supersens. Dans la seconde partie, nous introduisons, dans le contexte des modèles linéaires, une nouvelle pénalité pour la sélection de variables en présence de prédicteurs fortement corrélés. Cette pénalité, appelée trace Lasso, utilise la norm trace des prédicteurs sélectionnés, qui est une relaxation convexe de leur rang, comme critère de complexité. Le trace Lasso interpole les normes $\ell_1$ et $\ell_2$. En particulier, lorsque tous les prédicteurs sont orthogonaux, il est égal à la norme $\ell_1$, tandis que lorsque tous les prédicteurs sont égaux, il est égal à la norme $\ell_2$. Nous proposons deux algorithmes pour calculer la solution du problème de régression aux moindres carrés regularisé par le trace Lasso et réalisons des expériences sur des données synthétiques. / This thesis, which is organized in two independent parts, presents work on distributional semantics and on variable selection. In the first part, we introduce a new method for learning good word representations using large quantities of unlabeled sentences. The method is based on a probabilistic model of sentence, using a hidden Markov model and a syntactic dependency tree. The latent variables, which correspond to the nodes of the dependency tree, aim at capturing the meanings of the words. We develop an efficient algorithm to perform inference and learning in those models, based on online EM and approximate message passing. We then evaluate our models on intrinsic tasks such as predicting human similarity judgements or word categorization, and on two extrinsic tasks: named entity recognition and supersense tagging. In the second part, we introduce, in the context of linear models, a new penalty function to perform variable selection in the case of highly correlated predictors. This penalty, called the trace Lasso, uses the trace norm of the selected predictors, which is a convex surrogate of their rank, as the criterion of model complexity. The trace Lasso interpolates between the $\ell_1$-norm and $\ell_2$-norm. In particular, it is equal to the $\ell_1$-norm if all predictors are orthogonal and to the $\ell_2$-norm if all predictors are equal. We propose two algorithms to compute the solution of least-squares regression regularized by the trace Lasso, and perform experiments on synthetic datasets to illustrate the behavior of the trace Lasso. Sémantique distributionnelle Modèle de Markov caché Arbre de dépendance Représentation de mots Sélection de variables Trace Lasso Distributional semantics Hidden Markov model 004
30	Estimation du risque de mort subite par arrêt cardiaque a l'aide de méthodes d'apprentissage artificiel / Risk stratification for sudden cardiac death based on machine learning Cappelaere, Charles-Henri 31 January 2014 (has links) Depuis le début des années 2000, le défibrillateur automatique implantable (DAI) est prescrit de manière prophylactique aux populations à risque de mort subite. Nombre de ces implantations semblent prématurées, ce qui pose problème en raison des complications post-opératoires encourues. Il apparaît donc important de mieux définir la population à risque de mort subite, afin d'optimiser la sélection des patients.Le pouvoir prédictif de mort subite des différents descripteurs du Holter a fait l'objet de nombreuses études univariées, sans permettre d'amélioration des critères de sélection. Dans ce mémoire, nous présentons l'analyse multivariée des descripteurs du Holter que nous avons menée. Nous avons extrait l'ensemble des descripteurs calculables sur la base étiquetée d'enregistrements de patients, victimes ou non d'arythmies traitées par le DAI, dont nous disposons. À l'aide de connaissances physiologiques sur l'arythmogenèse, nous avons réalisé une sélection des descripteurs les plus pertinents. Puis, par une méthode originale de conception et d'évaluation de classifieur, nous avons construit un classifieur ad hoc, basé, sur les connaissances physiologiques de l'arythmogenèse ; ce classifieur discrimine les patients à risque, des patients pour lesquels l'implantation ne paraît pas opportune.Au vu des performances atteintes, il semble possible d'améliorer la fiabilité des indications d'implantation prophylactique, à l'aide de méthodes d'apprentissage statistique. Pour valider cette conclusion, il paraît néanmoins nécessaire d'appliquer la méthode exposée dans la présente étude à une base de données de plus grande dimension, et de contenu mieux adapté à nos objectifs. / Implantable cardioverter defibrillators (ICD) have been prescribed for prophylaxis since the early 2000?s, for patients at high risk of SCD. Unfortunately, most implantations to date appear unnecessary. This result raises an important issue because of the perioperative and postoperative risks. Thus, it is important to improve the selection of the candidates to ICD implantation in primary prevention. Risk stratification for SCD based on Holter recordings has been extensively performed in the past, without resulting in a significant improvement of the selection of candidates to ICD implantation. The present report describes a nonlinear multivariate analysis of Holter recording indices. We computed all the descriptors available in the Holter recordings present in our database. The latter consisted of labelled Holter recordings of patients equipped with an ICD in primary prevention, a fraction of these patients received at least one appropriate therapy from their ICD during a 6-month follow-up. Based on physiological knowledge on arrhythmogenesis, feature selection was performed, and an innovative procedure of classifier design and evaluation was proposed. The classifier is intended to discriminate patients who are really at risk of sudden death from patients for whom ICD implantation does not seem necessary. In addition, we designed an ad hoc classifier that capitalizes on prior knowledge on arrhythmogenesis. We conclude that improving prophylactic ICD-implantation candidate selection by automatic classification from Holter recording features may be possible. Nevertheless, that statement should be supported by the study of a more extensive and appropriate database. Apprentissage statistique Réseau de neurones Triangle de Coumel Sélection de variables Mort subite Défibrillateur automatique implantable Sudden cardiac death Implantable cardioverter defibrillator 610

Search results