Global ETD Search

31	CONTRIBUTIONS A LA MAITRISE STATISTIQUE DES PROCESSUS INDUSTRIELS MULTIVARIES Tiplica, Teodor 03 October 2002 (has links) (PDF) Les travaux présentés dans ce mémoire se situent dans le cadre de la maîtrise statistique des processus (MSP). Les principales cartes de contrôle univariées et multivariées sont présentées dans le chapitre I. Un résumé non-exhaustif des méthodes de détection de la cause d'une situation hors contrôle dans un processus multivarié est donné dans le chapitre II. Une nouvelle méthodologie de contrôle et de diagnostic de processus - FNAD (Filtrage Numérique et Analyse Discriminante) - a été proposée dans le chapitre III. Un exemple pratique d'utilisation de la méthode FNAD a été donné pour le diagnostic d'un processus de fabrication du polyéthylène de faible densité. Deux nouvelles cartes de contrôle - la carte de contrôle par filtrage numérique (CCFN) et la carte de contrôle spectrale (CCS) ont été proposées dans le chapitre IV. Le principe de construction de la carte CCFN repose sur l'utilisation des équations récurrentes définissant les filtres numériques RII (Réponse Impulsionnelle Infinie) ou ARMA (AutoRegressive Moving Average). Les limites de contrôle et l'efficacité de la carte CCFN ont été calculées à l'aide de simulations. Le principe de contrôle de la carte de contrôle spectrale (CCS) est basé sur l'analogie temps-fréquence: une fenêtre glissante est déplacée dans le domaine temporel et le contenu spectral de la fenêtre est analysé afin de détecter les changements de la moyenne. La formule analytique de la limite de contrôle a été donnée. Les performances de la carte dans la détection des différents déréglages ont été calculées à partir des simulations et comparées avec celles de la carte EWMA. MSP Diagnostic Filtrage Numérique Analyse Discriminante Classification Carte de Contrôle Spectrale
32	Kernel methods for flight data monitoring / Méthodes à noyau pour l'analyse de données de vols appliquées aux opérations aériennes Chrysanthos, Nicolas 24 October 2014 (has links) L'analyse de données de vols appliquée aux opérations aériennes ou "Flight Data Monitoring" (FDM), est le processus par lequel une compagnie aérienne recueille, analyse et traite de façon régulière les données enregistrées dans les avions, dans le but d'améliorer de façon globale la sécurité.L'objectif de cette thèse est d'élaborer dans le cadre des méthodes à noyau, des techniques pour la détection des vols atypiques qui présentent potentiellement des problèmes qui ne peuvent être trouvés en utilisant les méthodes classiques. Dans la première partie, nous proposons une nouvelle méthode pour la détection d'anomalies.Nous utilisons une nouvelle technique de réduction de dimension appelée analyse en entropie principale par noyau afin de concevoir une méthode qui est à la fois non supervisée et robuste.Dans la deuxième partie, nous résolvons le problème de la structure des données dans le domaine FDM.Tout d'abord, nous étendons la méthode pour prendre en compte les paramètres de différents types tels que continus, discrets ou angulaires.Ensuite, nous explorons des techniques permettant de prendre en compte l'aspect temporel des vols et proposons un nouveau noyau dans la famille des techniques de déformation de temps dynamique, et démontrons qu'il est plus rapide à calculer que les techniques concurrentes et est de plus défini positif.Nous illustrons notre approche avec des résultats prometteurs sur des données réelles des compagnies aériennes TAP et Transavia comprenant plusieurs centaines de vols / Flight Data Monitoring (FDM), is the process by which an airline routinely collects, processes, and analyses the data recorded in aircrafts with the goal of improving the overall safety or operational efficiency.The goal of this thesis is to investigate machine learning methods, and in particular kernel methods, for the detection of atypical flights that may present problems that cannot be found using traditional methods.Atypical flights may present safety of operational issues and thus need to be studied by an FDM expert.In the first part we propose a novel method for anomaly detection that is suited to the constraints of the field of FDM.We rely on a novel dimensionality reduction technique called kernel entropy component analysis to design a method which is both unsupervised and robust.In the second part we solve the most salient issue regarding the field of FDM, which is how the data is structured.Firstly, we extend the method to take into account parameters of diverse types such as continuous, discrete or angular.Secondly, we explore techniques to take into account the temporal aspect of flights and propose a new kernel in the family of dynamic time warping techniques, and demonstrate that it is faster to compute than competing techniques and is positive definite.We illustrate our approach with promising results on real world datasets from airlines TAP and Transavia comprising hundreds of flights Noyaux (analyse fonctionnelle) Analyse discriminante Information, Théorie de l' Structures de données Aéronautique -- Mesures de sécurité Kernel functions Discriminant analysis Information theory Data structures (Computer science) Aeronautics -- Safety mesures 629.13
33	Etude hydrodynamique et modélisation des écoulements souterrains dans les gouttières synclinales gréseuses du Barrémo-Albo-Aptien d'Aïn Séfra (partie centrale des Monts des Ksour - Atlas Saharien, Nord-Ouest Algérie) / Hydrodynamic study and modeling of groundwater flow in the synclinal sandstone gutters Barremo - Albo - Aptian Ain Séfra ( central part of Ksour Mountains - Saharan Atlas , Northwestern Algeria) Yousfi, Somia 11 May 2014 (has links) L’Atlas saharien sud oranais où les Monts des Ksour forment une région montagneuse constituée de chaînonsallongés or ientés SO–NE. Les dépressions crétacées sont représentées par des synclinaux à fond plat surplombés par desanticlinaux pr incipalement jurassiques. Les formations gréseuses crétacées appelées « Continental Intercalaire » de la régiond’Aïn Séfra renferment une impor tante ressource en eau destinée à l’alimentation en eau potable et à l’ir r igation. L’étudehydrogéologique et l’identi fication des aquifères de la région montrent l’impor tante interconnexion ent re l’aquifère jurassiqueet le CI. La recharge naturelle des aquifères sous un climat semi-aride est le terme du bilan hydrique le plus délicat àdéterminer . La méthodologie proposée est une approche par interpolations spatiales et temporelles des données deprécipitations journalières et de températures moyennes mensuelles mesurées à une station, durant trois années repères(sèche, moyenne, humide). Elle est très « pratique » dans des r égions où les données climatiques sont limi tées et discontinuesdans l’espace et dans le temps. Son application nécessite des connaissances sur la nature du sol, la surface et l’altitude desimpluviums. Cette étude nous a permis d’estimer , à par t ir des gradients pluviométr ique et thermique, la lame d’eau tombéesur les affleurements jurassiques à une altitude moyenne de 1600 m, et les valeurs de l’évapotranspiration dans tout le bassinétudié. La pluie efficace calculée, et le débit d’alimentation de l’aquifère, par son impluvium calcaréo-gréseux en altitude etgréseux dans les dépressions, montrent que l’aquifère du Continental Intercalaire est alimenté pr incipalement par lesaffleurements du Jurassique surplombant les dépressions gréseuses, durant les années pluvieuses où les précipitationsdépassent 300 mm par an. Les caractér istiques chimiques des eaux ont fait l’objet de différentes analyses statistiques afin detenter d’expliquer l’or igine d’une minéralisation assez élevée (ent re 2000 et 4000 mg/ l). Dans une première approche,l’emploi de l’analyse en composantes pr incipales (ACP) met en évidence trois fami lles d’eau cor respondant aux t rois niveauxaquifères exploités. Dans une seconde étape, l’analyse factor ielle discr iminante croisée (AFD) caractér ise l’impor tance et ladominance des paramètres responsables de cette minéralisation, en relation avec le cadre géostructural du systèmehydrogéologique des gouttières synclinales d’Aïn Séfra ; les contacts anormaux entre les formations gréseuses du ContinentalIntercalaire et les structures diapir iques argilo-gypso-salines du Tr ias forment les pr incipales zones de contamination. Aprèsavoi r estimé la recharge efficace (qui var ie entre 0 pour une année sèche et 684 mm/ an une année humide) et identi fié lesécoulements souter rains et pour prévoir le compor tement hydrodynamique des gouttières synclinales d’Aïn Séfra, i l estpr imordial de réaliser un modèle mathématique. Nous n’avons pu réaliser que le modèle de l’unité hydrogéologique de GaretEl Kheil, vu l’indisponibilité des données sur les deux aut res unités (El Hanjir -Aïn Séfra, Aïn Séfra-Tiout). Nous avons choisi uncalcul par différences finies à l’aide d’un code simple et pratique « ASMWIN ». Afin de déterminer l’impact du changementclimatique et la surexploitation, deux scénarios d’exploitation ont été proposés : une recharge réduite de moitié (-50% : 810 6m3/ an au lieu de 16 10 6) et un débit d’exploitation doublé (+100% : 2.72 106m3/ an au lieu de 1.36 10 6). Ils nous ontrévélé que la nappe est plus vulnérable aux changements climatiques qu’à la surexploitation, ce qui nous a permis de déduireque la nappe est encore en sous-exploitée. / The Saharan Atlas Mountains, South of Oran includes the ‘Ksour Ridge’, a mountainous region compr ising SW-NEranges. Cretaceous depressions are represented by flat-bottomed synclines overhung by anticlines, mainly Jurassic. Thesandstone formations, so-called Continental Intercalary, of the Ain Sefra region contain an unconfined significant waterresource for dr inking water and ir r igation. The hydrogeological study and identification of aquifers prove the impor tantinterconnection between the Continental Intercalary and the Jurassic aquifers. In a recharge area character ized by a semiaridor an arid climate, therefore a low annual rainfall, effective rainfall is the hardiest item to estimate, as it was demonstrated byclassical monthly hydrological balance computations. The methodology proposed in this work relies on spatial and temporalinterpolations of scarce climatic data. This methodology can be used to determine the recharge flow to aquifers of these zones.The Ain Sefra’s syncline includes the sandstone aquifers of Continental Intercalary and of the Plio-Quaternary layers. Threeyears, with contrasting annual rainfalls, are chosen in this application: 1983 as dry year , 2006 as average year , and 2008 ashumid one. This application requires information about the soil nature, thickness and porosity, the sur face and the altitude ofthe recharge areas. The rainfall and the recharge flow to aquifers indicate that the pr incipal recharge areas are the Jurassicoutcrops, mainly dur ing the humid years, when the annual rainfall exceeds 300 mm. The chemical character istics of waterhave been submitted to different statistical analyses. As a fi rst approach, a pr incipal component analysis (PCA) displayed threeclusters of water cor responding to the three aquifer layers which are exploited. Discr iminant factor analysis (DFA) was usedto character ize the impor tance and to rank the parameters responsible for this high mineralization (between 2000 and 4000mg/ l), namely: system character istics (lithology), structural geology (fault and Tr iassic diapirs). After estimating the effectiverecharge (ranging between 0 for a dry year, and 684 mm/ year for a humid one) and identifying groundwater flow, and inorder to predict the hydrodynamic behavior of Ain Sefra’s syncline, it is essential to implement a mathematical model. Wewere only able to establish the model of the Garet El Kheil hydrogeological unit, given the data unavailability on the other twounits (El Hanjir -Ain Sefra, Ain Sefra-Tiout). We chose a finite difference method in permanent mode to improve knowledge ofthe hydraulic character istics of aquifer , and to evaluate a complete hydrological balance, using the simple and convenient"ASMWIN" code. Exploitation of the model made it possible to determine the impact of the pumped yields, and the weathertrends on the piezometr ic evolution of the aquifer . Two operating scenar ios have been proposed: halving recharge (-50%: 810 6 m 3 / year instead of 16 10 6) and doubling the well’s yield (+100 %: 2.72 10 6 m 3 / year , instead of 1.36 10 6). Weconclude that the groundwater resource is more vulnerable to the climate change than intensive use of aquifers, meaning thatthe aqui fer is underexploited at present. At las saharien Hydrodynamique Pluie efficace Hydrochimie Analyse discriminante Modélisat ion mathématique Saharan At las Hydrodynamics Effect ive rainfall Hydrochemistry Discriminant factor analysis Mathematical modeling 551.49
34	Bayesian multiple hypotheses testing with quadratic criterion / Test bayésien entre hypothèses multiples avec critère quadratique Zhang, Jian 04 April 2014 (has links) Le problème de détection et localisation d’anomalie peut être traité comme le problème du test entre des hypothèses multiples (THM) dans le cadre bayésien. Le test bayésien avec la fonction de perte 0−1 est une solution standard pour ce problème, mais les hypothèses alternatives pourraient avoir une importance tout à fait différente en pratique. La fonction de perte 0−1 ne reflète pas cette réalité tandis que la fonction de perte quadratique est plus appropriée. L’objectif de cette thèse est la conception d’un test bayésien avec la fonction de perte quadratique ainsi que son étude asymptotique. La construction de ce test est effectuée en deux étapes. Dans la première étape, un test bayésien avec la fonction de perte quadratique pour le problème du THM sans l’hypothèse de base est conçu et les bornes inférieures et supérieures des probabilités de classification erronée sont calculées. La deuxième étape construit un test bayésien pour le problème du THM avec l’hypothèse de base. Les bornes inférieures et supérieures des probabilités de fausse alarme, des probabilités de détection manquée, et des probabilités de classification erronée sont calculées. A partir de ces bornes, l’équivalence asymptotique entre le test proposé et le test standard avec la fonction de perte 0−1 est étudiée. Beaucoup d’expériences de simulation et une expérimentation acoustique ont illustré l’efficacité du nouveau test statistique / The anomaly detection and localization problem can be treated as a multiple hypotheses testing (MHT) problem in the Bayesian framework. The Bayesian test with the 0−1 loss function is a standard solution for this problem, but the alternative hypotheses have quite different importance in practice. The 0−1 loss function does not reflect this fact while the quadratic loss function is more appropriate. The objective of the thesis is the design of a Bayesian test with the quadratic loss function and its asymptotic study. The construction of the test is made in two steps. In the first step, a Bayesian test with the quadratic loss function for the MHT problem without the null hypothesis is designed and the lower and upper bounds of the misclassification probabilities are calculated. The second step constructs a Bayesian test for the MHT problem with the null hypothesis. The lower and upper bounds of the false alarm probabilities, the missed detection probabilities as well as the misclassification probabilities are calculated. From these bounds, the asymptotic equivalence between the proposed test and the standard one with the 0-1 loss function is studied. A lot of simulation and an acoustic experiment have illustrated the effectiveness of the new statistical test Tests d'hypothèses (statistique) Statistique bayésienne Détection du signal Analyse discriminante Son -- Mesure Statistical hypothesis testing Bayesian statistical decision theory Signal detection Discriminant analysis Sound -- Measurement 003 519.5
35	Le décodage des expressions faciales émotionnelles à travers différentes bandes de fréquences spatiales et ses interactions avec l’anxiété Harel, Yann 08 1900 (has links) Le décodage des expressions faciales émotionnelles (EFE) est une fonction clé du système visuel humain puisqu’il est à la base de la communication non-verbale sur laquelle reposent les interactions sociales. De nombreuses études suggèrent un traitement différentiel des attributs diagnostiques du visage au sein des basses et des hautes fréquences spatiales (FS), respectivement sous-tendu par les voies magno- et parvocellulaires. En outre, des conditions telles que l’anxiété sociale sont susceptibles d’affecter ce traitement et d’entrainer une modulation des potentiels reliés aux évènements (PRE). Cette étude explore la possibilité de prédire le niveau d’anxiété social des individus à partir des corrélats électrophysiologiques du décodage d’EFE dans différentes bandes de FS. À cette fin, les PRE de 26 participants (âge moyen = 23.7 ± 4.7) ont été enregistrés lors de la présentation visuelle d’expressions neutres, de joie ou de colère filtrées pour ne retenir que les basses, moyennes ou hautes FS. L’anxiété sociale a été évaluée par l’administration préalable du questionnaire LSAS. Les latences et pics d’amplitude de la P100, N170, du complexe N2b/P3a et de la P3b ont été analysés statistiquement et utilisés pour entrainer différents algorithmes de classification. L’amplitude de la P100 était reliée au contenu en FS. La N170 a montré un effet des EFE. Le complexe N2b/P3a était plus ample pour les EFE et plus précoce pour les hautes FS. La P3b était moins ample pour les visages neutres, qui étaient aussi plus souvent omis. L’analyse discriminante linéaire a montré une précision de décodage d’en moyenne 56.11% au sein des attributs significatifs. La nature de ces attributs et leur sensibilité à l’anxiété sociale sera discutée. / The decoding of emotional facial expressions (EFE) is a key function of the human visual system since it lays at the basis of non-verbal communication that allows social interactions. Numerous studies suggests that the processing of faces diagnostic features may take place differently for low and high spatial frequencies (SF), respectively in the magno- and parvocellular pathways. Moreover, conditions such as social anxiety are supposed to influence this processing and the associated event-related potentials (ERP). This study explores the feasibility of predicting social anxiety levels using electrophysiological correlates of EFE processing across various SF bands. To this end, ERP from 26 participants (mean age = 23.7 ± 4.7) years old were recorded during visual presentation of neutral, angry and happy facial expressions, filtered to retain only low, medium or high SF. Social anxiety was previously assessed using the LSAS questionnary. Peak latencies and amplitudes of the P100, N170, N2b/P3a complex and P3b components were statistically analyzed and used to feed supervised machine learning algorithms. P100 amplitude was linked to SF content. N170 was effected by EFE. N2b/P3a complex was larger for EFE and earlier for high SF. P3b was lower for neutral faces, which were also more often omitted. The linear discriminant analysis showed a decoding accuracy across significant features with a mean of 56.11%. The nature of these features and their sensitivity to social anxiety will be discussed. Expressions faciales émotionnelles Fréquences spatiales Potentiels reliés aux évènements Anxiété sociale Apprentissage machine Analyse discriminante linéaire Emotional facial expressions Spatial frequencies Électro-encéphalographie Electroencephalography Event-related potentials Machine learning Linear discriminant analysis Social anxiety
36	Modèle bayésien pour les prêts investisseurs Bouvrette, Mathieu January 2006 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal. Modèle bayésien Défaut de paiement Prêts investisseurs Fonds mutuels Arbre de classification Forêt d'arbres Arbre consensus Analyse discriminante Régression logistique/probit Chaînes de Markov à sauts réversibles Test t Test de Wilcoxon d Cohen Mesures d'association
37	Dietary patterns associated with diet quality among First Nations women living on reserves in British Columbia Mutoni, Sandrine 05 1900 (has links) Les Indigènes canadiens vivent une rapide transition nutritionnelle marquée par une consommation accrue des produits commercialisés au dépit des aliments traditionnels. Ce mémoire cherche à identifier les patrons alimentaires associés à une meilleure alimentation des femmes autochtones vivant dans les réserves en Colombie Britannique. L’échantillon (n=493) a été sélectionné de l’étude ‘First Nations Food, Nutrition, and Environment Study’. L’étude a utilisé des rappels alimentaires de 24 heures. Pour identifier les patrons alimentaires, un indice de qualité alimentaire (QA) basé sur 10 éléments nutritionnels (fibre alimentaire, gras totaux/saturés, folate, magnésium, calcium, fer, vitamines A, C, D) a permis de classifier les sujets en trois groupes (tertiles). Ces groupes ont été comparés sur leur consommation de 25 groupes alimentaires (GAs) en employant des tests statistiques non-paramétriques (Kruskal-Wallis et ANCOVA). Une analyse discriminante (AD) a confirmé les GAs associés à la QA. La QA des sujets était globalement faible car aucun rappel n’a rencontré les consommations recommandées pour tous les 10 éléments nutritionnels. L'AD a confirmé que les GAs associés de façon significative à la QA étaient ‘légumes et produits végétaux’, ‘fruits’, ‘aliments traditionnels’, ‘produits laitiers faibles en gras’, ‘soupes et bouillons’, et ‘autres viandes commercialisées’ (coefficients standardisés= 0,324; 0,295; 0,292; 0,282; 0,157; -0.189 respectivement). Le pourcentage de classifications correctes était 83.8%. Nos résultats appuient la promotion des choix alimentaires recommandés par le « Guide Alimentaire Canadien- Premières Nations, Inuits, et Métis ». Une consommation accrue de légumes, fruits, produits laitiers faibles en gras, et aliments traditionnels caractérise les meilleurs patrons alimentaires. / Indigenous Canadians are going through a rapid nutrition transition marked by an increased consumption of market foods and a decreased intake of traditional products. The aim of this research is to identify dietary patterns associated with a better diet quality among Indigenous female adults living on reserve in British Columbia. The sample (n=493) was selected from the First Nations Food, Nutrition, and Environment Study. The study used 24-hour food recalls. To identify dietary patterns, individuals were classified in three groups (tertiles) according to points obtained on a dietary score (based on Dietary Reference Intakes for dietary fiber, total fat, saturated fat, folate, magnesium, calcium, iron, vitamins A, C, D). The tertiles were compared for their consumption of 25 food groups (FGs) using statistical non-parametric tests (i.e. Kruskal-Wallis and ANCOVA tests). A discriminant analysis was used to confirm the FGs significantly associated with diet quality. Generally, subjects had poor diet quality since no food recall met the recommended intakes for all selected nutritional elements. The discriminant analysis confirmed that the FGs significantly associated with diet quality were “vegetables and vegetable products”, “fruits”, “traditional foods”, “low-fat dairy products”, “soups and broth”, and “other market meat” (standardized discriminant function coefficient= 0.324, 0.295, 0.292, 0.282, 0.157, -0.189 respectively). The percentage of correct classifications was 83.8%. In conclusion, our findings support the promotion of dietary choices according to the “Eating well with the Canadian Food Guide – First Nations, Inuit, and Métis”. It is greater use of vegetables, fruits, low-fat dairy products, and traditional foods that characterizes better dietary patterns. Patrons alimentaires Qualité alimentaire Indice de qualité alimentaire Analyse discriminante Autochtones canadiens Dietary patterns Diet quality Dietary score Discriminant analysis Indigenous Canadians
38	Algorithmes basés sur la programmation DC et DCA pour l’apprentissage avec la parcimonie et l’apprentissage stochastique en grande dimension / DCA based algorithms for learning with sparsity in high dimensional setting and stochastical learning Phan, Duy Nhat 15 December 2016 (has links) De nos jours, avec l'abondance croissante de données de très grande taille, les problèmes de classification de grande dimension ont été mis en évidence comme un challenge dans la communauté d'apprentissage automatique et ont beaucoup attiré l'attention des chercheurs dans le domaine. Au cours des dernières années, les techniques d'apprentissage avec la parcimonie et l'optimisation stochastique se sont prouvées être efficaces pour ce type de problèmes. Dans cette thèse, nous nous concentrons sur le développement des méthodes d'optimisation pour résoudre certaines classes de problèmes concernant ces deux sujets. Nos méthodes sont basées sur la programmation DC (Difference of Convex functions) et DCA (DC Algorithm) étant reconnues comme des outils puissants d'optimisation non convexe. La thèse est composée de trois parties. La première partie aborde le problème de la sélection des variables. La deuxième partie étudie le problème de la sélection de groupes de variables. La dernière partie de la thèse liée à l'apprentissage stochastique. Dans la première partie, nous commençons par la sélection des variables dans le problème discriminant de Fisher (Chapitre 2) et le problème de scoring optimal (Chapitre 3), qui sont les deux approches différentes pour la classification supervisée dans l'espace de grande dimension, dans lequel le nombre de variables est beaucoup plus grand que le nombre d'observations. Poursuivant cette étude, nous étudions la structure du problème d'estimation de matrice de covariance parcimonieuse et fournissons les quatre algorithmes appropriés basés sur la programmation DC et DCA (Chapitre 4). Deux applications en finance et en classification sont étudiées pour illustrer l'efficacité de nos méthodes. La deuxième partie étudie la L_p,0régularisation pour la sélection de groupes de variables (Chapitre 5). En utilisant une approximation DC de la L_p,0norme, nous prouvons que le problème approché, avec des paramètres appropriés, est équivalent au problème original. Considérant deux reformulations équivalentes du problème approché, nous développons différents algorithmes basés sur la programmation DC et DCA pour les résoudre. Comme applications, nous mettons en pratique nos méthodes pour la sélection de groupes de variables dans les problèmes de scoring optimal et d'estimation de multiples matrices de covariance. Dans la troisième partie de la thèse, nous introduisons un DCA stochastique pour des problèmes d'estimation des paramètres à grande échelle (Chapitre 6) dans lesquelles la fonction objectif est la somme d'une grande famille des fonctions non convexes. Comme une étude de cas, nous proposons un schéma DCA stochastique spécial pour le modèle loglinéaire incorporant des variables latentes / These days with the increasing abundance of data with high dimensionality, high dimensional classification problems have been highlighted as a challenge in machine learning community and have attracted a great deal of attention from researchers in the field. In recent years, sparse and stochastic learning techniques have been proven to be useful for this kind of problem. In this thesis, we focus on developing optimization approaches for solving some classes of optimization problems in these two topics. Our methods are based on DC (Difference of Convex functions) programming and DCA (DC Algorithms) which are wellknown as one of the most powerful tools in optimization. The thesis is composed of three parts. The first part tackles the issue of variable selection. The second part studies the problem of group variable selection. The final part of the thesis concerns the stochastic learning. In the first part, we start with the variable selection in the Fisher's discriminant problem (Chapter 2) and the optimal scoring problem (Chapter 3), which are two different approaches for the supervised classification in the high dimensional setting, in which the number of features is much larger than the number of observations. Continuing this study, we study the structure of the sparse covariance matrix estimation problem and propose four appropriate DCA based algorithms (Chapter 4). Two applications in finance and classification are conducted to illustrate the efficiency of our methods. The second part studies the L_p,0regularization for the group variable selection (Chapter 5). Using a DC approximation of the L_p,0norm, we indicate that the approximate problem is equivalent to the original problem with suitable parameters. Considering two equivalent reformulations of the approximate problem we develop DCA based algorithms to solve them. Regarding applications, we implement the proposed algorithms for group feature selection in optimal scoring problem and estimation problem of multiple covariance matrices. In the third part of the thesis, we introduce a stochastic DCA for large scale parameter estimation problems (Chapter 6) in which the objective function is a large sum of nonconvex components. As an application, we propose a special stochastic DCA for the loglinear model incorporating latent variables Programmation DC Programmation DCA Parcimonie Analyse discriminante linéaire Estimation de matrice de covariance Apprentissage stochastique DCA (DC Algorithms) Programming Parsimony Linear discriminant analysis Estimation of covariance matrix Stochastic learning 519.7 006.31
39	Analyse factorielle de données structurées en groupes d'individus : application en biologie / Multivariate data analysis of multi-group datasets : application to biology Eslami, Aida 21 October 2013 (has links) Ce travail concerne les analyses visant à étudier les données où les individus sont structurés en différents groupes (données multi-groupes). La thèse aborde la question des données multi-groupes ayant une structure en un seul tableau, plusieurs tableaux, trois voies et deux blocs (régression). Cette thèse présente plusieurs méthodes d'analyse de données multi-groupes dans le cadre de l'analyse factorielle. Notre travail comporte trois parties. La première partie traite de l'analyse de données multi-groupes (un bloc de variables divisé en sous-groupes d'individus). Le but est soit descriptif (analyse intra-groupes) ou prédictif (analyse discriminante ou analyse inter-groupe). Nous commençons par une description exhaustive des méthodes multi-groupes. En outre, nous proposons deux méthodes : l'Analyse Procrustéenne duale et l'Analyse en Composantes Communes et Poids Spécifiques duale. Nous exposons également de nouvelles propriétés et algorithmes pour l'Analyse en Composantes Principales multi-groupes. La deuxième partie concerne l'analyse multi-blocs et multi-groupes et l'analyse trois voies et multi-groupes. Nous présentons les méthodes existantes. Par ailleurs, nous proposons deux méthodes, l'ACP multi-blocs et multi-groupes et l'ACP multi-blocs et multi-groupes pondérée, vues comme des extensions d'Analyse en Composantes Principales multi-groupes. L'analyse en deux blocs et multi-groupes est prise en compte dans la troisième partie. Tout d'abord, nous présentons des méthodes appropriées pour trouver la relation entre un ensemble de données explicatives et un ensemble de données à expliquer, les deux tableaux présentant une structure de groupe entre les individus. Par la suite, nous proposons quatre méthodes pouvant être vues comme des extensions de la régression PLS au cas multi-groupes, et parmi eux, nous en sélectionnons une et la développons dans une stratégie de régression. Les méthodes proposées sont illustrées sur la base de plusieurs jeux de données réels dans le domaine de la biologie. Toutes les stratégies d'analyse sont programmées sur le logiciel libre R. / This work deals with multi-group analysis, to study multi-group data where individuals are a priori structured into different groups. The thesis tackles the issue of multi-group data in a multivariate, multi-block, three-way and two-block (regression) setting. It presents several methods of multi-group data analysis in the framework of factorial analysis. It includes three sections. The first section concerns the case of multivariate multi-group data. The aim is either descriptive (within-group analysis) or predictive (discriminant analysis, between-group analysis). We start with a comprehensive review of multi-group methods. Furthermore, we propose two methods namely Dual Generalized Procrustes Analysis and Dual Common Component and Specific Weights Analysis. We also exhibit new properties and algorithms for multi-group Principal Component Analysis. The second section deals with multiblock multi-group and three-way multi-group data analysis. We give a general review of multiblock multi-group methods. In addition, we propose two methods, namely multiblock and multi-group PCA and Weighted-multiblock and multi-group PCA, as extensions of multi-group Principal Component Analysis. The two-block multi-group analysis is taken into account in the third section. Firstly, we give a presentation of appropriate methods to investigate the relationship between an explanatory dataset and a dependent dataset where there is a group structure among individuals. Thereafter, we propose four methods, namely multi-group PLS, in the PLS approach, and among them we select one and develop it into a regression strategy. The proposed methods are illustrated on the basis of several real datasets in the field of biology. All the strategies of analysis are implemented within the framework of R. Analyse factorielle Analyse en Composantes Principales Analyse multi-groupe Analyse multibloc Régression PLS Aspect dual, Analyse discriminante Algorithme NIPALS Factor analysis Principal Component Analysis Multi-group analysis PLS regression Multiblock analysis Dual aspect Discriminant analysis NIPALS algorithm
40	Recherche statistique de biomarqueurs du cancer et de l'allergie à l'arachide Collignon, Olivier 16 October 2009 (has links) (PDF) La première partie de la thèse traite de la recherche de biomarqueurs du cancer. Lors de la transcription, il apparaît que certains nucléotides peuvent être remplacés par un autre nucléotide. On s'intéresse alors à la comparaison des probabilités de survenue de ces infidélités de transcription dans des ARNm cancéreux et dans des ARNm sains. Pour cela, une procédure de tests multiples menée sur les positions des séquences de référence de 17 gènes est réalisée via les EST (Expressed Sequence Tag). On constate alors que ces erreurs de transcription sont majoritairement plus fréquentes dans les tissus cancéreux que dans les tissus sains. Ce phénomène conduirait ainsi à la production de protéines dites aberrantes, dont la mesure permettrait par la suite de détecter les patients atteints de formes précoces de cancer. La deuxième partie de la thèse s'attache à l'étude de l'allergie à l'arachide. Afin de diagnostiquer l'allergie à l'arachide et de mesurer la sévérité des symptômes, un TPO (Test de Provocation Orale) est réalisé en clinique. Le protocole consiste à faire ingérer des doses croissantes d'arachide au patient jusqu'à l'apparition de symptômes objectifs. Le TPO pouvant se révéler dangereux pour le patient, des analyses discriminantes de l'allergie à l'arachide, du score du TPO, du score du premier accident et de la dose réactogène sont menées à partir d'un échantillon de 243 patients, recrutés dans deux centres différents, et sur lesquels sont mesurés 6 dosages immunologiques et 30 tests cutanés. Les facteurs issus d'une Analyse Factorielle Multiple sont également utilisés comme prédicteurs. De plus, un algorithme regroupant simultanément en classes des intervalles comprenant les doses réactogènes et sélectionnant des variables explicatives est proposé, afin de mettre ensuite en compétition des règles de classement. La principale conclusion de cette étude est que les mesures de certains anticorps peuvent apporter de l'information sur l'allergie à l'arachide et sa sévérité, en particulier ceux dirigés contre rAra-h1, rAra-h2 et rAra-h3. [MATH] Mathematics [SDV] Life Sciences tests multiples ARNm cancer Expressed Sequence Tag substitution de nucléotides infidélité de transcription Analyse Factorielle Multiple analyse discriminante apprentissage statistique classification supervisée sélection de variables allergie à l'arachide test de provocation orale immunologie

Search results