Global ETD Search

41	Géologie du Précambrien terminal (III) et traitement statistique des données géochimiques de prospection, dans la boutonnière de Bou Azzer - El Graara (Anti-Atlas, Maroc) Azizi Samir, Moulay 21 December 1990 (has links) (PDF) Cette étude est effectuée dans la zone de suture panafricaine de Bou Azzer-EI Graara (Anti-Atlas, Maroc). Elle s'articule en deux volets: d'une part, l'étude géologique et géodynamique du Précambrien Terminal (III) qui sert de support aux traitements statistiques de l'information géochimique de prospection récoltée dans le district de Tamdrost-Ambed d'autre part. 1) Un découpage lithostratigraphique des formations volcaniques du PIII est obtenu grâce à la cartographie détaillée au 1/4000e du district de Tamdrost-Ambed et aux coupes géologiques levées en d'autres points de la boutonnière. Ceci a permis d'établir une coupe synthétique et des corrélations lithostratigraphiques. L'étude pétrographique des roches volcaniques à prédominance pyroclastique de cette série montre leur rattachement à un magmatisme calco-alcalin, d'âge compris entre 580 et 560 Ma, dont la signification est discutée dans le cadre géodynamique régional. L'analyse structurale des formations volcaniques et volcano-sédimentaires du Précambrien III, conduit à la mise en évidence de déformations synvolcaniques en régime distensif (NW -SE) et à la détermination des paléochamps de contraintes associés aux déformations observées. Le modèle d'extension proposé implique des mouvements de coulissement senestres le long de grands décrochements régionaux parallèles à la suture, entre le craton ouest-africain et le domaine panafricain "mobile". II) Le traitement des données géochimiques (13000 analyses de 10 éléments majeurs et 24 éléments en traces par Spectrométrie d'émission) aboutit à la mise en évidence d'anomalies élémentaires et multiélémentaires significatives d'indices miniers, indépendants de la lithologie. Ce résultat passe par l'étude de la qualité des données géochimiques qui a conduit à l'évaluation de la précision et à l'application d'une correction empirique de l'erreur analytique. L'analyse statistique des données de prospection est effectuée en plusieurs étapes: - l'utilisation de la technique non conventionnelle "box and whiskers" pour la détermination des seuils anomaux, toutes lithologies confondues; -la diversité lithologique est simplifiée par analyse factorielle en composantes principales sur les médianes pour aboutir à quatre groupes lithologiques au lieu des 32 distingués sur le terrain; . - une analyse discriminante sur ces quatre groupes, désormais connus, aboutit à un modèle factoriel du fond géochimique qui explique mieux les variations liées à la lithologie; - le fond géochimique modélisé est retranché par régression factorielle pour faire apparaitre les anomalies discordantes. Des cartes de synthèse des anomalies multiélémentaires sont établies dans le but d'orienter les campagnes de sondage. Précambrien Terminal Panafricain Bou Azzer Anti-Atlas Maroc volcanIsme pyroclastique calco-aicalin géochimie traitement de données prospection anomalie indices miniers statistiques analyse factorielle analyse discriminante
42	Modèle bayésien pour les prêts investisseurs Bouvrette, Mathieu January 2006 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal Modèle bayésien Défaut de paiement Prêts investisseurs Fonds mutuels Arbre de classification Forêt d'arbres Arbre consensus Analyse discriminante Régression logistique/probit Chaînes de Markov à sauts réversibles Test t Test de Wilcoxon d Cohen Mesures d'association
43	Dietary patterns associated with diet quality among First Nations women living on reserves in British Columbia Mutoni, Sandrine 05 1900 (has links) Les Indigènes canadiens vivent une rapide transition nutritionnelle marquée par une consommation accrue des produits commercialisés au dépit des aliments traditionnels. Ce mémoire cherche à identifier les patrons alimentaires associés à une meilleure alimentation des femmes autochtones vivant dans les réserves en Colombie Britannique. L’échantillon (n=493) a été sélectionné de l’étude ‘First Nations Food, Nutrition, and Environment Study’. L’étude a utilisé des rappels alimentaires de 24 heures. Pour identifier les patrons alimentaires, un indice de qualité alimentaire (QA) basé sur 10 éléments nutritionnels (fibre alimentaire, gras totaux/saturés, folate, magnésium, calcium, fer, vitamines A, C, D) a permis de classifier les sujets en trois groupes (tertiles). Ces groupes ont été comparés sur leur consommation de 25 groupes alimentaires (GAs) en employant des tests statistiques non-paramétriques (Kruskal-Wallis et ANCOVA). Une analyse discriminante (AD) a confirmé les GAs associés à la QA. La QA des sujets était globalement faible car aucun rappel n’a rencontré les consommations recommandées pour tous les 10 éléments nutritionnels. L'AD a confirmé que les GAs associés de façon significative à la QA étaient ‘légumes et produits végétaux’, ‘fruits’, ‘aliments traditionnels’, ‘produits laitiers faibles en gras’, ‘soupes et bouillons’, et ‘autres viandes commercialisées’ (coefficients standardisés= 0,324; 0,295; 0,292; 0,282; 0,157; -0.189 respectivement). Le pourcentage de classifications correctes était 83.8%. Nos résultats appuient la promotion des choix alimentaires recommandés par le « Guide Alimentaire Canadien- Premières Nations, Inuits, et Métis ». Une consommation accrue de légumes, fruits, produits laitiers faibles en gras, et aliments traditionnels caractérise les meilleurs patrons alimentaires. / Indigenous Canadians are going through a rapid nutrition transition marked by an increased consumption of market foods and a decreased intake of traditional products. The aim of this research is to identify dietary patterns associated with a better diet quality among Indigenous female adults living on reserve in British Columbia. The sample (n=493) was selected from the First Nations Food, Nutrition, and Environment Study. The study used 24-hour food recalls. To identify dietary patterns, individuals were classified in three groups (tertiles) according to points obtained on a dietary score (based on Dietary Reference Intakes for dietary fiber, total fat, saturated fat, folate, magnesium, calcium, iron, vitamins A, C, D). The tertiles were compared for their consumption of 25 food groups (FGs) using statistical non-parametric tests (i.e. Kruskal-Wallis and ANCOVA tests). A discriminant analysis was used to confirm the FGs significantly associated with diet quality. Generally, subjects had poor diet quality since no food recall met the recommended intakes for all selected nutritional elements. The discriminant analysis confirmed that the FGs significantly associated with diet quality were “vegetables and vegetable products”, “fruits”, “traditional foods”, “low-fat dairy products”, “soups and broth”, and “other market meat” (standardized discriminant function coefficient= 0.324, 0.295, 0.292, 0.282, 0.157, -0.189 respectively). The percentage of correct classifications was 83.8%. In conclusion, our findings support the promotion of dietary choices according to the “Eating well with the Canadian Food Guide – First Nations, Inuit, and Métis”. It is greater use of vegetables, fruits, low-fat dairy products, and traditional foods that characterizes better dietary patterns. Patrons alimentaires Qualité alimentaire Indice de qualité alimentaire Analyse discriminante Autochtones canadiens Dietary patterns Diet quality Dietary score Discriminant analysis Indigenous Canadians
44	Contribution à la modélisation des durées de séjour du CHU de Grenoble Delhumeau, Cécile 06 December 2002 (has links) (PDF) Cette thèse propose une méthodologie permettant l'identification des groupes homogènes de malades (GHM) du Centre Hospitalier Universitaire (CHU) de Grenoble dont la durée de séjour (DS) s'écarte de la "référence nationale", mais aussi d'identifier la présence d'éventuels groupes d'"outliers" (patients avec des DS extrêmes) dans ces GHM. L'enjeu est de taille : des séjours longs entraînent une occupation des lits supérieure à ce que permet la valorisation financière correspondant à la pathologie prise en charge. Il est donc important de repérer ces GHM, responsables du coût élevé du point Indice Synthétique d'Activité (ISA), unité d'oeuvre des hôpitaux utilisée par le Programme de Médicalisation des Systèmes d'Information pour connaître leur activité, leur allouer le budget correspondant, et contraindre à une productivité optimale. Les écarts entre la distribution des DS des GHM grenoblois et celle de leurs homologues de la base nationale ont été comparés. Pour chaque GHM, un profil, fondé sur la comparaison des quartiles de DS des distributions nationales et grenobloises, deux à deux, a été construit. Des méthodes statistiques de classification (analyse en composantes principales, classification hiérarchique, analyse discriminante et modèles de mélange) ont été utilisées pour repérer aisément et sûrement les GHM économiquement coûteux. De manière empirique, les profils grenoblois semblent se structurer en 9 catégories. La classification hiérarchique identifie 4 catégories de GHM, dont une particulière comptant 16 GHM, dans laquelle un tiers des patients participe fortement à la dérive en points ISA du CHU, et pour qui la mise en place d'une action économiquement rentable serait aisée. Le modèle de mélange montre que les GHM se structurent en 3 catégories et permet de valider la classification issue de l'approche multidimensionnelle. [SDV:OT] Life Sciences/Other [SDV:OT] Sciences du Vivant/Autre durées de séjour (DS) Groupe Homogène de Malades (GHM) analyse en composante principale classification hiérarchique analyse discriminante modèle de mélange
45	Human locomotion analysis, classification and modeling of normal and pathological vertical ground reaction force signals in elderly / Analyse, classification et modélisation de la locomotion humaine : application a des signaux GRF sur une population âgée Alkhatib, Rami 12 July 2016 (has links) La marche est définie par des séquences de gestes cycliques et répétées. Il a été déjà montré que la vitesse et la variabilité de ces séquences peuvent révéler des aptitudes ou des défaillances motrices. L’originalité de ce travail est alors d’analyser et de caractériser les foulées de sujets âgés à partir des signaux de pression issus de semelles instrumentées lors de la marche, au moyen d’outils de traitement du signal. Une étude préliminaire, sur les signaux de pression générés lors de la marche, nous a permis de mettre en évidence le caractère cyclo-stationnaire de ces signaux. Ces paramètres sont testées sur une population de 47 sujets. Tout d'abord, nous avons commencé par un prétraitement des signaux et nous avons montré dans la première de cette thèse que le filtrage peut éliminer une partie vitale du signal. C’est pourquoi un filtre adaptatif basé sur la décomposition en mode empirique a été conçu. Les points de retournement ont été filtrés ensuite en utilisant une technique temps-fréquence appelée «synochronosqueezing». Nous avons également montré que le contenu des signaux de force de marche est fortement affecté par des paramètres inquantifiables tels que les tâches cognitives qui les rendent difficiles à normaliser. C’est pourquoi les paramètres extraits de nos signaux sont tous dérivées par une comparaison inter-sujet. Par exemple, nous avons assimilé la différence dans la répartition de poids entre les pieds. Il est également recommandé dans ce travail de choisir le centre des capteurs plutôt que de compter sur la somme des forces issues du réseau de capteurs pour la classification. Ensuite, on a montré que l’hypothèse de la marche équilibrée et déséquilibrée peut améliorer les résultats de la classification. Le potentiel de cette hypothèse est montré à l'aide de la répartition du poids ainsi que le produit de l'âge × vitesse dans le premier classificateur et la corrélation dans le second classificateur. Une simulation de la série temporelle de VGRF basé sur une version modifiée du modèle de Markov non stationnaire, du premier ordre est ensuite dérivée. Ce modèle prédit les allures chez les sujets normaux et suffisamment pour les allures des sujets de Parkinson. On a trouvé que les trois modes: temps, fréquence et espace sont très utiles pour l’analyse des signaux de force, c’est pourquoi l’analyse de facteurs parallèles est introduite comme étant une méthode de tenseur qui peut être utilisée dans le futur / Walking is defined as sequences of repetitive cyclic gestures. It was already shown that the speed and the variability of these sequences can reveal abilities or motorskill failures. The originality of this work is to analyze and characterize the steps of elderly persons by using pressure signals. In a preliminary study, we showed that pressure signals are characterized by cyclostationarity. In this study, we intend to exploit the nonstationarity of the signals in a search for new indicators that can help in gait signal classification between normal and Parkinson subjects in the elderly population. These parameters are tested on a population of 47 subjects. First, we started with preprocessing the vertical ground reaction force (VGRF) signals and showed in this first part of the thesis that filtering can remove a vital part of the signal. That is why an adaptive filter based on empirical mode decomposition (EMD) was built. Turning points are filtered using synochronosqueezing of time-frequency representations of the signal. We also showed that the content of gait force signals is highly affected by unquantifiable parameter such as cognitive tasks which make them hard to be normalized. That is why features being extracted are derived from inter-subject comparison. For example we equated the difference in the load distribution between feet. It is also recommended in this work to choose the mid-sensor rather than relying on summation of forces from array of sensors for classification purposes. A hypothesis of balanced and unbalanced gait is verified to be potential in improving the classification accuracy. The power of this hypothesis is shown by using the load distribution and Age×Speed in the first classifier and the correlation in the second classifier. A time series simulation of VGRF based on a modified version of nonstationary- Markov model of first order is derived. This model successfully predict gaits in normal subjects and fairly did in Parkinson’s gait. We found out that the three modes: time, frequency and space are helpful in analyzing force signals that is why parallel factor analysis is introduced as a tensor method to be used in a future work Force de réaction au sol Analyse nonstationnaire Modèle de Markov du premier ordre Analyse discriminante Equilibre et déséquilibre Chute Vertical ground reaction force Nonstationary analysis First order Markov model Discriminant analysis Balances and unbalanced Faller
46	Cadres méthodologiques pour la conception innovante d'un Plan énergétique durable à l'échelle d'une organisation : application d'une planification énergétique pour une économie compétitive bas carbone au Sonnenhof / Methodological frameworks for the innovative design of a sustainable energy plan at a organization scale : energy planning for moving to a competitive low carbon economy in Sonnenhof Bach, Sébastien 27 September 2017 (has links) Les entreprises et plus généralement les organisations sont confrontées à des enjeux climatiques et économiques avec pour obligation de respecter un cadre légal et des orientations définis à des plus grandes échelles (régionale, nationale et internationale). Une organisation est souvent au fait du but ou de l’objectif à atteindre ; en revanche le moyen d’y parvenir peut nécessiter de l’apprentissage voire de la recherche. Le but de cette thèse est de fournir une méthodologie à l’usage des organisations pour réaliser le management stratégique des projets relatifs à leur transition énergétique. A partir de différents états de l’art sur la planification énergétique et la conception en particulier, nous avons pointé le déficit méthodologique auquel doit faire face une organisation : si les démarches et outils existent lorsqu’un problème est clairement identifié, comment justement identifier un ou des problèmes à partir uniquement d’une formulation de buts ou d’intentions ? La première partie propose une démarche de planification énergétique à l’échelle d’une organisation qui fait émerger, de manière structurée, les problèmes auxquels l’organisation sera potentiellement confrontée. Notre démarche repose sur l’utilisation des BEGES et des méthodes de management de l’énergie/GES d’une part, complétés par des démarches et outils de conception d’autre part. Ces derniers facilitent la consolidation des informations et des données nécessaires pour formuler et structurer les problèmes à résoudre. A l’issue de cette démarche certains problèmes sont formulés sous forme de contradictions et de conflits. La démarche développée est purement qualitative et adaptée au travail de groupe avec des experts. Cependant certaines données numériques traduisent des comportements de systèmes qui sont peu maitrisés par les parties prenantes du projet. La deuxième partie propose une méthode combinant la simulation et l’analyse de données pour identifier les contradictions d’objectifs et de cause qui peuvent ou semblent empêcher l’atteinte des objectifs. Ces contradictions sont formulées de sorte à pouvoir être traitées avec les méthodes de résolution de problèmes inventifs. Le principe d’identification des contradictions d’objectifs repose sur la transformation des réponses expérimentales ou de simulation des systèmes étudiés en données qualitatives binaires et sur l’identification des Paretos optimaux des données ainsi transformées. Les contradictions de causes concernent les facteurs ou paramètres de conception qui induisent les conflits d’objectifs. Nous proposons de les identifier à l’aide d’une méthode d’analyse discriminante binaire à base d’apprentissage supervisé associée à l’ANOVA. Nous montrons sur un cas d’étude, d’une part, comment intégrer cette approche dans la démarche présentée en partie 1 du mémoire, et d’autre part, comment l’utiliser pour obtenir des concepts de solutions dans un contexte multi-objectifs (diminution des consommations d’énergie, des émissions de GES, du coût etc.). / Companies and more generally organizations are confronted with climatic and economic issues, they have to respect a legal framework and orientations defined in larger scales (regional, national and international). An organization usually knows the goal or the objective to be achieved; however the way to do can require learning or even research. The goal of this thesis is to provide a methodology for the use of organizations to realize strategic management of their energy transition projects. From many different states of the art about energy planning and conception in particular, we show the methodological deficit which an organization has to face: if approaches and tools exist when a problem is clearly identified, how actually identify one or several problems from only a goal or intention formulation? The first part proposes an energy planning approach at an organizational scale to bring out in structured way problems which the organization may be confronted. Our approach is based on greenhouse gas emission assessments and energy/GHG management methods which are completed with conception approaches and some tools and methodologies. They facilitate the consolidation of required information and data to formulate and structure problems to solve. As a result of our approach some problems are formulated as contradictions and conflicts. The developed approach is purely qualitative and adapted to workgroup with experts. However some numerical data translate system behaviors which are sparsely mastered by project stakeholders. The second part proposes a combined method of simulation and data analysis to identify objective and cause contradictions which can or seem to prevent achieving the objectives. These contradictions are formulated in such a way to be handled with methods of resolution of inventive problems. The identification of objective contradictions is based on the transformation of experimental or simulation answers of the studied systems in binary qualitative data and on the identification of optimal Pareto of the transformed data. Cause contradictions concern conception factors or parameters which induce objective conflicts. We suggest identifying these contradictions with a binary discriminant analysis method based on supervised learning associated with ANOVA. On one hand, we show on a study case how integrate this initiative into the presented approaches in part 1 and on the other hand, how use it to obtain solution concepts in a multi-objective context (energy consumptions, GHG emissions or cost reduction etc.). Planification énergétique BEGES Conception TRIZ OTSM-TRIZ Contradiction Plans d’expériences Pareto Analyse discriminante ANOVA Energy planning GHG assessments Conception TRIZ OTSM-TRIZ Contradiction Design of experiments Pareto Discriminant analysis ANOVA 621.042 658.5
47	Utilisation d'algorithmes génétiques pour l'identification systématique de réseaux de gènes co-régulés. / Using genetic algorithms to systematically identify co-regulated genes networks Janbain, Ali 16 July 2019 (has links) L’objectif de ce travail est de mettre au point une nouvelle approche automatique pour identifier les réseaux de gènes concourant à une même fonction biologique. Ceci permet une meilleure compréhension des phénomènes biologiques et notamment des processus impliqués dans les maladies telles que les cancers. Différentes stratégies ont été développées pour essayer de regrouper les gènes d’un organisme selon leurs relations fonctionnelles : génétique classique et génétique moléculaire. Ici, nous utilisons une propriété connue des réseaux de gènes fonctionnellement liés à savoir que ces gènes sont généralement co-régulés et donc co-exprimés. Cette co-régulation peut être mise en évidence par des méta-analyses de données de puces à ADN (micro-arrays) telles que Gemma ou COXPRESdb. Dans un travail précédent [Al Adhami et al., 2015], la topologie d’un réseau de co-expression de gènes a été caractérisé en utilisant deux paramètres de description des réseaux qui discriminent des groupes de gènes sélectionnés aléatoirement (modules aléatoires, RM) de groupes de gènes avec des liens fonctionnels connus (modules fonctionnels, FM), c’est-à-dire des gènes appartenant au même processus biologique GO. Dans le présent travail, nous avons cherché à généraliser cette approche et à proposer une méthode, appelée TopoFunc, pour améliorer l’annotation existante de la fonction génique. Nous avons d’abord testé différents descripteurs topologiques du réseau de co-expression pour sélectionner ceux qui identifient le mieux des modules fonctionnels. Puis, nous avons constitué une base de données rassemblant des modules fonctionnels et aléatoires, pour lesquels, sur la base des descripteurs sélectionnés, nous avons construit un modèle de discrimination LDA [Friedman et al., 2001] permettant, pour un sous-ensemble de gènes donné, de prédire son type (fonctionnel ou non). Basée sur la méthode de similarité de gènes travaillée par Wang et ses collègues [Wang et al., 2007], nous avons calculé un score de similarité fonctionnelle entre les gènes d’un module. Nous avons combiné ce score avec celui du modèle LDA dans une fonction de fitness implémenté dans un algorithme génétique (GA). À partir du processus biologique d’ontologie de gènes donné (GO-BP), AG visait à éliminer les gènes faiblement co-exprimés avec la plus grande clique de GO-BP et à ajouter des gènes «améliorant» la topologie et la fonctionnalité du module. Nous avons testé TopoFunc sur 193 GO-BP murins comprenant 50-100 gènes et avons montré que TopoFunc avait agrégé un certain nombre de nouveaux gènes avec le GO-BP initial tout en améliorant la topologie des modules et la similarité fonctionnelle. Ces études peuvent être menées sur plusieurs espèces (homme, souris, rat, et possiblement poulet et poisson zèbre) afin d’identifier des modules fonctionnels conservés au cours de l’évolution. / The aim of this work is to develop a new automatic approach to identify networks of genes involved in the same biological function. This allows a better understanding of the biological phenomena and in particular of the processes involved in diseases such as cancers. Various strategies have been developed to try to cluster genes of an organism according to their functional relationships : classical genetics and molecular genetics. Here we use a well-known property of functionally related genes mainly that these genes are generally co-regulated and therefore co-expressed. This co-regulation can be detected by microarray meta-analyzes databases such as Gemma or COXPRESdb. In a previous work [Al Adhami et al., 2015], the topology of a gene coexpression network was characterized using two description parameters of networks that discriminate randomly selected groups of genes (random modules, RM) from groups of genes with known functional relationship (functional modules, FM), e.g. genes that belong to the same GO Biological Process. We first tested different topological descriptors of the co-expression network to select those that best identify functional modules. Then, we built a database of functional and random modules for which, based on the selected descriptors, we constructed a discrimination model (LDA)[Friedman et al., 2001] allowing, for a given subset of genes, predict its type (functional or not). Based on the similarity method of genes worked by Wang and co-workers [Wang et al., 2007], we calculated a functional similarity score between the genes of a module. We combined this score with that of the LDA model in a fitness function implemented in a genetic algorithm (GA). Starting from a given Gene Ontology Biological Process (GO-BP), AG aimed to eliminate genes that were weakly coexpressed with the largest clique of the GO-BP and to add genes that "improved" the topology and functionality of the module. We tested TopoFunc on the 193 murine GO-BPs comprising 50-100 genes and showed that TopoFunc aggregated a number of novel genes to the initial GO-BP while improving module topology and functional similarity. These studies can be conducted on several species (humans, mice, rats, and possibly chicken and zebrafish) to identify functional modules preserved during evolution. Réseau de co-Expression de gènes Analyse discriminante linéaire Algorithme génétique Ontologie des gènes Similarité fonctionnelle Modules fonctionnels Gene co-Expression network. Linear Discriminant Analysis Genetic algorithm Gene Ontology Functional similarity Functional modules
48	Aide à la décision médicale et télémédecine dans le suivi de l’insuffisance cardiaque / Medical decision support and telemedecine in the monitoring of heart failure Duarte, Kevin 10 December 2018 (has links) Cette thèse s’inscrit dans le cadre du projet "Prendre votre cœur en mains" visant à développer un dispositif médical d’aide à la prescription médicamenteuse pour les insuffisants cardiaques. Dans une première partie, une étude a été menée afin de mettre en évidence la valeur pronostique d’une estimation du volume plasmatique ou de ses variations pour la prédiction des événements cardiovasculaires majeurs à court terme. Deux règles de classification ont été utilisées, la régression logistique et l’analyse discriminante linéaire, chacune précédée d’une phase de sélection pas à pas des variables. Trois indices permettant de mesurer l’amélioration de la capacité de discrimination par ajout du biomarqueur d’intérêt ont été utilisés. Dans une seconde partie, afin d’identifier les patients à risque de décéder ou d’être hospitalisé pour progression de l’insuffisance cardiaque à court terme, un score d’événement a été construit par une méthode d’ensemble, en utilisant deux règles de classification, la régression logistique et l’analyse discriminante linéaire de données mixtes, des échantillons bootstrap et en sélectionnant aléatoirement les prédicteurs. Nous définissons une mesure du risque d’événement par un odds-ratio et une mesure de l’importance des variables et des groupes de variables. Nous montrons une propriété de l’analyse discriminante linéaire de données mixtes. Cette méthode peut être mise en œuvre dans le cadre de l’apprentissage en ligne, en utilisant des algorithmes de gradient stochastique pour mettre à jour en ligne les prédicteurs. Nous traitons le problème de la régression linéaire multidimensionnelle séquentielle, en particulier dans le cas d’un flux de données, en utilisant un processus d’approximation stochastique. Pour éviter le phénomène d’explosion numérique et réduire le temps de calcul pour prendre en compte un maximum de données entrantes, nous proposons d’utiliser un processus avec des données standardisées en ligne au lieu des données brutes et d’utiliser plusieurs observations à chaque étape ou toutes les observations jusqu’à l’étape courante sans avoir à les stocker. Nous définissons trois processus et en étudions la convergence presque sûre, un avec un pas variable, un processus moyennisé avec un pas constant, un processus avec un pas constant ou variable et l’utilisation de toutes les observations jusqu’à l’étape courante. Ces processus sont comparés à des processus classiques sur 11 jeux de données. Le troisième processus à pas constant est celui qui donne généralement les meilleurs résultats / This thesis is part of the "Handle your heart" project aimed at developing a drug prescription assistance device for heart failure patients. In a first part, a study was conducted to highlight the prognostic value of an estimation of plasma volume or its variations for predicting major short-term cardiovascular events. Two classification rules were used, logistic regression and linear discriminant analysis, each preceded by a stepwise variable selection. Three indices to measure the improvement in discrimination ability by adding the biomarker of interest were used. In a second part, in order to identify patients at short-term risk of dying or being hospitalized for progression of heart failure, a short-term event risk score was constructed by an ensemble method, two classification rules, logistic regression and linear discriminant analysis of mixed data, bootstrap samples, and by randomly selecting predictors. We define an event risk measure by an odds-ratio and a measure of the importance of variables and groups of variables using standardized coefficients. We show a property of linear discriminant analysis of mixed data. This methodology for constructing a risk score can be implemented as part of online learning, using stochastic gradient algorithms to update online the predictors. We address the problem of sequential multidimensional linear regression, particularly in the case of a data stream, using a stochastic approximation process. To avoid the phenomenon of numerical explosion which can be encountered and to reduce the computing time in order to take into account a maximum of arriving data, we propose to use a process with online standardized data instead of raw data and to use of several observations per step or all observations until the current step. We define three processes and study their almost sure convergence, one with a variable step-size, an averaged process with a constant step-size, a process with a constant or variable step-size and the use of all observations until the current step without storing them. These processes are compared to classical processes on 11 datasets. The third defined process with constant step-size typically yields the best results Intelligence artificielle Insuffisance cardiaque Analyse discriminante Classification supervisée Sélection de variables Score d’événement Prédicteur d’ensemble Données massives Algorithmes stochastiques Apprentissage en ligne Artifical intelligence Heart failure Discriminant analysis Supervised classification Variable selection Event score Ensemble predictor Big data Stochastic algorithms Online learning 519.535 610.151 95
49	Modèles de covariance pour l'analyse et la classification de signaux électroencéphalogrammes / Covariance models for electroencephalogramm signals analysis and classification Spinnato, Juliette 06 July 2015 (has links) Cette thèse s’inscrit dans le contexte de l’analyse et de la classification de signaux électroencéphalogrammes (EEG) par des méthodes d’analyse discriminante. Ces signaux multi-capteurs qui sont, par nature, très fortement corrélés spatialement et temporellement sont considérés dans le plan temps-fréquence. En particulier, nous nous intéressons à des signaux de type potentiels évoqués qui sont bien représentés dans l’espace des ondelettes. Par la suite, nous considérons donc les signaux représentés par des coefficients multi-échelles et qui ont une structure matricielle électrodes × coefficients. Les signaux EEG sont considérés comme un mélange entre l’activité d’intérêt que l’on souhaite extraire et l’activité spontanée (ou "bruit de fond"), qui est largement prépondérante. La problématique principale est ici de distinguer des signaux issus de différentes conditions expérimentales (classes). Dans le cas binaire, nous nous focalisons sur l’approche probabiliste de l’analyse discriminante et des modèles de mélange gaussien sont considérés, décrivant dans chaque classe les signaux en termes de composantes fixes (moyenne) et aléatoires. Cette dernière, caractérisée par sa matrice de covariance, permet de modéliser différentes sources de variabilité. Essentielle à la mise en oeuvre de l’analyse discriminante, l’estimation de cette matrice (et de son inverse) peut être dégradée dans le cas de grandes dimensions et/ou de faibles échantillons d’apprentissage, cadre applicatif de cette thèse. Nous nous intéressons aux alternatives qui se basent sur la définition de modèle(s) de covariance(s) particulier(s) et qui permettent de réduire le nombre de paramètres à estimer. / The present thesis finds itself within the framework of analyzing and classifying electroencephalogram signals (EEG) using discriminant analysis. Those multi-sensor signals which are, by nature, highly correlated spatially and temporally are considered, in this work, in the timefrequency domain. In particular, we focus on low-frequency evoked-related potential-type signals (ERPs) that are well described in the wavelet domain. Thereafter, we will consider signals represented by multi-scale coefficients and that have a matrix structure electrodes × coefficients. Moreover, EEG signals are seen as a mixture between the signal of interest that we want to extract and spontaneous activity (also called "background noise") which is overriding. The main problematic is here to distinguish signals from different experimental conditions (class). In the binary case, we focus on the probabilistic approach of the discriminant analysis and Gaussian mixtures are used, describing in each class the signals in terms of fixed (mean) and random components. The latter, characterized by its covariance matrix, allow to model different variability sources. The estimation of this matrix (and of its inverse) is essential for the implementation of the discriminant analysis and can be deteriorated by high-dimensional data and/or by small learning samples, which is the application framework of this thesis. We are interested in alternatives that are based on specific covariance model(s) and that allow to decrease the number of parameters to estimate. Analyse discriminante Données matricielles Matrice de covariance séparable Modèle de mélange gaussien Modèle linéaire mixte Décomposition en valeurs singulières Transformation en ondelettes discrète Signaux électroencéphalogrammes Discriminant analysis Matrix-Based data Separable covariance matrix Gaussian mixtures Linear mixed model Singular value decomposition Discrete wavelet transform Electroencephalogramm signals
50	Essais sur la prévision de la défaillance bancaire : validation empirique des modèles non-paramétriques et étude des déterminants des prêts non performants / Essays on the prediction of bank failure : empirical validation of non-parametric models and study of the determinants of non-performing loans Affes, Zeineb 05 March 2019 (has links) La récente crise financière qui a débuté aux États-Unis en 2007 a révélé les faiblesses du système bancaire international se traduisant par l’effondrement de nombreuses institutions financières aux États-Unis et aussi par l’augmentation de la part des prêts non performants dans les bilans des banques européennes. Dans ce cadre, nous proposons d’abord d’estimer et de tester l’efficacité des modèles de prévisions des défaillances bancaires. L’objectif étant d’établir un système d’alerte précoce (EWS) de difficultés bancaires basées sur des variables financières selon la typologie CAMEL (Capital adequacy, Asset quality, Management quality, Earnings ability, Liquidity). Dans la première étude, nous avons comparé la classification et la prédiction de l’analyse discriminante canonique (CDA) et de la régression logistique (LR) avec et sans coûts de classification en combinant ces deux modèles paramétriques avec le modèle descriptif d’analyse en composantes principales (ACP). Les résultats montrent que les modèles (LR et CDA) peuvent prédire la faillite des banques avec précision. De plus, les résultats de l’ACP montrent l’importance de la qualité des actifs, de l’adéquation des fonds propres et de la liquidité en tant qu’indicateurs des conditions financières de la banque. Nous avons aussi comparé la performance de deux méthodes non paramétriques, les arbres de classification et de régression (CART) et le nouveau modèle régression multivariée par spline adaptative (MARS), dans la prévision de la défaillance. Un modèle hybride associant ’K-means clustering’ et MARS est également testé. Nous cherchons à modéliser la relation entre dix variables financières et le défaut d’une banque américaine. L’approche comparative a mis en évidence la suprématie du modèle hybride en termes de classification. De plus, les résultats ont montré que les variables d’adéquation du capital sont les plus importantes pour la prévision de la faillite d’une banque. Enfin, nous avons étudié les facteurs déterminants des prêts non performants des banques de l’Union Européenne durant la période 2012-2015 en estimant un modèle à effets fixe sur données de panel. Selon la disponibilité des données nous avons choisi un ensemble de variables qui se réfèrent à la situation macroéconomique du pays de la banque et d’autres variables propres à chaque banque. Les résultats ont prouvé que la dette publique, les provisions pour pertes sur prêts, la marge nette d’intérêt et la rentabilité des capitaux propres affectent positivement les prêts non performants, par contre la taille de la banque et l’adéquation du capital (EQTA et CAR) ont un impact négatif sur les créances douteuses. / The recent financial crisis that began in the United States in 2007 revealed the weaknesses of the international banking system resulting in the collapse of many financial institutions in the United States and also the increase in the share of non-performing loans in the balance sheets of European banks. In this framework, we first propose to estimate and test the effectiveness of banking default forecasting models. The objective is to establish an early warning system (EWS) of banking difficulties based on financial variables according to CAMEL’s ratios (Capital adequacy, Asset quality, Management quality, Earnings ability, Liquidity). In the first study, we compared the classification and the prediction of the canonical discriminant analysis (CDA) and the logistic regression (LR) with and without classification costs by combining these two parametric models with the descriptive model of principal components analysis (PCA). The results show that the LR and the CDA can predict bank failure accurately. In addition, the results of the PCA show the importance of asset quality, capital adequacy and liquidity as indicators of the bank’s financial conditions. We also compared the performance of two non-parametric methods, the classification and regression trees (CART) and the newly multivariate adaptive regression splines (MARS) models, in the prediction of failure. A hybrid model combining ’K-means clustering’ and MARS is also tested. We seek to model the relationship between ten financial variables (CAMEL’s ratios) and the default of a US bank. The comparative approach has highlighted the supremacy of the hybrid model in terms of classification. In addition, the results showed that the capital adequacy variables are the most important for predicting the bankruptcy of a bank. Finally, we studied the determinants of non-performing loans from European Union banks during the period 2012-2015 by estimating a fixed effects model on panel data. Depending on the availability of data we have chosen a set of variables that refer to the macroeconomic situation of the country of the bank and other variables specific to each bank. The results showed that public debt, loan loss provisions, net interest margin and return on equity positively affect non performing loans, while the size of the bank and the adequacy of capital (EQTA and CAR) have a negative impact on bad debts. Prévision de la défaillance bancaire Système d'alerte précoce Prêts non performants Analyse discriminante canonique Régression logistique Analyse en composantes principales K-means Déterminants macroéconomiques Déterminants spécifiques à la banque Bankruptcy prediction Early-warning system Non-performing loans Canonical discriminant analysis Logistic regression Principal component analysis K-means Macroeconomic determinants Bank specific determinants 332 339

Search results