351 |
Apprentissage à partir de données et de connaissances incertaines : application à la prédiction de la qualité du caoutchouc / Learning from uncertain data and knowledge : application to the natural rubber quality predictionSutton-Charani, Nicolas 28 May 2014 (has links)
Pour l’apprentissage de modèles prédictifs, la qualité des données disponibles joue un rôle important quant à la fiabilité des prédictions obtenues. Ces données d’apprentissage ont, en pratique, l’inconvénient d’être très souvent imparfaites ou incertaines (imprécises, bruitées, etc). Ce travail de doctorat s’inscrit dans ce cadre où la théorie des fonctions de croyance est utilisée de manière à adapter des outils statistiques classiques aux données incertaines.Le modèle prédictif choisi est l’arbre de décision qui est un classifieur basique de l’intelligence artificielle mais qui est habituellement construit à partir de données précises. Le but de la méthodologie principale développée dans cette thèse est de généraliser les arbres de décision aux données incertaines (floues, probabilistes,manquantes, etc) en entrée et en sortie. L’outil central d’extension des arbres de décision aux données incertaines est une vraisemblance adaptée aux fonctions de croyance récemment proposée dans la littérature dont certaines propriétés sont ici étudiées de manière approfondie. De manière à estimer les différents paramètres d’un arbre de décision, cette vraisemblance est maximisée via l’algorithme E2M qui étend l’algorithme EM aux fonctions de croyance. La nouvelle méthodologie ainsi présentée, les arbres de décision E2M, est ensuite appliquée à un cas réel : la prédiction de la qualité du caoutchouc naturel. Les données d’apprentissage, essentiellement culturales et climatiques, présentent de nombreuses incertitudes qui sont modélisées par des fonctions de croyance adaptées à ces imperfections. Après une étude statistique standard de ces données, des arbres de décision E2M sont construits et évalués en comparaison d’arbres de décision classiques. Cette prise en compte des incertitudes des données permet ainsi d’améliorer très légèrement la qualité de prédiction mais apporte surtout des informations concernant certaines variables peu prises en compte jusqu’ici par les experts du caoutchouc. / During the learning of predictive models, the quality of available data is essential for the reliability of obtained predictions. These learning data are, in practice very often imperfect or uncertain (imprecise, noised, etc). This PhD thesis is focused on this context where the theory of belief functions is used in order to adapt standard statistical tools to uncertain data.The chosen predictive model is decision trees which are basic classifiers in Artificial Intelligence initially conceived to be built from precise data. The aim of the main methodology developed in this thesis is to generalise decision trees to uncertain data (fuzzy, probabilistic, missing, etc) in input and in output. To realise this extension to uncertain data, the main tool is a likelihood adapted to belief functions,recently presented in the literature, whose behaviour is here studied. The maximisation of this likelihood provide estimators of the trees’ parameters. This maximisation is obtained via the E2M algorithm which is an extension of the EM algorithm to belief functions.The presented methodology, the E2M decision trees, is applied to a real case : the natural rubber quality prediction. The learning data, mainly cultural and climatic,contains many uncertainties which are modelled by belief functions adapted to those imperfections. After a simple descriptiv statistic study of the data, E2M decision trees are built, evaluated and compared to standard decision trees. The taken into account of the data uncertainty slightly improves the predictive accuracy but moreover, the importance of some variables, sparsely studied until now, is highlighted.
|
352 |
Caching and prefetching for efficient video services in mobile networks / Caching et prefetching pour une livraison plus efficace des contenus vidéo dans les réseaux mobilesGouta, Ali 15 January 2015 (has links)
Les réseaux cellulaires ont connu une croissance phénoménale du trafic alimentée par les nouvelles technologies d'accès cellulaire. Cette croissance est en grande partie tirée par l'émergence du trafic HTTP adaptatif streaming (HAS) comme une nouvelle technologie de diffusion des contenus vidéo. Le principe du HAS est de rendre disponible plusieurs qualités de la même vidéo en ligne et que les clients choisissent la meilleure qualité qui correspond à leur bande passante. Chaque niveau d'encodage est segmenté en des chunks, qui dont la durée varie de 2 à 10 secondes. L'émergence du HAS a introduit des nouvelles contraintes sur les systèmes de livraison des contenus vidéo en particulier sur les systèmes de caches. Dans ce contexte, nous menons une analyse détaillée des données du trafic HAS collecté en France et fournie par le plus grand opérateur de téléphonie mobile du pays. Tout d'abord, nous analysons et modélisons le comportement des clients qui demandent des contenus VoD et live. Ces analyses nous ont permis d'identifier les facteurs qui impactent la performance des systèmes de cache et de proposer un nouveau algorithme de remplacement de contenus qu'on appelle WA-LRU. WA-LRU exploite la localité temporelle des chunks dans le contenu et la connaissance de la charge du trafic dans le réseau afin d'améliorer la performance du cache. Ensuite, nous analysons et modélisons la logique d'adaptation entre les qualités vidéo basés sur des observations empiriques. Nous montrons que le changement fréquent entre les encodages réduit considérablement la performance des systèmes de cache. Dans ce contexte, nous présentons CF-DASH une implémentation libre d'un player DASH qui vise à réduire les changements fréquents entre qualités, assure une bonne QoE des clients et améliore la performance des systèmes de caches. La deuxième partie de la thèse est dédié à la conception, simulation et implémentation d'une solution de préchargement des contenus vidéo sur terminaux mobiles. Nous concevons un système que nous appelons «Central Predictor System (CPsys)" qui prédit le comportement des clients mobiles et leurs consommations des vidéos. Nous évaluons CPSys avec des traces de trafic réel. Enfin, nous développons une preuve de concept de notre solution de préchargement. / Recently, cellular networks have witnessed a phenomenal growth of traffic fueled by new high speed broadband cellular access technologies. This growth is in large part driven by the emergence of the HTTP Adaptive Streaming (HAS) as a new video delivery method. In HAS, several qualities of the same videos are made available in the network so that clients can choose the quality that best fits their bandwidth capacity. This strongly impacts the viewing pattern of the clients, their switching behavior between video qualities, and thus beyond on content delivery systems. In this context, we provide an analysis of a real HAS dataset collected in France and provided by the largest French mobile operator. Firstly, we analyze and model the viewing patterns of VoD and live streaming HAS sessions and we propose a new cache replacement strategy, named WA-LRU. WA-LRU leverages the time locality of video segments within the HAS content. We show that WA-LRU improves the performance of the cache. Second, we analyze and model the adaptation logic between the video qualities based on empirical observations. We show that high switching behaviors lead to sub optimal caching performance, since several versions of the same content compete to be cached. In this context we investigate the benefits of a Cache Friendly HAS system (CF-DASH) which aims at improving the caching efficiency in mobile networks and to sustain the quality of experience of mobile clients. Third, we investigate the mobile video prefetching opportunities. We show that CPSys can achieve high performance as regards prediction correctness and network utilization efficiency. We further show that CPSys outperforms other prefetching schemes from the state of the art. At the end, we provide a proof-of-concept implementation of our prefetching system.
|
353 |
Prédiction structurée pour l’analyse de données séquentielles / Structured prediction for sequential dataLajugie, Rémi 18 September 2015 (has links)
Dans cette thèse nous nous intéressons à des problèmes d’apprentissage automatique dans le cadre de sorties structurées avec une structure séquentielle. D’une part, nous considérons le problème de l’apprentissage de mesure de similarité pour deux tâches : (i) la détection de rupture dans des signaux multivariés et (ii) le problème de déformation temporelle entre paires de signaux. Les méthodes généralement utilisées pour résoudre ces deux problèmes dépendent fortement d’une mesure de similarité. Nous apprenons une mesure de similarité à partir de données totalement étiquetées. Nous présentons des algorithmes usuels de prédiction structuré, efficaces pour effectuer l’apprentissage. Nous validons notre approche sur des données réelles venant de divers domaines. D’autre part, nous nous intéressons au problème de la faible supervision pour la tâche d’alignement d’un enregistrement audio sur la partition jouée. Nous considérons la partition comme une représentation symbolique donnant (i) une information complète sur l’ordre des symboles et (ii) une information approximative sur la forme de l’alignement attendu. Nous apprenons un classifieur pour chaque symbole avec ces informations. Nous développons une méthode d’apprentissage fondée sur l’optimisation d’une fonction convexe. Nous démontrons la validité de l’approche sur des données musicales. / In this manuscript, we consider structured machine learning problems and consider more precisely the ones involving sequential structure. In a first part, we consider the problem of similarity measure learning for two tasks where sequential structure is at stake: (i) the multivariate change-point detection and (ii) the time warping of pairs of time series. The methods generally used to solve these tasks rely on a similarity measure to compare timestamps. We propose to learn a similarity measure from fully labelled data, i.e., signals already segmented or pairs of signals for which the optimal time warping is known. Using standard structured prediction methods, we present algorithmically efficient ways for learning. We propose to use loss functions specifically designed for the tasks. We validate our approach on real-world data. In a second part, we focus on the problem of weak supervision, in which sequential data are not totally labeled. We focus on the problem of aligning an audio recording with its score. We consider the score as a symbolic representation giving: (i) a complete information about the order of events or notes played and (ii) an approximate idea about the expected shape of the alignment. We propose to learn a classifier for each note using this information. Our learning problem is based onthe optimization of a convex function that takes advantage of the weak supervision and of the sequential structure of data. Our approach is validated through experiments on the task of audio-to-score on real musical data.
|
354 |
Applications de la théorie de l'information à l'apprentissage statistique / Applications of Information Theory to Machine LearningBensadon, Jérémy 02 February 2016 (has links)
On considère ici deux sujets différents, en utilisant des idées issues de la théorie de l'information : 1) Context Tree Weighting est un algorithme de compression de texte qui calcule exactement une prédiction Bayésienne qui considère tous les modèles markoviens visibles : on construit un "arbre de contextes", dont les nœuds profonds correspondent aux modèles complexes, et la prédiction est calculée récursivement à partir des feuilles. On étend cette idée à un contexte plus général qui comprend également l'estimation de densité et la régression, puis on montre qu'il est intéressant de remplacer les mixtures Bayésiennes par du "switch", ce qui revient à considérer a priori des suites de modèles plutôt que de simples modèles. 2) Information Geometric Optimization (IGO) est un cadre général permettant de décrire plusieurs algorithmes d'optimisation boîte noire, par exemple CMA-ES et xNES. On transforme le problème initial en un problème d'optimisation d'une fonction lisse sur une variété Riemannienne, ce qui permet d'obtenir une équation différentielle du premier ordre invariante par reparamétrage. En pratique, il faut discrétiser cette équation, et l'invariance n'est plus valable qu'au premier ordre. On définit l'algorithme IGO géodésique (GIGO), qui utilise la structure de variété Riemannienne mentionnée ci-dessus pour obtenir un algorithme totalement invariant par reparamétrage. Grâce au théorème de Noether, on obtient facilement une équation différentielle du premier ordre satisfaite par les géodésiques de la variété statistique des gaussiennes, ce qui permet d'implémenter GIGO. On montre enfin que xNES et GIGO sont différents dans le cas général, mais qu'il est possible de définir un nouvel algorithme presque invariant par reparamétrage, GIGO par blocs, qui correspond exactement à xNES dans le cas Gaussien. / We study two different topics, using insight from information theory in both cases: 1) Context Tree Weighting is a text compression algorithm that efficiently computes the Bayesian combination of all visible Markov models: we build a "context tree", with deeper nodes corresponding to more complex models, and the mixture is computed recursively, starting with the leaves. We extend this idea to a more general context, also encompassing density estimation and regression; and we investigate the benefits of replacing regular Bayesian inference with switch distributions, which put a prior on sequences of models instead of models. 2) Information Geometric Optimization (IGO) is a general framework for black box optimization that recovers several state of the art algorithms, such as CMA-ES and xNES. The initial problem is transferred to a Riemannian manifold, yielding parametrization-invariant first order differential equation. However, since in practice, time is discretized, this invariance only holds up to first order. We introduce the Geodesic IGO (GIGO) update, which uses this Riemannian manifold structure to define a fully parametrization invariant algorithm. Thanks to Noether's theorem, we obtain a first order differential equation satisfied by the geodesics of the statistical manifold of Gaussians, thus allowing to compute the corresponding GIGO update. Finally, we show that while GIGO and xNES are different in general, it is possible to define a new "almost parametrization-invariant" algorithm, Blockwise GIGO, that recovers xNES from abstract principles.
|
355 |
Evaluation de l’efficacité des logiciels de prédiction de mots sur la vitesse de saisie de texte sur l’outil informatique pour les personnes blessées médullaires cervicaux / Evaluation of the effectiveness of a targeted training program on the use of word prediction software on computer text input speed in persons with cervical spinal cord injuryPouplin, Samuel 18 February 2016 (has links)
Ce travail de thèse avait pour objectif principal d’étudier l’influence de certains paramétrages deslogiciels de prédiction de mots et d’un programme d’entraînement ciblé sur la vitesse de saisie detexte chez des personnes tétraplégiques. Six études ont été menées. L’étude 1 nous a permis demettre en évidence des vitesses de saisie de texte chez les personnes tétraplégiques et d’étudierl’influence de leurs aides techniques d’accès à l’outil informatique sur cette vitesse. L’étude 2 nous apermis de mettre en avant l’hétérogénéité des résultats d’un logiciel de prédiction de mots sur lavitesse de saisie de texte sur une population hétérogène et sans paramétrage de ces logiciels.L’étude 3 nous a permis d’étudier les habitudes de préconisations et de paramétrages des logiciels deprédictions de mots par les professionnels. Les études 4 et 5 nous ont permis d’évaluer l’influencedes paramétrages (nombre de mots affichés dans la liste de prédiction et l’adaptation du logiciel auvocabulaire de l’utilisateur) sur cette saisie de texte. Enfin, l’étude 6 nous a permis d’étudierl’influence d’un entraînement dirigé par des professionnels sur les logiciels de prédictions de motschez des personnes tétraplégiques, sur la vitesse de saisie de texte.Les résultats montrent que seule l’aide technique d’accès à l’outil informatique influence la vitessede saisie de texte. Les logiciels de reconnaissance vocale permettent une vitesse de saisie de texteéquivalente à celle des personnes valides utilisant un clavier standard. Les paramétrages (nombre demots affichés dans la liste de prédiction et l’adaptation du logiciel au vocabulaire de l’utilisateur) ontune influence différente en fonction du niveau lésionnel des personnes tétraplégiques sur la vitessede saisie de texte, le nombre d’erreurs ou le confort. De plus, une différence entre l’importancedonnée aux paramétrages par les professionnels préconisateurs et les paramétrages effectivementréglés a été mise en évidence. Enfin, l’influence d’un entraînement dirigé sur la vitesse de saisie detexte a été mise en évidence sur la vitesse de saisie de texte. Au regard de l’ensemble de cesrésultats, il apparait nécessaire de paramétrer les logiciels de prédictions de mots, mais aussi deconnaitre l’influence des différents réglages et de diffuser cette information au sein des réseauxprofessionnels. La recherche doit être poursuivie pour améliorer les logiciels de prédiction de mots,mais aussi pour favoriser de nouveaux outils tels les tablettes tactiles et les logiciels dereconnaissance vocale. Une systématisation des entraînements dirigés sur les logiciels de prédictionde mots nécessite une réflexion et une validation sur les modalités et la nature de cesaccompagnements. / The main objective of this work was to study the influence of key settings of word predictionsoftware as well as a training program on the use of word prediction, on text input speed in personswith cervical spinal cord injury.Study 1 determined text input speed in persons with cervical spinal cord injury and the influence ofpersonal characteristics and type of computer device on text input speed. Study 2 evaluated theeffect of a dynamic virtual keyboard coupled with word prediction software on text input speed inpersons with functional tetraplegia. Study 3 analysed the word prediction software settingscommonly prescribed by health-related professionals for people with cervical spinal cord injury.Studies 4 and 5 evaluated the influence of the number of words displayed in the prediction list andthe frequency of use setting on text input speed. Finally, study 6 evaluated the influence of a trainingprogram on the use of word prediction software for persons with cervical spinal cord injury on textinput speed.The results showed that only the type of computer device influenced text input speed; voicerecognition software increased the text input speed of persons with cervical spinal cord injury to thatof able-bodied people using a standard keyboard. The influence of the different word predictionsoftware settings (number of words displayed in the prediction list and the frequency of use) on textinput speed, the number of errors or comfort of use, differed depending on the level of injury. Wealso found differences between the perception of the importance of some settings by healthprofessionalsand data in the literature regarding the optimization of settings. Moreover, althoughsome parameters were considered as very important, they were rarely configured. Finally, trainingpersons with cervical spinal cord injury in the use of word prediction software increased text inputspeed.The results of this work highlighted that word prediction software settings influence text input speedin persons with cervical spinal cord injury, however not all professionals are aware of this.Information should therefore be disseminated through professional networks. Further studies shouldaim to improve word prediction software and should also focus on new devices such as tablets andvoice recognition software. Persons with cervical spinal cord injury training programs in the use ofword prediction software need to be developed and validated.
|
356 |
Diagnostic et pronostic des défauts pour la maintenance préventive et prédictive. Application à une colonne de distillation / Default diagnosis and prognosis for a preventive and predictive maintenance. Application to a distillation columnDaher, Alaa 19 October 2018 (has links)
Le procédé de distillation est largement utilisé dans de nombreuses applications telles que la production pétrochimique, le traitement du gaz naturel, les raffineries de pétrole, etc. Généralement, la maintenance des réacteurs chimiques est très coûteuse et perturbe la production pendant de longues périodes. Tous ces facteurs démontrent réellement la nécessité de stratégies efficaces de diagnostic et de pronostic des défauts pour pouvoir réduire et éviter le plus grand nombre de ces problèmes catastrophiques. La première partie de nos travaux vise à proposer une méthode de diagnostic fiable pouvant être utilisée dans le régime permanent d’une procédure non linéaire. De plus, nous proposons une procédure modifiée de la méthode MFCM permettant de calculer la variation en pourcentage entre deux classes. L’utilisation de MFCM a pour objectif de réduire le temps de calcul et d’accroître les performances du classifieur. Les résultats de la méthode proposée confirment la capacité de classifier entre les différentes classes de défaillances considérées. Le calcul de la durée de vie du système est extrêmement important pour éviter les pannes catastrophiques. Notre deuxième objectif est de proposer une méthode fiable de pronostic permettant d’estimer le chemin de dégradation d’une colonne de distillation et de calculer le pourcentage de durée de vie de ce système. Le travail présente une approche basée sur le système d’inférence neuro-fuzzy adaptatif (ANFIS) combiné avec (FCM) pour prédire la trajectoire future et calculer le pourcentage de durée de vie du système. Les résultats obtenus démontrent la validité de la technique proposée pour atteindre les objectifs requis avec une précision de haut niveau. Pour améliorer les performances d’ANFIS, nous proposons la distribution de Parzen comme nouvelle fonction d’appartenance de l’algorithme ANFIS. Les résultats ont démontré l’importance de la technique proposée car elle s’est avérée efficace pour réduire le temps de calcul. En outre, la distribution de Parzen présentait la plus petite erreur quadratique moyenne (RMSE). La dernière partie de cette thèse se concentrait sur la proposition d’un nouvel algorithme pouvant être appliqué pour obtenir un système de surveillance en temps réel s’appuyant sur la prédiction de défauts ; cela signifie que cette méthode permet de prédire l’état futur du système, puis de diagnostiquer quelle est la source d’erreur probable. Elle permet d’évaluer la dégradation d’une colonne de distillation et de diagnostiquer par la suite les défauts ou accidents pouvant survenir à la suite de la dégradation estimée. Cette nouvelle approche combine les avantages d’ANFIS à ceux de RNA permettant d’atteindre un haut niveau de précision. / The distillation process is largely used in many applications such a petrochemical production, natural gas processing, and petroleum refineries, etc. Usually, maintenance of the chemical reactors is very costly and it disrupts production for long periods of time. All these factors really demonstrate the fundamental need for effective fault diagnosis and prognostic strategies that they are able to reduce and avoid the greatest number of thes problems and disasters. The first part of our work aims to propose a reliable diagnostic method that can be used in the steady-state regime of a nonlinear procedure. Moreover, we propose a modified procedure of the fuzzy c-means clustering method (MFCM) where MFCM calculates the percentage variation between the two clustered classes. The purpose of using MFCM is to reduce the computing time and increase the performance of the classifier. The results of the proposed method confirm the ability to classify between normal mode and eight abnormal modes of faults. Our second goal aims to propose a prognosis reliable method used to estimate the degradation path of a distillation column and calculate the lifetime percentage of this system. The work presents an approach based on adaptive neuro-fuzzy inference system (ANFIS) combined with (FCM) to predict the future path and calculate the lifetime percentage of the system. The results obtained demonstrate the validity of the proposed technique to achieve the needed objectives with a high-level accuracy. To improve ANFIS performance we propose Parzen windows distribution as a new membership function for ANFIS algorithm. Results demonstrated the importance of the proposed technique since it proved to be highly successful in terms of reducing the time consumed. Additionally, Parzen windows had the smallest Root Mean Square Error (RMSE). The last part of this thesis was focusing on the proposing of new algorithm which can be applied to obtain real-time monitoring system which relies on the fault production module to reach the diagnosis module in contrast to the previous strategies ; this means this method predict the future state of the system then diagnosis what is the probable fault source. This proposed method has proven to be a reliable process that can evaluate the degradation of a distillation column and subsequently diagnose the possible faults or accidents that can emerge as a result of the estimated degradation. This new approach combines the benefits of ANFIS with the benefits of feedforward ANN. The results were demonstrated that the technique achieved with a high level of accuracy, the objective of prediction and diagnosis especially when applied to the data obtained from automated distillation process in the chemical industry.
|
357 |
Développement d'un modèle numérique de prédiction des émissions d'oxydes d'azote pour la simulation aux grandes échelles de chambres de combustion aéronautiques / Development of a numerical model to predict the emissionsof nitrogen oxides for the large eddy simulation of gas turbine chambersPecquery, François 06 June 2013 (has links)
Cette thèse est consacrée à l’amélioration des capacités de prédiction des émissions d’oxydes d’azote (NO et NO2) des foyers de combustion aéronautiques. Les travaux, exclusivement numériques, consistent d’abord dans une étude de la cinétique chimique responsable des émissions polluantes. Cetteétude conduit à l’écriture d’un modèle, nommé NOMANI (pour Nitrogen Oxide emission model with one-dimensional MANIfold), basé sur l’approche PCM-FPI (pour Presumed Conditional Moments - Flame Prolongation of ILDM) avec une variable de progrès additionnelle afin calculer l’avancement de la chimie azotée une fois la chimie carbonée à l’équilibre. Différentes validations sur des configurations laminaires simples puis des flammes de laboratoire de Sandia sont présentées. Les résultats en terme de structure de flamme et d'émission de monoxyde d’azote sont confrontés aux mesures expérimentales. Le dernier volet de ces travaux, disponible uniquement dans la version confidentielle du manuscrit, consiste dans le développement d’un modèle de prédiction de polluants associé au modèle TF-LES (pour Thickening Flame for Large Eddy Simulation). Le modèle développé est ensuite appliqué à des calculs d’une chambre de combustion aéronautique. / This thesis is focused on the prediction capabilities of nitrogen oxides (NO and NO2) for numerical tools applied to aeronautical combustion chambers. The modeling work is based on a study of the chemical kinetic that produced the pollutant emissions. This study leads to a model, called NOMANI (Nitrogen Oxide emission model with one-dimensional MANIfold), based on PCM-FPI (Presumed Conditional Moments - Flame Prolongation of ILDM) with an additional progress variable to compute the NO evolution once the carbon chemistry is at the equilibrium. Several benchmarks and test-cases (laminar and turbulent flames) are gathered in this study : Sandia flame have been computed and satisfactory comparisons with measurements are obtained. The last part of this work, only available in the confidential version of the manuscript, is the development of a model to predict pollutant associated with the model TF-LES (for Thickening Flame for Large Eddy Simulation). This model is then applied to computations of a aeronautical combustion chambers.
|
358 |
Etude des déterminants climatiques et environnementaux de la dengue en Guyane française / Climatic and Environmental Drivers of Dengue Fever in French GuianaFlamand, Claude 18 December 2015 (has links)
Première des maladies infectieuses jugées comme prioritaire en Guyane, la dengue fait l’objet d’une forte mobilisation des pouvoirs publics. L’amélioration des connaissances relatives aux facteurs climatiques et environnementaux qui influencent la dengue est un préalable indispensable pour le développement de modèles de prédiction nécessaires pour anticiper et adapter les mesures de gestion aux différentes échelles du département. Cette thèse poursuit un double objectif : i) analyser aux différentes échelles de la Guyane (département, territoires, communes), l’effet des facteurs climatiques et environnementaux sur la dynamique des épidémies de dengue et ii) développer des modèles de prédiction des épidémies. A cet égard, des outils statistiques, de fouille de données et de modélisation complémentaires on été utilisés pour étudier l’influence des facteurs climatiques et environnementaux sur la dynamique de la dengue. Un modèle de prévision climatique des épidémies à l'échelle du départeent, présentant une bonne valeur prédictive a été développé. Ce modèle prédit une épidémie pour 2016. / Dengue is the most prioritized infectious disease in French Guiana with an intense mobilization of public health authorities. In this context, the improvement of knowledge on the climatic, environmental and demographic determinants of dengue transmission is a necessary condition to the development of epidemic prediction model for the planning of control activities at each level of organization of the territory. This thesis had two objectives: i) assess the effect of climatic and environmental factors on dengue spread; ii) develop prediction models of epidemic to anticipate and plan prevention and control activities. We used complementary statistical, data mining and modeling tools to show that climatic and environmental factors interplay with dengue incidence differently at different territory scales. A predictive model with a good performance was developped considering the whole territory of French Guiana. This model indicates that a dengue epidemic is likely to occur in 2016.
|
359 |
Identification de biomarqueurs prédictifs de la survie et de l'effet du traitement dans un contexte de données de grande dimension / Identification of biomarkers predicting the outcome and the treatment effect in presence of high-dimensional dataTernes, Nils 05 October 2016 (has links)
Avec la révolution récente de la génomique et la médecine stratifiée, le développement de signatures moléculaires devient de plus en plus important pour prédire le pronostic (biomarqueurs pronostiques) ou l’effet d’un traitement (biomarqueurs prédictifs) de chaque patient. Cependant, la grande quantité d’information disponible rend la découverte de faux positifs de plus en plus fréquente dans la recherche biomédicale. La présence de données de grande dimension (nombre de biomarqueurs ≫ taille d’échantillon) soulève de nombreux défis statistiques tels que la non-identifiabilité des modèles, l’instabilité des biomarqueurs sélectionnés ou encore la multiplicité des tests.L’objectif de cette thèse a été de proposer et d’évaluer des méthodes statistiques pour l’identification de ces biomarqueurs et l’élaboration d’une prédiction individuelle des probabilités de survie pour des nouveaux patients à partir d’un modèle de régression de Cox. Pour l’identification de biomarqueurs en présence de données de grande dimension, la régression pénalisée lasso est très largement utilisée. Dans le cas de biomarqueurs pronostiques, une extension empirique de cette pénalisation a été proposée permettant d’être plus restrictif sur le choix du paramètre λ dans le but de sélectionner moins de faux positifs. Pour les biomarqueurs prédictifs, l’intérêt s’est porté sur les interactions entre le traitement et les biomarqueurs dans le contexte d’un essai clinique randomisé. Douze approches permettant de les identifier ont été évaluées telles que le lasso (standard, adaptatif, groupé ou encore ridge+lasso), le boosting, la réduction de dimension des effets propres et un modèle implémentant les effets pronostiques par bras. Enfin, à partir d’un modèle de prédiction pénalisé, différentes stratégies ont été évaluées pour obtenir une prédiction individuelle pour un nouveau patient accompagnée d’un intervalle de confiance, tout en évitant un éventuel surapprentissage du modèle. La performance des approches ont été évaluées au travers d’études de simulation proposant des scénarios nuls et alternatifs. Ces méthodes ont également été illustrées sur différents jeux de données, contenant des données d’expression de gènes dans le cancer du sein. / With the recent revolution in genomics and in stratified medicine, the development of molecular signatures is becoming more and more important for predicting the prognosis (prognostic biomarkers) and the treatment effect (predictive biomarkers) of each patient. However, the large quantity of information has rendered false positives more and more frequent in biomedical research. The high-dimensional space (i.e. number of biomarkers ≫ sample size) leads to several statistical challenges such as the identifiability of the models, the instability of the selected coefficients or the multiple testing issue.The aim of this thesis was to propose and evaluate statistical methods for the identification of these biomarkers and the individual predicted survival probability for new patients, in the context of the Cox regression model. For variable selection in a high-dimensional setting, the lasso penalty is commonly used. In the prognostic setting, an empirical extension of the lasso penalty has been proposed to be more stringent on the estimation of the tuning parameter λ in order to select less false positives. In the predictive setting, focus has been given to the biomarker-by-treatment interactions in the setting of a randomized clinical trial. Twelve approaches have been proposed for selecting these interactions such as lasso (standard, adaptive, grouped or ridge+lasso), boosting, dimension reduction of the main effects and a model incorporating arm-specific biomarker effects. Finally, several strategies were studied to obtain an individual survival prediction with a corresponding confidence interval for a future patient from a penalized regression model, while limiting the potential overfit.The performance of the approaches was evaluated through simulation studies combining null and alternative scenarios. The methods were also illustrated in several data sets containing gene expression data in breast cancer.
|
360 |
La motivation aux interventions et programmes correctionnels chez les détenus canadiens des pénitenciers fédérauxDufour, Sophie-Anne 06 1900 (has links)
No description available.
|
Page generated in 0.0902 seconds