Global ETD Search

1	Une approche probabiliste pour le classement d'objets incomplètement connus dans un arbre de décision Hawarah, Lamis 22 October 2008 (has links) (PDF) Nous présentons dans cette thèse une approche probabiliste pour déterminer les valeurs manquantes des objets incomplets pendant leur classement dans les arbres de décision. Cette approche est dérivée de la méthode d'apprentissage supervisé appelée Arbres d'Attributs Ordonnées (AAO) proposée par Lobo et Numao en 2000, qui construit un arbre de décision pour chacun des attributs, selon un ordre croissant en fonction de l'Information Mutuelle entre chaque attribut et la classe. Notre approche étend la méthode de Lobo et Numao, d'une part en prenant en compte les dépendances entre les attributs pour la construction des arbres d'attributs, et d'autre part en fournissant un résultat de classement d'un objet incomplet sous la forme d'une distribution de probabilités (au lieu de la classe la plus probable). <br />Nous expliquons notre méthode et nous la testons sur des bases de données réelles. Nous comparons nos résultats avec ceux donnés par la méthode C4.5 et AAO. <br /><br />Nous proposons également un algorithme basé sur la méthode des k plus proches voisins qui calcule pour chaque objet de la base de test sa fréquence dans la base d'apprentissage. Nous comparons ces fréquences avec les résultats de classement données par notre approche, C4.5 et AAO. Finalement, nous calculons la complexité de construction des arbres d'attributs ainsi que la complexité de classement d'un objet incomplet en utilisant notre approche, C4.5 et AAO. [INFO] Computer Science [INFO] Informatique Fouille de Données Arbres de Décision Valeurs Manquantes Information Mutuelle Classement Probabiliste
2	Des techniques neuronales dans l'alternatif Merlin, Paul 22 June 2009 (has links) (PDF) Cette thèse s'attache à redéfinir des modèles financiers traditionnels en considérant un cadre d'analyse moins restrictif, s'accordant mieux avec les caractéristiques empiriques des fonds alternatifs. Ce cadre élargi, certes plus réaliste, a néanmoins pour principal effet de complexifier les modèles étudiés ; nous choisissons alors d'employer des procédés de calcul naturel pour les simplifier. Dans le premier chapitre de la thèse, nous répondons à une problématique générale qui concerne l'étape essentielle du traitement des données. Nous proposons ainsi une nouvelle approche de la complétion des valeurs manquantes, autorisant une meilleure prise en compte des dépendances inter-actifs. Nous montrons dans le deuxième chapitre comment intégrer des moments d'ordre supérieur dans les modèles d'allocation. Une technique d'optimisation définie à partir des fonctions dites de pénurie nous permet de résoudre les problèmes d'optimisation dans l'espace non-convexe des quatre premiers moments de la distribution de rendements des portefeuilles optimisés. Le troisième chapitre s'attache à évaluer l'impact des données aberrantes sur les modèles d'allocation d'actifs intégrant les moments d'ordre supérieur. Un réseau de neurones modélisant la volatilité nous permet d'étendre les travaux de Chen et Liu (1993). Nous terminons cette thèse avec le quatrième chapitre en proposant un modèle d'analyse de style défini à partir de cartes de Kohonen. Le lien entre les facteurs de style traditionnels et les neurones de la carte est effectué au moyen d'une analyse conditionnelle. Une projection dynamique des fonds autorise ainsi l'étude de la stabilité des styles des gérants d'actifs. Réseau de neurones fonds alternatifs valeurs manquantes simulations modèles d'allocations d'actifs données aberrantes analyse de style coefficient d'asymétrie et de queue
3	Evaluation des risques de crise, appliquée à la détection des conflits armés intra-étatiques Delavallade, Thomas 06 December 2007 (has links) (PDF) Dans de nombreux domaines, l'analyse rationnelle des risques fait partie intégrante du processus de décision. Il s'agit d'un outil méthodologique essentiel pour les acteurs politiques et économiques qui leur permet d'anticiper le déclenchement de crises potentielles. Dans certains secteurs d'activité les conséquences de telles crises sont parfois telles que le recours à l'analyse de risque correspond à une contrainte réglementaire imposée par le législateur. L'objectif d'une telle analyse est de parvenir à identifier les situations à risque ainsi que les principaux facteurs de risque de manière à pouvoir mettre en place les politiques de prévention adéquates.<br />Si de nombreuses cellules de veille ont été mises en place, tant au niveau de l'entreprise, qu'au niveau des institutions nationales et internationales, la quantité d'information potentiellement pertinente pour un sujet donné est parfois telle que la mise à disposition d'outils automatisant tout ou partie du traitement de cette information répond à un besoin réel, sinon à une nécessité.<br />Dans cette optique, dans cette thèse, nous proposons un système générique d'aide à l'anticipation de crises. Notre objectif est de fournir une synthèse d'une situation donnée, d'un point de vue structurel et non événementiel, via l'identification des crises potentielles ainsi que des principaux facteurs de risque associés. Le système que nous proposons repose sur l'apprentissage supervisé de règles de décision floues.<br />La qualité des données d'apprentissage étant problématique dans de nombreuses applications, nous proposons, dans nos travaux, une étude approfondie sur la chaîne de prétraitement, et en particulier sur le traitement des valeurs manquantes et sur la sélection d'attributs. Nous avons également mis l'accent sur l'évaluation et la sélection de modèles afin de pouvoir adapter les modèles de détection au problème à traiter, ainsi qu'aux besoins de l'utilisateur final.<br />La synthèse des résultats fournis par notre système étant destiné à des utilisateurs en charge de la veille stratégique, des outils d'aide au raisonnement et à la compréhension de cette synthèse sont également proposés.<br />Pour juger de l'intérêt de notre méthodologie nous détaillons son application à un problème concret : la détection des conflits armés intra-étatiques. [INFO:INFO_OH] Computer Science/Other évaluation des risques détection de crise aide à la décision arbres de décision flous substitution des valeurs manquantes sélection d'attributs sélection de modèles conflits armés intra-étatiques
4	Sélection de modèle d'imputation à partir de modèles bayésiens hiérarchiques linéaires multivariés Chagra, Djamila 06 1900 (has links) Les logiciels utilisés sont Splus et R. / Résumé La technique connue comme l'imputation multiple semble être la technique la plus appropriée pour résoudre le problème de non-réponse. La littérature mentionne des méthodes qui modélisent la nature et la structure des valeurs manquantes. Une des méthodes les plus populaires est l'algorithme « Pan » de (Schafer & Yucel, 2002). Les imputations rapportées par cette méthode sont basées sur un modèle linéaire multivarié à effets mixtes pour la variable réponse. La méthode « BHLC » de (Murua et al, 2005) est une extension de « Pan » dont le modèle est bayésien hiérarchique avec groupes. Le but principal de ce travail est d'étudier le problème de sélection du modèle pour l'imputation multiple en termes d'efficacité et d'exactitude des prédictions des valeurs manquantes. Nous proposons une mesure de performance liée à la prédiction des valeurs manquantes. La mesure est une erreur quadratique moyenne reflétant la variance associée aux imputations multiples et le biais de prédiction. Nous montrons que cette mesure est plus objective que la mesure de variance de Rubin. Notre mesure est calculée en augmentant par une faible proportion le nombre de valeurs manquantes dans les données. La performance du modèle d'imputation est alors évaluée par l'erreur de prédiction associée aux valeurs manquantes. Pour étudier le problème objectivement, nous avons effectué plusieurs simulations. Les données ont été produites selon des modèles explicites différents avec des hypothèses particulières sur la structure des erreurs et la distribution a priori des valeurs manquantes. Notre étude examine si la vraie structure d'erreur des données a un effet sur la performance du choix des différentes hypothèses formulées pour le modèle d'imputation. Nous avons conclu que la réponse est oui. De plus, le choix de la distribution des valeurs manquantes semble être le facteur le plus important pour l'exactitude des prédictions. En général, les choix les plus efficaces pour de bonnes imputations sont une distribution de student avec inégalité des variances dans les groupes pour la structure des erreurs et une loi a priori choisie pour les valeurs manquantes est la loi normale avec moyenne et variance empirique des données observées, ou celle régularisé avec grande variabilité. Finalement, nous avons appliqué nos idées à un cas réel traitant un problème de santé. Mots clés : valeurs manquantes, imputations multiples, modèle linéaire bayésien hiérarchique, modèle à effets mixtes. / Abstract The technique known as multiple imputation seems to be the most suitable technique for solving the problem of non-response. The literature mentions methods that models the nature and structure of missing values. One of the most popular methods is the PAN algorithm of Schafer and Yucel (2002). The imputations yielded by this method are based on a multivariate linear mixed-effects model for the response variable. A Bayesian hierarchical clustered and more flexible extension of PAN is given by the BHLC model of Murua et al. (2005). The main goal of this work is to study the problem of model selection for multiple imputation in terms of efficiency and accuracy of missing-value predictions. We propose a measure of performance linked to the prediction of missing values. The measure is a mean squared error, and hence in addition to the variance associated to the multiple imputations, it includes a measure of bias in the prediction. We show that this measure is more objective than the most common variance measure of Rubin. Our measure is computed by incrementing by a small proportion the number of missing values in the data and supposing that those values are also missing. The performance of the imputation model is then assessed through the prediction error associated to these pseudo missing values. In order to study the problem objectively, we have devised several simulations. Data were generated according to different explicit models that assumed particular error structures. Several missing-value prior distributions as well as error-term distributions are then hypothesized. Our study investigates if the true error structure of the data has an effect on the performance of the different hypothesized choices for the imputation model. We concluded that the answer is yes. Moreover, the choice of missing-value prior distribution seems to be the most important factor for accuracy of predictions. In general, the most effective choices for good imputations are a t-Student distribution with different cluster variances for the error-term, and a missing-value Normal prior with data-driven mean and variance, or a missing-value regularizing Normal prior with large variance (a ridge-regression-like prior). Finally, we have applied our ideas to a real problem dealing with health outcome observations associated to a large number of countries around the world. Keywords: Missing values, multiple imputation, Bayesian hierarchical linear model, mixed effects model. valeurs manquantes imputations multiples modèle à effets mixtes Missing values multiple imputation Bayesian hierarchical linear model mixed effects model
5	Extraction de séquences fréquentes : des données numériques aux valeurs manquantes Fiot, Céline 28 September 2007 (has links) (PDF) La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes. Extraction de connaissances fouille de données logique floue sous-ensembles flous motifs séquentiels séquences fréquentes base de données de séquences données numériques données quantitatives données incomplètes valeurs manquantes contraintes temporelles règles d'association
6	Sélection de modèle d'imputation à partir de modèles bayésiens hiérarchiques linéaires multivariés Chagra, Djamila 06 1900 (has links) Résumé La technique connue comme l'imputation multiple semble être la technique la plus appropriée pour résoudre le problème de non-réponse. La littérature mentionne des méthodes qui modélisent la nature et la structure des valeurs manquantes. Une des méthodes les plus populaires est l'algorithme « Pan » de (Schafer & Yucel, 2002). Les imputations rapportées par cette méthode sont basées sur un modèle linéaire multivarié à effets mixtes pour la variable réponse. La méthode « BHLC » de (Murua et al, 2005) est une extension de « Pan » dont le modèle est bayésien hiérarchique avec groupes. Le but principal de ce travail est d'étudier le problème de sélection du modèle pour l'imputation multiple en termes d'efficacité et d'exactitude des prédictions des valeurs manquantes. Nous proposons une mesure de performance liée à la prédiction des valeurs manquantes. La mesure est une erreur quadratique moyenne reflétant la variance associée aux imputations multiples et le biais de prédiction. Nous montrons que cette mesure est plus objective que la mesure de variance de Rubin. Notre mesure est calculée en augmentant par une faible proportion le nombre de valeurs manquantes dans les données. La performance du modèle d'imputation est alors évaluée par l'erreur de prédiction associée aux valeurs manquantes. Pour étudier le problème objectivement, nous avons effectué plusieurs simulations. Les données ont été produites selon des modèles explicites différents avec des hypothèses particulières sur la structure des erreurs et la distribution a priori des valeurs manquantes. Notre étude examine si la vraie structure d'erreur des données a un effet sur la performance du choix des différentes hypothèses formulées pour le modèle d'imputation. Nous avons conclu que la réponse est oui. De plus, le choix de la distribution des valeurs manquantes semble être le facteur le plus important pour l'exactitude des prédictions. En général, les choix les plus efficaces pour de bonnes imputations sont une distribution de student avec inégalité des variances dans les groupes pour la structure des erreurs et une loi a priori choisie pour les valeurs manquantes est la loi normale avec moyenne et variance empirique des données observées, ou celle régularisé avec grande variabilité. Finalement, nous avons appliqué nos idées à un cas réel traitant un problème de santé. Mots clés : valeurs manquantes, imputations multiples, modèle linéaire bayésien hiérarchique, modèle à effets mixtes. / Abstract The technique known as multiple imputation seems to be the most suitable technique for solving the problem of non-response. The literature mentions methods that models the nature and structure of missing values. One of the most popular methods is the PAN algorithm of Schafer and Yucel (2002). The imputations yielded by this method are based on a multivariate linear mixed-effects model for the response variable. A Bayesian hierarchical clustered and more flexible extension of PAN is given by the BHLC model of Murua et al. (2005). The main goal of this work is to study the problem of model selection for multiple imputation in terms of efficiency and accuracy of missing-value predictions. We propose a measure of performance linked to the prediction of missing values. The measure is a mean squared error, and hence in addition to the variance associated to the multiple imputations, it includes a measure of bias in the prediction. We show that this measure is more objective than the most common variance measure of Rubin. Our measure is computed by incrementing by a small proportion the number of missing values in the data and supposing that those values are also missing. The performance of the imputation model is then assessed through the prediction error associated to these pseudo missing values. In order to study the problem objectively, we have devised several simulations. Data were generated according to different explicit models that assumed particular error structures. Several missing-value prior distributions as well as error-term distributions are then hypothesized. Our study investigates if the true error structure of the data has an effect on the performance of the different hypothesized choices for the imputation model. We concluded that the answer is yes. Moreover, the choice of missing-value prior distribution seems to be the most important factor for accuracy of predictions. In general, the most effective choices for good imputations are a t-Student distribution with different cluster variances for the error-term, and a missing-value Normal prior with data-driven mean and variance, or a missing-value regularizing Normal prior with large variance (a ridge-regression-like prior). Finally, we have applied our ideas to a real problem dealing with health outcome observations associated to a large number of countries around the world. Keywords: Missing values, multiple imputation, Bayesian hierarchical linear model, mixed effects model. / Les logiciels utilisés sont Splus et R. valeurs manquantes imputations multiples modèle à effets mixtes Missing values multiple imputation Bayesian hierarchical linear model mixed effects model

1

Page generated in 0.0705 seconds