Global ETD Search

1	Méthodes statistiques et informatiques pour le traitement des données manquantes Gu Co, Weila Vila 08 March 1997 (has links) (PDF) Cette thèse est consacrée au traitement des données manquantes. Des méthodes descriptives (analyse en composantes principales, analyse des correspondances dont analyse homogène et la classification automatique) sont étudiées dans le cadre des données incomplètes. La seconde partie est consacrée à des problèmes de fusion de fichiers et analyses homogène y est introduite. Analyse de données incomplètes estimation des données manquantes analyse homogène fusion statistique de fichiers
2	Statistique Bayésienne et Monte-Carlo de Second Ordre pour l'évaluation des risques microbiologiques. Le cas de Listeria monocytogenes dans les produits de IVème gamme Crépet, Amélie 12 December 2007 (has links) (PDF) Listeria monocytogenes par sa présence dans les végétaux et sa capacité à se développer à de faibles températures représente un danger pour les consommateurs de salades de IVème gamme. L'objectif de ces travaux est de construire un modèle d'évaluation des risques de listériose par consommation de ce produit. Nous opérons en deux temps : estimation des paramètres d'entrée du modèle par inférence bayésienne puis, à partir des distributions obtenues, simulation de l'exposition et du risque par méthodes de Monte-Carlo de second ordre. Ces techniques permettent de propager séparément la variabilité et l'incertitude le long de la chaîne alimentaire. En particulier, un modèle d'estimation de la distribution de la contamination microbiologique d'un aliment, tenant compte des faibles concentrations est développé. L'effet sur le risque de différents scénarios comme le plafonnement de la croissance de L. monocytogenes ou l'élimination du chlore du procédé industriel est évalué. [MATH] Mathematics statistique bayésienne modèle de croissance microbiologique données incomplètes Listeria monocytogenes Evaluation des risques alimentaires
3	Les méthodes de régularisation optimale et leurs applications en tomographie : nouveaux algorithmes performants de reconstruction d'images Girard, Didier 29 October 1984 (has links) (PDF) . équations intégrales données incomplètes bruitées régularisation optimale ajustement automatique validation croisée déconvultion numérique adaptative reconstruction d'image tomographie temps de vol splines
4	Tests non paramétriques minimax pour de grandes matrices de covariance / Non parametric minimax tests for high dimensional covariance matrices Zgheib, Rania 23 May 2016 (has links) Ces travaux contribuent à la théorie des tests non paramétriques minimax dans le modèle de grandes matrices de covariance. Plus précisément, nous observons $n$ vecteurs indépendants, de dimension $p$, $X_1,ldots, X_n$, ayant la même loi gaussienne $mathcal {N}_p(0, Sigma)$, où $Sigma$ est la matrice de covariance inconnue. Nous testons l'hypothèse nulle $H_0:Sigma = I$, où $I$ est la matrice identité. L'hypothèse alternative est constituée d'un ellipsoïde avec une boule de rayon $varphi$ autour de $I$ enlevée. Asymptotiquement, $n$ et $p$ tendent vers l'infini. La théorie minimax des tests, les autres approches considérées pour le modèle de matrice de covariance, ainsi que le résumé de nos résultats font l'objet de l'introduction.Le deuxième chapitre est consacré aux matrices de covariance $Sigma$ de Toeplitz. Le lien avec le modèle de densité spectrale est discuté. Nous considérons deux types d'ellipsoïdes, décrits par des pondérations polynomiales (dits de type Sobolev) et exponentielles, respectivement.Dans les deux cas, nous trouvons les vitesses de séparation minimax. Nous établissons également des équivalents asymptotiques exacts de l'erreur minimax de deuxième espèce et de l'erreur minimax totale. La procédure de test asymptotiquement minimax exacte est basée sur une U-statistique d'ordre 2 pondérée de façon optimale.Le troisième chapitre considère une hypothèse alternative de matrices de covariance pas nécessairement de Toeplitz, appartenant à un ellipsoïde de type Sobolev de paramètre $alpha$. Nous donnons des équivalents asymptotiques exacts des erreurs minimax de 2ème espèce et totale. Nous proposons une procédure de test adaptative, c-à-d libre de $alpha$, quand $alpha$ appartient à un compact de $(1/2, + infty)$.L'implémentation numérique des procédures introduites dans les deux premiers chapitres montrent qu'elles se comportent très bien pour de grandes valeurs de $p$, en particulier elles gagnent beaucoup sur les méthodes existantes quand $p$ est grand et $n$ petit.Le quatrième chapitre se consacre aux tests adaptatifs dans un modèle de covariance où les observations sont incomplètes. En effet, chaque coordonnée du vecteur est manquante de manière indépendante avec probabilité $1-a$, $ ain (0,1)$, où $a$ peut tendre vers 0. Nous traitons ce problème comme un problème inverse. Nous établissons ici les vitesses minimax de séparation et introduisons de nouvelles procédures adaptatives de test. Les statistiques de test définies ici ont des poids constants. Nous considérons les deux cas: matrices de Toeplitz ou pas, appartenant aux ellipsoïdes de type Sobolev / Our work contributes to the theory of non-parametric minimax tests for high dimensional covariance matrices. More precisely, we observe $n$ independent, identically distributed vectors of dimension $p$, $X_1,ldots, X_n$ having Gaussian distribution $mathcal{N}_p(0,Sigma)$, where $Sigma$ is the unknown covariance matrix. We test the null hypothesis $H_0 : Sigma =I$, where $I$ is the identity matrix. The alternative hypothesis is given by an ellipsoid from which a ball of radius $varphi$ centered in $I$ is removed. Asymptotically, $n$ and $p$ tend to infinity. The minimax test theory, other approaches considered for testing covariance matrices and a summary of our results are given in the introduction.The second chapter is devoted to the case of Toeplitz covariance matrices $Sigma$. The connection with the spectral density model is discussed. We consider two types of ellipsoids, describe by polynomial weights and exponential weights, respectively. We find the minimax separation rate in both cases. We establish the sharp asymptotic equivalents of the minimax type II error probability and the minimax total error probability. The asymptotically minimax test procedure is a U-statistic of order 2 weighted by an optimal way.The third chapter considers alternative hypothesis containing covariance matrices not necessarily Toeplitz, that belong to an ellipsoid of parameter $alpha$. We obtain the minimax separation rate and give sharp asymptotic equivalents of the minimax type II error probability and the minimax total error probability. We propose an adaptive test procedure free of $alpha$, for $alpha$ belonging to a compact of $(1/2, + infty)$.We implement the tests procedures given in the previous two chapters. The results show their good behavior for large values of $p$ and that, in particular, they gain significantly over existing methods for large $p$ and small $n$.The fourth chapter is dedicated to adaptive tests in the model of covariance matrices where the observations are incomplete. That is, each value of the observed vector is missing with probability $1-a$, $a in (0,1)$ and $a$ may tend to 0. We treat this problem as an inverse problem. We establish the minimax separation rates and introduce new adaptive test procedures. Here, the tests statistics are weighted by constant weights. We consider ellipsoids of Sobolev type, for both cases : Toeplitz and non Toeplitz matrices Matrice de covariance Matrice de Toeplitz Tests adaptatifs Vitesse de séparation minimax Asymptotiques exactes Données incomplètes Covariance matrices Toeplitz matrices Adaptive tests Minimax separation rates Sharp asymptotics Missing data
5	Automatic key discovery for Data Linking / Découverte des clés pour le Liage de Données Symeonidou, Danai 09 October 2014 (has links) Dans les dernières années, le Web de données a connu une croissance fulgurante arrivant à un grand nombre des triples RDF. Un des objectifs les plus importants des applications RDF est l’intégration de données décrites dans les différents jeux de données RDF et la création des liens sémantiques entre eux. Ces liens expriment des correspondances sémantiques entre les entités d’ontologies ou entre les données. Parmi les différents types de liens sémantiques qui peuvent être établis, les liens d’identité expriment le fait que différentes ressources réfèrent au même objet du monde réel. Le nombre de liens d’identité déclaré reste souvent faible si on le compare au volume des données disponibles. Plusieurs approches de liage de données déduisent des liens d’identité en utilisant des clés. Une clé représente un ensemble de propriétés qui identifie de façon unique chaque ressource décrite par les données. Néanmoins, dans la plupart des jeux de données publiés sur le Web, les clés ne sont pas disponibles et leur déclaration peut être difficile, même pour un expert.L’objectif de cette thèse est d’étudier le problème de la découverte automatique de clés dans des sources de données RDF et de proposer de nouvelles approches efficaces pour résoudre ce problème. Les données publiées sur le Web sont général volumineuses, incomplètes, et peuvent contenir des informations erronées ou des doublons. Aussi, nous nous sommes focalisés sur la définition d’approches capables de découvrir des clés dans de tels jeux de données. Par conséquent, nous nous focalisons sur le développement d’approches de découverte de clés capables de gérer des jeux de données contenant des informations nombreuses, incomplètes ou erronées. Notre objectif est de découvrir autant de clés que possible, même celles qui sont valides uniquement dans des sous-ensembles de données.Nous introduisons tout d’abord KD2R, une approche qui permet la découverte automatique de clés composites dans des jeux de données RDF pour lesquels l’hypothèse du nom Unique est respectée. Ces données peuvent être conformées à des ontologies différentes. Pour faire face à l’incomplétude des données, KD2R propose deux heuristiques qui per- mettent de faire des hypothèses différentes sur les informations éventuellement absentes. Cependant, cette approche est difficilement applicable pour des sources de données de grande taille. Aussi, nous avons développé une seconde approche, SAKey, qui exploite différentes techniques de filtrage et d’élagage. De plus, SAKey permet à l’utilisateur de découvrir des clés dans des jeux de données qui contiennent des données erronées ou des doublons. Plus précisément, SAKey découvre des clés, appelées "almost keys", pour lesquelles un nombre d’exceptions est toléré. / In the recent years, the Web of Data has increased significantly, containing a huge number of RDF triples. Integrating data described in different RDF datasets and creating semantic links among them, has become one of the most important goals of RDF applications. These links express semantic correspondences between ontology entities or data. Among the different kinds of semantic links that can be established, identity links express that different resources refer to the same real world entity. By comparing the number of resources published on the Web with the number of identity links, one can observe that the goal of building a Web of data is still not accomplished. Several data linking approaches infer identity links using keys. Nevertheless, in most datasets published on the Web, the keys are not available and it can be difficult, even for an expert, to declare them.The aim of this thesis is to study the problem of automatic key discovery in RDF data and to propose new efficient approaches to tackle this problem. Data published on the Web are usually created automatically, thus may contain erroneous information, duplicates or may be incomplete. Therefore, we focus on developing key discovery approaches that can handle datasets with numerous, incomplete or erroneous information. Our objective is to discover as many keys as possible, even ones that are valid in subparts of the data.We first introduce KD2R, an approach that allows the automatic discovery of composite keys in RDF datasets that may conform to different schemas. KD2R is able to treat datasets that may be incomplete and for which the Unique Name Assumption is fulfilled. To deal with the incompleteness of data, KD2R proposes two heuristics that offer different interpretations for the absence of data. KD2R uses pruning techniques to reduce the search space. However, this approach is overwhelmed by the huge amount of data found on the Web. Thus, we present our second approach, SAKey, which is able to scale in very large datasets by using effective filtering and pruning techniques. Moreover, SAKey is capable of discovering keys in datasets where erroneous data or duplicates may exist. More precisely, the notion of almost keys is proposed to describe sets of properties that are not keys due to few exceptions. Web Sémantique RDF Ontologies OWL Linked Data Liage de Données Découverte de Clés Passage à l’échelle Données Incomplètes Données Erronées Semantic Web RDF Ontologies OWL Linked Data Data linking Key Discovery Scalability Erroneous data Incomplete data
6	Extraction de séquences fréquentes : des données numériques aux valeurs manquantes Fiot, Céline 28 September 2007 (has links) (PDF) La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes. Extraction de connaissances fouille de données logique floue sous-ensembles flous motifs séquentiels séquences fréquentes base de données de séquences données numériques données quantitatives données incomplètes valeurs manquantes contraintes temporelles règles d'association

1

Page generated in 0.0322 seconds