Global ETD Search

61	Contributions à la dynamique de frappe au clavier : multibiométrie, biométrie douce et mise à jour de la référence Giot, Romain 23 October 2012 (has links) (PDF) La dynamique de frappe au clavier est une modalité biométrique comportementale qui permet d'authentifier des individus selon leur façon de taper au clavier. Un tel système est peu coûteux, car il ne nécessite pas de matériel d'acquisition autre que le clavier de l'ordinateur, et est facilement accepté par l'utilisateur. Nous nous sommes principalement intéressé aux systèmes statiques où le texte saisit par l'utilisateur est connu à l'avance par la machine. Malheureusement, les performances de cette modalité sont plutôt médiocres en raison de la forte variabilité de la donnée biométrique. Cette variabilité est due à l'état émotionnel de la personne, l'apprentissage de la façon de taper, \ldots Nous proposons dans cette thèse différentes contributions permettant d'améliorer les performances de reconnaissance de systèmes de dynamique de frappe au clavier (DDF). Nous effectuons également une analyse des bases publiques permettant d'évaluer la performance de nouveaux systèmes de reconnaissance. Une contribution est la mise au point d'un système de DDF par mot de passe partagé. Nous étudions ensuite la fusion multibiométrique avec la dynamique de frappe au clavier et la reconnaissance faciale afin d'augmenter les performances des deux systèmes. Nous montrons, sur deux jeux de données différents, qu'il est possible de reconnaitre le genre d'un individu suivant sa façon de taper au clavier. Enfin, nous présentons une nouvelle méthode de mise à jour de la référence biométrique qui permet de prendre en compte le vieillissement de la donnée biométrique, afin de ne pas avoir une diminution des performances de reconnaissance au cours du temps. Biométrie Dynamique de frappe au clavier Mise à jour de la référence Algorithmes évolutionnaires Fusion d'information
62	Méthodes de géométrie de l'information pour les modèles de mélange Schwander, Olivier 15 October 2013 (has links) (PDF) Cette thèse présente de nouvelles méthodes pour l'apprentissage de modèles de mélanges basées sur la géométrie de l'information. Les modèles de mélanges considérés ici sont des mélanges de familles exponentielles, permettant ainsi d'englober une large part des modèles de mélanges utilisés en pratique. Grâce à la géométrie de l'information, les problèmes statistiques peuvent être traités avec des outils géométriques. Ce cadre offre de nouvelles perspectives permettant de mettre au point des algorithmes à la fois rapides et génériques. Deux contributions principales sont proposées ici. La première est une méthode de simplification d'estimateurs par noyaux. Cette simplification est effectuée à l'aide un algorithme de partitionnement, d'abord avec la divergence de Bregman puis, pour des raisons de rapidité, avec la distance de Fisher-Rao et des barycentres modèles. La seconde contribution est une généralisation de l'algorithme k-MLE permettant de traiter des mélanges où toutes les composantes ne font pas partie de la même famille: cette méthode est appliquée au cas des mélanges de Gaussiennes généralisées et des mélanges de lois Gamma et est plus rapide que les méthodes existantes. La description de ces deux méthodes est accompagnée d'une implémentation logicielle complète et leur efficacité est évaluée grâce à des applications en bio-informatique et en classification de textures. géométrie de l'information modèles de mélange famille exponentielle loi Gamma Gaussienne généralisée
63	International Summerworkshop Computer Science 2013: Proceedings of International Summerworkshop 17.7. - 19.7.2013 Hardt, Wolfram 06 August 2013 (has links) Proceedings of International Summerworkshop Computer Science info:eu-repo/classification/ddc/000 ddc:000 Informatik; E-Learning
64	A Markovian approach to distributional semantics Grave, Edouard 20 January 2014 (has links) (PDF) This thesis, which is organized in two independent parts, presents work on distributional semantics and on variable selection. In the first part, we introduce a new method for learning good word representations using large quantities of unlabeled sentences. The method is based on a probabilistic model of sentence, using a hidden Markov model and a syntactic dependency tree. The latent variables, which correspond to the nodes of the dependency tree, aim at capturing the meanings of the words. We develop an efficient algorithm to perform inference and learning in those models, based on online EM and approximate message passing. We then evaluate our models on intrinsic tasks such as predicting human similarity judgements or word categorization, and on two extrinsic tasks: named entity recognition and supersense tagging. In the second part, we introduce, in the context of linear models, a new penalty function to perform variable selection in the case of highly correlated predictors. This penalty, called the trace Lasso, uses the trace norm of the selected predictors, which is a convex surrogate of their rank, as the criterion of model complexity. The trace Lasso interpolates between the $\ell_1$-norm and $\ell_2$-norm. In particular, it is equal to the $\ell_1$-norm if all predictors are orthogonal and to the $\ell_2$-norm if all predictors are equal. We propose two algorithms to compute the solution of least-squares regression regularized by the trace Lasso, and perform experiments on synthetic datasets to illustrate the behavior of the trace Lasso. Distributional semantics Hidden Markov model
65	Nouvelles paramétrisations de réseaux Bayésiens et leur estimation implicite - Famille exponentielle naturelle et mélange infini de Gaussiennes Jarraya Siala, Aida 26 October 2013 (has links) (PDF) L'apprentissage d'un réseau Bayésien consiste à estimer le graphe (la structure) et les paramètres des distributions de probabilités conditionnelles associées à ce graphe. Les algorithmes d'apprentissage de réseaux Bayésiens utilisent en pratique une approche Bayésienne classique d'estimation a posteriori dont les paramètres sont souvent déterminés par un expert ou définis de manière uniforme Le coeur de cette thèse concerne l'application aux réseaux Bayésiens de plusieurs avancées dans le domaine des Statistiques comme l'estimation implicite, les familles exponentielles naturelles ou les mélanges infinis de lois Gaussiennes dans le but de (1) proposer de nouvelles formes paramétriques, (2) estimer des paramètres de tels modèles et (3) apprendre leur structure. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning Réseau bayésien Estimation implicite Famille exponentielle Mélange infini de gausiennes
66	Sur quelques problèmes non-supervisés impliquant des séries temporelles hautement dépendantes Khaleghi, Azadeh 18 November 2013 (has links) (PDF) Cette thèse est consacrée à l'analyse théorique de problèmes non supervisés impliquant des séries temporelles hautement dépendantes. Plus particulièrement, nous abordons les deux problèmes fondamentaux que sont le problème d'estimation des points de rupture et le partitionnement de séries temporelles. Ces problèmes sont abordés dans un cadre extrêmement général où les données sont générées par des processus stochastiques ergodiques stationnaires. Il s'agit de l'une des hypothèses les plus faibles en statistiques, comprenant non seulement, les hypothèses de modèles et les hypothèses paramétriques habituelles dans la littérature scientifique, mais aussi des hypothèses classiques d'indépendance, de contraintes sur l'espace mémoire ou encore des hypothèses de mélange. En particulier, aucune restriction n'est faite sur la forme ou la nature des dépendances, de telles sortes que les échantillons peuvent être arbitrairement dépendants. Pour chaque problème abordé, nous proposons de nouvelles méthodes non paramétriques et nous prouvons de plus qu'elles sont, dans ce cadre, asymptotique- ment consistantes. Pour l'estimation de points de rupture, la consistance asymptotique se rapporte à la capacité de l'algorithme à produire des estimations des points de rupture qui sont asymptotiquement arbitrairement proches des vrais points de rupture. D'autre part, un algorithme de partitionnement est asymptotiquement consistant si le partitionnement qu'il produit, restreint à chaque lot de séquences, coïncides, à partir d'un certain temps et de manière consistante, avec le partitionnement cible. Nous montrons que les algorithmes proposés sont implémentables efficacement, et nous accompagnons nos résultats théoriques par des évaluations expérimentales. L'analyse statistique dans le cadre stationnaire ergodique est extrêmement difficile. De manière générale, il est prouvé que les vitesses de convergence sont impossibles à obtenir. Dès lors, pour deux échantillons générés indépendamment par des processus ergodiques stationnaires, il est prouvé qu'il est impossible de distinguer le cas où les échantillons sont générés par le même processus de celui où ils sont générés par des processus différents. Ceci implique que des problèmes tels le partitionnement de séries temporelles sans la connaissance du nombre de partitions ou du nombre de points de rupture ne peut admettre de solutions consistantes. En conséquence, une tâche difficile est de découvrir les formulations du problème qui en permettent une résolution dans ce cadre général. La principale contribution de cette thèse est de démontrer (par construction) que malgré ces résultats d'impossibilités théoriques, des formulations naturelles des problèmes considérés existent et admettent des solutions consistantes dans ce cadre général. Ceci inclut la démonstration du fait que le nombre de points de rupture corrects peut être trouvé, sans recourir à des hypothèses plus fortes sur les processus stochastiques. Il en résulte que, dans cette formulation, le problème des points de rupture peut être réduit à du partitionnement de séries temporelles. Les résultats présentés dans ce travail formulent les fondations théoriques pour l'analyse des données séquentielles dans un espace d'applications bien plus large. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning séries temporelles apprentissage non-supervisé analyse de points de ruptures clustering
67	Analyse et fouille de données de trajectoires d'objets mobiles El Mahrsi, Mohamed Khalil 30 September 2013 (has links) (PDF) Dans cette thèse, nous explorons deux problèmes de recherche liés à la gestion et à la fouille de données de trajectoires d'objets mobiles. Dans un premier temps, nous étudions l'échantillonnage de flux de trajectoires. Les appareils de géo-localisation modernes sont capables d'enregistrer et de transmettre leurs coordonnées géographiques à un taux très élevé. Garder l'intégralité des trajectoires capturées grâce à ces terminaux peut s'avérer coûteux tant en espace de stockage qu'en temps de calcul. L'élaboration de techniques d'échantillonnage adaptées devient alors primordiale afin de réduire la volumétrie des données en supprimant certaines positions (jugées inutiles ou redondantes) tout en veillant à préserver le maximum des caractéristiques spatiotemporelles des trajectoires originales. Dans le contexte de flux de données, ces techniques doivent en plus être exécutées " à la volée " et s'adapter au caractère à la fois continu et éphémère des données. Afin de répondre à ces besoins, nous proposons l'algorithme STSS (Spatiotemporal Stream Sampling). STSS bénéficie d'une faible complexité temporelle et garantit une borne supérieure pour les erreurs commises lors de l'échantillonnage. Nous présentons également une étude expérimentale à travers laquelle nous montrons les performances de notre proposition tout en la comparant à d'autres approches proposées dans la littérature. La deuxième problématique étudiée dans le cadre de ce travail est celle de la classification non supervisée (ou clustering) de trajectoires contraintes par un réseau routier. La majorité des travaux traitant du clustering de trajectoires se sont intéressés au cas où ces dernières évoluent librement dans un espace Euclidien. Ces travaux n'ont donc pas pris en considération l'éventuelle présence d'un réseau sous-jacent au mouvement, dont les contraintes jouent un rôle primordial dans l'évaluation de la similarité entre trajectoires. Nous proposons trois approches pour traiter ce cas. La première approche se focalise sur la découverte de groupes de trajectoires ayant parcouru les mêmes parties du réseau routier. La deuxième approche vise à grouper des segments routiers visités très fréquemment par les mêmes trajectoires. Quant à la troisième approche, elle combine les deux aspects afin d'effectuer un co-clustering simultané des trajectoires et des segments routiers. Nous illustrons nos approches à travers divers cas d'étude afin de démontrer comment elles peuvent servir à caractériser le trafic routier et les dynamiques de mouvement dans le réseau routier. Nous réalisons des études expérimentales afin d'évaluer les performances de nos propositions. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning objets mobiles trajectoires réseau routier échantillonnage spatiotemporel flux de données similarité classification non supervisée
68	Towards an Integral Approach for Modeling Causality Meganck, Stijn 24 September 2008 (has links) (PDF) A partir de données d'observation classiques, il est rarement possible d'arriver à une structure de réseau bayésien qui soit complètement causale. Le point théorique auquel nous nous intéressons est l'apprentissage des réseaux bayésiens causaux, avec ou sans variables latentes. Nous nous sommes d'abord focalisés sur la découverte de relations causales lorsque toutes les variables sont connues (i.e. il n'y a pas de variables latentes) en proposant un algorithme d'apprentissage utilisant à la fois des données issues d'observations et d'expérimentations. Logiquement, nous nous sommes ensuite concentrés sur le même problème lorsque toutes les variables ne sont pas connues. Il faut donc découvrir à la fois des relations de causalité entre les variables et la présence éventuelle de variables latentes dans la structure du réseau bayésien. Pour cela, nous tentons d'unifier deux formalismes, les modèles causaux semi-markoviens (SMCM) et les graphes ancestraux maximaux (MAG), utilisés séparément auparavant, l'un pour l'inférence causale (SMCM), l'autre pour la découverte de causalité (MAG). Nous nous sommes aussi interessé à l'adaptation de réseaux bayésiens causaux pour des systèmes multi-agents, et sur l'apprentissage de ces modèles causaux multi-agents (MACM). Causal Discovery Bayesian Network Learning
69	Vers un système interactif de structuration des index pour une recherche par le contenu dans des grandes bases d'images Lai, Hien Phuong 02 October 2013 (has links) (PDF) Cette thèse s'inscrit dans la problématique de l'indexation et la recherche d'images par le contenu dans des bases d'images volumineuses. Les systèmes traditionnels de recherche d'images par le contenu se composent généralement de trois étapes: l'indexation, la structuration et la recherche. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement à l'étape de structuration qui vise à organiser, dans une structure de données, les signatures visuelles des images extraites dans la phase d'indexation afin de faciliter, d'accélérer et d'améliorer les résultats de la recherche ultérieure. A la place des méthodes traditionnelles de structuration, nous étudions les méthodes de regroupement des données (clustering) qui ont pour but d'organiser les signatures en groupes d'objets homogènes (clusters), sans aucune contrainte sur la taille des clusters, en se basant sur la similarité entre eux. Afin de combler le fossé sémantique entre les concepts de haut niveau sémantique exprimés par l'utilisateur et les signatures de bas niveau sémantique extraites automatiquement dans la phase d'indexation, nous proposons d'impliquer l'utilisateur dans la phase de clustering pour qu'il puisse interagir avec le système afin d'améliorer les résultats du clustering, et donc améliorer les résultats de la recherche ultérieure. En vue d'impliquer l'utilisateur dans la phase de clustering, nous proposons un nouveau modèle de clustering semi-supervisé interactif en utilisant les contraintes par paires (must-link et cannot-link) entre les groupes d'images. Tout d'abord, les images sont regroupées par le clustering non supervisé BIRCH (Zhang et al., 1996). Ensuite, l'utilisateur est impliqué dans la boucle d'interaction afin d'aider le clustering. Pour chaque itération interactive, l'utilisateur visualise les résultats de clustering et fournit des retours au système via notre interface interactive. Par des simples cliques, l'utilisateur peut spécifier les images positives ainsi que les images négatives pour chaque cluster. Il peut aussi glisser les images entre les clusters pour demander de changer l'affectation aux clusters des images. Les contraintes par paires sont ensuite déduites en se basant sur les retours de l'utilisateur ainsi que les informations de voisinage. En tenant compte de ces contraintes, le système réorganise les clusters en utilisant la méthode de clustering semi-supervisé proposée dans cette thèse. La boucle d'interaction peut être répétée jusqu'à ce que le résultat du clustering satisfasse l'utilisateur. Différentes stratégies pour déduire les contraintes par paires entre les images sont proposées. Ces stratégies sont analysées théoriquement et expérimentalement. Afin d'éviter que les résultats expérimentaux dépendent subjectivement de l'utilisateur humain, un agent logiciel simulant le comportement de l'utilisateur humain pour donner des retours est utilisé pour nos expérimentations. En comparant notre méthode avec la méthode de clustering semi-supervisé la plus populaire HMRF-kmeans (Basu et al., 2004), notre méthode donne de meilleurs résultats. clustering semi-supervisé apprentissage interactif structuration des index
70	New structure learning algorithms and evaluation methods for large dynamic Bayesian networks Trabelsi, Ghada 13 December 2013 (has links) (PDF) Les réseaux bayésiens dynamiques (RBD) sont une classe de modèles graphiques probabilistes qui est devenu un outil standard pour la modélisation de divers phénomènes stochastiques variant dans le temps. A cause de la complexité induite par l'ajout de la dimension temporelle, l'apprentissage de la structure DBN est une tâche très complexe. Les algorithmes existants sont des adaptations des algorithmes d'apprentissage de structure pour les RB basés sur score mais sont souvent limités lorsque le nombre de variables est élevé. Une autre limitation pour les études d'apprentissage de la structure des RBD, ils utilisent leurs propres Benchmarks et techniques pour l' évaluation. Le probl ème dans le cas dynamique, nous ne trouvons pas de travaux antérieurs qui fournissent des détails sur les réseaux et les indicateurs de comparaison utilisés. Nous nous concentrons dans ce projet à l'apprentissage de la structure des RBD et ses méthodes d'évaluation avec respectivement une autre famille des algorithmes d'apprentissage de la structure, les méthodes de recherche locale, et une nouvelle approche de génération des grandes standard RBD et une métrique d'évaluation. Nous illustrons l'intérêt de ces méthodes avec des résultats expérimentaux. Réseaux Bayésiens Dynamiques Modèles 2-TBN apprentissage de structure passage à l'échelle recherche locale Benchmarking

Search results