Global ETD Search

1	Factorisation Matricielle, Application à la Recommandation Personnalisée de Préférences Delporte, Julien 03 February 2014 (has links) (PDF) Cette thèse s'articule autour des problèmes d'optimisation à grande échelle, et plus particulièrement autour des méthodes de factorisation matricielle sur des problèmes de grandes tailles. L'objectif des méthodes de factorisation de grandes matrices est d'extraire des variables latentes qui permettent d'expliquer les données dans un espace de dimension réduite. Nous nous sommes intéressés au domaine d'application de la recommandation et plus particulièrement au problème de prédiction de préférences d'utilisateurs. Dans une contribution nous nous sommes intéressés à l'application de méthodes de factorisation dan un environnement de recommandation contextuelle et notamment dans un contexte social. Dans une seconde contribution, nous nous sommes intéressés au problème de sélection de modèle pour la factorisation où l'on cherche à déterminer de façon automatique le rang de la factorisation par estimation de risque. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning matrice factorisation optimisation apprentissage recommandation fouille de données
2	Méthodes d'apprentissage appliquées à la séparation de sources mono-canal Augustin, Lefèvre 03 October 2012 (has links) (PDF) Étant donne un mélange de plusieurs signaux sources, par exemple un morceau et plusieurs instruments, ou un entretien radiophonique et plusieurs interlocuteurs, la séparation de source mono-canal consiste a' estimer chacun des signaux sources a' partir d'un enregistrement avec un seul microphone. Puisqu'il y a moins de capteurs que de sources, il y a a priori une infinité de solutions sans rapport avec les sources originales. Il faut alors trouver quelle information supplémentaire permet de rendre le problème bien pose. Au cours des dix dernières années, la factorisation en matrices positives (NMF) est devenue un composant majeurs des systèmes de séparation de sources. En langage profane, la NMF permet de d'écrire un ensemble de signaux audio a ́ partir de combinaisons d' éléments sonores simples (les atomes), formant un dictionnaire. Les systèmes de séparation de sources reposent alors sur la capacité a trouver des atomes qui puissent être assignes de fa con univoque 'a chaque source sonore. En d'autres termes, ils doivent être interprétables. Nous proposons dans cette thèse trois contributions principales aux méthodes d'apprentissage de dictionnaire. La première est un critère de parcimonie par groupes adapte a la NMF lorsque la mesure de distorsion choisie est la divergence d'Itakura-Saito. Dans la plupart des signaux de musique on peut trouver de longs intervalles ou' seulement une source est active (des soli). Le critère de parcimonie par groupe que nous proposons permet de trouver automatiquement de tels segments et d'apprendre un dictionnaire adapte a chaque source. Ces dictionnaires permettent ensuite d'effectuer la tache de séparation dans les intervalles ou' les sources sont mélangées. Ces deux taches d'identification et de séparation sont effectuées simultanément en une seule passe de l'algorithme que nous proposons. Notre deuxième contribution est un algorithme en ligne pour apprendre le dictionnaire a grande échelle, sur des signaux de plusieurs heures, ce qui était impossible auparavant. L'espace mémoire requis par une NMF estimée en ligne est constant alors qu'il croit linéairement avec la taille des signaux fournis dans la version standard, ce qui est impraticable pour des signaux de plus d'une heure. Notre troisième contribution touche a' l'interaction avec l'utilisateur. Pour des signaux courts, l'apprentissage aveugle est particulièrement difficile, et l'apport d'information spécifique au signal traite est indispensable. Notre contribution est similaire à l'inpainting et permet de prendre en compte des annotations temps-fréquence. Elle repose sur l'observation que la quasi-totalite du spectro- gramme peut être divise en régions spécifiquement assignées a' chaque source. Nous d'éecrivons une extension de NMF pour prendre en compte cette information et discutons la possibilité d'inférer cette information automatiquement avec des outils d'apprentissage statistique simples. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning apprentissage statistique factorisation en matrices positives normes structurées algorithme incrémental séparation de sources informée
3	Mining Intentional Process Models Khodabandelou, Ghazaleh 13 June 2014 (has links) (PDF) Jusqu'à présent, les techniques de fouille de processus ont modélisé les processus en termes des séquences de tâches qui se produisent lors de l'exécution d'un processus. Cependant, les recherches en modélisation du processus et de guidance ont montrée que de nombreux problèmes, tels que le manque de flexibilité ou d'adaptation, sont résolus plus efficacement lorsque les intentions sont explicitement spécifiées. Cette thèse présente une nouvelle approche de fouille de processus, appelée Map Miner méthode (MMM). Cette méthode est conçue pour automatiser la construction d'un modèle de processus intentionnel à partir des traces d'activités des utilisateurs. MMM utilise les modèles de Markov cachés pour modéliser la relation entre les activités des utilisateurs et leurs stratégies (i.e., les différentes façons d'atteindre des intentions). La méthode comprend également deux algorithmes spécifiquement développés pour déterminer les intentions des utilisateurs et construire le modèle de processus intentionnel de la Carte. MMM peut construire le modèle de processus de la Carte avec différents niveaux de précision (pseudo-Carte et le modèle du processus de la carte) par rapport au formalisme du métamodèle de Map. L'ensemble de la méthode proposée a été appliqué et validé sur des ensembles de données pratiques, dans une expérience à grande échelle, sur les traces d'événements des développeurs de Eclipse UDC. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning Modèles de processus intentionnels Apprentissage automatique
4	Contribution à l'analyse de données temporelles Douzal-Chouakria, Ahlame 29 November 2012 (has links) (PDF) Mes travaux de recherche portent sur l'analyse de données temporelles et s'articulent en trois parties : -la représentation de séries temporelles, -la définition de métriques et leur apprentissage, -ainsi que la proposition de nouvelles approches de classification dédiées aux séries temporelles. Le déploiement de statistiques d'autocorrélation spatiale sur des structures de contiguïté particulières, telle que temporelle, met en évidence des propriétés intéressantes. Elles permettent, par exemple, d'appréhender le comportement des séries (aléatoire, chaotique), d'évaluer le niveau de saillance d'un événement, ou de mesurer la dépendance locale ou globale entre une structure évolutive et les observations associées. Ces propriétés ont guidé nos principaux travaux. Ainsi, une première contribution concerne la représentation compacte de séries multivariées. J'ai étudié une approche de réduction de la dimension temporelle de séries multivariées, par segmentation, préservant les corrélations inférées par la série ; l'identification de segments saillants étant guidée par la variance locale. Dans une deuxième partie, je me suis intéressée à la définition de métriques intégrant la composante forme des séries et leur positionnement dans un cadre plus général. L'alignement de séries étant un concept fondamental dans la définition de métriques, mon intérêt a porté, ensuite, sur l'apprentissage de couplages pour la discrimination de classes de séries complexes. L'approche proposée vise à lier les séries selon les caractéristiques communes au sein des classes et différentielles entre les classes. Le couplage ainsi appris permet de dériver une métrique locale pondérée restreignant la comparaison des séries aux attributs discriminants. Enfin, le troisième volet de mes travaux est dédié à l'extension des arbres de classification/régression à des variables prédictives temporelles. L'arbre temporel de classification proposé recours à un nouveau critère de coupure fondé sur une métrique adaptative et la localisation de sous-séquences discriminantes. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning Analyse de données apprentissage automatique séries temporelles classification apprentissage de métrique alignement temporel
5	Nouvelles paramétrisations de réseaux Bayésiens et leur estimation implicite - Famille exponentielle naturelle et mélange infini de Gaussiennes Jarraya Siala, Aida 26 October 2013 (has links) (PDF) L'apprentissage d'un réseau Bayésien consiste à estimer le graphe (la structure) et les paramètres des distributions de probabilités conditionnelles associées à ce graphe. Les algorithmes d'apprentissage de réseaux Bayésiens utilisent en pratique une approche Bayésienne classique d'estimation a posteriori dont les paramètres sont souvent déterminés par un expert ou définis de manière uniforme Le coeur de cette thèse concerne l'application aux réseaux Bayésiens de plusieurs avancées dans le domaine des Statistiques comme l'estimation implicite, les familles exponentielles naturelles ou les mélanges infinis de lois Gaussiennes dans le but de (1) proposer de nouvelles formes paramétriques, (2) estimer des paramètres de tels modèles et (3) apprendre leur structure. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning Réseau bayésien Estimation implicite Famille exponentielle Mélange infini de gausiennes
6	Sur quelques problèmes non-supervisés impliquant des séries temporelles hautement dépendantes Khaleghi, Azadeh 18 November 2013 (has links) (PDF) Cette thèse est consacrée à l'analyse théorique de problèmes non supervisés impliquant des séries temporelles hautement dépendantes. Plus particulièrement, nous abordons les deux problèmes fondamentaux que sont le problème d'estimation des points de rupture et le partitionnement de séries temporelles. Ces problèmes sont abordés dans un cadre extrêmement général où les données sont générées par des processus stochastiques ergodiques stationnaires. Il s'agit de l'une des hypothèses les plus faibles en statistiques, comprenant non seulement, les hypothèses de modèles et les hypothèses paramétriques habituelles dans la littérature scientifique, mais aussi des hypothèses classiques d'indépendance, de contraintes sur l'espace mémoire ou encore des hypothèses de mélange. En particulier, aucune restriction n'est faite sur la forme ou la nature des dépendances, de telles sortes que les échantillons peuvent être arbitrairement dépendants. Pour chaque problème abordé, nous proposons de nouvelles méthodes non paramétriques et nous prouvons de plus qu'elles sont, dans ce cadre, asymptotique- ment consistantes. Pour l'estimation de points de rupture, la consistance asymptotique se rapporte à la capacité de l'algorithme à produire des estimations des points de rupture qui sont asymptotiquement arbitrairement proches des vrais points de rupture. D'autre part, un algorithme de partitionnement est asymptotiquement consistant si le partitionnement qu'il produit, restreint à chaque lot de séquences, coïncides, à partir d'un certain temps et de manière consistante, avec le partitionnement cible. Nous montrons que les algorithmes proposés sont implémentables efficacement, et nous accompagnons nos résultats théoriques par des évaluations expérimentales. L'analyse statistique dans le cadre stationnaire ergodique est extrêmement difficile. De manière générale, il est prouvé que les vitesses de convergence sont impossibles à obtenir. Dès lors, pour deux échantillons générés indépendamment par des processus ergodiques stationnaires, il est prouvé qu'il est impossible de distinguer le cas où les échantillons sont générés par le même processus de celui où ils sont générés par des processus différents. Ceci implique que des problèmes tels le partitionnement de séries temporelles sans la connaissance du nombre de partitions ou du nombre de points de rupture ne peut admettre de solutions consistantes. En conséquence, une tâche difficile est de découvrir les formulations du problème qui en permettent une résolution dans ce cadre général. La principale contribution de cette thèse est de démontrer (par construction) que malgré ces résultats d'impossibilités théoriques, des formulations naturelles des problèmes considérés existent et admettent des solutions consistantes dans ce cadre général. Ceci inclut la démonstration du fait que le nombre de points de rupture corrects peut être trouvé, sans recourir à des hypothèses plus fortes sur les processus stochastiques. Il en résulte que, dans cette formulation, le problème des points de rupture peut être réduit à du partitionnement de séries temporelles. Les résultats présentés dans ce travail formulent les fondations théoriques pour l'analyse des données séquentielles dans un espace d'applications bien plus large. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning séries temporelles apprentissage non-supervisé analyse de points de ruptures clustering
7	Analyse et fouille de données de trajectoires d'objets mobiles El Mahrsi, Mohamed Khalil 30 September 2013 (has links) (PDF) Dans cette thèse, nous explorons deux problèmes de recherche liés à la gestion et à la fouille de données de trajectoires d'objets mobiles. Dans un premier temps, nous étudions l'échantillonnage de flux de trajectoires. Les appareils de géo-localisation modernes sont capables d'enregistrer et de transmettre leurs coordonnées géographiques à un taux très élevé. Garder l'intégralité des trajectoires capturées grâce à ces terminaux peut s'avérer coûteux tant en espace de stockage qu'en temps de calcul. L'élaboration de techniques d'échantillonnage adaptées devient alors primordiale afin de réduire la volumétrie des données en supprimant certaines positions (jugées inutiles ou redondantes) tout en veillant à préserver le maximum des caractéristiques spatiotemporelles des trajectoires originales. Dans le contexte de flux de données, ces techniques doivent en plus être exécutées " à la volée " et s'adapter au caractère à la fois continu et éphémère des données. Afin de répondre à ces besoins, nous proposons l'algorithme STSS (Spatiotemporal Stream Sampling). STSS bénéficie d'une faible complexité temporelle et garantit une borne supérieure pour les erreurs commises lors de l'échantillonnage. Nous présentons également une étude expérimentale à travers laquelle nous montrons les performances de notre proposition tout en la comparant à d'autres approches proposées dans la littérature. La deuxième problématique étudiée dans le cadre de ce travail est celle de la classification non supervisée (ou clustering) de trajectoires contraintes par un réseau routier. La majorité des travaux traitant du clustering de trajectoires se sont intéressés au cas où ces dernières évoluent librement dans un espace Euclidien. Ces travaux n'ont donc pas pris en considération l'éventuelle présence d'un réseau sous-jacent au mouvement, dont les contraintes jouent un rôle primordial dans l'évaluation de la similarité entre trajectoires. Nous proposons trois approches pour traiter ce cas. La première approche se focalise sur la découverte de groupes de trajectoires ayant parcouru les mêmes parties du réseau routier. La deuxième approche vise à grouper des segments routiers visités très fréquemment par les mêmes trajectoires. Quant à la troisième approche, elle combine les deux aspects afin d'effectuer un co-clustering simultané des trajectoires et des segments routiers. Nous illustrons nos approches à travers divers cas d'étude afin de démontrer comment elles peuvent servir à caractériser le trafic routier et les dynamiques de mouvement dans le réseau routier. Nous réalisons des études expérimentales afin d'évaluer les performances de nos propositions. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning objets mobiles trajectoires réseau routier échantillonnage spatiotemporel flux de données similarité classification non supervisée
8	Apprentissage interactif pour la recherche par le contenu dans les bases multimédias Gosselin, Philippe-Henri 10 November 2011 (has links) (PDF) Les bases actuelles de données multimédia nécessitent des outils de plus en plus avancés pour pouvoir être parcourues avec efficacité. Dans ce contexte, la recherche en interaction avec un utilisateur est une approche qui permet de résoudre des requêtes à la sémantique complexe avec rapidité, sans pour autant nécessiter un haut niveau d'expertise utilisateur. Parmi les différents éléments intervenant dans la conception d'un système de recherche interactive, deux parties essentielles interviennent: l'indexation et la similarité entre les documents multimédia, et la gestion du processus interactif. Dans le contexte de la recherche multimédia par le contenu, on s'appuie sur des descriptions visuelles extraites automatiquement des documents. Suite à cette étape initiale, il est nécessaire de produire des structures de données, appelées index, ainsi qu'une métrique capable de comparer ces structures. Pour ce faire, nous proposons de représenter un document sous la forme d'un graphe, où chaque sommet du graphe représente une partie du document (région, point d'intérêt, ...) et chaque arête du graphe représente une relation entre deux parties du document. Puis, nous introduisons des métriques associées, sous la forme de fonctions noyaux sur graphes, qui permettent d'utiliser ces représentations complexes avec les méthodes d'apprentissages Hilbertiennes, telle que les SVMs. La gestion du processus interactif entre le système et un utilisateur a fait d'important progrès grâce à l'approche dite par apprentissage actif. Les premières approches proposent des critères pertinents pour la sélection de document à faire annoter par l'utilisateur, dans le but de trouver les documents recherchés au plus vite. Dans ce contexte, nous proposons d'aller plus loin en nous intéressant à la fabrication "en ligne" d'index et métriques associées en fonction de la nature de la recherche. En d'autres termes, nous proposons de remplacer le schéma traditionnel, où un unique index général est utilisé, par un schéma d'indexation active, où chaque utilisateur dispose d'un index dédié à sa requête. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning Bases de données Multimédia Recherche interactive Apprentissage Statistique
9	Modélisation statistique de la mortalité maternelle et néonatale pour l'aide à la planification et à la gestion des services de santé en Afrique Sub-Saharienne Ndour, Cheikh 19 May 2014 (has links) (PDF) L'objectif de cette thèse est de proposer une méthodologie statistique permettant de formuler une règle de classement capable de surmonter les difficultés qui se présentent dans le traitement des données lorsque la distribution a priori de la variable réponse est déséquilibrée. Notre proposition est construite autour d'un ensemble particulier de règles d'association appelées "class association rules". Dans le chapitre II, nous avons exposé les bases théoriques qui sous-tendent la méthode. Nous avons utilisé les indicateurs de performance usuels existant dans la littérature pour évaluer un classifieur. A chaque règle "class association rule" est associée un classifieur faible engendré par l'antécédent de la règle que nous appelons profils. L'idée de la méthode est alors de combiner un nombre réduit de classifieurs faibles pour constituer une règle de classement performante. Dans le chapitre III, nous avons développé les différentes étapes de la procédure d'apprentissage statistique lorsque les observations sont indépendantes et identiquement distribuées. On distingue trois grandes étapes: (1) une étape de génération d'un ensemble initial de profils, (2) une étape d'élagage de profils redondants et (3) une étape de sélection d'un ensemble optimal de profils. Pour la première étape, nous avons utilisé l'algorithme "apriori" reconnu comme l'un des algorithmes de base pour l'exploration des règles d'association. Pour la deuxième étape, nous avons proposé un test stochastique. Et pour la dernière étape un test asymptotique est effectué sur le rapport des valeurs prédictives positives des classifieurs lorsque les profils générateurs respectifs sont emboîtés. Il en résulte un ensemble réduit et optimal de profils dont la combinaison produit une règle de classement performante. Dans le chapitre IV, nous avons proposé une extension de la méthode d'apprentissage statistique lorsque les observations ne sont pas identiquement distribuées. Il s'agit précisément d'adapter la procédure de sélection de l'ensemble optimal lorsque les données ne sont pas identiquement distribuées. L'idée générale consiste à faire une estimation bayésienne de toutes les valeurs prédictives positives des classifieurs faibles. Par la suite, à l'aide du facteur de Bayes, on effectue un test d'hypothèse sur le rapport des valeurs prédictives positives lorsque les profils sont emboîtés. Dans le chapitre V, nous avons appliqué la méthodologie mise en place dans les chapitres précédents aux données du projet QUARITE concernant la mortalité maternelle au Sénégal et au Mali. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning apprentissage statistique classement données déséquilibrées estimation Bayésienne empirique mortalité maternelle profils règles d'association sélection de profils test d'hypothèse
10	Agrégation d'estimateurs et de classificateurs : théorie et méthodes Guedj, Benjamin 04 December 2013 (has links) (PDF) Ce manuscrit de thèse est consacré à l'étude des propriétés théoriques et méthodologiques de différentes procédures d'agrégation d'estimateurs. Un premier ensemble de résultats vise à étendre la théorie PAC-bayésienne au contexte de la grande dimension, dans les modèles de régression additive et logistique. Nous prouvons dans ce contexte l'optimalité, au sens minimax et à un terme logarithmique près, de nos estimateurs. La mise en \oe uvre pratique de cette stratégie, par des techniques MCMC, est étayée par des simulations numériques. Dans un second temps, nous introduisons une stratégie originale d'agrégation non linéaire d'estimateurs de la fonction de régression. Les qualités théoriques et pratiques de cette approche --- dénommée COBRA --- sont étudiées, et illustrées sur données simulées et réelles. Enfin, nous présentons une modélisation bayésienne --- et l'implémentation MCMC correspondante --- d'un problème de génétique des populations. Les différentes approches développées dans ce document sont toutes librement téléchargeables depuis le site de l'auteur. [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning [MATH:MATH_ST] Mathematics/Statistics Agrégation régression classification inégalités oracles théorie PAC-bayésienne COBRA MCMC parcimonie

Search results