• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 254
  • 254
  • 51
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 578
  • 578
  • 378
  • 365
  • 118
  • 118
  • 115
  • 105
  • 98
  • 94
  • 90
  • 90
  • 89
  • 73
  • 70
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
221

Modélisation pangénomique du déséquilibre de liaison à l'aide de réseaux bayésiens hiérarchiques latents et applications

Mourad, Raphaël 22 September 2011 (has links) (PDF)
Les récentes technologies génomiques à haut-débit ont ouvert la voie aux études d'association visant la caractérisation systématique à l'échelle du génome des facteurs génétiques impliqués dans l'apparition des maladies génétiques complexes, telles que l'asthme et le diabète. Dans ces études, le déséquilibre de liaison (linkage disequilibrium, LD) reflète l'existence de dépendances complexes au sein des données génétiques et joue un rôle central, puisqu'il permet une localisation précise des facteurs génétiques. Néanmoins, la haute complexité du LD, ainsi que la dimension élevée des données génétiques, constituent autant de difficultés à prendre en compte. Les travaux de recherche réalisés au cours de cette thèse se sont placés dans cette perspective. La contribution des travaux de recherche présentés est double, puisqu'elle est à la fois théorique et appliquée. Sur le plan théorique, nous avons proposé une nouvelle approche de modélisation du LD. Elle est basée sur le développement d'un modèle issu du domaine de l'intelligence artificielle et de l'apprentissage automatique, la forêt de modèles hiérarchiques à classes latentes (FMHCL). Les nouveautés les plus significatives introduites sont la possibilité de prendre en compte la nature floue du LD et de hiérarchiser les différents degrés de LD. Un nouvel algorithme d'apprentissage supportant le passage à l'échelle, nommé CFHLC, a été développé et décliné en deux versions: la première nécessitant le découpage du génome en fenêtres contiguës pour résoudre le problème de passage à l'échelle, et la seconde (CFHLC+), plus récente et évoluée, résolvant le problème au moyen d'une fenêtre glissante sur le chromosome. A l'aide d'un jeu de données réelles, la comparaison de la méthode CFHLC avec des méthodes concurrentes a montré qu'elle offre une modélisation plus fine du LD. En outre, l'apprentissage sur des données présentant des patrons de LD variés a démontré la capacité de la FMHCL a reproduire fidèlement la structure du LD. Enfin, l'analyse empirique de la complexité de l'apprentissage a montré la linéarité en temps lorsque le nombre de variables à traiter augmente. Sur le plan appliqué, nous avons exploré deux pistes de recherche: la recherche de causalités et la visualisation synthétique et intuitive du LD. D'une part, une étude systématique de la capacité des FMHCL à la recherche de causalités est illustrée dans le contexte de la génétique d'association. Ce travail a établi les bases du développement de nouvelles méthodes de recherche dédiées à la découverte de facteurs génétiques causaux pour les études d'association à l'échelle du génome. D'autre part, une méthode a été développée pour la visualisation synthétique et intuitive du LD adaptée aux trois principales situations que peut rencontrer le généticien: la visualisation du LD de courte distance, de longue distance et dans un contexte pangénomique. Cette nouvelle méthode apporte des atouts majeurs qui sont les suivants: (i) le LD par paires (deux variables) et le LD multilocus (deux variables ou plus) sont simultanément visualisés, (ii) le LD de courte distance et le LD de longue distance sont facilement distingués, et (iii) l'information est synthétisée de manière hiérarchique.
222

Mesures de similarité et cosinus généralisé : une approche d'apprentissage supervisé fondée sur les k plus proches voisins

Qamar, Ali Mustafa 19 November 2010 (has links) (PDF)
Les performances des algorithmes d'apprentissage automatique dépendent de la métrique utilisée pour comparer deux objets, et beaucoup de travaux ont montré qu'il était préférable d'apprendre une métrique à partir des données plutôt que se reposer sur une métrique simple fondée sur la matrice identité. Ces résultats ont fourni la base au domaine maintenant qualifié d'apprentissage de métrique. Toutefois, dans ce domaine, la très grande majorité des développements concerne l'apprentissage de distances. Toutefois, dans certaines situations, il est préférable d'utiliser des similarités (par exemple le cosinus) que des distances. Il est donc important, dans ces situations, d'apprendre correctement les métriques à la base des mesures de similarité. Il n'existe pas à notre connaissance de travaux complets sur le sujet, et c'est une des motivations de cette thèse. Dans le cas des systèmes de filtrage d'information où le but est d'affecter un flot de documents à un ou plusieurs thèmes prédéfinis et où peu d'information de supervision est disponible, des seuils peuvent être appris pour améliorer les mesures de similarité standard telles que le cosinus. L'apprentissage de tels seuils représente le premier pas vers un apprentissage complet des mesures de similarité. Nous avons utilisé cette stratégie au cours des campagnes CLEF INFILE 2008 et 2009, en proposant des versions en ligne et batch de nos algorithmes. Cependant, dans le cas où l'on dispose de suffisamment d'information de supervision, comme en catégorisation, il est préférable d'apprendre des métriques complètes, et pas seulement des seuils. Nous avons développé plusieurs algorithmes qui visent à ce but dans le cadre de la catégorisation à base de k plus proches voisins. Nous avons tout d'abord développé un algorithme, SiLA, qui permet d'apprendre des similarités non contraintes (c'est-à-dire que la mesure peut être symétrique ou non). SiLA est une extension du perceptron par vote et permet d'apprendre des similarités qui généralisent le cosinus, ou les coefficients de Dice ou de Jaccard. Nous avons ensuite comparé SiLA avec RELIEF, un algorithme standard de re-pondération d'attributs, dont le but n'est pas sans lien avec l'apprentissage de métrique. En effet, il a récemment été suggéré par Sun et Wu que RELIEF pouvait être considéré comme un algorithme d'apprentissage de métrique avec pour fonction objectif une approximation de la fonction de perte 0-1. Nous montrons ici que cette approximation est relativement mauvaise et peut être avantageusement remplacée par une autre, qui conduit à un algorithme dont les performances sont meilleurs. Nous nous sommes enfin intéressés à une extension directe du cosinus, extension définie comme la forme normalisée d'un produit scalaire dans un espace projeté. Ce travail a donné lieu à l'algorithme gCosLA. Nous avons testé tous nos algorithmes sur plusieurs bases de données. Un test statistique, le s-test, est utilisé pour déterminer si les différences entre résultats sont significatives ou non. gCosLA est l'algorithme qui a fourni les meilleurs résultats. De plus, SiLA et gCosLA se comparent avantageusement à plusieurs algorithmes standard, ce qui illustre leur bien fondé.
223

Délinéarisation automatique de flux de télévision

Manson, Gaël 13 July 2010 (has links) (PDF)
Les flux de télévision sont structurés : ils sont en effet composés de programmes successifs (journaux, films, magazines, etc.) et entrecoupés par des inter-programmes (publicités, bandes annonces, parrainages, etc.). Dès que les flux sont diffusés sur les ondes, ils perdent malheureusement toute information de structure. La problématique de la délinéarisation automatique est de retrouver la structure des flux TV, avec en particulier le début précis et la fin précise de chaque programme, à partir des signaux audiovisuels reçus et des métadonnées éventuellement fournies par les chaînes TV. Cette thèse présente un système complet de délinéarisation automatique rigoureusement évalué sur quatre semaines de flux TV réels, pour deux chaînes de télévision différentes. Les travaux se basent sur la propriété de répétition des inter-programmes. Cette propriété est exploitée à travers la détection de toutes les répétitions d'un flux grâce à une technique de clustering des images clés du flux. Ces répétitions servent à la création de segments qui sont ensuite classés en segments de programme ou en segments d'inter-programme suivant les caractéristiques des répétitions et les relations entre les segments. Pour cela, le système utilise la programmation logique inductive. Une fois les segments classés, les segments de programme appartenant à un même programme sont étiquetés et réunifiés grâce aux métadonnées éventuelles. En l'absence de métadonnées, les segments de programme d'un même programme peuvent être seulement réunifiés grâce à des similarités visuelles.
224

Annotation automatique d'images à base de Phrases Visuelles

Albatal, Rami 12 July 2010 (has links) (PDF)
Ce travail de thèse a pour objectif de proposer un modèle général d'annotation automatique d'images pour la recherche d'information.La recherche d'information sur les documents images nécessite des représentations abstraites symboliques des images (termes, concepts) afin de satisfaire les besoins d'information des utilisateurs. Si de nombreux travaux ont pour objectif de définir un processus d'apprentissage automatique sur des descripteurs visuels extraits des régions d'images, les questions liées aux choix et aux regroupements des régions descriptives et représentatives des différentes classes d'objets sont peu étudiées. Les variations visuelles des objets d'une classe donnée posent de sérieux problèmes pour l'annotation par classes d'objets. Ces variations sont causées par plusieurs facteurs : changements d'échelle, rotation et changements de luminosité, en sus de la variabilité de forme et de couleur propre à chaque type d'objet. Notre travail vise aussi à minimiser l'impact négatif de ce phénomène. Dans ce travail, le passage du signal au sens se fonde sur une représentation intermédiaire appelée "Phrases Visuelles" qui représentent des ensembles de régions d'intérêt regroupées selon un critère topologique prédéfini. Un processus d'apprentissage permet de détecter les relations entre les Phrases Visuelles et les classes d'objets. Ce modèle d'annotation a fait l'objet de nombreuses évaluations sur le corpus VOC2009. Les résultats obtenus montrent l'impact significatif du mode de regroupement des régions d'intérêt, et qu'un regroupement prenant en compte les relations spatiales entre ces régions donne des meilleurs résultats en terme de précision moyenne.
225

Acquisition de grammaires lexicalisées pour les langues naturelles

Moreau, Erwan 18 October 2006 (has links) (PDF)
L'inférence grammaticale désigne le problème qui consiste à découvrir les règles de formation des phrases d'un langage, c'est-à-dire une grammaire de celui-ci. Dans le modèle d'apprentissage de Gold, les exemples fournis sont constitués uniquement des phrases appartenant au langage. L'algorithme doit fournir une grammaire qui représente le langage énuméré. Les grammaires catégorielles sont l'un des nombreux formalismes existants pour représenter des langages. Kanazawa a montré que certaines sous-classes de ces grammaires sont apprenables, mais ses résultats ne sont pas applicables directement aux langues naturelles. Sur le plan théorique, nous proposons de généraliser les résultats de Kanazawa à différents types de grammaires. Les grammaires combinatoires générales sont un modèle flexible permettant de définir des systèmes grammaticaux à base de règles de réécriture. Nous démontrons dans ce cadre que certaines classes de langages sont apprenables. Dans un souci de généralité maximale, nos résultats sont exprimés sous forme de critères sur les règles des systèmes grammaticaux considérés. Ces résultats sont appliqués à plusieurs formalismes relativement adaptés à la représentation des langues naturelles. Nous abordons également le problème de la mise en œuvre de l'apprentissage sur des données réelles. En effet, les algorithmes existants capables d'apprendre des classes de langages intéressantes sont NP-complets. Afin de contourner cet obstacle, nous proposons un cadre d'apprentissage plus souple, l'apprentissage partiel : le contexte d'utilisation est modifié dans le but d'obtenir une complexité algorithmique plus réaliste. Nous testons cette approche sur des données de taille moyenne, et obtenons des résultats relativement encourageants.
226

Découverte et caractérisation des corpus comparables spécialisés

Goeuriot, Lorraine 30 January 2009 (has links) (PDF)
Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l'avantage d'être représentatifs des particularités culturelles et linguistiques de chaque langue. Le Web peut théoriquement être considéré comme un réservoir à corpus comparables mais la qualité des corpus et des ressources qui en sont extraites réside dans la définition préalable des objectifs du corpus et du soin mis à sa composition (les caractéristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spécialisés en français et japonais dont les documents sont extraits du Web. Nous en proposons une définition et des caractéristiques communes : un domaine de spécialité, un thème et un type de discours (scientifique ou vulgarisé). Notre objectif est de créer un système d'aide à la construction de corpus comparables. Nous présentons d'abord la reconnaissance automatique des caractéristiques communes du corpus. Le thème peut être détecté grâce aux mots-clés utilisés lors de la recherche. Pour le type de discours nous utilisons les méthodes d'apprentissage automatique. Une analyse stylistique sur un corpus d'apprentissage nous permet de créer une typologie bilingue composée de trois niveaux d'analyse : structurel, modal et lexical. Nous l'utilisons ensuite afin d'apprendre un modèle de classification avec les systèmes SVMlight et C4.5. Ces modèles sont ensuite évalués sur un corpus d'évaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intégrons ensuite le classifieur au sein d'une chaîne logicielle d'aide à la construction de corpus comparables implémentée sur la plateforme UIMA.
227

Traitement automatique d'informations appliqué aux ressources humaines

Kessler, Rémy 10 July 2009 (has links) (PDF)
Depuis les années 90, Internet est au coeur du marché du travail. D'abord mobilisée sur des métiers spécifiques, son utilisation s'étend à mesure qu'augmente le nombre d'internautes dans la population. La recherche d'emploi au travers des « bourses à l'emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d'informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d'information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d'outils pour automatiser les flux d'informations lors d'un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d'une entreprise à gérer efficacement et à moindre coût ces flux d'informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l'application des méthodes d'apprentissage afin d'effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l'analyse et l'intégration d'une offre d'emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d'intégrer une offre d'emploi d'une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d'assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d'effectuer un classement pertinent des candidatures. L'utilisation d'un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité.
228

Contributions to Batch Mode Reinforcement Learning

Fonteneau, Raphaël 24 February 2011 (has links)
This dissertation presents various research contributions published during these four years of PhD in the field of batch mode reinforcement learning, which studies optimal control problems for which the only information available on the system dynamics and the reward function is gathered in a set of trajectories. We first focus on deterministic problems in continuous spaces. In such a context, and under some assumptions related to the smoothness of the environment, we propose a new approach for inferring bounds on the performance of control policies. We also derive from these bounds a new inference algorithm for generalizing the information contained in the batch collection of trajectories in a cautious manner. This inference algorithm as itself lead us to propose a min max generalization framework. When working on batch mode reinforcement learning problems, one has also often to consider the problem of generating informative trajectories. This dissertation proposes two different approaches for addressing this problem. The first approach uses the bounds mentioned above to generate data tightening these bounds. The second approach proposes to generate data that are predicted to generate a change in the inferred optimal control policy. While the above mentioned contributions consider a deterministic framework, we also report on two research contributions which consider a stochastic setting. The first one addresses the problem of evaluating the expected return of control policies in the presence of disturbances. The second one proposes a technique for selecting relevant variables in a batch mode reinforcement learning context, in order to compute simplified control policies that are based on smaller sets of state variables.
229

Combinaison de sources de données pour l'amélioration de la prédiction en apprentissage : une application à la prédiction de la perte de poids chez l'obèse à partir de données transcriptomiques et cliniques

Temanni, Mohamed Ramzi 23 June 2009 (has links) (PDF)
Les maladies complexes comme l'obésité sont des maladies multifactorielles. Peu de travaux existent pour essayer de prédire les effets des différents traitements et ainsi mieux adapter les traitements aux patients. L'utilisation de modèles prédictifs pour mieux guider le choix des traitements de l'obésité reste un champ de recherche peu exploré malgré le fort impact qu'elle pourrait avoir vu la prévalence de cette maladie. Dans d'autres domaines de la médecine, comme la cancérologie par exemple, de telles méthodes sont déjà utilisées pour l'aide au diagnostic se basant notamment sur des données issues de puces à ADN. Cette technologie s'avère adaptée et son utilisation a donné lieu à des résultats intéressants pour dépister les maladies ou aider les médecins dans leur choix thérapeutique. Cependant si celle‐ci s'avère suffisante pour prédire d'une manière satisfaisante dans le domaine du cancer, en revanche elle s'avère d'un apport limité dans le cadre d'une application aux données de l'obésité. Cela suggère l'utilisation d'autres données patients pour améliorer les performances en prédiction. Les travaux de recherche présentés dans ce mémoire abordent les problèmes de la prédiction de la perte de poids suite à un régime ou une chirurgie bariatrique. Nous avons analysé le problème de la prédiction de la perte de poids à partir des données transcriptomique dans le cadre de deux projets européens et aussi à partir des données biocliniques dans le cadre de la chirurgie de l'obésité. Nous avons ensuite proposé trois concepts de combinaisons de modèles : combinaison de données, combinaison de méthodes et combinaison avec abstention. Nous avons analysé empiriquement ces trois approches et les expérimentations ont montré une amélioration des résultats pour les données de l'obésité même si ceux‐ci restent bien en deça de ce qu'on observe avec les données cancers
230

Collecte orientée sur le Web pour la recherche d'information spécialisée

De Groc, Clément 05 June 2013 (has links) (PDF)
Les moteurs de recherche verticaux, qui se concentrent sur des segments spécifiques du Web, deviennent aujourd'hui de plus en plus présents dans le paysage d'Internet. Les moteurs de recherche thématiques, notamment, peuvent obtenir de très bonnes performances en limitant le corpus indexé à un thème connu. Les ambiguïtés de la langue sont alors d'autant plus contrôlables que le domaine est bien ciblé. De plus, la connaissance des objets et de leurs propriétés rend possible le développement de techniques d'analyse spécifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thèse, nous nous intéressons plus précisément à la procédure de collecte de documents thématiques à partir du Web pour alimenter un moteur de recherche thématique. La procédure de collecte peut être réalisée en s'appuyant sur un moteur de recherche généraliste existant (recherche orientée) ou en parcourant les hyperliens entre les pages Web (exploration orientée).Nous étudions tout d'abord la recherche orientée. Dans ce contexte, l'approche classique consiste à combiner des mot-clés du domaine d'intérêt, à les soumettre à un moteur de recherche et à télécharger les meilleurs résultats retournés par ce dernier.Après avoir évalué empiriquement cette approche sur 340 thèmes issus de l'OpenDirectory, nous proposons de l'améliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requêtes thématiques plus pertinentes pour le thème afin d'augmenter la précision de la collecte. Nous définissons une métrique fondée sur un graphe de cooccurrences et un algorithme de marche aléatoire, dans le but de prédire la pertinence d'une requête thématique. En aval du moteur de recherche, nous proposons de filtrer les documents téléchargés afin d'améliorer la qualité du corpus produit. Pour ce faire, nous modélisons la procédure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aléatoire biaisé afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thèse, nous nous focalisons sur l'exploration orientée du Web. Au coeur de tout robot d'exploration orientée se trouve une stratégie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thème, tout en minimisant le nombre de pages visitées qui ne sont pas en rapport avec le thème. En pratique, cette stratégie définit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indépendante du thème à partir de données existantes annotées automatiquement.

Page generated in 0.1016 seconds