• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 20
  • 18
  • 8
  • Tagged with
  • 50
  • 50
  • 20
  • 16
  • 14
  • 13
  • 13
  • 8
  • 7
  • 7
  • 7
  • 7
  • 6
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles

Ferrandiz, Sylvain 23 October 2006 (has links) (PDF)
En phase de préparation d'un processus de fouille de données, une part importante<br />du travail est consacrée à la construction et à la sélection des variables descriptives.<br />L'approche filtre univariée usuellement adoptée nécessite l'emploi d'une méthode<br />d'évaluation d'une variable. Nous considérons la question de l'évaluation supervisée d'une<br />variable séquentielle. Pour résoudre ce problème, nous montrons qu'il suffit de résoudre<br />un problème plus général : celui de l'évaluation supervisée d'une mesure de similitude.<br /><br />Nous proposons une telle méthode d'évaluation. Pour l'obtenir, nous formulons le<br />problème en un problème de recherche d'une partition de Voronoi informative. Nous<br />proposons un nouveau critère d'évaluation supervisée de ces partitions et une nouvelle<br />heuristique de recherche optimisée. Le critère prévient automatiquement le risque de surapprentissage<br />et l'heuristique trouve rapidement une bonne solution. Au final, la méthode<br />réalise une estimation non paramétrique robuste de la densité d'une variable cible catégorielle<br />conditionnellement à une mesure de similitude définie à partir d'une variable descriptive.<br /><br />La méthode a été testée sur de nombreux jeux de données. Son utilisation permet<br />de répondre à des questions comme : quel jour de la semaine ou quelle tranche horaire<br />sur la semaine discrimine le mieux le segment auquel appartient un foyer à partir de sa<br />consommation téléphonique fixe ? Quelle série de mesures permet de quantifier au mieux l'appétence à un nouveau service ?
2

Le forage distribué des données : une approche basée sur l'agrégation et le raffinement de modèles

Aoun-Allah, Mohamed 12 April 2018 (has links)
Avec l’informatisation accrue de toutes les sphères d’activités de la société, nous assistons de nos jours à une explosion de la quantité de données électroniques existantes. C’est pourquoi, nous devons avoir recours à des outils automatiques qui sont à même d’analyser automatiquement les données et de ne nous fournir que l’information pertinente et résumée par rapport à ce qui est recherché. Les techniques de forage de données sont généralement utilisées à cette fin. Cependant, ces dernières nécessitent généralement un temps de calcul considérable afin d’analyser un large volume de données. Par ailleurs, si les données sont géographiquement distribuées, les regrouper sur un même site pour y créer un modèle (un classificateur par exemple) peut s’avérer très coûteux. Pour résoudre ce problème, nous proposons de construire plusieurs modèles, et plus précisément plusieurs classificateurs, soit un classificateur par site. Ensuite, les règles constituant ces classificateurs sont regroupées puis filtrées en se basant sur certaines mesures statistiques et une validation effectuée à partir de très petits échantillons provenant de chacun des sites. Le modèle résultant, appelé méta-classificateur, est, d’une part, un outil de prédiction pour toute nouvelle instance et, d’autre part, une vue abstraite de tout l’ensemble de données. Nous basons notre approche de filtrage de règles de classification sur une mesure de confiance associée à chaque règle qui est calculée statistiquement et validée en utilisant les échantillons recueillis. Nous avons considéré plusieurs techniques de validation tel qu’il sera présenté dans cette thèse. / With the pervasive use of computers in all spheres of activity in our society, we are faced nowadays with the explosion of electronic data. This is why we need automatic tools that are able to automatically analyze the data in order to provide us with relevant and summarized information with respect to some query. For this task, data mining techniques are generally used. However, these techniques require considerable computing time in order to analyze a huge volume of data. Moreover, if the data is geographically distributed, gathering it on the same site in order to create a model (a classifier for instance) could be time consuming. To solve this problem, we propose to build several models, that is one classifier by site. Then, rules constituting these classifiers are aggregated and filtered based on some statistical measures, and a validation process is carried out on samples from each site. The resulting model, called a metaclassifier is, on one hand, a prediction tool for any new (unseen) instance and, on the other hand, an abstract view of the whole data set. We base our rule filtering approach on a confidence measure associated with each rule, which is computed statistically and then validated using the data samples (one from each site). We considered several validation techniques such as will be discussed in this thesis.
3

Bases de règles multi-niveaux

Pagé, Christian January 2008 (has links) (PDF)
La fouille de données est définie comme le traitement d'une grande quantité de données afin d'y extraire des connaissances non triviales et utiles. Cette analyse permet de dégager de la masse d'informations des tendances, des regroupements de données et de formuler des hypothèses. Un des domaines de la fouille de données est la recherche de règles d'association. Les algorithmes utilisés en recherche de règles d'association ont généralement l'inconvénient de ne pouvoir identifier des règles dont un des termes est infréquent, mais qui appartient à une catégorie qui, elle, l'est. Les règles d'association multi-niveaux permettent d'identifier les associations impliquant des termes dont les niveaux de généralisation/spécialisation diffèrent. Les algorithmes de recherche de règles d'association multi-niveaux présentés à ce jour ont en commun la génération d'un nombre souvent très grand de règles redondantes. Notre contribution dans cette étude est constituée de la conception de deux algorithmes de recherche de règles d'association mutli-niveaux basés sur l'analyse formelle de concepts, ce qui permet de restreindre la génération des règles d'association aux seules règles informatives maximales. Nous avons également réalisé l'implémentation de ces deux algorithmes, en plus de celle d'un autre algorithme utilisé aux fins de comparaison dans la littérature. Nous avons finalement comparé expérimentalement ces trois implémentations et les résultats obtenus confirment l'intérêt de l'approche basée sur l'analyse formelle de concepts, tout en illustrant l'effet des optimisations apportés au traitement. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Treillis de Galois (treillis de concepts), Analyse formelle de concepts, Fouille de données (data mining), Règles d'association, Base de règles, Règles d'association multi-niveaux (règles d'association généralisées), Base de règles multi-niveaux (bases de règles généralisées).
4

Un modèle hybride pour le support à l'apprentissage dans les domaines procéduraux et mal définis

Fournier-Viger, Philippe 11 1900 (has links) (PDF)
Pour construire des systèmes tutoriels intelligents capables d'offrir une assistance hautement personnalisée, une solution populaire est de représenter les processus cognitifs pertinents des apprenants à l'aide d'un modèle cognitif. Toutefois, ces systèmes tuteurs dits cognitifs ne sont applicables que pour des domaines simples et bien définis, et ne couvrent pas les aspects liés à la cognition spatiale. De plus, l'acquisition des connaissances pour ces systèmes est une tâche ardue et coûteuse en temps. Pour répondre à cette problématique, cette thèse propose un modèle hybride qui combine la modélisation cognitive avec une approche novatrice basée sur la fouille de données pour extraire automatiquement des connaissances du domaine à partir de traces de résolution de problème enregistrées lors de l'usagé du système. L'approche par la fouille de données n'offre pas la finesse de la modélisation cognitive, mais elle permet d'extraire des espaces problèmes partiels pour des domaines mal définis où la modélisation cognitive n'est pas applicable. Un modèle hybride permet de profiter des avantages de la modélisation cognitive et de ceux de l'approche fouille de données. Des algorithmes sont présentés pour exploiter les connaissances et le modèle a été appliqué dans un domaine mal défini : l'apprentissage de la manipulation du bras robotisé Canadarm2. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Systèmes tutoriels intelligents, cognition spatiale, robotique, fouille de données
5

Molecular protein function prediction using sequence similarity-based and similarity-free approaches

Kannan, Sivakumar January 2007 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
6

Signatures : detecting and characterizing complex recurrent behavior in sequential data / Détection et caractérisation de comportements complexes récurrents dans des données séquentielles

Gautrais, Clément 16 October 2018 (has links)
Cette thèse introduit un nouveau type de motif appelé signature. La signature segmente une séquence d'itemsets, afin de maximiser la taille de l'ensemble d'items qui apparaît dans tous les segments. La signature a été initialement introduite pour identifier les produits favoris d'un consommateur de supermarché à partir de son historique d'achat. L'originalité de la signature vient du fait qu'elle identifie les items récurrents qui 1) peuvent apparaître à différentes échelles temporelles, 2) peuvent avoir des occurrences irrégulières et 3) peuvent être rapidement compris par des analystes. Étant donné que les approches existantes en fouille de motifs n'ont pas ces 3 propriétés, nous avons introduit la signature. En comparant la signature avec les méthodes de l'état de l'art, nous avons montré que la signature est capable d'identifier de nouvelles régularités dans les données, tout en identifiant les régularités détectées par les méthodes existantes. Bien qu'initialement liée au domaine de la fouille de motifs, nous avons également lié le problème de la fouille de signatures au domaine de la segmentation de séquences. Nous avons ensuite défini différents algorithmes, utilisant des méthodes liées à la fouille de motifs et à la segmentation de séquences. Les signatures ont été utilisées pour analyser un large jeu de données issu d'un supermarché français. Une analyse qualitative des signatures calculées sur ces consommateurs réels a montré que les signatures sont capables d'identifier les produits favoris d'un consommateur. Les signatures ont également été capables de détecter et de caractériser l'attrition de consommateurs. Cette thèse définit également 2 extensions de la signature. La première extension est appelée la sky-signature. La sky-signature permet de présenter les items récurrents d'une séquence à différentes échelles de temps. La sky-signature peut être vue comme une manière efficace de résumer les signatures calculées à toutes les échelles de temps possibles. Les sky-signatures ont été utilisées pour analyser les discours de campagne des candidats à la présidentielle américaine de 2016. Les sky-signatures ont identifié les principaux thèmes de campagne de chaque candidat, ainsi que leur rythme de campagne. Cette analyse a également montré que les signatures peuvent être utilisées sur d'autres types de jeux de données. Cette thèse introduit également une deuxième extension de la signature, qui permet de calculer la signature qui correspond le plus aux données. Cette extension utilise une technique de sélection de modèle basée sur le principe de longueur de description minimale, communément utilisée en fouille de motifs. Cette extension a également été utilisée pour analyser des consommateurs de supermarché. / Cette thèse introduit un nouveau type de motif appelé signature. La signature segmente une séquence d'itemsets, afin de maximiser la taille de l'ensemble d'items qui apparaît dans tous les segments. La signature a été initialement introduite pour identifier les produits favoris d'un consommateur de supermarché à partir de son historique d'achat. L'originalité de la signature vient du fait qu'elle identifie les items récurrents qui 1) peuvent apparaître à différentes échelles temporelles, 2) peuvent avoir des occurrences irrégulières et 3) peuvent être rapidement compris par des analystes. Étant donné que les approches existantes en fouille de motifs n'ont pas ces 3 propriétés, nous avons introduit la signature. En comparant la signature avec les méthodes de l'état de l'art, nous avons montré que la signature est capable d'identifier de nouvelles régularités dans les données, tout en identifiant les régularités détectées par les méthodes existantes. Bien qu'initialement liée au domaine de la fouille de motifs, nous avons également lié le problème de la fouille de signatures au domaine de la segmentation de séquences. Nous avons ensuite défini différents algorithmes, utilisant des méthodes liées à la fouille de motifs et à la segmentation de séquences. Les signatures ont été utilisées pour analyser un large jeu de données issu d'un supermarché français. Une analyse qualitative des signatures calculées sur ces consommateurs réels a montré que les signatures sont capables d'identifier les produits favoris d'un consommateur. Les signatures ont également été capables de détecter et de caractériser l'attrition de consommateurs. Cette thèse définit également 2 extensions de la signature. La première extension est appelée la sky-signature. La sky-signature permet de présenter les items récurrents d'une séquence à différentes échelles de temps. La sky-signature peut être vue comme une manière efficace de résumer les signatures calculées à toutes les échelles de temps possibles. Les sky-signatures ont été utilisées pour analyser les discours de campagne des candidats à la présidentielle américaine de 2016. Les sky-signatures ont identifié les principaux thèmes de campagne de chaque candidat, ainsi que leur rythme de campagne. Cette analyse a également montré que les signatures peuvent être utilisées sur d'autres types de jeux de données. Cette thèse introduit également une deuxième extension de la signature, qui permet de calculer la signature qui correspond le plus aux données. Cette extension utilise une technique de sélection de modèle basée sur le principe de longueur de description minimale, communément utilisée en fouille de motifs. Cette extension a également été utilisée pour analyser des consommateurs de supermarché.
7

Rendus sensorimoteurs en environnements virtuels pour l'analyse de données scientifiques complexes

Ménélas, Bob 09 September 2010 (has links) (PDF)
Par l'exploitation de nos capacités visuelles, la visualisation scienti que entend proposer aux ingénieurs et aux chercheurs un outil visant à les assister dans l'acquisition de connaissance à partir de phénomènes complexes. Ce travail de thèse s'inscrit dans cette lignée, à ceci près qu'il s'intéresse plutôt à l'utilisation des technologies de la Réalité Virtuelle dans le but d'amener un utilisateur expert au coeur du processus d'exploration et d'analyse des données, ce que nous appelons Exploration de données scienti fiques. Dans le but d'arriver à des processus d'exploration efficaces, notre recherche s'est portée sur la mise en place de techniques d'interactions intuitives, susceptibles d'exploiter au mieux les capacités sensorimotrices de l'être humain. Pour atteindre cet objectif, deux conditions nous paraissent être essentielles. D'une part, il faut que les informations transmises via différents canaux sensorimoteurs aient une certaine cohérence à être délivrées ensemble : il est primordial que l'exploitation d'un canal pour véhiculer une information ne soit pas en concurrence avec ce qui est fait sur un autre canal. D'autre part, il est souhaitable que le potentiel de chaque canal soit utilisé au meilleur de sa capacité. Dans ce contexte, ce travail a débuté par une analyse de l'utilisation de l'haptique dans l'Exploration de données scientifi ques. Pour ce type d'usage, il a été identifié quatre tâches fondamentales (Sélectionner, Localiser, Relier et Arranger) pour lesquelles l'haptique semble présenter un réel avantage par rapport aux autres canaux sensoriels. Pour chacune de ces tâches, nous avons montré, au travers d'une large étude bibliographique, comment l'interaction haptique pouvait être exploitée afi n d'off rir des méthodes d'exploration efficaces. Sur la base de cette analyse organisée autour de ces quatre catégories, nous avons ensuite mis en évidence les problématiques liées aux tâches identifiées. Ainsi, nous avons souligné, d'une part que l'haptique pouvait faciliter la sélection de données scienti fiques dans des contextes où celles-ci sont massives, et d'autre part nous avons montré le besoin de mettre en place de nouvelles méthodes de suivi de structures d'intérêts (iso-surfaces, lignes de courant etc.). Notre problématique ayant ainsi été posée, nous avons d'une part étudié l'utilisation de retour multimodaux non visuels pour la recherche et la sélection de cibles dans un environnent virtuel 3d. Les situations impliquant une ou plusieurs cibles furent analysées, et plusieurs paradigmes d'interaction ont été proposés. Dans cet ordre d'idées, nous sommes arrivés à défi nir et valider un principe directeur pour l'usage de retours haptico-sonores pour la recherche et la sélection d'une cible donn ée située dans une scène 3d pouvant en contenir plusieurs autres. Nous avons en eff et montré que, pour une telle tâche, il était préférable d'exploiter la spatialisation sonore a n de localiser la cible désirée dans l'espace, tandis que le retour haptique permettait une sélection précise de la cible. D'autre part, nous nous sommes attaqués aux problèmes liés au rendu haptique d'ensembles de données pouvant présenter de fortes variations. A cet eff et, suite à un rappel de l'apport de l'haptique pour le rendu de surfaces dans le domaine médical, nous avons analysé certains besoins pouvant être comblés par l'ajout de ce canal sensorimoteur dans l'analyse d'iso-surfaces issues de simulation de Mécanique des Fluides Numérique (MFN). Par la suite nous avons proposé et évalué, par l'intermédiaire d'expériences de perception et de mesures de performance, de nouvelles méthodes de rendu haptique d'iso-surfaces dont l'une des originalités est de pouvoir se passer d'une représentation polygonale intermédiaire. En fin, nous avons appliquécette nouvelle approche d'exploration de données scientifi ques à l'analyse des résultats d'une simulation d'un écoulement dans une cavité ouverte. Ainsi, nous avons proposé deux méthodes d'analyse multi-sensorielle, dédiées à l'exploration d'un ensemble de données issu d'une simulation de MFN, en exploitant les approches génériques développées précédemment. La première méthode concerne une analyse interactive de la géométrie de l'écoulement, alors que la seconde se rapporte à une analyse multi-sensorielle de la topologie de l'écoulement. Les premières évaluations menées ont indiqué que les méthodes proposées tendaient à favoriser une meilleure compréhension du phénomène analysé et qu'elles pouvaient diminuer la charge cognitive habituellement requise par une telle tâche. A titre de conclusion, soulignons que cette thèse de doctorat ouvre la voie à un certain nombre de perspectives de recherches. A court terme, il s'agit de compléter les travaux relatifs à l'analyse de l'aspect dynamique de la simulation d'un écoulement dans une cavité ouverte. Ces travaux consisteront à proposer et valider différentes interactions multimodales visant à examiner les échanges/recirculations pouvant exister entre/dans les parties de la dite cavité. Mais au-delà des travaux relatifs à la MFN, l'expérience acquise à travers ces travaux pluridisciplinaires (informatique, mécanique des fluides, ergonomie cognitive) me permettra à moyen terme d'élargir mes travaux de recherche à l'exploration de données médicales, météorologiques, ou géologiques.
8

Recherche d'une représentation des données efficace pour la fouille des grandes bases de données

Boullé, Marc 24 September 2007 (has links) (PDF)
La phase de préparation du processus de fouille des données est critique pour la qualité des résultats et consomme typiquement de l'ordre de 80% d'une étude. Dans cette thèse, nous nous intéressons à l'évaluation automatique d'une représentation, en vue de l'automatisation de la préparation des données. A cette fin, nous introduisons une famille de modèles non paramétriques pour l'estimation de densité, baptisés modèles en grille. Chaque variable étant partitionnée en intervalles ou groupes de valeurs selon sa nature numérique ou catégorielle, l'espace complet des données est partitionné en une grille de cellules résultant du produit cartésien de ces partitions univariées. On recherche alors un modèle où l'estimation de densité est constante sur chaque cellule de la grille. Du fait de leur très grande expressivité, les modèles en grille sont difficiles à régulariser et à optimiser. Nous avons exploité une technique de sélection de modèles selon une approche Bayesienne et abouti à une évaluation analytique de la probabilité a posteriori des modèles. Nous avons introduit des algorithmes d'optimisation combinatoire exploitant les propriétés de notre critère d'évaluation et la faible densité des données en grandes dimensions. Ces algorithmes ont une complexité algorithmique garantie, super-linéaire en nombre d'individus. Nous avons évalué les modèles en grilles dans de nombreux contexte de l'analyse de données, pour la classification supervisée, la régression, le clustering ou le coclustering. Les résultats démontrent la validité de l'approche, qui permet automatiquement et efficacement de détecter des informations fines et fiables utiles en préparation des données.
9

Modèles d'intégration de la connaissance pour la fouille des données d'expression des gènes

Martinez, Ricardo 02 July 2007 (has links) (PDF)
Dans cette thèse, nous présentons une structure qui comprend tous les méthodes développées pour interpréter des résultats d'expression des gènes en incorporant des annotations sur les gènes. Puis, nous abordons la question de la découverte de « clusters » (algorithmes non-supervisées) parmi des profils d'expression de gène, et nous proposons deux approches spécifiques à ce sujet : CGGA (Co-expressed Gene Groups Analysis) and GENMINER (Gene-integrated analysis using association rules mining). CGGA est une méthode de l'approche a priori qu'intègre l'information issue des données des biopuces, i.e. les profils d'expression des gènes, avec les annotations fonctionnelles des gènes issues des différentes sources d'information génomique tel que Gène Ontologie. GENMINER est une méthode de co-clustering basé dans l'extraction de règles d'association qu'intègre l'information des profils d'expression des gènes (discrétisées) a partir de différentes sources d'information biologique sur les gènes (en incluant la totalité de l'information minimale contenue dans la biopuce). A la fin nous ciblons la question de la découverte de classes par des méthodes supervisés, a ce sujet nous proposons GENETREE (GENE-integrated analysis for biological sample prediction using decision TREEs). GENETREE est une méthode de co-clustering basé dans les arbres de décision qui permet d'intégrer les profils d'expression des gènes et l'information contenue dans les sources d'information biologique relative aux voies métaboliques (en tenant en compte la variable temporelle du processus biologique. Les expérimentations menées avec les trois méthodes ont permis de mettre en évidence les principaux groupes de gènes fonctionnellement riches et co-exprimés dans les différents jeux de données d'expression des gènes qui ont été analysées.
10

Évaluation des retombées des tactiques de communication des groupes d'intérêt public sur le Web

Rocheleau, Sylvain 02 1900 (has links) (PDF)
Le questionnement au centre de cette recherche aborde l'évaluation des retombées des tactiques de communication employées par les groupes d'intérêt public afin d'attirer l'attention des médias et de participer aux discussions en cours dans l'espace public. Une méthodologie novatrice fondée sur le concept d'écosystème d'information est proposée afin d'aborder la circulation de l'information dans toute sa complexité. Elle propose également un survol de l'évolution du monde des médias ainsi qu'une perspective historique de l'utilisation des médias et des technologies de l'information et de la communication (TIC) par les groupes d'intérêt. Enfin, nous présentons des études de cas s'intéressant aux tactiques de communications de deux activités militantes organisées par des groupes d'intérêt public. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : écosystème d'information, militantisme, forage de données, circulation de l'information, groupes d'intérêt public

Page generated in 0.1093 seconds