• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 157
  • 100
  • 33
  • 1
  • 1
  • Tagged with
  • 283
  • 193
  • 156
  • 118
  • 98
  • 93
  • 52
  • 50
  • 45
  • 44
  • 42
  • 41
  • 39
  • 39
  • 37
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
231

Extraction de Connaissances pour la Modelisation tri-dimensionnelle de l'Interactome Structural

Ghoorah, Anisah 22 November 2012 (has links) (PDF)
L'étude structurale de l'interactome cellulaire peut conduire à des découvertes intéressantes sur les bases moléculaires de certaines pathologies. La modélisation par homologie et l'amarrage de protéines ("protein docking") sont deux approches informatiques pour modéliser la structure tri-dimensionnelle (3D) d'une interaction protéine-protéine (PPI). Des études précédentes ont montré que ces deux approches donnent de meilleurs résultats quand des données expérimentales sur les PPIs sont prises en compte. Cependant, les données PPI ne sont souvent pas disponibles sous une forme facilement accessible, et donc ne peuvent pas être re-utilisées par les algorithmes de prédiction. Cette thèse présente une approche systématique fondée sur l'extraction de connaissances pour représenter et manipuler les données PPI disponibles afin de faciliter l'analyse structurale de l'interactome et d'améliorer les algorithmes de prédiction par la prise en compte des données PPI. Les contributions majeures de cette thèse sont de : (1) décrire la conception et la mise en oeuvre d'une base de données intégrée KBDOCK qui regroupe toutes les interactions structurales domaine-domaine (DDI); (2) présenter une nouvelle méthode de classification des DDIs par rapport à leur site de liaison dans l'espace 3D et introduit la notion de site de liaison de famille de domaines protéiques ("domain family binding sites" ou DFBS); (3) proposer une classification structurale (inspirée du système CATH) des DFBSs et présenter une étude étendue sur les régularités d'appariement entre DFBSs en terme de structure secondaire; (4) introduire une approche systématique basée sur le raisonnement à partir de cas pour modéliser les structures 3D des complexes protéiques à partir des DDIs connus. Une interface web (http://kbdock.loria.fr) a été développée pour rendre accessible le système KBDOCK. Le système KBDOCK couvre plus de 2,700 hetero DDIs non-redondantes correspondant à 1,439 DFBSs localisés sur 947 domaines Pfam distincts. KBDOCK a permis de réaliser plusieurs études étendues. Par exemple, KBDOCK a été utilisé pour montrer que: (1) après de 70% de familles de domaines protéiques n'ont qu'un seul DFBS et les autres familles en ont un petit nombre seulement, ce qui suggère que les DDIs re-utilisent souvent les mêmes sites de liaison; (2) plus de 80% de DFBSs interagissent avec une seule famille de domaines protéiques et les autres DFBSs interagissent avec un petit nombre de familles, ce qui indique que la plupart des DFBSs sont principalement monogames dans leur interactions avec les autres domaines protéiques; (3) les DFBSs impliqués dans des interactions présentent des régularités en terme de structure secondaire, ce qui pourrait servir comme un descripteur complémentaire dans la prédiction d'interaction; (4) lorsque les domaines re-utilisent leur DFBS, le docking orienté vient améliorer les prédictions. Ainsi, KBDOCK constitue une ressource unifiée qui permet d'enrichir les connaissances sur l'interactome structural.
232

Extraction de séquences fréquentes : des données numériques aux valeurs manquantes

Fiot, Céline 28 September 2007 (has links) (PDF)
La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes.
233

Étude comparative du vocabulaire de description de la danse dans les archives et du vocabulaire de représentation de la danse dans la littérature

Paquette-Bigras, Ève 03 1900 (has links)
Notre recherche s’insère dans la mouvance des humanités numériques; nous y faisons dialoguer les arts et les sciences de l’information. Depuis quelques décennies, la danse est un sujet d’études et de recherche à part entière. Il devient donc nécessaire de mieux décrire la danse dans les archives, sachant que la description en amont influe grandement sur l’accès en aval. Les méthodes d’extraction automatique de connaissances nous semblent offrir de nouvelles possibilités. L’objectif de notre recherche est de contribuer au développement d’outils de gestion de l’information dans les archives de la danse en comparant un vocabulaire de description de la danse dans les archives et un vocabulaire de représentation de la danse dans la littérature, recueilli grâce à des méthodes d’extraction automatique de connaissances, pour en distinguer une possible complémentarité, particulièrement en ce qui a trait au vocabulaire de l’expérience esthétique. D’abord, nous analysons un vocabulaire de description de la danse dans les archives. Nous décrivons certains outils de description des archives de la danse et nous analysons le thésaurus de descripteurs Collier. Nous constatons que le vocabulaire de description de la danse dans les archives ne semble pas prendre en compte l’expérience esthétique. Ensuite, nous analysons un vocabulaire de représentation de la danse dans la littérature. Un vocabulaire structuré de l’expérience esthétique de la danse moderne est ainsi extrait d’un corpus de textes de l’écrivain français Stéphane Mallarmé et analysé. Puis nous comparons les deux vocabulaires afin d'en distinguer la complémentarité quant à la description de l’expérience esthétique. Nous formulons une première suggestion d’amélioration de certains thésaurus employés dans les archives de la danse : un thésaurus au vocabulaire essentiellement factuel, comme le thésaurus de descripteurs Collier, peut être enrichi de termes à propos de l’expérience esthétique. Le vocabulaire de représentation de la danse dans la littérature est jusqu’à un certain point complémentaire au vocabulaire de description de l’expérience esthétique de la danse dans les archives. Nous menons ainsi une première expérimentation qui justifie en partie la pertinence de certaines méthodes d’extraction de connaissances dans le développement et la maintenance de ressources documentaires pour le domaine des arts d’interprétation tels que la danse. / This research falls within the field of digital humanities; arts and information science engage in dialogue. In the last few decades, dance has become a distinct research subject. Dance description in archives needs to be improved, because the quality of the description impacts access to the documentation. Knowledge extraction seems to offer new opportunities in this regard. The goal of this research is to contribute to the development of information management tools by comparing a vocabulary for describing dance in archives with a vocabulary for representing dance in literature obtained through knowledge extraction. We look for possible complementarity, particularly in regard to the aesthetic experience. First, some tools for describing dance in archives are described, and the Collier Descriptor Thesaurus is analyzed. We observe that this vocabulary for describing dance in archives does not take into account aesthetic experience. Second, a vocabulary for representing dance in literature is analyzed. More specifically, a structured vocabulary of aesthetic experience of modern dance is drawn from a corpus of texts from the French writer Stéphane Mallarmé, and the vocabulary obtained is analyzed. Finally, the two vocabularies are compared to consider their complementarity. We conclude that some vocabularies for describing dance in archives, consisting mainly of factual terms, such as the Collier Descriptor Thesaurus, can be enriched with terms related to aesthetic experience. The vocabulary for representing dance in literature complements to a certain extent the vocabulary for describing dance in archives. Thus this initial experiment supports the relevance of knowledge extraction in information resources maintenance and development for performing arts such as dance. / Diese Arbeit beschäftigt sich mit dem Fachgebiet der Digital Humanities und verbindet dabei Kunst mit informationswissenschaftlichen Methoden. In den letzten Jahrzehnten ist Tanz ein eigenständiges Forschungsgebiet geworden. Da sich die Qualität der Beschreibung direkt auf den Zugang zu Dokumenten im Archiv auswirkt, bedarf die Beschreibung von Tanz in Archiven Verbesserung. Ziel der Forschung ist es zur Entwicklung von Informationsverwaltungs-Tools beizutragen, indem das Vokabular der Beschreibung von Tanz im Archiv mit Vokabular aus der Literatur, extrahiert aus textuellen Datenbanken, verglichen wird. Dabei liegt der Fokus auf der Komplementarität beider Quellen, besonders in Bezug auf die Beschreibung von ästhetischen Erfahrungen. Zunächst werden Tools für die Beschreibung von Tanz in Archiven beschrieben und der Collier Descriptor Thesaurus analysiert. Dabei zeigt sich, dass das Vokabular der Tanz-Beschreibung im Archiv ästhetische Erfahrung generell nicht berücksichtigt. Daraufhin wird das Vokabular der Tanz-Darstellung in der Literatur am Beispiel der Text-Sammlung des franzözischen Dichters Stéphane Mallarmé analysiert. Im Anschluss werden die zwei Wortschätze verglichen, um die Komplementarität beider Quellen zu beschreiben. Die Arbeit kommt zu dem Schluss, dass das Vokabular der Tanz-Beschreibung im Archiv hauptsächlich aus sachbezogenen Begriffen besteht (z.B. der Collier Descriptor Thesaurus), welche um Begriffe zur ästhetischen Erfahrung ergänzt werden können. Die Begriffe für die Tanz-Beschreibung in der Literatur komplementieren bis zu einem gewissen Grad das Vokabular der Tanz-Beschreibung im Archiv. Demzufolge bildet diese Arbeit eine Grundlage für weitere Forschung im Bereich der Wissensextraktion in textuellen Datenbanken im Fachgebiet darstellender Künste wie Tanz.
234

Visualisation stéréoscopique et interactive de structures en communautés dans des graphes

Greffard, Nicolas 05 November 2013 (has links) (PDF)
Depuis les premiers travaux de Moreno en 1934, l'analyse de réseaux sociaux s'est toujours accompagnée de diagrammes représentant les relations entre individus. Depuis, la visualisation de graphes n'a cessé de se développer au sein des communautés de visualisation d'information et de dessin de graphes. Au-delà des travaux se concentrant sur les problèmes combinatoires et algorithmiques posés par les dessins de graphes on parle désormais de fouille visuelle de réseaux et plus généralement de visual analytics en intégrant l'utilisateur au coeur de l'analyse. Dans cette thèse nous nous concentrons sur les supports visuels interactifs stéréoscopiques qui permettent de piloter le processus de fouille. En utilisant un environnement expérimental ad hoc, nous essayons d'en évaluer l'impact dans une tâche très populaire de détection de structures en communautés. A travers différentes expériences, nous montrons que pour une classe de graphes particulière la 2D semble plus adapté pour les graphes simples tandis que la 3D stéréo est bénéfique pour les graphes les plus complexes. Nous identifions également des différences dans l'usage des interactions entre la mono et la stéréo, ce qui semble illustrer des différences de comportement caractérisant des différences de stratégie d'utilisation entre ces deux conditions. Nos travaux se prolongent sur le plan technologique par le développement d'une bibliothèque permettant des interactions "mains-libres" adaptées à la fouille visuelle debout devant un grand écran.
235

Analyse automatique d'opinion : problématique de l'intensité et de la négation pour l'application à un corpus journalistique

Zhang, Lei 11 December 2012 (has links) (PDF)
La problématique de l'analyse d'opinion connaît un intérêt croissant depuis une quinzaine d'années. Cette problématique mène à de nombreux travaux ayant des objectifs allant de la constitution de ressources lexicales à l'identification des cibles d'une opinion. Le cadre applicatif de notre étude est l'analyse automatique d'articles de journaux pour la veille d'opinion. Ce cadre est ambitieux vis-à-vis de l'état de l'art puisque nous sommes amené à étudier un grand nombre de critères propres à l'analyse d'opinion. Nous proposons un modèle conceptuel permettant de caractériser une opinion par la polarité, l'intensité, la prototypicalité, la cible, la source, l'engagement de l'auteur, etc. En particulier, nous modélisons la négation et ses effets sur l'intensité et la polarité. En plus des cas classiques de négation, nous sommes en mesure de modéliser des effets de rhétoriques tels que l'euphémisme ou la litote, très présents dans le genre journalistique. À partir de ce modèle conceptuel, nous présentons un ensemble de choix techniques permettant de préciser les ressources et traitements nécessaires à l'automatisation. Nous mettons en œuvre deux applications (en chinois et en français) de la chaîne de traitements issue du modèle permettant de confirmer la validité du modèle conceptuel ainsi que l'efficacité des traitements automatiques.
236

Discours de presse et veille stratégique d'événements Approche textométrique et extraction d'informations pour la fouille de textes

Erin, Macmurray 02 July 2012 (has links) (PDF)
Ce travail a pour objet l'étude de deux méthodes de fouille automatique de textes, l'extraction d'informations et la textométrie, toutes deux mises au service de la veille stratégique des événements économiques. Pour l'extraction d'informations, il s'agit d'identifier et d'étiqueter des unités de connaissances, entités nommées -- sociétés, lieux, personnes, qui servent de points d'entrée pour les analyses d'activités ou d'événements économiques -- fusions, faillites, partenariats, impliquant ces différents acteurs. La méthode textométrique, en revanche, met en oeuvre un ensemble de modèles statistiques permettant l'analyse des distributions de mots dans de vastes corpus, afin faire émerger les caractéristiques significatives des données textuelles. Dans cette recherche, la textométrie, traditionnellement considérée comme étant incompatible avec la fouille par l'extraction, est substituée à cette dernière pour obtenir des informations sur des événements économiques dans le discours. Plusieurs analyses textométriques (spécificités et cooccurrences) sont donc menées sur un corpus de flux de presse numérisé. On étudie ensuite les résultats obtenus grâce à la textométrie en vue de les comparer aux connaissances mises en évidence au moyen d'une procédure d'extraction d'informations. On constate que chacune des approches contribuent différemment au traitement des données textuelles, produisant toutes deux des analyses complémentaires. À l'issue de la comparaison est exposé l'apport des deux méthodes de fouille pour la veille d'événements.
237

Entrepôts et analyse en ligne de données complexes centrés utilisateur : un nouveau défi

Bentayeb, Fadila 24 November 2011 (has links) (PDF)
Les entrepôts de données répondent à un réel besoin en matière d'accès à l'information résumée. Cependant, en suivant le processus classique d'entreposage et d'analyse en ligne (OLAP) de données, les systèmes d'information décisionnels (SID) exploitent très peu le contenu informationnel des données. Alors même que les SID sont censés être centrés utilisateur, l'OLAP classique ne dispose pas d'outils permettant de guider l'utilisateur vers les faits les plus intéressants du cube. La prise en compte de l'utilisateur dans les SID est une problématique nouvelle, connue sous le nom de personnalisation, qui pose plusieurs enjeux peu ou pas étudiés. Le travail présenté dans ce mémoire vise à proposer des solutions innovantes dans le domaine de la personnalisation dans les entrepôts de données complexes. L'originalité de nos travaux de recherche a consisté à montrer qu'il est pertinent d'intégrer la sémantique dans tout le processus d'entreposage, soit en invitant l'utilisateur à exprimer ses propres connaissances métier, soit en utilisant les méthodes de fouille de données pour extraire des connaissances cachées. En s'appuyant sur l'intuition que des connaissances sur le métier, sur les données entreposées et leur usage (requêtes) peuvent contribuer à aider l'utilisateur dans son exploration et sa navigation dans les données, nous avons proposé une première approche de personnalisation basée sur les connaissances explicites des utilisateurs. En empruntant le concept d'évolution de schéma, nous avons relâché la contrainte du schéma fixe de l'entrepôt, pour permettre d'ajouter ou de supprimer un niveau de hiérarchie dans une dimension. Ces travaux ont été étendus pour recommander à l'utilisateur des hiérarchies de dimension nouvelles basées sur la découverte de nouvelles structures naturelles grâce aux principes d'une méthode de classification (K-means). Nous avons par ailleurs développé la fouille en ligne en s'appuyant uniquement sur les outils offerts par les systèmes de gestion de bases de données (SGBD). La fouille en ligne permet d'étendre les capacités analytiques des SGBD, support des entrepôts de données, de l'OLAP vers une analyse structurante, explicative et prédictive ; et venir en appui à la personnalisation. Afin de prendre en compte à la fois l'évolution des données et celle des besoins tout en garantissant l'intégration structurelle et sémantique des données, nous avons proposé une approche d'analyse en ligne à la demande, qui s'appuie sur un système de médiation à base d'ontologies. Par ailleurs, nous avons proposé un modèle multidimensionnel d'objets complexes basé sur le paradigme objet qui permet de représenter les objets de l'univers de façon plus naturelle et de capter la sémantique qu'ils véhiculent. Un opérateur de projection cubique est alors proposé pour permettre à l'utilisateur de créer des cubes d'objets complexes personnalisés. Toutes nos solutions ont été développées et testées dans le contexte des entrepôts de données relationnels et/ou XML.
238

Extraction de séquences inattendues : des motifs séquentiels aux règles d'implication

Li, Haoyuan 10 September 2009 (has links) (PDF)
Les motifs séquentiels peuvent être vus comme une extension de la notion d'itemsets fréquents intégrant diverses contraintes temporelles. La recherche de tels motifs consiste ainsi à extraire des enchaînements d'ensembles d'items, couramment associés sur une période de temps bien spécifiée. La construction de règles à partir de ces motifs séquentiels permet d'étendre la notion de règles d'association pour la pris en compte de la temporalité. En fait, cette recherche met en évidence des associations inter-transactions, contrairement à celle des règles d'association qui extrait des combinaisons intra-transactions. Ce problème, posé à l'origine dans un contexte de marketing, intéresse à présent des domaines aussi variés que les télécommunications, la finance, ou encore la médecine et la bioinformatique. Même s'il existe aujourd'hui de très nombreuses approches efficaces pour extraire des motifs, ces derniers ne sont pas forcément adaptés aux besoins des applications réelles. En fait, les résultats obtenus sont basés sur une mesure statistique et ne tiennent pas compte de la connaissance du domaine. De plus, ces approches sont principalement axées sur la recherche de tendances et ne permettent pas d'extraire des connaissances sur les éléments atypiques ou inattendus. Dans le cadre de cette thèse, nous nous intéressons donc à la problématique de l'extraction de motifs séquentiels et règles inattendus en intégrant la connaissance du domaine. Le travail présenté dans cette thèse comporte la mise en œuvre d'un cadre MUSE pour l'extraction de séquences inattendues par rapport à un système de croyances, des extensions avec la théorie de logique floue, l'intégration des données hiérarchisées, la définition des motifs séquentiels et règles inattendus et, enfin, l'extraction de phrases inattendues dans des documents textes. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions.
239

Organisation et exploitation des connaissances sur les réseaux d'interactions biomoléculaires pour l'étude de l'étiologie des maladies génétiques et la caractérisation des effets secondaires de principes actifs

Bresso, Emmanuel 25 September 2013 (has links) (PDF)
La compréhension des pathologies humaines et du mode d'action des médicaments passe par la prise en compte des réseaux d'interactions entre biomolécules. Les recherches récentes sur les systèmes biologiques produisent de plus en plus de données sur ces réseaux qui gouvernent les processus cellulaires. L'hétérogénéité et la multiplicité de ces données rendent difficile leur intégration dans les raisonnements des utilisateurs. Je propose ici des approches intégratives mettant en œuvre des techniques de gestion de données, de visualisation de graphes et de fouille de données, pour tenter de répondre au problème de l'exploitation insuffisante des données sur les réseaux dans la compréhension des phénotypes associés aux maladies génétiques ou des effets secondaires des médicaments. La gestion des données sur les protéines et leurs propriétés est assurée par un système d'entrepôt de données générique, NetworkDB, personnalisable et actualisable de façon semi-automatique. Des techniques de visualisation de graphes ont été couplées à NetworkDB pour utiliser les données sur les réseaux biologiques dans l'étude de l'étiologie des maladies génétiques entrainant une déficience intellectuelle. Des sous-réseaux de gènes impliqués ont ainsi pu être identifiés et caractérisés. Des profils combinant des effets secondaires partagés par les mêmes médicaments ont été extraits de NetworkDB puis caractérisés en appliquant une méthode de fouille de données relationnelles couplée à Network DB. Les résultats permettent de décrire quelles propriétés des médicaments et de leurs cibles (incluant l'appartenance à des réseaux biologiques) sont associées à tel ou tel profil d'effets secondaires.
240

Pattern mining rock: more, faster, better

Termier, Alexandre 08 July 2013 (has links) (PDF)
Le pattern mining est un domaine du data mining dont le but est l'extraction de régularité dans les données. Ce document présente nos contributions au domaine selon 3 axes : 1. Le domaine du pattern mining est jeune et il y existe encore beaucoup de types de régularités qu'un analyste serait intéressé de découvrir mais qui ne sont pas encore gérées. Nous avons contribué à deux nouveaux types de patterns: les patterns graduels et les patterns périodiques avec "ruptures". Nous avons aussi proposé ParaMiner, un algorithme original pour le pattern mining générique, qui permet à des analystes de spécifier directement le type de patterns qui les intéressent. 2. Le pattern mining demande beaucoup de ressources de calcul. Pour réduire le temps de calcul, nous avons étudié comment exploiter le parallélisme des processeurs multicoeurs. Nos résultats montrent que des techniques classiques en pattern mining sont mal adaptées au parallélisme, et nous avons proposé des solutions. 3. Notre objectif à long terme est de rendre le pattern mining plus facile à utiliser par les analystes. Il y a beaucoup à faire dans ce but, actuellement les analystes doivent travailler sur de longues listes de millions de patterns. Nous présentons nos premiers résultats, dans le contexte de la fouille de traces d'exécution de processeurs.

Page generated in 0.0559 seconds