• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 12
  • 4
  • Tagged with
  • 16
  • 16
  • 6
  • 6
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Algorithmique pour la recherche de motifs approchée et application à la recherche de cibles de microARN / Algorithmic for approximate string matching and application for the search of microRNA targets

Vroland, Christophe 18 May 2016 (has links)
La recherche de motifs approchée consiste à identifier les occurrences d’un motif modulo une certaine distance au sein d’un texte. Ce problème trouve de nombreuses applications en bio-informatique pour l’analyse de séquences biologiques. Par exemple, les microARN sont des petits ARN qui régulent l’expression des gènes par reconnaissance d’un motif similaire. Comprendre le mode d’action des microARN demande de pouvoir localiser de courts motifs, environ 21 nucléotides, comprenant jusqu’à 3 ou 4 erreurs dans un texte de l’ordre de 108 à 109 nucléotides, représentant un génome. Dans cette thèse, nous proposons un algorithme efficace pour la recherche de motifs approchée, qui se base sur la définition d’un nouveau type de graines avec erreurs, les graines 01*0, et qui exploite une structure d’index compressée, le FM-index. Cet algorithme a été mis en œuvre dans un logiciel librement disponible, appelé Bwolo. Nous démontrons expérimentalement l’avantage de cette approche en nous comparant à l’état de l’art des outils existants. Nous montrons également comment utiliser Bwolo pour mettre en place une analyse originale sur l’étude de la distribution des cibles potentielles de miARN dans deux génomes de plantes, Arabidopsis thaliana et Arabidopsis lyrata. / Approximate string matching consists in identifying the occurrences of a motif within a text, modulo a given distance. This problem has many applications in bioinformatics for the analysis of biological sequences. For instance, microRNAs are short RNA molecules regulating the expression of genes by specific recognition of their sequence motif on the target gene. Understanding the mode of action of microRNAs requires the ability to identify short motifs, around 21 nucleotides in size, comprising up to 3-4 errors in a text whose size is in the order of 108-109 , representing a genome. In this thesis, I have proposed an efficient algorithm for the approximate search of short motifs. This algorithm is based on a new type of seeds containing errors, the 01*0 seeds, and uses a compressed index structure, the FM-index. I have implemented this algorithm in a freely available software, Bwolo. I demonstrate experimentally the advantage of this approach and compare it to the state of the art of existing tools. I also show how Bwolo can be used and have set up an original study on the distribution of potential miRNA target sites in two plant genomes, Arabidopsis thaliana and Arabidopsis lyrata.
2

Prédiction de la structure commune aux ARN messagers codant pour la protéine STG

Terbaoui, Ratiba January 2004 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
3

Détection et analyse de motifs structuraux et fonctionnels dans les acides ribonucléiques

Gendron, Patrick January 2000 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
4

Analyse bioinformatique des mécanismes de régulation durant le développement précoce des cellules T / Computational biology applied to the analysis of the regulatory mechanisms in early T-cell development

Benoukraf, Touati 16 June 2010 (has links)
Les réseaux de contrôle de l'expression génique sont, pour une large part, à la base des processus cellulaires physiologiques ou pathologiques. Ces contrôles dépendent des mécanismes épigénétiques impliquant la dynamique de la chromatine et permettent la transmission de programme spécifiques d'expression génique. Lors du développement des lymphocytes T, l'expression d'une chaîne TCRß à la surface des précurseurs CD4-CD8- (ou DN) induit une signalisation intercellulaire dont les effets multiples, regroupés sous le terme de "sélection beta", se traduisent par une prolifération cellulaire et la différenciation vers un stade de maturation ultérieur, CD4+CD8+ (ou DP). Ces événements s'accompagnent de changements d'expression d'un grand nombre de gènes sous l'effet d'un programme épigénétique spécifique. De nouvelles technologies comme le ChlP-on-Chip ou le ChlPSeq permettent de caractériser les profils cellulaires épigénétiques. Les données ainsi générées nécessitent pour leur analyse des approches informatiques et statistiques. Mon travail de thèse s'est articulé sur 3 axes :1) Elaborer des outils bioinformatiques dans le but d'analyser les profils épigénétiques de régions génomiques suspectées de jouer un rôle dans la différenciation entre les stades DN et DP de la différenciation des cellules T.2) Analyser de manière in silico deux régions phares de la régulation du locus TCRß3) Concevoir une pipeline d'analyse de données issues des technologies de séquençage à haut débit permettant de caractériser les interactions facteur de transcription/ADN / Gene expression regulatory networks make up, for the most part, the basis of physiological cell processes. This regulation depends on epigenetic mechanisms involving chromatin dynamics and allow propagating specific gene expression programs. during T-cell development, the expression of the surface TCRß chain in CD4- CD8- (DN) toggers intracellular signaling cascades. their multiple effects, know as "beta selection", translate as increased cell proliferation and differenciation towards the CD4+ CD8+ stage (DP). These mechanisms are supplemented by changes in expression of several genes under the effect of a specific epigenetic program. New technologies, such a ChlP-chip or ChlP-Seq, allow characterizing epigenetic cell profiles. analysis of data such generated requires computational and statistical approaches. My thesis work focused on 3 goals :1)To develop computational tools to analyse epigenetic profiles of genomic regions that are presumed to play a role in DN-DP T-cell differentiation2) To analyse txo flag regions of TCRß regulation3) To design an analysis pipeline for high-throughput sequencing technologies, in order to allow characterizing transcription factor/DNA interactions
5

Méthodes d'extraction de connaissances à partir de données modélisables par des graphes : Application à des problèmes de synthèse organique / Methods of knowledge extraction from data modelled by graphs. Application to organic synthesis problems

Pennerath, Frédéric 02 July 2009 (has links)
Des millions de réactions chimiques sont décrites dans des bases de données sous la forme de transformations de graphes moléculaires. Cette thèse propose différentes méthodes de fouille de donnés pour extraire des motifs pertinents contenus dans ces graphes et ainsi aider les chimistes à améliorer leurs connaissances des réactions chimiques et des molécules. Ainsi on commence par montrer comment le problème central de la recherche des schémas de réactions fréquents peut se résoudre à l'aide de méthodes existantes de recherche de sous-graphes fréquents. L'introduction du modèle général des motifs les plus informatifs permet ensuite de restreindre l'analyse de ces motifs fréquents à un nombre réduit de motifs peu redondants et représentatifs des données. Si l'application du modèle aux bases de réactions permet d'identifier de grandes familles de réactions, le modèle est inadapté pour extraire les schémas caractéristiques de méthodes de synthèse (schémas CMS) dont la fréquence est trop faible. Afin de surmonter cet obstacle, est ensuite introduite une méthode de recherche heuristique fondée sur une contrainte d’intervalle entre graphes et adaptée à l’extraction de motifs de très faible fréquence. Cette méthode permet ainsi de déterminer à partir d'exemples de réactions et sous certaines conditions le schéma CMS sous-jacent à une réaction donnée. La même approche est ensuite utilisée pour traiter le problème de la classification supervisée de sommets ou d'arêtes fondée sur leurs environnements puis exploitée pour évaluer la formabilité des liaisons d'une molécule. Les résultats produits ont pu être analysés par des experts de la synthèse organique et sont très encourageants. / Millions of chemical reactions are described in databases as transformations of molecular graphs. This thesis proposes different data-mining methods to extract relevant patterns included in those graphs and therefore to help chemists in improving knowledge about chemical reactions and molecules. One first shows how the central problem of searching frequent reaction patterns can be solved using existing graph-mining methods. Introducing the general model of most informative patterns then allows experts to reduce the analysis of these frequent patterns to a very small set of non-redundant patterns characteristic of data. If the application of this model to reaction database identifies large and characteristic families of reactions, the model doesn't allow in practice the extraction of reaction patterns characteristic of synthesis methods (abbr. CSM patterns) as their frequencies are far too low. In order to overcome this problem, is introduced a heuristic search algorithm based on a graph interval constraint and able to extract patterns with very low frequency. Thus this method determines from examples of chemical reactions and under some conditions the CSM pattern underlying a given input reaction. The same approach is then used to address the problem of supervised classification of vertices or edges based on their environment and then applied to evaluate formability of bonds in molecules. Experimental results have been analyzed by experts and are very encouraging.
6

Structures arborescentes : problèmes algorithmiques et combinatoires

Chauve, Cedric 11 December 2000 (has links) (PDF)
La première partie de ce mémoire est consacrée à l'énumération de diverses familles de structures arborescentes, en général selon le nombre de sommets. Les trois premiers chapitres sont consacrés à l'étude des arborescences de Cayley telles que la racine est inférieure à ses fils et des arborescences alternantes. La plupart de nos résultats sont prouvés bijectivement. Nous nous intéressons ensuite aux arborescences coloriées, et plus particulièrement à la formule d'inversion de séries formelles multivariées de Good-Lagrange. Nous donnons une nouvelle preuve bijective d'une variante de cette formule et utilisons cette preuve pour prouver combinatoirement diverses formules d'énumération de structures arborescentes et en déduire des algorithmes de génération aléatoire pour ces structures (notamment les cactus planaires). Nous concluons cette première partie par un chapitre consacré aux constellations : en combinant notre preuve de la formule de Good-Lagrange et la conjugaison d'arborescences (due à Bousquet-Mélou et Schaeffer), nous prouvons bijectivement une formule (nouvelle) pour l'énumération de constellations selon le nombre de sommets et de faces. Dans la seconde partie, nous étudions le problème de la recherche de motifs dans une arborescence, en utilisant une structure de données classique pour les mots : l'arborescence des suffixes. Nous proposons notamment un algorithme de recherche de motifs dans une arborescence, basé sur un codage d'une arborescence par des mots et sur l'utilisation de l'arborescence des suffixes d'un de ces mots, qui semble avoir de bonnes propriétés expérimentales. Nous concluons en étendant la notion d'arborescence des suffixes des mots aux arborescences et en décrivant un algorithme de construction pour cette structure.
7

Algorithmes pour la comparaison de génomes et la recherche de signaux cis-régulateurs

Varré, Jean-Stéphane 04 December 2008 (has links) (PDF)
Les génomes peuvent être vus de manière simplifiée comme des suites de gènes, objets codants pour la production de protéines. De la même manière que les caractères physiques des êtres vivants évoluent au cours du temps, les caractères physiques des génomes évoluent également. Il s'agit alors de comprendre cette évolution à travers l'organisation des gènes sur le génome. Le problème peut être abordé sous un angle dynamique où l'on retrace les événements ayant permis les modifications, ou sous un angle statique en observant la localisation et le regroupement des gènes. D'autres part, les gènes nécessitent pour s'exprimer - se transformer en protéine - d'être d'abord transcrits en ARN. Le mécanisme de contrôle de la transcription fait appel, entre autres, à des protéines qui viennent se fixer en amont du gène, sur l'ADN, en reconnaissant de courts motifs. Une tâche récurrente, précédant toute autre analyse, est de trouver les occurrences de ces motifs qui ont la particularité d'être courts et particulièrement dégénérés. Nous retraçons le travail réalisé autour de ces deux problématiques biologiques : l'évolution de la structure des génomes et la localisation des motifs de fixation. Les méthodes mises en œuvre relèvent de l'algorithmique discrète sur les permutations pour la première partie et sur les mots pour la seconde.
8

Matrices score-position, algorithmes et propriétés

Liefooghe, Aude 04 July 2008 (has links) (PDF)
Les travaux présentés dans cette thèse s'inscrivent dans le cadre de l"algorithmique et de la combinatoire du texte et s'appliquent à la bio-informatique. Plus particulièrement, ils concernent la localisation de motifs pondérés modélisés par des matrices score-position dans un texte non pondéré. Ces travaux sont appliqués au problème biologique de la recherche de sites de fixation de facteurs de transcription dans un génome. Cette application contribue à la compréhension de la régulation des gènes. Nous nous sommes attaqués à deux problèmes complémentaires, la recherche d'une seule matrice dans un texte puis la recherche simultanée d'un ensemble de matrices. Pour accélérer les algorithmes existant, nous nous sommes inspiré des algorithmes de recherche de motifs exacts connus pour leur efficacité. La différence est que les matrices score-position sont des motifs probabilistes, utilisant des fonctions de score. Nous devons donc intégrer la distribution de ces fonctions dans les algorithmes de recherche. Concernant le premier problème nous proposons une extension de l'algorithme de Knuth, Morris et Pratt qui repose sur un pré-traitement du motif pour optimiser le parcours le long du texte. Concernant le second problème nous avons utilisé une structure d'indexation afin de factoriser l'ensemble des matrices. Cette structure tire partie des distributions de scores associées à chaque matrice. Dans les deux cas, nous traitons en amont une partie des données de départ. Nous avons choisi de pré-traiter les matrices par rapport à l'application bio-informatique car les sites de fixation de facteurs de transcription sont des données relativement stables dans le temps. Ces algorithmes ont été mis en oeuvre dans un logiciel disponible en ligne appelé TFMscan. Ils ont fait l'objet d'une validation à grande échelle sur les bases de données de facteurs de transcription Jaspar et Transfac.
9

Debugging Embedded Multimedia Application Execution Traces through Periodic Pattern Mining / Débogage des traces d’exécution des applications multimédia embarquées en utilisant la recherche de motifs périodiques

Lopez Cueva, Patricia 08 July 2013 (has links)
La conception des systèmes multimédia embarqués présente de nombreux défis comme la croissante complexité du logiciel et du matériel sous-jacent, ou les pressions liées aux délais de mise en marche. L'optimisation du processus de débogage et validation du logiciel peut aider à réduire sensiblement le temps de développement. Parmi les outils de débogage de systèmes embarqués, un puissant outil largement utilise est l'analyse de traces d'exécution. Cependant, l'évolution des techniques de traçage dans les systèmes embarqués se traduit par des traces d'exécution avec une grande quantité d'information, à tel point que leur analyse manuelle devient ingérable. Dans ce cas, les techniques de recherche de motifs peuvent aider en trouvant des motifs intéressants dans de grandes quantités d'information. Concrètement, dans cette thèse, nous nous intéressons à la découverte de comportements périodiques sur des applications multimédia. Donc, les contributions de cette thèse concernent l'analyse des traces d'exécution d'applications multimédia en utilisant des techniques de recherche de motifs périodiques fréquents. Concernant la recherche de motifs périodiques, nous proposons une définition de motif périodique adaptée aux caractéristiques de la programmation parallèle. Nous proposons ensuite une représentation condensée de l'ensemble de motifs périodiques fréquents, appelée Core Periodic Concepts (CPC), en adoptant une approche basée sur les relations triadiques. De plus, nous définissons quelques propriétés de connexion entre ces motifs, ce qui nous permet de mettre en oeuvre un algorithme efficace de recherche de CPC, appelé PerMiner. Pour montrer l'efficacité et le passage à l'échelle de PerMiner, nous réalisons une analyse rigoureuse qui montre que PerMiner est au moins deux ordres de grandeur plus rapide que l'état de l'art. En plus, nous réalisons un analyse de l'efficacité de PerMiner sur une trace d'exécution d'une application multimédia réelle en présentant l'accélération accompli par la version parallèle de l'algorithme. Concernant les systèmes embarqués, nous proposons un premier pas vers une méthodologie qui explique comment utiliser notre approche dans l'analyse de traces d'exécution d'applications multimédia. Avant d'appliquer la recherche de motifs fréquents, les traces d'exécution doivent être traitées, et pour cela nous proposons plusieurs techniques de pré-traitement des traces. En plus, pour le post-traitement des motifs périodiques, nous proposons deux outils : un outil qui trouve des pairs de motifs en compétition ; et un outil de visualisation de CPC, appelé CPCViewer. Finalement, nous montrons que notre approche peut aider dans le débogage des applications multimédia à travers deux études de cas sur des traces d'exécution d'applications multimédia réelles. / Increasing complexity in both the software and the underlying hardware, and ever tighter time-to-market pressures are some of the key challenges faced when designing multimedia embedded systems. Optimizing software debugging and validation phases can help to reduce development time significantly. A powerful tool used extensively when debugging embedded systems is the analysis of execution traces. However, evolution in embedded system tracing techniques leads to execution traces with a huge amount of information, making manual trace analysis unmanageable. In such situations, pattern mining techniques can help by automatically discovering interesting patterns in large amounts of data. Concretely, in this thesis, we are interested in discovering periodic behaviors in multimedia applications. Therefore, the contributions of this thesis are focused on the definition of periodic pattern mining techniques for the analysis of multimedia applications execution traces. Regarding periodic pattern mining contributions, we propose a definition of periodic pattern adapted to the characteristics of concurrent software. We then propose a condensed representation of the set of frequent periodic patterns, called core periodic concepts (CPC), by adopting an approach originated in triadic concept approach. Moreover, we define certain connectivity properties of these patterns that allow us to implement an efficient CPC mining algorithm, called PerMiner. Then, we perform a thorough analysis to show the efficiency and scalability of PerMiner algorithm. We show that PerMiner algorithm is at least two orders of magnitude faster than the state of the art. Moreover, we evaluate the efficiency of PerMiner algorithm over a real multimedia application trace and also present the speedup achieved by a parallel version of the algorithm. Then, regarding embedded systems contributions, we propose a first step towards a methodology which aims at giving the first guidelines of how to use our approach in the analysis of multimedia applications execution traces. Besides, we propose several ways of preprocessing execution traces and a competitors finder tool to postprocess the mining results. Moreover, we present a CPC visualization tool, called CPCViewer, that facilitates the analysis of a set of CPCs. Finally, we show that our approach can help in debugging multimedia applications through the study of two use cases over real multimedia application execution traces.
10

La restructuration des documents graphiques destructurés / Restructure unstructured graphic data

Pere-Laperne, Jacques 18 November 2019 (has links)
Cette thèse traite de la restructuration des documents déstructurés de type PDF contenant des éléments graphiques tels que les schémas, les plans et les dessins, dans l’objectif de les restructurer. En nous appuyant sur la méthode KDD (Knowledge Discovery in Database) pour la restructuration des données, nous introduisons la méthode (A)KDD (Antropocentric Knowledge Discovery in Database) que nous avons développé et qui est dérivée de la méthode KDD en ajoutant l’aspect incrémental et l’aspect centré sur l’utilisateur. Nous présentons, en particulier, une technique fondée sur le principe du tri par paquet pour extraire efficacement les symboles graphiques contenus dans un document PDF. Elle est comparée aux résultats de Puglissi sur les chaînes de caractères. Puis, nous formulons l’hypothèse selon laquelle la prise en compte de l’ordre chronologique présent dans les fichiers PDF dans le processus incrémental améliore la restructuration des documents. Nous montrons la validité de cette hypothèse sur un certain nombre d’exemples. Enfin, nous montrons l’efficacité du processus pour identifier les symboles en même temps que les équipotentielles. Le mémoire se conclut en montrant les avancées et les limites de la solution de la méthode (A)KDD et nous proposons des perspectives. / This thesis deals with the restructuring of unstructured PDF documents containing graphical elements such as schematics, plans and drawings, with the aim of restructuring them. Using the KDD (Knowledge Discovery in Database) method for data restructuring, we introduce the (A) KDD (Antropocentric Knowledge Discovery in Database) method that we developed which is derived from the KDD method by adding an incremental aspect and an user-centered approach. We present, in particular, a technique based on on the bucket sort algorithm pattern in order to extract with efficiency graphic symbols contained in a PDF file. It is compared to the results obtained by Puglissi on strings. Then, we formulate the hypothesis:”taking into account the chronological order present in the PDF files in the incremental process improves the restructuring of the documents”. We illustrate the validity of this hypothesis on several examples. Finally, we show the efficiency of the process in the identification of the symbols at the same time as the equipotentials. The thesis concludes by showing the advances and the limits of the solution of the (A) KDD method and we propose some perspectives.

Page generated in 0.0808 seconds