Global ETD Search

1	Développement et application de méthodes bioinformatiques pour l'analyse des protéines contenant des répétitions en tandem / Development and application of bioinformatics methods for the identification and characterisation of tandem repeat in protein sequences Richard, François D. 21 October 2016 (has links) De nos jours, l’augmentation du volume des données de séquençage est bien plus forte que celle de notre capacité à analyser ces données. En lien avec ce déluge de données et le besoin urgent de nouveaux outils bioinformatiques pour les analyser, notre travail consiste à développer de nouveaux algorithmes pour mieux comprendre les relations entre séquence, structure, et fonction des protéines. Les protéines contiennent de larges portions de séquences périodiques, qui forment des motifs d’acides aminés répétés les uns à la suite des autres que l’on appelle des répétitions en tandem. Elles se retrouvent dans 14% des protéines. De nombreuses études ont montré leur importance fonctionnelle ainsi que leur implication dans de nombreuses maladies humaines, notamment le cancer. Ici, nous montrons l’importance d’adopter une approche incluant plusieurs outils de détection de répétition en tandem afin de s’assurer d’obtenir le jeu de données le plus complet. Nous avons ainsi réalisé un pipeline approprié, et développé deux outils spécifiques : un filtre, pour gagner en rapidité, et un score, pour sélectionner les répétitions les plus pertinentes dans les régions structurées des protéines. Enfin, nous avons utilisé ce pipeline sur une sélection de 94 protéomes. Cette analyse a permis de mettre à jour le précédent recensement des répétitions, montrant que 64% des protéines contenaient des répétitions en tandem. Elle a également permis de mieux comprendre les répétions en tandem dans leurs caractéristiques, leurs compositions et leurs implications dans les maladies humaines. / Today, the growth of protein sequencing data significantly exceeds the growth of capacities to analyze these data. In line with this data deluge and urgent needs in new bioinformatics tools our work deals with the development of new algorithms to better understand the sequence-structure-function relationship. Proteins contain a large portion of periodic sequences representing arrays of repeats that are directly adjacent to each other, so called tandem repeats (TRs). TRs occur at least in 14% of all proteins. Highly divergent, they range from a single amino acid repetition to domains of 100 or more repeated residues. Numerous studies demonstrated the fundamental functional importance of such TRs and their involvement in human diseases, especially cancers. Here we show the importance of integrating several TR detectors to get the most complete set of TRs in proteomes. We designed an appropriate pipeline and developed a filter to speed the process as well as a new scoring module to select relevant structured TRs. In addition, we undertook a large scale analysis of TRs in 94 proteomes. This large scale analysis allowed us to update previous census of TR showing that TRs occurs in 64% of all proteins and leads to a better understanding of TR in terms of their characteristics, composition and implication in human disease. Bioinformatique Répétitions en tandem Séquences Protéomes Bioinformatics Tandem repeats Sequences Proteomes
2	Répétitions dans les mots et seuils d'évitabilité Vaslet, Elise 23 June 2011 (has links) Nous étudions dans cette thèse différents problèmes d'évitabilité des répétitions dans les mots infinis. Soulevée par Thue et motivée par ses travaux sur les mots sans carrés, la problématique s'est développée au cours du XXe siècle, et est aujourd'hui devenue un des grands domaines de recherche en combinatoire des mots. En 1972, Dejean proposa une importante conjecture, dont la validation étape par étape s'est terminée récemment (2009). La conjecture concerne le seuil des répétitions d'un alphabet, i.e., la borne inférieure des exposants évitables sur cet alphabet. La notion de seuil, comme frontière entre évitabilité et non-évitabilité d'un ensemble donné de mots, est le fil directeur de nos travaux. Nous nous intéressons d'abord à une généralisation du seuil des répétitions (nous donnons des encadrements de sa valeur). Cette notion permet d'ajouter, pour décrire l'ensemble des répétitions à éviter, au paramètre de l'exposant, celui de la longueur des répétitions. Puis, nous étudions des problèmes d'existence de mots dans lesquels, simultanément, certaines répétitions sont interdites et d'autres sont forcées. Nous répondons, pour l'alphabet ternaire, à la question : quels réels sont l'exposant critique d'un mot infini sur un alphabet fixé? Nous introduisons ensuite une notion de haute répétitivité, et établissons une description partielle des couples d'exposants paramètrant une double contrainte de haute répétitivité et d'évitabilité. Pour finir, nous utilisons des résultats et techniques issus de ces problématiques pour résoudre une question de coloration de graphes : nous introduisons un seuil des répétitions, calqué sur celui connu pour les mots, et donnons sa valeur pour deux classes de graphes, les arbres et les graphes de subdivisions. / In this thesis we study various problems on repetition avoidance in infinite words. Raised by Thue and motivated by his work on squarefree words, the topic developed during the 20th century, and has nowadays become a principal area of research in combinatorics on words. In 1972, Dejean proposed an important conjecture whose verification in steps was completed recently (2009). The conjecture concerns the repetition threshold for an alphabet, i.e., the infimum of the avoidable exponents for that alphabet. The notion of threshold as a borderline between avoidability and unavoidability for a given set of words is the guiding line of our work. First, we focus on a generalization of the repetition threshold. This concept allows us to include, in addition to the exponent, the length of the repetitions as a parameter in the description of the set of repetitions to avoid. We obtain various bounds in that respect. We then study existence problems for words in which simultaneously some repetitions are forbidden, and others are forced. For the ternary alphabet, we answer the question: what real numbers are the critical exponent of some infinite word over a given alphabet? Also, we introduce a notion of highly repetitive words and give a partial description of the pairs of exponents which parameterize the existence of words both highly repetitive and repetition-free. Finally, we use results and techniques stemming from those problems to solve a question on graph colouring: we introduce a repetition threshold adapted from the thresholds we know for words, and give its value for two classes of graphs, namely, trees and subdivision graphs. Combinatoire des mots Évitabilité Répétitions Exposants critiques Conjecture de Dejean Seuil des répétitions Coloration de graphes Combinatorics on words Avoidability Repetitions Critical exponents Dejean's conjecture Repetition threshold Graphs coloring
3	Analyse systématique des motifs répétés en tandem dans les séquences protéiques. / Systematic analysis of tandem repeats in protein sequences. Jorda, Julien 15 October 2010 (has links) Au cours des dernières décennies, les avancées techniques dans la biologie moléculaire telles que les projets de séquençage de génome ont eu pour conséquence un accroissement du volume des banques de données biologiques. Parmi ces données, des séquences présentent des motifs similaires entre eux, répétés de façon juxtaposée, appelés répétitions en tandem. L'objectif de cette thèse est de comprendre l'existence de ces répétitions dans les séquences protéiques via une analyse à grande échelle. / Over the last decades, technical advances in molecular biology such as the genome sequencing projects led to a huge increase of data in the biological databanks. Among them, there are particular motifs which are adjacently repeated and similar between them, called tandem repeats. The purpose of this thesis is to understand the existence of these repeats in protein sequences through a large-scale analysis. Répétitions en tandem Protéines Analyse de séquence Bioinformatique Instructuralité Tandem repeats Protein Sequence analysis Bioinformatics Disorder
4	Études de la liaison du complexe Ku aux télomères et du délai de croissance des survivants de type I chez Saccharomyces cerevisiae Larcher, Mélanie January 2016 (has links) L’extrémité des chromosomes linéaires est une structure nucléoprotéique très conservée chez les organismes eucaryotes. Elle est constituée du télomère et des régions sous-télomériques répétées (STR) qui sont placées en amont du télomère. Chez la levure bourgeonnante, on trouve deux types de télomère, les télomères XY’ et les télomères X, qui se distinguent par la nature des STR positionnées en amont des répétitions télomériques. Le télomère et les STR sont liés par pas moins de dix protéines qui vont participer au maintien et à la régulation de l’extrémité chromosomique nécessaires à la stabilité du génome. Le télomère protège ainsi le chromosome de dégradations ou encore de fusions avec d’autres chromosomes. Le maintien de la taille du télomère est assuré par la télomérase, une transcriptase inverse, qui permet l’ajout de répétitions pour pallier leur perte lors de la phase de réplication durant le cycle cellulaire. Lorsque la télomérase est absente, deux types particuliers de cellules, les survivants de type I et les survivants de type II, peuvent maintenir leurs télomères grâce aux mécanismes de recombinaison homologue. Chez l’humain, les répétitions télomériques sont également liées par un certain nombre de protéines nécessaires au maintien de la stabilité de l’extrémité chromosomique. L’implication des télomères dans les processus de cancérisation, de vieillissement, mais également dans des maladies congénitales fait de cette structure un pivot dans le domaine de la recherche fondamentale. Dans 10 % des cas de cancers, l’allongement n’est pas dû à une réactivation de la télomérase comme c’est en général le cas, mais est inhérent à des processus de recombinaison homologue, comme chez la levure. Les homologies de séquences, de protéines, mais aussi de mécanismes de régulation des télomères avec les cellules humaines, font de S. cerevisiae un excellent modèle d’étude. Cette thèse se divise en trois chapitres. Les deux premiers traitent de l’interaction du complexe yKu avec les télomères de type XY’ dans le chapitre 1 puis de son interaction avec les télomères de type X dans le chapitre 2. Le chapitre 3 traite du comportement d’un type de survivant chez S. cerevisiae. Le chapitre 1 porte donc sur l’analyse des sites de liaison aux télomères XY’ du complexe yKu par la technique de ChEC in vivo. yKu intervient dans de nombreux processus de régulation des télomères, mais aussi dans un mécanisme de réparation des cassures double-brin de l’ADN (DSBs), la NHEJ (Non homologous end-joining). Les résultats présentés dans cette partie appuient un modèle dans lequel yKu aurait plusieurs sites de liaison aux télomères et dans les répétitions télomériques interstitielles. Nous supposons que la liaison du complexe se ferait lors de la formation d’une cassure de type « one-sided break » générée à la suite du passage de la fourche de réplication à l’intérieur des répétitions télomériques. Le chapitre 2 est également une étude des sites de liaison par la technique de ChEC in vivo du complexe yKu, mais cette fois-ci aux télomères X. Les observations faites dans cette partie viennent corroborer les résultats du chapitre 1 de la liaison de yKu à la jonction entre le télomère et les STRs, de plus elle met en évidence des interactions potentielles du complexe avec les éléments X laissant supposer l’existence d’un potentiel repliement du télomère sur la région sous-télomérique chez la levure. Enfin, le chapitre 3 est axé sur l’étude du comportement des survivants de type I, des cellules post-sénescences qui maintiennent leurs télomères par un processus de recombinaison homologue, le mécanisme de BIR (break-induced replication) en l’absence de télomérase. Les survivants de type I présentent une croissance lente liée à un arrêt du cycle cellulaire en phase G2/M qui dépend de la protéine de contrôle Rad9, dont l’activité est en général induite par des cassures double-brin. Ce chapitre a permis d’apporter des précisions sur la croissance lente probablement inhérente à un berceau télomérique très restreint chez ce type cellulaire. Télomères Complexe yKu Réplication de l’ADN Survivants de type I
5	Caractérisation et analyse évolutive des répétitions intragéniques : une étude au niveau des gènes, des séquences protéiques et des structures tridimensionnelles Abraham, Anne-Laure 15 December 2008 (has links) (PDF) Les duplications jouent un rôle important dans l'évolution des protéines et sont à l'origine des répétitions intragéniques présentes dans environ 14% des séquences protéiques. Nous avons choisi d'étudier ces répétitions d'un point de vue évolutif. Pour cela, nous avons développé un programme, Swelfe, qui cherche les répétitions à la fois dans les gènes, les séquences d'acides aminés et les structures tridimensionnelles des protéines. Ce programme utilise le même algorithme de programmation dynamique à tous les niveaux et une représentation séquentielle des structures 3D. Les scores et les tests de significativité des répétitions obtenues ont été adaptés pour chaque niveau. Nous avons créé une banque contenant les séquences d'ADN et d'acides aminés correspondant aux structures de la PDB, et comparé Swelfe à DALI pour valider la méthode au niveau des répétitions structurales. Enfin, ce programme est disponible à http://bioserv.rpbs.jussieu.fr/swelfe. Swelfe a trouvé un nombre important de répétitions dans un ensemble non redondant de séquences nucléiques, séquences protéiques et structures tridimensionnelles, et environ 10% des protéines contiennent des répétitions à au moins un niveau. Cependant, le recouvrement des répétitions aux trois niveaux est assez faible et beaucoup de répétitions ne sont trouvées qu'à un seul niveau, ce qui confirme l'intérêt de cette étude sur les trois niveaux en parallèle L'étude des répétitions structurales longues montre qu'environ 30% de ces répétitions sont symétriques à 180°, comme le sont les deux éléments d'un homo-dimère. L'analyse de ces protéines indique que certaines pourraient effectivement remplacer des dimères. [SDV] Life Sciences répétitions gènes séquences protéiques structures évolution structure quaternaire
6	An efficient algorithm for an optimal modular compression. Application to the analysis of genetic sequences. /Un algorithme rapide pour une compression modulaire optimale. Application à l'analyse de séquences génétiques. Delgrange, Olivier 05 June 1997 (has links) Abstract : A lossless compression algorithm often applies the same coding scheme on the whole sequence to be compressed. Therefore, some factors of the sequence are shortened while others are lengthened. In this work, we propose an optimization algorithm of compression methods which breaks off the coding where it is not profitable, so that some segments of the initial sequence are copied as they are instead of being coded. The achieved compression is said modular, meaning that the compressed sequence is a sequel of compressed segments and copied segments. Under specific hypotheses, our algorithm computes an optimal modular compression in time O(n log n) where n is the length of the sequence. We show that our optimization method can be advantageously used to analyze data, and particularly genetic sequences. The Kolmogorov complexity theory brings to light the usefulness of compression when analyzing sequences. The work consists of three parts. The first one introduces the classical concepts of compression and coding, as well as the new concept of ICL codes for the integers. The second one presents the compression optimization algorithm by liftings that uses ICL codes. Finally, the third part presents applications of the compression optimization by liftings, especially in the context of genetic sequence analysis. With the specific problem of the localization of approximate tandem repeats, we show how the compression optimization algorithm by liftings can be used to localize regular segments and irregular segments of a sequence in a precise and optimal way. This comeback to experimentation makes it possible to analyze sequences that contain several thousands of symbols within the space of a few seconds. /Résumé : Une méthode de compression sans perte d'informations applique souvent le même schéma de codage d'un bout à l'autre de la séquence à comprimer. Certains facteurs de la séquence sont ainsi raccourcis mais malheureusement d'autres sont rallongés. Dans ce travail, nous proposons un algorithme d'optimisation de compression qui rompt le codage là ou il n'est pas intéressant en recopiant des morceaux de la séquence initiale. La compression obtenue est dite modulaire : la séquence comprimée est une succession de morceaux comprimés et de morceaux recopiés tels quels. Sous certaines hypothèses, notre algorithme fournit une compression modulaire optimale en temps O(n log n) où n est la longueur de la séquence. Nous montrons que notre méthode de compression peut avantageusement être utilisée pour analyser des données et plus particulièrement des séquences génétiques. La théorie de la complexité de Kolmogorov éclaire l'idée d'analyse de séquences par compression. Le travail comporte trois parties. La première introduit les concepts classiques de compression et de codage, ainsi que le concept nouveau de codage ICL d'entiers. La seconde développe l'algorithme d'optimisation de compression par liftings qui utilise les codes ICL. La dernière partie présente des applications de l'optimisation de compression par liftings, plus particulièrement dans le domaine de l'analyse de séquences génétiques. Nous montrons, à l'aide du problème spécifique de localisation de répétitions en tandem approximatives, comment l'algorithme d'optimisation par liftings peut être utilisé pour localiser précisément et de manière optimale les segments réguliers et les segments non réguliers des séquences. Il s'agit d'un retour à l'expérience qui permet l'analyse de séquences de plusieurs centaines de milliers de bases en quelques secondes. algorithmique bioinformatique string-matching algorithms répétitions en tandem/ bioinformatics compression analyse de séquences tandem repeats
7	Étude de l'instabilité trinucléotidique lors de la spermiogenèse / Study of trinucleotidic instability during spermiogenesis Simard, Olivier January 2017 (has links) Les maladies à expansion de triplets nucléotidiques situés dans la région codante, telles que la maladie de Huntington, sont des maladies où les gènes en questions possèdent un nombre de répétitions trinucléotidiques anormalement élevé et inversement corrélé avec l'âge d‟apparition des symptômes. Plusieurs de ces maladies démontrent une anticipation paternelle, où un ajout de répétitions trinucléotidiques a lieu pendant la spermiogenèse, mais les étapes et les mécanismes impliqués sont encore mal compris. Or, la spermiogenèse est caractérisée par un remodelage drastique de la chromatine, où les histones sont ultimement remplacées par les protamines afin de compacter et protéger davantage le matériel génétique. Cette transition implique aussi un changement topologique majeur qui mène à une accumulation de superenroulement négatif qui est éliminé par la topoisomérase 2[beta]. Pour identifier les étapes précises où l'extension trinucléotidique a lieu, j'ai développé une stratégie de séparation des spermatides en utilisant la cytométrie en flux, ce qui m'a permis d'obtenir quatre populations, soit les spermatides aux étapes 1 à 9, 10 à 12, 13-14 et 15-16. J'ai appliqué cette stratégie sur un modèle de souris transgéniques pour la maladie de Huntington, ce qui a permis de démontrer par PCR que l'extension trinucléotidique des répétitions CAG a lieu à la fin du remodelage de la chromatine, soit à l'étape 14. Afin d‟élucider le mécanisme d‟extension trinucléotidique, j'ai utilisé une stratégie in vitro, basée sur l'incubation d‟extraits nucléaires actifs de spermatides avec un plasmide contenant des répétitions CAG. Cette stratégie a démontré que le superenroulement négatif libre, tel que retrouvé pendant le remodelage de la chromatine, est capable d'induire des structures secondaires dans les répétitions CAG, ce qui entraîne une cascade d‟événements menant à l'extension trinucléotidique. J'ai validé ce processus en inhibant aussi les topoisomérases de type 2 qui sont responsables d'éliminer le superenroulement. Finalement, j‟ai démontré que la protamination de l‟ADN, telle qu'observée dans les spermatides, accentue l'accumulation de stress torsionnel aux répétitions CAG, ce qui favorise leur extension. Mes travaux sur le stress torsionnel lors de la protamination suggèrent une nouvelle source potentielle d'instabilité trinucléotidique, nécessitant une caractérisation additionnelle. Cette source d'instabilité, qui est spécifique au mâle, jouerait un rôle majeur dans l'anticipation paternelle des maladies trinucléotiditiques. / Abstract : Trinucleotidic diseases, such as the Huntington disease, are genetic diseases characterized by abnormally long trinucleotidic repeats within a specific gene, which are inversely correlated with the age of onset of symptoms when within exons. Many trinucleotidic diseases display paternal anticipation, where trinucleotidic repeats are added during spermiogenesis, without any details on the mechanism or the steps involved. Interestingly, spermiogenesis is characterized by a drastic chromatin remodeling, where histones are ultimately replaced by protamines in order to achieve greater compaction and protection of DNA. This transition also involves major topological changes, where accumulation of negative supercoils are eliminated by the topoisomerase 2[beta]. In order to identify the specific steps where trinucleotidic extension occurs, I have developed a strategy to separate spermatids from mice, using flow cytrometry. This allowed me to purify four distinct spermatids population, consisting of steps 1-9, 10-12, 13-14 and 15-16 spermatids. The sorting strategy was used on a transgenic mouse model of the Huntington disease, which allowed me to determine, using PCR, that CAG extension occurs at the end of chromatin remodeling, more specifically at step 14. The mechanism of extension was investigated using an in vitro approach, based on the incubation of active nuclear extracts from spermatids with a plasmid containing CAG repeats. Using this strategy, I showed that free negative supercoils, as observed during chromatin remodeling, may lead to secondary structures, and more specifically hairpins in trinucleotidic repeats, which ultimately result in trinucleotidic extension. This hypothesis was validated by inhibiting enzymes such as type 2 topoisomerases, since they are responsible for negative supercoils removal. Moreover, I showed that DNA protamination, as observed in spermatids, may increase torsional stress at CAG repeats and leads to expansion. In conclusion, this work suggest that torsional stress induced by protamination of DNA could be a new potential source of trinucleotidic instability. Moreover, this male specific source of trinucleotidic instability could play a major role in paternal anticipation of trinucleotidic diseases. Maladie de Huntington Répétitions trinucléotidiques Spermiogenèse Remodelage de la chromatine Stress torsionnel Huntington disease Trinucleotidic repeats Spermiogenesis Chromatin remodeling Torsional stress
8	Les processus de la mise en scène : polyphonie et complexité dans la création scénique Siaud, Florent 12 1900 (has links) Les processus de la mise en scène reposent nécessairement sur une réalité humaine complexe, faite de dialogues et de rapports de force en constante redéfinition. Afin de les théoriser, plusieurs travaux ont institué en corpus les documents produits en cours de réunion ou de répétition, pour leur appliquer les méthodes issues de la génétique des textes. Or le transfert s’avère problématique : vestiges lacunaires, ces supports ne sauraient témoigner à eux seuls de la vie organique et polyphonique de la mise en scène en gestation. Une première solution consiste à opter pour une approche radicalement intermédiale des archives d’un spectacle : dans la mesure où la mise en scène fait interagir plusieurs disciplines artistiques, pourquoi ne pas la penser en confrontant activement les différents media générés lors de son élaboration ? Complémentaire de la première, une seconde proposition suppose que le chercheur s’implique dans une observation in vivo de réunions et de répétitions afin de disposer d’une matière plus complète. À cette clarification épistémologique succède un essai de théorisation des processus de la création scénique. Il apparaît tout d’abord que l’espace de travail est aussi bien un contenant physique de la recherche des artistes qu’un catalyseur : c’est en se l’appropriant à plusieurs qu’un groupe de collaborateurs donne corps à la mise en scène. L’espace de création révèle par là même une dimension polyphonique que l’on retrouve sur le plan du temps : dans la mesure où il engage un ensemble d’artistes, un processus ne possède pas de linéarité chronologique homogène ; il se compose d’une multitude de temporalités propres à chacun des répétants, qu’il s’agit de faire converger pour élaborer un spectacle commun à tous. Les processus de la mise en scène se caractérisent ainsi par leur dimension fondamentalement sociale. Réunie dans un espace-temps donné, la petite société formée autour du metteur obéit à un mode de création dialogique, où les propositions des uns et des autres s’agrègent pour former un discours foisonnant dont la force et l’unité sont garanties par une instance surplombante. / A complex human reality, based on dialogues as well as power relations which are permanently being redefined, is at the heart of the process of performance creation. So as to theorize such processes, several studies have been building a corpus compiling the documents which are produced during meetings or rehearsals. However, such a transfer has proven questionable : as it is made of incomplete traces, such material is necessarily too incomplete to bespeak of the organic and polyphonic life of a performance in gestation. A first solution is to elect a decidedly intermedial approach of a performance’s archives : since various artistic disciplines interact in the process of a performance’s production, one may analyze it by actively comparing and contrasting the different media which are generated during its elaboration. As a complement to the first proposal, a second approach will lead the researcher to get involved into an in vivo observation of meetings and rehearsals so as to have at his disposal a more comprehensive research material. This epistemological clarification paves the way for an attempt to theorize the processes of stage creation. First, it appears that the stage or work space is as much of a physical receptacle for the artists’ research as it is a catalyst : it is in the course of getting to own this space collectively that a group of collaborators gives substance to the production. The creative space thus reveals a polyphonic dimension which is also true regarding time : since it involves an ensemble of artists, a creative process has no uniform chronological linearity ; it comprises a whole array of relations to time which are specific to each of the participants, and one has to bring these temporalities together to give birth to a performance that belongs to all. There is therefore a fundamentally social dimension to any staging process. As it is gathered in a given space and time, the small society which is formed around the stage director has to follow a creative process based on dialogue, where the suggestions of the different individuals coalesce to produce a prolific discourse whose strength and unity are guaranteed by the presence of the director. processus génétique spectacle répétitions genèse polyphonie dialogisme process genetics performance rehearsals genesis polyphony dialogism
9	Analyse de structures répétitives dans les séquences musicales / Repetitive structure analysis in music sequences Martin, Benjamin 12 December 2012 (has links) Cette thèse rend compte de travaux portant sur l’inférence de structures répétitives à partir du signal audio à l’aide d’algorithmes du texte. Son objectif principal est de proposer et d’évaluer des algorithmes d’inférence à partir d’une étude formelle des notions de similarité et de répétition musicale.Nous présentons d’abord une méthode permettant d’obtenir une représentation séquentielle à partir du signal audio. Nous introduisons des outils d’alignement permettant d’estimer la similarité entre de telles séquences musicales, et évaluons l’application de ces outils pour l’identiﬁcation automatique de reprises. Nous adaptons alors une technique d’indexation de séquences biologiques permettant une estimation eﬃcace de la similarité musicale au sein de bases de données conséquentes.Nous introduisons ensuite plusieurs répétitions musicales caractéristiques et employons les outils d’alignement pour identiﬁer ces répétitions. Une première structure, la répétition d’un segment choisi, est analysée et évaluée dans le cadre dela reconstruction de données manquantes. Une deuxième structure, la répétition majeure, est déﬁnie, analysée et évaluée par rapport à un ensemble d’annotations d’experts, puis en tant qu’alternative d’indexation pour l’identiﬁcation de reprises.Nous présentons enﬁn la problématique d’inférence de structures répétitives telle qu’elle est traitée dans la littérature, et proposons notre propre formalisation du problème. Nous exposons alors notre modélisation et proposons un algorithme permettant d’identiﬁer une hiérarchie de répétitions. Nous montrons la pertinence de notre méthode à travers plusieurs exemples et en l’évaluant par rapport à l’état de l’art. / The work presented in this thesis deals with repetitive structure inference from audio signal using string matching techniques. It aims at proposing and evaluating inference algorithms from a formal study of notions of similarity and repetition in music.We ﬁrst present a method for representing audio signals by symbolic strings. We introduce alignment tools enabling similarity estimation between such musical strings, and evaluate the application of these tools for automatic cover song identiﬁcation. We further adapt a bioinformatics indexing technique to allow eﬃcient assessments of music similarity in large-scale datasets. We then introduce several speciﬁc repetitive structures and use alignment tools to analyse these repetitions. A ﬁrst structure, namely the repetition of a chosen segment, is retrieved and evaluated in the context of automatic assignment of missingaudio data. A second structure, namely the major repetition, is deﬁned, retrieved and evaluated regarding expert annotations, and as an alternative indexing method for cover song identiﬁcation.We ﬁnally present the problem of repetitive structure inference as addressed in literature, and propose our own problem statement. We further describe our model and propose an algorithm enabling the identiﬁcation of a hierarchical music structure. We emphasize the relevance of our method through several examples and by comparing it to the state of the art. Recherche d'Informations Musicales Structure musicale Répétitions musicales Algorithmique du texte Music Information Retrieval Music structure Musical repetitions String matching
10	Etude de l'organisation du génome de poulet à travers les séquences répétées / Study of the organization of the chicken genome through repeated sequences Guizard, Sébastien 01 July 2016 (has links) Les génomes des espèces aviaires ont des caractéristiques particulières comme la structure des chromosomes et le contenu en séquences répétées. En effet, alors que dans les génomes vertébrés, la proportion de répétitions dans le génome varie de 30 à 55 %, dans les espèces aviaires, cette proportion est plus faible et varie de 8 à 10 %. L’annotation du contenu répété est le plus souvent réalisée avec le programme RepeatMasker qui s’appuie généralement sur la banque de séquences répétées Repbase. Ce genre de méthode repose uniquement sur la séquence des éléments transposables connus. De fait, ce programme n’est pas en mesure de détecter de nouvelles séquences répétées, et la qualité de l’annotation sera donc dépendante de la banque de séquences d’éléments transposables utilisée. De plus en plus d’études montrent que les éléments transposables jouent un rôle dans le fonctionnement du génome et peuvent influer sur l’expression des gènes. Il est donc primordial que l’annotation de ces séquences soit la plus complète possible. Au cours de ma thèse a été mise en place une stratégie d’annotation des séquences répétées que nous avons élaborée et appliquée à un génome de grande taille, celui de la poule rouge de jungle. L’annotation ainsi obtenue m’a permis d’étudier l’organisation du génome de cette espèce au travers de ses séquences répétées et éléments transposables. / The genomes of avian species have special features such as the structure of chromosomes or their content in repeated sequences. Indeed, compared to vertebrate genomes in which the amount of repetitions varies from 30 to 55%, it is lower in avian species and varies from 8 to 10%. The annotation of repeated content is most often done with the RepeatMasker program that is generally use the Repbase database of repeated sequences. This kind of approach is based solely on the sequence of already known transposable elements. In fact, this program is not able to detect new repeats and in consequence produced annotations with a quality that depends on the sequences of transposable elements used. More and more studies show that transposable elements play a role in the functioning of the genome and can influence gene expression. It is therefore essential that the annotation of these sequences is as complete as possible. There are many programs using methods for detecting de novo transposable elements, either by searching for characteristic structures, or by comparing the genome against itself. However, no standard strategy of annotation for repeated sequences have been defined yet. My thesis aims to set-up a standard strategy of annotation for repeated sequences that was applied to a large genome, that of the red jungle fowl. The obtained annotation allowed me studying the genome organization in this species through its repeated sequences and transposable elements. Poulet ADN satellite Éléments transposables Bio-informatique Benchmarking Répétitions Chicken Satellite DNA Transposable elements Bioinformatics Benchmarking Repeat

Search results