Global ETD Search

11	Classification d'ARN codants et d'ARN non-codants Fontaine, Arnaud 31 March 2009 (has links) (PDF) Les travaux présentés dans cette thèse s'inscrivent dans le cadre de l'analyse de phénomènes biologiques par des moyens informatiques, c'est-à-dire la bio-informatique. Nous nous intéressons plus particulièrement à l'analyse de séquences nucléiques. Dans ce cadre, nos travaux se décomposent en deux parties: l'identification de séquences codantes et l'identification de séquences non-codantes partageant une structure conservée telles que des ARN non-codants. L'originalité des méthodes proposées, Protea et Carnac, réside dans le traitement d'ensembles de séquences nucléiques faiblement conservées sans avoir recours à leur alignement au préalable. Ces méthodes s'appuient sur un même schéma global d'analyse comparative pour identifier des traces laissées par les mécanismes de sélection durant l'évolution, traces globalement cohérentes entre toutes les séquences. Nous avons évalué Protea et Carnac sur des données de référence pour la communauté et obtenu plusieurs résultats significatifs. Dans le cadre de travaux collaboratifs, nous présentons également deux exemples intégrations de ces logiciels. Magnolia est un logiciel qui construit un alignement multiple de séquences nucléiques respectueux de leur fonction commune prédites par Protea et/ou Carnac. Protea et Carnac sont également intégrés dans une plate-forme d'annotation automatique par génomique comparative. [INFO] Computer Science bio-informatique algorithmique analyse séquences arn
12	Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles Gillet, Olivier 21 June 2007 (has links) (PDF) Cette thèse tisse des liens entre les domaines de l'indexation audio et de l'analyse de séquences d'images, à travers le problème de l'analyse de l'accompagnement rythmique des signaux de musique. Nous étudions d'abord le problème de la transcription de la piste de batterie d'enregistrements musicaux à partir de la modalité audio seule. Après avoir présenté des pré-traitements permettant d'accentuer cette piste, nous utilisons des techniques d'apprentissage statistique sur une large gamme d'attributs pour réaliser la transcription. Nous introduisons également des approches supervisées et non supervisées pour améliorer la reconnaissance en exploitant la régularité des motifs rythmiques. Nous incorporons ensuite à ce système de transcription l'information visuelle provenant de caméras filmant le batteur. Différentes approches sont présentées pour détecter la position des éléments de la batterie dans la scène et pour associer les régions extraites à des catégories sonores. Des descripteurs d'intensité de mouvement sont ensuite utilisés pour la détection des frappes. Les résultats démontrent la capacité d'une approche multimodale à résoudre certaines des ambiguïtés propres à la transcription audio. Nous étendons enfin nos travaux aux clips vidéos, en tentant de mesurer de quelle manière la musique peut être illustrée par des images. Après avoir présenté ou introduit de nouvelles méthodes de structuration automatique des flux audio et vidéo à différents niveaux, nous définissons des mesures de synchronie sur les structures obtenues. Ces mesures, qui s'avèrent dépendantes du type de document musical, permettent des applications de recherche de musique par l'image. Indexation audio Transcription musicale Percussions Modèles de séquences Multimodalité
13	Développement et application de méthodes bioinformatiques pour l'analyse des protéines contenant des répétitions en tandem / Development and application of bioinformatics methods for the identification and characterisation of tandem repeat in protein sequences Richard, François D. 21 October 2016 (has links) De nos jours, l’augmentation du volume des données de séquençage est bien plus forte que celle de notre capacité à analyser ces données. En lien avec ce déluge de données et le besoin urgent de nouveaux outils bioinformatiques pour les analyser, notre travail consiste à développer de nouveaux algorithmes pour mieux comprendre les relations entre séquence, structure, et fonction des protéines. Les protéines contiennent de larges portions de séquences périodiques, qui forment des motifs d’acides aminés répétés les uns à la suite des autres que l’on appelle des répétitions en tandem. Elles se retrouvent dans 14% des protéines. De nombreuses études ont montré leur importance fonctionnelle ainsi que leur implication dans de nombreuses maladies humaines, notamment le cancer. Ici, nous montrons l’importance d’adopter une approche incluant plusieurs outils de détection de répétition en tandem afin de s’assurer d’obtenir le jeu de données le plus complet. Nous avons ainsi réalisé un pipeline approprié, et développé deux outils spécifiques : un filtre, pour gagner en rapidité, et un score, pour sélectionner les répétitions les plus pertinentes dans les régions structurées des protéines. Enfin, nous avons utilisé ce pipeline sur une sélection de 94 protéomes. Cette analyse a permis de mettre à jour le précédent recensement des répétitions, montrant que 64% des protéines contenaient des répétitions en tandem. Elle a également permis de mieux comprendre les répétions en tandem dans leurs caractéristiques, leurs compositions et leurs implications dans les maladies humaines. / Today, the growth of protein sequencing data significantly exceeds the growth of capacities to analyze these data. In line with this data deluge and urgent needs in new bioinformatics tools our work deals with the development of new algorithms to better understand the sequence-structure-function relationship. Proteins contain a large portion of periodic sequences representing arrays of repeats that are directly adjacent to each other, so called tandem repeats (TRs). TRs occur at least in 14% of all proteins. Highly divergent, they range from a single amino acid repetition to domains of 100 or more repeated residues. Numerous studies demonstrated the fundamental functional importance of such TRs and their involvement in human diseases, especially cancers. Here we show the importance of integrating several TR detectors to get the most complete set of TRs in proteomes. We designed an appropriate pipeline and developed a filter to speed the process as well as a new scoring module to select relevant structured TRs. In addition, we undertook a large scale analysis of TRs in 94 proteomes. This large scale analysis allowed us to update previous census of TR showing that TRs occurs in 64% of all proteins and leads to a better understanding of TR in terms of their characteristics, composition and implication in human disease. Bioinformatique Répétitions en tandem Séquences Protéomes Bioinformatics Tandem repeats Sequences Proteomes
14	Implication de l'acétyltransférase TIP60 dans le maintien de l'hétérochromatine péricentromérique chez les mammifères / Implication of the TIP60 acetyltransferase in pericentrometric heterochromatin maintenance in mammals Grézy, Aude 06 October 2015 (has links) Au sein du noyau des cellules eucaryotes, la molécule d'ADN s'enroule autour de protéines histones, formant la chromatine. Ce mécanisme de compaction est dynamique selon les régions et les processus en cours, régulant l'accès à l'ADN. Pour exemple, la transcription d'un gène nécessite localement la décompaction de la chromatine, ce qui permet l'accès à la machinerie de transcription. Au contraire, La répression de ce gène sera corrélée à une forme compactée de cette portion de chromatine. Le phénomène d'acétylation des histones est associé à une décompaction. Les régions d'hétérochromatine (forme compactée considérée comme peu dynamique et peu transcrite) sont donc pauvres en acétylations d'histones. Pourtant des études chez la levure, suggèrent la présence de ces acétylations de manière fine dans l'hétérochromatine afin d'en permettre la plasticité. De récentes données chez la souris impliquent ces acétylations dans la compaction via le recrutement de protéines à doubles bromodomaine (BET). Notre vision de la fonction des acétylations d'histones est donc en train de changer. Les péricentromères sont des zones d'hétérochromatine dont la compaction correcte est nécessaire pour le bon déroulement de la ségrégation des chromosomes lors de la division cellulaire. Ici nous travaillons sur des cellules de souris SUV39H 1/2 -/-, où la voie classique de compaction des péricentromères est défectueuse. Nos données nous permettent de poser un modèle où l'acétyltransférase TIP60 est recrutée à l'hétérochromatine péricentromérique dans les cellules SUV39H 1/2 -/-, où elle maintient la compaction en acétylant H4K12, permettant le recrutement d'une protéine à double bromodomaine. Ceci constitue un nouveau cas de compaction via une acétylation d'histone et une protéine BET chez les mammifères. Cette voie alternative de compaction pourrait être utilisée par les cellules lors de déstructurations de ces régions au cours de divers processus physiologiques, ou pathologiques, comme dans le cadre des cancers. En effet, c'est la première fois qu'un rôle de TIP60 est décrit aux péricentromères, région importante pour la stabilité génétique de la cellule, ce qui est cohérent avec la fonction connue de suppresseur de tumeur de TIP60. / In eukaryote cells, DNA is wrapped around histones proteins, organizing a nucleo-proteic structure called chromatin. Chromatin can compact or decompact itself in a very dynamic manner, depending on specific regions and processes. One example is that, to be transcribed, a gene needs chromatin to be in a decompacted state, whereas transcriptional repression will correlate with compacted chromatin. Among mechanisms implicated in this dynamics, histones acetylation is largely associated with chromatin decompaction. Thus, compacted chromatin, called heterochromatin, is generally considered as hardly dynamic with hypo-acetylated histones. However, studies in yeast suggest the involvement of histone acetylation in heterochromatin in order to allow its plasticity. Moreover, recent data in mouse directly involve histone acetylation in compaction processes via double bromodomain proteins (BET) recruitment, shedding a new light on the biological function of histones acetylation. Pericentromeres are heterochromatin regions whose correct compaction is critical to allow normal chromosome segregation during cell division. Here, we used SUV39H 1/2 -/- mouse cells, in which the classical pericentromeric heterochromatin pathway is affected. Our results support a model in which the histone acetyl transferase TIP60 is recruited to pericentromeres in SUV39H 1/2 -/- cells, allowing compaction by H4K12 acetylation and BET proteins recruitment, which constitute a new example of acetylation-mediated compaction via a BET protein in mammals. This back-up compaction pathway may be used by the cell in physiological or pathological contexts with defective pericentric heterochromatin, such as some types of cancers. Indeed, this is the first time that TIP60 is implicated in pericentromeres, an important structure for genetic stability, which makes sense with the known function of TIP60 as a tumor suppressor. Chromatine Hétérochromatine Péricentromères Instabilité génétique TIP60 Séquences répétées Acétylation
15	Caractérisation de types de discours dans des situations de travail / Characterisation of discourse types in works situations Husianycia, Magali 02 December 2011 (has links) L'objectif de cette étude consiste en la caractérisation de types de discours dans des situations de travail. Nous avons tenté de définir des types de discours à partir de critères linguistiques et en considérant les cadres actionnels qui sous-tendent les discours. Dans un premier temps, nous précisons le cadre théorique et méthodologique de notre travail en nous positionnant sur le concept de « type de discours » que nous différencions de celui de « genre ». En outre, pour définir notre cadre théorique, nous avons mené une réflexion sur l'histoire de la place du langage dans les activités de travail depuis le XVIIè siècle, et nous nous sommes appuyée sur des analyses de pratiques langagières en situation de travail menées au sein de différentes disciplines. À partir de ce cadre théorique pluridisciplinaire, nous avons pu développer une méthodologie pour le recueil et la constitution de corpus et une méthodologie d'analyse fondée sur un découpage séquentiel des discours. Notre recherche a fait sept types de séquence regroupés en trois types linguistiques (langage expositif, langage de co-action et langage péri-professionnel) et correspondant à trois types de discours (langage sur le travail, langage comme travail et langage dans le travail). Chaque type de séquence est caractérisé par des critères linguistiques récurrents soumis à une analyse qualitative et quantitative. Le type de séquence dominant détermine le type linguistique majeur et donc le type de discours. Cette analyse, couplée avec une analyse du cadre actionnel des activités, nous permet de mettre en évidence l?interdépendance entre langage et activité, et nous conduit à caractériser des types de discours en lien avec le type d'activité. / The purpose of this study is to characterise the types of discourse to be found in work situations. I have tried to define discourse types on the basis of linguistic criteria, taking into account the "actional frameworks" that underpin the discourse. Firstly I have outlined the theoretical and methodological framework of my research and I have opted for the concept of "discourse types" as distinct from "genres". To further develop my theoretical framework, I have investigated the history of language in the workplace since the 17th century with the help of analyses of language practice in work situations in different disciplines. On the basis of this multidisciplinary theoretical framework, I have developed a methodology for the constitution of my corpus and for an analysis based on a sequential division of the discourse. My research has identified seven types of discourse sequences based on three linguistic types (expository language, co-actional language and peri-professional language). Each type of sequence is characterised by recurring linguistic criteria which have been subjected to qualitative and quantitative analyses. The predominant type of sequence determines the major linguistic type and therefore the discourse type. This analysis, in conjunction with an analysis of the "actional framework" of the activities, has revealed the interdependence of language and activity and led to a characterisation of discourse types in relation to types of activity. Types de discours Situation de travail Types linguistiques Types de séquences
16	Sources of contrast and acquisition methods in functional MRI of the Human Brain Denolin, Vincent 08 October 2002 (has links) <p align="justify">L'Imagerie fonctionnelle par Résonance Magnétique (IRMf) a connu un développement important depuis sa découverte au début des années 1990. Basée le plus souvent sur l'effet BOLD (Blood Oxygenation Level Dependent), cette technique permet d'obtenir de façon totalement non-invasive des cartes d'activation cérébrale, avec de meilleures résolutions spatiale et temporelle que les méthodes préexistantes telles que la tomographie par émission de positrons (TEP). Facilement praticable au moyen des imageurs par RMN disponible dans les hôpitaux, elle a mené à de nombreuses applications dans le domaine des neurosciences et de l'étude des pathologies cérébrales.</p> <p align="justify">Il est maintenant bien établi que l'effet BOLD est dû à une augmentation de l'oxygénation du sang veineux dans les régions du cerveau où se produit l'activation neuronale, impliquant une diminution de la différence de susceptibilité magnétique entre le sang et les tissus environnants (la déoxyhémoglobine étant paramagnétique et l'oxyhémoglobine diamagnétique), et par conséquent un augmentation du signal si la méthode d'acquisition est sensible aux inhomogénéités de champ magnétique. Cependant, il reste encore de nombreuses inconnues quant aux mécanismes liant les variations d'oxygénation, de flux et de volume sanguin à l'augmentation de signal observée, et la dépendance du phénomène en des paramètres tels que l'intensité du champ, la résolution spatiale, et le type de séquence de RMN utilisée. La première partie de la thèse est donc consacrée à l'étude de l'effet BOLD, dans le cas particulier des contributions dues aux veines de drainage dans les séquences de type écho de gradient rendues sensibles au mouvement par l'ajout de gradients de champ. Le modèle développé montre que, contrairement au comportement suggéré par de précédentes publications, l'effet de ces gradients n'est pas une diminution monotone de la différence de signal lorsque l'intensité des gradients augmente. D'importantes oscillations sont produites par l'effet de phase dû au déplacement des spins du sang dans les gradients additionnels, et par la variation de cette phase suite à l'augmentation du flux sanguin. La validation expérimentale du modèle est réalisée au moyen de la séquence PRESTO (Principles of Echo-Shifting combined with a Train of Observations), c'est-à-dire une séquence en écho de gradient où des gradients supplémentaires permettent d'augmenter la sensibilité aux inhomogénéités de champ, et donc à l'effet BOLD. Un accord qualitatif avec la théorie est établi en montrant que la variation de signal observée peut augmenter lorsqu'on intensifie les gradients additionnels.</p> <p align="justify">Un autre source de débat continuel dans le domaine de l'IRMf réside dans l'optimalisation des méthodes d'acquisition, au point de vue notamment de leur sensibilité à l'effet BOLD, leurs résolutions spatiale et temporelle, leur sensibilité à divers artefacts tels que la perte de signal dans les zones présentant des inhomogénéités de champ à grande échelle, et la contamination des cartes d'activation par les contributions des grosses veines, qui peuvent être distantes du lieu d'activation réel. Les séquences en écho de spin sont connues pour être moins sensibles à ces deux derniers problèmes, c'est pourquoi la deuxième partie de la thèse est consacrée à une nouvelle technique permettant de donner une pondération T2 plutôt que T2* aux images. Le principe de base de la méthode n'est pas neuf, puisqu'il s'agit de la « Préparation T2 » (T2prep), qui consiste à atténuer l'aimantation longitudinale différemment selon la valeur du temps de relaxation T2, mais il n’avait jamais été appliqué à l’IRMf. Ses avantages par rapport à d’autres méthodes hybrides T2 et T2* sont principalement le gain en résolution temporelle et en dissipation d’énergie électromagnétique dans les tissus. Le contraste généré par ces séquences est étudié au moyen de solutions stationnaires des équations de Bloch. Des prédictions sont faites quant au contraste BOLD, sur base de ces solutions stationnaires et d’une description simplifiée de l’effet BOLD en termes de variations de T2 et T2. Une méthode est proposée pour rendre le signal constant au travers du train d’impulsions en faisant varier l’angle de bascule d’une impulsion à l’autre, ce qui permet de diminuer le flou dans les images. Des expériences in vitro montrent un accord quantitatif excellent avec les prédictions théoriques quant à l’intensité des signaux mesurés, aussi bien dans le cas de l’angle constant que pour la série d’angles variables. Des expériences d’activation du cortex visuel démontrent la faisabilité de l’IRMf au moyen de séquences T2prep, et confirment les prédictions théoriques quant à la variation de signal causée par l’activation.</p> <p align="justify"> La troisième partie de la thèse constitue la suite logique des deux premières, puisqu’elle est consacrée à une extension du principe de déplacement d’écho (echo-shifting) aux séquences en écho de spin à l’état stationnaire, ce qui permet d’obtenir une pondération T2 et T2 importante tout en maintenant un temps de répétition court, et donc une bonne résolution temporelle. Une analyse théorique approfondie de la formation du signal dans de telles séquences est présentée. Elle est basée en partie sur la technique de résolution des équations de Bloch utilisée dans la deuxième partie, qui consiste à calculer l’aimantation d’état stationnaire en fonction des angles de précession dans le plan transverse, puis à intégrer sur les isochromats pour obtenir le signal résultant d’un voxel (volume element). Le problème est aussi envisagé sous l’angle des « trajectoires de cohérence », c’est-à-dire la subdivision du signal en composantes plus ou moins déphasées, par l’effet combiné des impulsions RF, des gradients appliqués et des inhomogénéités du champ magnétique principal. Cette approche permet d’interpréter l’intensité du signal dans les séquences à écho déplacé comme le résultat d’interférences destructives entre diverses composantes physiquement interprétables. Elle permet de comprendre comment la variation de la phase de l’impulsion d’excitation (RF-spoiling) élimine ces interférences. Des expériences in vitro montrent un accord quantitatif excellent avec les calculs théoriques, et la faisabilité de la méthode in vivo est établie. Il n’est pas encore possible de conclure quant à l’applicabilité de la nouvelle méthode dans le cadre de l’IRMf, mais l’approche théorique proposée a en tout cas permis de revoir en profondeur les mécanismes de formation du signal pour l’ensemble des méthodes à écho déplacé, puisque le cas de l’écho de gradient s’avère complètement similaire au cas de l’écho de spin.</p> <p align="justify">La thèse évolue donc progressivement de la modélisation de l’effet BOLD vers la conception de séquences, permettant ainsi d’aborder deux aspects fondamentaux de la physique de l’IRMf.</p> Ingénierie biomédicale Imagerie Séquences Cerveau Résonance magnétique nucléaire Séquences Résonance magnétique nucléaire Modélisation Cerveau
17	Réseaux de neurones récurrents pour la classification de séquences dans des flux audiovisuels parallèles / Recurrent neural networks for sequence classification in parallel TV streams Bouaziz, Mohamed 06 December 2017 (has links) Les flux de contenus audiovisuels peuvent être représentés sous forme de séquences d’événements (par exemple, des suites d’émissions, de scènes, etc.). Ces données séquentielles se caractérisent par des relations chronologiques pouvant exister entre les événements successifs. Dans le contexte d’une chaîne TV, la programmation des émissions suit une cohérence définie par cette même chaîne, mais peut également être influencée par les programmations des chaînes concurrentes. Dans de telles conditions,les séquences d’événements des flux parallèles pourraient ainsi fournir des connaissances supplémentaires sur les événements d’un flux considéré.La modélisation de séquences est un sujet classique qui a été largement étudié, notamment dans le domaine de l’apprentissage automatique. Les réseaux de neurones récurrents de type Long Short-Term Memory (LSTM) ont notamment fait leur preuve dans de nombreuses applications incluant le traitement de ce type de données. Néanmoins,ces approches sont conçues pour traiter uniquement une seule séquence d’entrée à la fois. Notre contribution dans le cadre de cette thèse consiste à élaborer des approches capables d’intégrer conjointement des données séquentielles provenant de plusieurs flux parallèles.Le contexte applicatif de ce travail de thèse, réalisé en collaboration avec le Laboratoire Informatique d’Avignon et l’entreprise EDD, consiste en une tâche de prédiction du genre d’une émission télévisée. Cette prédiction peut s’appuyer sur les historiques de genres des émissions précédentes de la même chaîne mais également sur les historiques appartenant à des chaînes parallèles. Nous proposons une taxonomie de genres adaptée à de tels traitements automatiques ainsi qu’un corpus de données contenant les historiques parallèles pour 4 chaînes françaises.Deux méthodes originales sont proposées dans ce manuscrit, permettant d’intégrer les séquences des flux parallèles. La première, à savoir, l’architecture des LSTM parallèles(PLSTM) consiste en une extension du modèle LSTM. Les PLSTM traitent simultanément chaque séquence dans une couche récurrente indépendante et somment les sorties de chacune de ces couches pour produire la sortie finale. Pour ce qui est de la seconde proposition, dénommée MSE-SVM, elle permet de tirer profit des avantages des méthodes LSTM et SVM. D’abord, des vecteurs de caractéristiques latentes sont générés indépendamment, pour chaque flux en entrée, en prenant en sortie l’événement à prédire dans le flux principal. Ces nouvelles représentations sont ensuite fusionnées et données en entrée à un algorithme SVM. Les approches PLSTM et MSE-SVM ont prouvé leur efficacité dans l’intégration des séquences parallèles en surpassant respectivement les modèles LSTM et SVM prenant uniquement en compte les séquences du flux principal. Les deux approches proposées parviennent bien à tirer profit des informations contenues dans les longues séquences. En revanche, elles ont des difficultés à traiter des séquences courtes.L’approche MSE-SVM atteint globalement de meilleures performances que celles obtenues par l’approche PLSTM. Cependant, le problème rencontré avec les séquences courtes est plus prononcé pour le cas de l’approche MSE-SVM. Nous proposons enfin d’étendre cette approche en permettant d’intégrer des informations supplémentaires sur les événements des séquences en entrée (par exemple, le jour de la semaine des émissions de l’historique). Cette extension, dénommée AMSE-SVM améliore remarquablement la performance pour les séquences courtes sans les baisser lorsque des séquences longues sont présentées. / In the same way as TV channels, data streams are represented as a sequence of successive events that can exhibit chronological relations (e.g. a series of programs, scenes, etc.). For a targeted channel, broadcast programming follows the rules defined by the channel itself, but can also be affected by the programming of competing ones. In such conditions, event sequences of parallel streams could provide additional knowledge about the events of a particular stream. In the sphere of machine learning, various methods that are suited for processing sequential data have been proposed. Long Short-Term Memory (LSTM) Recurrent Neural Networks have proven its worth in many applications dealing with this type of data. Nevertheless, these approaches are designed to handle only a single input sequence at a time. The main contribution of this thesis is about developing approaches that jointly process sequential data derived from multiple parallel streams. The application task of our work, carried out in collaboration with the computer science laboratory of Avignon (LIA) and the EDD company, seeks to predict the genre of a telecast. This prediction can be based on the histories of previous telecast genres in the same channel but also on those belonging to other parallel channels. We propose a telecast genre taxonomy adapted to such automatic processes as well as a dataset containing the parallel history sequences of 4 French TV channels. Two original methods are proposed in this work in order to take into account parallel stream sequences. The first one, namely the Parallel LSTM (PLSTM) architecture, is an extension of the LSTM model. PLSTM simultaneously processes each sequence in a separate recurrent layer and sums the outputs of each of these layers to produce the final output. The second approach, called MSE-SVM, takes advantage of both LSTM and Support Vector Machines (SVM) methods. Firstly, latent feature vectors are independently generated for each input stream, using the output event of the main one. These new representations are then merged and fed to an SVM algorithm. The PLSTM and MSE-SVM approaches proved their ability to integrate parallel sequences by outperforming, respectively, the LSTM and SVM models that only take into account the sequences of the main stream. The two proposed approaches take profit of the information contained in long sequences. However, they have difficulties to deal with short ones. Though MSE-SVM generally outperforms the PLSTM approach, the problem experienced with short sequences is more pronounced for MSE-SVM. Finally, we propose to extend this approach by feeding additional information related to each event in the input sequences (e.g. the weekday of a telecast). This extension, named AMSE-SVM, has a remarkably better behavior with short sequences without affecting the performance when processing long ones. Flux parallèles Classification de séquences LSTM Parallèles Parallel LSTM Multi-stream Sequence Embedding Parallel streams Sequence classification
18	Extraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données Raïssi, Chedy 15 July 2008 (has links) (PDF) Extraction de séquences fréquentes : des bases de données statiques aux flots de données Il est reconnu aujourd'hui que l'être humain est généralement noyé sous une profusion d'informations et que sa capacité d'analyse n'est plus capable de faire face au volume sans cesse croissant de données. C'est dans ce contexte qu'est né le processus d'Extraction de Connaissance dans les bases de Données. Un des buts de ce processus est de passer d'un grand volume d'informations à un petit ensemble de connaissances à fortes valeurs ajoutées pour l'analyste ou le décideur. De plus, le processus d'ECD n'est pas un processus monolithique et univoque au cours duquel il s'agirait d'appliquer un principe général à tous les types de données stockées ou récupérées. Ainsi, une des étapes de ce processus qu'est la fouille de données peut se dériver sous plusieurs formes tels que : le clustering, la classification, l'extraction d'itemset et de règles d'associations, l'extraction de structures plus complexes tels que les épisodes, les graphes ou comme dans le cadre de cette thèse l'extraction de motifs séquentiels. Malheureusement, dans un monde sans cesse en évolution, le contexte dans lequel les travaux d'ECD ont été définis ces dernières années considérait que les données, sur lesquelles la fouille était réalisée, étaient disponibles dans des bases de données statiques. Aujourd'hui, suite au développement de nouvelles technologies et applications associées, nous devons faire face à de nouveaux modèles dans lesquels les données sont disponibles sous la forme de flots. Une question se pose alors : quid des approches d'extraction de connaissances traditionnelles ? Dans ce mémoire, nous présentons un ensemble de résultat sur les motifs séquentiels dans les bases de données d'un point de vue des représentations condensées et des méthodes d'échantillonnage puis nous étendons nos différentes approches afin de prendre en compte le nouveau modèle des flots de données. Nous présentons des algorithmes permettant ainsi l'extraction de motifs séquentiels (classiques et multidimensionnels) sur les flots. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions. [INFO] Computer Science [INFO] Informatique Extraction de connaissances fouille de données motifs séquentiels séquences fréquentes base de données de séquences représentations condensées flots de données échantillonnage règles d'association
19	Investigating the Impact of Insertion Sequences on the Evolution of Prokaryotic Genomes / Etude de l’Impact des séquences d’Insertion sur l’évolution des énomes Procaryotes Al-Nayyef, Huda 15 December 2015 (has links) Le nombre de génomes bactériens et archées complètement séquencés augmentant sans cesse plus, une telle augmentation rend possible le développement de nouveaux types d’approches large échelle, afin de comprendre l’évolution de la structure des génomes au cours du temps. La prédiction du contenu en gènes et la comparaison des génomes ont évolué de telle sorte qu’il est dorénavant possible d’extraire un certain nombre de nouvelles information permettant de comprendre l’évolution des procaryotes. Des séquences importantes dans la compréhension des opérations de réarrangements au sein des génomes de au cours du temps sont les éléments transposables, qui sont des fragments d’ADN ayant la possibilité de se mouvoir d’un lieu à l’autre, et peuvent se dupliquer au cours de ces transpositions. Les éléments transposables chez les procaryotes sont les séquences d’insertion, qui suivent un processus de couper-coller à l’intérieur des séquences ADN. Cependant, les outils ayant pour but de découvrir de telles séquences d’insertions d’une manière efficace et de développer une manière algorithmique originale pour découvrir les séquences d’insertions dans des génomes bactériens, et de constituer une base de données pour découvrir les séquences d’insertion dans des génomes bactériens, et de constituer une base de données les insérant. A l’aide de ces données, nous devons déduire un modèle d’évolution de ces éléments transposables, qui doit être relié à l’évolution de la séquence hôte (le génome procaryote). En particulier, nous devons déterminer si les séquences d’insertion et les génomes hôtes ont évolué de la même manière, et si ces séquences sont responsables, au moins jusqu’à une certaine mesure, de recombinaisons génomiques telles que les inversions. / The number of completely sequenced bacterial and archaeal genomes are rising steadily, such an increasingmakes it possible to develop novel kind of large scale approaches to understand genomes structureand evolution over time. Gene content prediction and genome comparison have both provided newmajor information and deciphering keys to understand evolution of prokaryotes. Important sequencesin understanding rearrangement operations inside genome sequences during evolution are the so-calledtransposable elements (TEs), which are DNA fragments or segments that have the ability to insert themselvesinto new chromosomal locations, and often make duplicate copies of themselves during transposition process.The transposable elements involved in such a move are the insertion sequences (ISs) in prokaryotes, theyfollow a cut-and-paste process inside the host DNA sequence. But the tools that deal with discovering ISs inan efficient way and that relate them to genome rearrangements are still too few and not totally accurate.The aim of this thesis is to develop an accurate algorithmic way to discover insertion sequences (ISs) inbacterial genomes and to constitute a database with these discoveries. Using these data, we must deduce amodel of evolution of these transposable elements, which must be related to the evolution of the host sequence(the prokaryotic genome). In particular, wemust ask whether insertion sequences and host genomes haveevolved in a similar way, and if ISs are responsible, at least to some extent, for genomic recombinationlike inversions. Séquences d'insertion Réarrangements Inversions Pseudomonas aeruginosa Arbre phylogénétique Génèses debase Insertions séquences Rearrangements Inversions Pseudomonas aeruginosa Core genes Phylogenetic tree 005.1 576
20	Approche cytogénomique de l'évolution des séquences répétées : cas des satellites et des gènes ribosomiques au sein du genre Mus. / Cytogenomic approach of the evolution of repetitive sequences in the genus Mus : the case of satellite DNA and ribosomal clusters. Cazaux, Benoite 06 December 2011 (has links) L'étude comparative de l'architecture des génomes mammaliens a révélé l'association des séquences répétées et des réarrangements. Cette thèse porte sur la dynamique et le rôle dans les remaniements de deux types de séquences répétées: les clusters ribosomiques et les satellites. Ces séquences sont analysées par une approche cytogénomique (FISH, CO-FISH) dans le genre Mus connu pour sa diversité chromosomique, et pour lequel les phylogénies moléculaires et chromosomiques sont disponibles.1) La distribution chromosomique des clusters ribosomiques, établie chez 19 espèces, a permis de reconstruire les états ancestraux des clusters. Cette analyse montre que les clusters (24%) sont associés à des points de cassures, mais présentent également une grande labilité en l'absence de réarrangements. De plus, une forte association entre les clusters et les centromères est mise en évidence. 2) Le sous-genre Mus se caractérise par un caryotype très conservé excepté chez une sous-espèce de la souris domestique (M. musculus domesticus), qui est connue pour son extraordinaire radiation chromosomique impliquant les séquences satellites du centromère. Afin de rechercher les spécificités génomiques responsables de ce patron d'évolution contrasté, la dynamique évolutive des séquences satellites a été analysée chez 11 taxons. Révélant des différences qualitatives entre taxons, cette étude a permis de proposer un scénario évolutif de ces séquences. Toutefois, aucune des caractéristiques étudiées (composition, orientation) n'est propre à M. m. domesticus, et ne permet de rendre compte de sa plasticité chromosomique. De même, chez cette dernière, aucun lien entre la quantité de séquences satellites et la fréquence d'implication des chromosomes dans les réarrangements n'est mis en évidence.Cette étude confirme que les séquences répétées participent à l'évolution chromosomique, mais ne constituent pas à elles seules l'élément clef de cette dernière. / Comparative analyses of the architecture of mammalian genomes have highlighted the association between repetitive sequences and rearrangements. This thesis focuses on the evolutionary dynamics of two repeat sequences (ribosomal clusters and satellites) and explores their role in chromosomal change. These sequences are analyzed by a cytogenomic approach (FISH, CO-FISH) in the genus Mus that is known for its chromosomal diversity and for which molecular and chromosomal phylogenies are available.1) The chromosomal distribution of ribosomal clusters, established in 19 species, allowed us to reconstruct the ancestral states of clusters. This analysis demonstrated that 24% of clusters were associated with breakpoints, whereas others showed high lability in the absence of rearrangements. Moreover, a strong association between clusters and centromeres was retrieved.2) The subgenus Mus is characterized by a highly conserved karyotype except for one subspecies of the house mouse (M. musculus domesticus), that displays an extraordinary chromosomal radiation involving centromeric satellite sequences. To determine the genomic traits related to this difference in rate, the evolutionary dynamics of satellite sequences was analyzed in 11 taxa. From the qualitative differences evidenced between taxa, an evolutionary scenario of these sequences is proposed. None of the studied features (composition, orientation) of these sequences was found to be specific to M. m. domesticus, and could explain its chromosomal plasticity. Similarly, in the latter, no relationship between satellite sequence quantity and the rearrangement frequency of chromosomes was found.This study confirms that although repeated sequences are involved in chromosomal evolution, they aren't in themselves the key element of the latter. Évolution chromosique Séquences répétées Séquences satellites Clusters ribosomiques Fusion Robertsonienne Souris domestique Chromosomal evolution Repeat sequences Satellite sequences Ribosomal clusters Robertsonian fusion House mouse

Search results