Global ETD Search

91	Restricted Boltzmann machines : from compositional representations to protein sequence analysis / Machines de Boltzmann restreintes : des représentations compositionnelles à l'analyse des séquences de protéines Tubiana, Jérôme 29 November 2018 (has links) Les Machines de Boltzmann restreintes (RBM) sont des modèles graphiques capables d’apprendre simultanément une distribution de probabilité et une représentation des données. Malgré leur architecture relativement simple, les RBM peuvent reproduire très fidèlement des données complexes telles que la base de données de chiffres écrits à la main MNIST. Il a par ailleurs été montré empiriquement qu’elles peuvent produire des représentations compositionnelles des données, i.e. qui décomposent les configurations en leurs différentes parties constitutives. Cependant, toutes les variantes de ce modèle ne sont pas aussi performantes les unes que les autres, et il n’y a pas d’explication théorique justifiant ces observations empiriques. Dans la première partie de ma thèse, nous avons cherché à comprendre comment un modèle si simple peut produire des distributions de probabilité si complexes. Pour cela, nous avons analysé un modèle simplifié de RBM à poids aléatoires à l’aide de la méthode des répliques. Nous avons pu caractériser théoriquement un régime compositionnel pour les RBM, et montré sous quelles conditions (statistique des poids, choix de la fonction de transfert) ce régime peut ou ne peut pas émerger. Les prédictions qualitatives et quantitatives de cette analyse théorique sont en accord avec les observations réalisées sur des RBM entraînées sur des données réelles. Nous avons ensuite appliqué les RBM à l’analyse et à la conception de séquences de protéines. De part leur grande taille, il est en effet très difficile de simuler physiquement les protéines, et donc de prédire leur structure et leur fonction. Il est cependant possible d’obtenir des informations sur la structure d’une protéine en étudiant la façon dont sa séquence varie selon les organismes. Par exemple, deux sites présentant des corrélations de mutations importantes sont souvent physiquement proches sur la structure. A l’aide de modèles graphiques tels que les Machine de Boltzmann, on peut exploiter ces signaux pour prédire la proximité spatiale des acides-aminés d’une séquence. Dans le même esprit, nous avons montré sur plusieurs familles de protéines que les RBM peuvent aller au-delà de la structure, et extraire des motifs étendus d’acides aminés en coévolution qui reflètent les contraintes phylogénétiques, structurelles et fonctionnelles des protéines. De plus, on peut utiliser les RBM pour concevoir de nouvelles séquences avec des propriétés fonctionnelles putatives par recombinaison de ces motifs. Enfin, nous avons développé de nouveaux algorithmes d’entraînement et des nouvelles formes paramétriques qui améliorent significativement la performance générative des RBM. Ces améliorations les rendent compétitives avec l’état de l’art des modèles génératifs tels que les réseaux génératifs adversariaux ou les auto-encodeurs variationnels pour des données de taille intermédiaires. / Restricted Boltzmann machines (RBM) are graphical models that learn jointly a probability distribution and a representation of data. Despite their simple architecture, they can learn very well complex data distributions such the handwritten digits data base MNIST. Moreover, they are empirically known to learn compositional representations of data, i.e. representations that effectively decompose configurations into their constitutive parts. However, not all variants of RBM perform equally well, and little theoretical arguments exist for these empirical observations. In the first part of this thesis, we ask how come such a simple model can learn such complex probability distributions and representations. By analyzing an ensemble of RBM with random weights using the replica method, we have characterised a compositional regime for RBM, and shown under which conditions (statistics of weights, choice of transfer function) it can and cannot arise. Both qualitative and quantitative predictions obtained with our theoretical analysis are in agreement with observations from RBM trained on real data. In a second part, we present an application of RBM to protein sequence analysis and design. Owe to their large size, it is very difficult to run physical simulations of proteins, and to predict their structure and function. It is however possible to infer information about a protein structure from the way its sequence varies across organisms. For instance, Boltzmann Machines can leverage correlations of mutations to predict spatial proximity of the sequence amino-acids. Here, we have shown on several synthetic and real protein families that provided a compositional regime is enforced, RBM can go beyond structure and extract extended motifs of coevolving amino-acids that reflect phylogenic, structural and functional constraints within proteins. Moreover, RBM can be used to design new protein sequences with putative functional properties by recombining these motifs at will. Lastly, we have designed new training algorithms and model parametrizations that significantly improve RBM generative performance, to the point where it can compete with state-of-the-art generative models such as Generative Adversarial Networks or Variational Autoencoders on medium-scale data. Physique statistique Apprentissage automatique Analyse des séquences de protéines Systèmes désordonnés Modèles génératifs Coévolution Statistical physics Machine learning Protein sequence analysis Disordered systems Generative models Coevolution 530
92	Synthèse orthogonale de poly(triazole amide)s contenant des séquences codées synthétiques ou naturelles / Orthogonal synthesis of poly(triazole amide)s containing synthetic or natural encoded sequences Fiers, Guillaume 19 September 2018 (has links) Les poly(triazole amide)s sont une classe de polymères à séquences définies synthétisés par une approche « AB+CD » itérative, chimiosélective et supportée. Cette stratégie permet de contrôler parfaitement la séquence des monomères, puisque les unités constitutives sont ajoutées une à une. De plus, la chimiosélectivité des réactions de couplage permet de s’affranchir d’étapes de déprotection. En outre, l’utilisation d’un support solide minimise également le temps d’expérimentation et facilite les étapes de lavage, réduisant donc le temps total de synthèse. Cette voie de synthèse a été utilisée pour la préparation de différents types de polymères fonctionnels. Premièrement, plusieurs oligomères comme des structures composées de chaînes alkyles ou PEG ont été préparées, contenant des séquences de monomères non naturels qui forment un code binaire. Ces produits ont été analysés grâce à deux techniques de séquençage : la spectrométrie de masse en tandem et l’analyse de chaînes uniques par les nanopores. Une synthèse sans cuivre de ce type d’oligomères a également été considérée. Enfin, une nouvelle classe d’acides xénonucléiques (XNAs), les peptide triazole nucleic acids (PTzNAs), a été synthétisée et étudiée. En particulier, les propriétés d’hybridation de ces polymères contenant des séquences génétiques ont été examinées. / Poly(triazole amide)s are a class of sequence-defined polymers synthesized via a chemoselective iterative “AB+CD” approach on a solid support. This strategy allows to perfectly control the sequence of monomers, since the building blocks are added one by one. Moreover, the chemoselectivity of the coupling reactions enables to avoid the use of deprotection steps and to save time. In addition, the use of a solid support also minimizes the experiment time and facilitates the cleaning steps, thus reducing the total synthesis time. This synthesis pathway was used for the synthesis of different types of functional polymers. First of all, several oligomers such as structures based on alkyl or PEG chains were prepared, containing sequences of non-natural monomers that form a binary code. Those products were analyzed with two sequencing techniques: tandem mass spectrometry and nanopore single-chain analysis. A copper-free synthesis of this type of oligomers was also considered. Then, a new class of xeno nucleic acids (XNAs), peptide triazole nucleic acids (PTzNAs) was synthesized and studied. In particular, the hybridization properties of those natural sequence-containing polymers were investigated. Polymères à séquences définies Synthèse itérative Polymères numériques synthétiques Analyse par les nanopores Acides xénonucléiques Sequence-defined polymers Iterative synthesis Synthetic digital polymers Nanopore analysis Xeno nucleic acids 547.8
93	Neural networks as cellular computing models for temporal sequence processing. / Les réseaux de neurones comme paradigme de calcul cellulaire pour le traitement de séquences temporelles Khouzam, Bassem 13 February 2014 (has links) La thèse propose une approche de l'apprentissage temporel par des mécanismes d'auto-organisation à grain fin. Le manuscrit situe dans un premier temps le travail dans la perspective de contribuer à promouvoir une informatique cellulaire. Il s'agit d'une informatique où les calculs se répartissent en un grand nombre de calculs élémentaires, exécutés en parallèle, échangeant de l'information entre eux. Le caractère cellulaire tient à ce qu'en plus d’être à grain fin, une telle architecture assure que les connexions entre calculateurs respectent une topologie spatiale, en accord avec les contraintes des évolutions technologiques futures des matériels. Dans le manuscrit, la plupart des architectures informatiques distribuées sont examinées suivant cette perspective, pour conclure que peu d'entre elles relèvent strictement du paradigme cellulaire.Nous nous sommes intéressé à la capacité d'apprentissage de ces architectures, du fait de l'importance de cette notion dans le domaine connexe des réseaux de neurones par exemple, sans oublier toutefois que les systèmes cellulaires sont par construction des systèmes complexes dynamiques. Cette composante dynamique incontournable a motivé notre focalisation sur l'apprentissage temporel, dont nous avons passé en revue les déclinaisons dans les domaines des réseaux de neurones supervisés et des cartes auto-organisatrices.Nous avons finalement proposé une architecture qui contribue à la promotion du calcul cellulaire en ce sens qu'elle exhibe des propriétés d'auto-organisation pour l'extraction de la représentation des états du système dynamique qui lui fournit ses entrées, même si ces dernières sont ambiguës et ne reflètent que partiellement cet état. Du fait de la présence d'un cluster pour nos simulations, nous avons pu mettre en œuvre une architecture complexe, et voir émerger des phénomènes nouveaux. Sur la base de ces résultats, nous développons une critique qui ouvre des perspectives sur la suite à donner à nos travaux. / The thesis proposes a sequence learning approach that uses the mechanism of fine grain self-organization. The manuscript initially starts by situating this effort in the perspective of contributing to the promotion of cellular computing paradigm in computer science. Computation within this paradigm is divided into a large number of elementary calculations carried out in parallel by computing cells, with information exchange between them.In addition to their fine grain nature, the cellular nature of such architectures lies in the spatial topology of the connections between cells that complies with to the constraints of the technological evolution of hardware in the future. In the manuscript, most of the distributed architecture known in computer science are examined following this perspective, to find that very few of them fall within the cellular paradigm.We are interested in the learning capacity of these architectures, because of the importance of this notion in the related domain of neural networks for example, without forgetting, however, that cellular systems are complex dynamical systems by construction.This inevitable dynamical component has motivated our focus on the learning of temporal sequences, for which we reviewed the different models in the domains of neural networks and self-organization maps.At the end, we proposed an architecture that contributes to the promotion of cellular computing in the sense that it exhibits self-organization properties employed in the extraction of a representation of a dynamical system states that provides the architecture with its entries, even if the latter are ambiguous such that they partially reflect the system state. We profited from an existing supercomputer to simulate complex architecture, that indeed exhibited a new emergent behavior. Based on these results we pursued a critical study that sets the perspective for future work. Calcul cellulaire Auto-organisation temporelle Apprentissage de séquences Champs neuronaux Réseaux de neurones Cellular computing Temporal self-organization Sequence learning Neural fields Neural networks 378.242
94	Variabilité génétique chez la bactérie radiorésistante Deinococcus radiodurans : la recombinaison entre séquences répétées et la transformation naturelle / Genetic variability in the radioresistant Deinococcus radiodurans bacterium : recombination between direct repeats and natural transformation Ithurbide, Solenne 23 September 2015 (has links) La bactérie Deinococcus radiodurans est connue pour sa capacité à résister à un grand nombre de traitements génotoxiques parmi lesquels on peut citer l’exposition aux rayons ionisants, aux ultra-violets, à la mitomycine C, à la dessication et au stress oxydant. Elle est capable lors d’une exposition à des doses extrêmes de rayons γ générant des centaines de cassures de l’ADN de reconstituer un génome intact en seulement 2 à 3 heures via un mécanisme original, l’ESDSA, impliquant une synthèse massive d’ADN pendant la phase de réparation des cassures de l’ADN. En plus de mécanismes efficaces de réparation de l’ADN, elle possède un kit de survie comprenant une compaction importante du nucléoïde, des mécanismes de protection des protéines contre l’oxydation, une réponse originale aux lésions de l’ADN et des protéines spécifiques induites après irradiation. Tous ces facteurs contribuent au maintien de l’intégrité du génome et à la survie de la cellule lors de l’exposition à différents agents génotoxiques. Souvent considéré comme un organisme ayant une stabilité génomique exceptionnelle, cette bactérie possède dans son génome un grand nombre de séquences répétées et des éléments mobiles et est par ailleurs naturellement compétente. Ce sont autant de facteurs pouvant participer à la variabilité génétique de cette espèce. Je me suis donc intéressée lors de ma thèse à deux processus pouvant participer à l’instabilité génétique chez D. radiodurans : la recombinaison entre séquences répétées et la transformation naturelle.L’introduction dans le génome de D. radiodurans de séquences répétées directes de 438 pb séparées par des régions d’ADN d’une longueur allant de 1479 pb à 10 500 pb m’a permis de mettre en évidence le rôle majeur joué par l’appariement simple brin (Single Strand Annealing ou SSA) impliquant la protéine DdrB, spécifique des Deinococcaceae, joue un rôle majeur dans la recombinaison « spontanée » entre les séquences répétées en absence de la recombinase RecA. L’absence de DdrB dans des souches déficientes pour la recombinaison augmente davantage la perte de viabilité observée dans ces souches ce qui suggère que le SSA participe à la prise en charge de fourches de réplication bloquées, source majeure d’instabilité génétique en absence de stress extérieur, si ces fourches ne peuvent être prise en charge par des voies impliquant des protéines de recombinaison. Je me suis également intéressée à la transformation naturelle et aux protéines impliquées dans ce processus chez D. radiodurans. J’ai pu démontrer que la protéine DprA impliquée dans la protection de l’ADN simple brin et le chargement de RecA sur l’ADN simple brin internalisé lors de la transformation de nombreuses espèces comme Streptococcus pneumoniae, Bacillus subtilis ou Helicobacter pylori, est également impliquée dans la transformation chez D. radiodurans. J’ai pu montrer également qu’en plus de jouer un rôle majeur dans la transformation par de l’ADN plasmidique, DdrB est impliquée dans la transformation par de l’ADN génomique si la protéine DprA est absente. / The bacterium Deinococcus radiodurans is known for its ability to withstand a large number of genotoxic treatments, including exposure to ionizing or ultraviolet radiation, mitomycin C, desiccation, and oxidative stress. It is able, upon exposure to extreme doses of γ-radiation generating hundreds of DNA breaks, to reconstitute an intact genome in only 2 to 3 hours via an ESDSA mechanism, involving massive DNA synthesis during DNA double strand break repair. Together with efficient DNA repair mechanisms, D. radiodurans possesses a survival kit comprising significant compaction of its nucleoid, protection mechanisms against protein oxidation, an original response to DNA damage and specific proteins induced after irradiation. All of these contribute to the maintenance of genomic integrity and cell survival upon exposure to various genotoxic agents. In spite of the idea that D. radiodurans is an organism with outstanding genomic stability, this bacterium has in its genome a large number of repeat sequences and mobile elements and is also naturally competent. All these factors contribute to the genetic variability of species. I was interested in two processes that can play a role in genetic variability in D. radiodurans: recombination between repeated sequences and natural transformation.The introduction, into the genome of D. radiodurans, of 438 bp direct repeated sequences separated by DNA regions ranging from 1,479 bp to 10,500 bp in length allowed me to demonstrate the major role of Single Strand Annealing (SSA) involving the DdrB protein specific for Deinococcaceae, in the "spontaneous" recombination between the repeated sequences in the absence of the RecA recombinase. The absence of DdrB in strains deficient for recombination further increased the loss of viability observed in these strains, suggesting that SSA is required for the management of blocked replication forks, a major source of genetic instability in the absence of external stress when these forks cannot be rescued by pathways involving recombination proteins.I was also interested in the natural transformation and proteins involved in this process in D. radiodurans. I demonstrated that DprA protein involved in DNA single strand protection and loading of RecA on single-stranded DNA internalized during transformation of many species such as Streptococcus pneumoniae, Helicobacter pylori, or Bacillus subtilis, is also involved in this process in D. radiodurans. I also showed that, in addition to playing a major role in transformation by plasmid DNA, DdrB is also involved in transformation by genomic DNA of cells devoid of the DprA protein. Deinococcus radiodurans Radiorésistance Variabilité génétique Recombinaison Séquences répétées Transformation naturelle Appariement simple brin Deinococcus radiodurans Radioresistance Genetic instability Recombination Direct repeats Natural transformation Single Strand Annealing
95	Développement de la polarisation dynamique nucléaire à haut champ magnétique pour la caractérisation des matériaux nanostructurés / Atomic-level characterization of nano- and micro-structured porous materials by NMR : pushing the frontiers of sensitivity Duong, Tuan Nghia 25 November 2015 (has links) La spectroscopie de RMN des solides est une méthode de choix pour la caractérisation de la structure et de la dynamique à l'échelle atomique des matériaux ordonnés et désordonnés. Cependant, l'utilisation de cette technique est limitée par son manque de sensibilité qui empêche l'observation de la surface des matériaux, souvent responsable de leurs propriétés chimiques. Il a été récemment montré que la Polarisation Nucléaire Dynamique (en anglais, Dynamic Nuclear Polarization, DNP) dans les conditions de rotation à l'angle magique (en anglais Magic-Angle Spinning, MAS) permet de surmonter cette limitation. Cette technique permet d'augmenter la sensibilité de la RMN de plusieurs ordres de grandeur. Elle consiste à transférer la polarisation élevée des électrons non-appariés vers les noyaux grâce une irradiation micro-onde. L'objectif de cette thèse consiste à appliquer la MAS-DNP pour sonder la structure de matériaux nanostructurés inorganiques et hybrides. Ces nouvelles informations faciliteront l'amélioration raisonnée de leurs propriétés. Deux classes de matériaux ont été étudiées : des nanoparticules (NP) de silice fonctionnalisées avec des chaînes siloxane et deux formes d'alumine. Les NP de silice fonctionnalisées permettent d'accroître la durée de vie des piles à combustible. Grâce au gain en sensibilité offert par la DNP, il a été possible de sonder les connectivités et les proximités 29Si-29Si dans ces matériaux et ainsi d'élucider le mode de condensation des chaînes siloxane à la surface des NP de silice. La seconde classe de matériaux étudiés comprend deux formes d'alumine : l'alumine- et l'alumine mésoporeuse. La première est largement utilisée dans l'industrie comme catalyseur, support de catalyseur et adsorbant, tandis que la seconde est un matériau prometteur du fait de sa porosité contrôlée et de son accessibilité élevée. Néanmoins, la structure de ces alumines est toujours largement débattue car elles ne forment pas des monocristaux. Grâce à une meilleure compréhension des performances de la MAS-DNP, conduisant notamment à une optimisation de la préparation des échantillons, il a été possible de compenser la très faible efficacité des expériences 27Al sélectives de la surface. La structure de la surface d'alumine a été sondée par des expériences RMN avancées à deux dimensions et une nouvelle expérience a été proposée pour l'observation sélective du cœur de l'alumine. Afin d'obtenir davantage d'informations sur les proximités 27Al-27Al, nous avons cherché à mieux comprendre les séquences de recouplage dipolaire homonucléaire pour des noyaux 27Al. Pour ce faire, la dynamique de spin au cours de ces séquences a été analysée par la théorie de l'hamiltonien moyen et des simulations numériques. En résumé, au cours de cette thèse, nous avons montré comment la MAS-DNP ouvre de nouvelles perspectives pour l'étude des matériaux nanostructurés. / Solid-state NMR spectroscopy is a powerful analytical technique to characterize the atomic-level structure and dynamics of both ordered and disordered materials. However, its main limitation is the lack of sensitivity, particularly preventing studies on the surface of materials, an important region determining their chemical properties. It has been recently shown that Magic Angle Spinning Dynamic Nuclear Polarization (MAS-DNP) could overcome this difficulty. This technique can provide an enhancement of NMR sensitivity of many orders of magnitude. It is based on the partial microwave-driven transfer of the large intrinsic polarization of electron spins to nuclear spins, making impractical NMR experiments feasible. The aim of this work is to use this MAS-DNP technique to help gain new insights into the structure of inorganic and hybrid nanostructured materials. Such knowledge will facilitate the rational improvement of their properties. Two classes of materials are investigated. The first ones are siloxane-functionalized silica nanoparticles (NPs), which can be used to extend the working durability of fuel cells. Owing to the sensitivity enhancement achieved by MAS-DNP, the condensation network structure of siloxanes bound to the surface of silica NPs could be elucidated using 29Si-29Si homonuclear correlation NMR experiments. The second class of investigated systems encompasses two forms of aluminas, -alumina and mesoporous alumina. The former is widely used in industry as a catalyst, catalyst support, and adsorbent, whereas the latter is a promising material owing to its highly controlled porosity and its high surface accessibility. Nevertheless, their structures are still under heavy investigation since they do not form single crystals. Due to an improved comprehension of MAS-DNP performance, including optimized sample preparation, the obstacle of extremely low efficiency for surface-selective 27Al NMR experiments is circumvented. Sophisticated two-dimensional NMR experiments are employed to provide selective insights into structures on the surface and a new experiment is proposed to study only the bulk of these materials. For achieving further information on the spatial proximities between different 27Al sites, a thorough understanding of homonuclear dipolar recoupling pulse sequences for half-integer quadrupolar nuclei is required. In order to do this, Average Hamiltonian theory and numerical simulations are used to analyze the spin dynamics resulting from these pulse sequences, giving insights into their relative performances. Overall, it is shown that the use of MAS-DNP can be crucial for the characterization of state-of-the-art materials, highlighting the future importance of this technique. Resonance Magnetique Nucleaire Polarisation Dynamique Nucleaire Matériaux Poreux Nanoparticules Séquences de recouplage Nuclear Magnetic Resonance Dynamic Nuclear Polarisation Porous Materials Nanoparticles Recoupling sequences 540
96	Orthogonal synthesis of poly(alkoxyamine phosphodiester)s for data storage applications / Synthèse orthogonale de poly(alcoxyamine phosphodiester)s contenant des informations numériques Cavallo, Gianni 20 September 2018 (has links) Une stratégie itérative de type AB+CD a été développée afin de synthétiser des polymères à séquences définies. Cette approche, basée sur des réactions orthogonales, a permis la synthèse de poly(alcoxyamine phosphodiester)s sans utiliser de groupements protecteurs. Ces copolymères sont composés de deux sous-unités, définies arbitrairement comme bit 0 et bit 1, ce qui permet le stockage d’information à l’échelle moléculaire. Les polymères synthétisés se sont révélés faciles à séquencer, la fragmentation par MS/MS des liaisons labiles de type alcoxyamine générant des spectres prédictibles. D’autres techniques de séquençage, comme l’approche de séquençage sans fragmentation ont aussi été utilisées. En outre, la chaine principale des polymères a été modifiée afin de pouvoir utiliser un alphabet étendu, optimisation permettant d’augmenter la densité d’information tout en maintenant la simplicité du séquençage. Enfin, deux liaisons alcoxyamine de stabilités différentes ont été insérées dans la chaine principale. Ceci permet l’obtention de polymères pouvant être fragmentés à des positions définies via l’utilisation de différents stimuli. / Uniform sequence-defined polymers were synthesized using a new iterative (AB+CD) strategy involving two orthogonal reactions. This approach allowed the protecting-group free synthesis of uniform poly(alkoxyamine phosphodiester)s. These molecules, having a defined sequence of comonomers defined as bits 0 and 1, enable the data storage of binary information at the molecular level. Interestingly, poly(alkoxyamine phosphodiester)s were found to be extremely easy to sequence. Indeed, the cleavage of the labile alkoxyamine bond in MS/MS generates “easy-to-read” fragmentation patterns. The sequencing was also tested using non-conventional techniques as fragmentation-free sequencing. Furthermore, the poly(alkoxyamine phosphodiester) backbone was modified using an extended alphabet. This optimization increases the storage capacity maintaining the read-out by MS/MS easy. Finally, two alkoxyamine bonds, having different stabilities, were inserted in the poly(alkoxyamine phosphodiester) backbone to obtain sequence-defined polymers which can be fragmented in defined positions of the chain using different stimuli. Polymères à séquences définies Polymères digitaux Synthèse itérative Séquençage MS/MS Sequence-defined polymers Digital polymers Iterative synthesis MS/MS sequencing 547.7
97	Use of data analysis techniques to solve specific bioinformatics problems / Apport de techniques d'analyse de données pour résoudre des problèmes spécifiques en bio-informatique Moulin, Serge 12 December 2018 (has links) De nos jours, la quantité de données génétiques séquencées augmente de manière exponentielle sous l'impulsion d'outils de séquençage de plus en plus performants, tels que les outils de séquençage haut débit en particulier. De plus, ces données sont de plus en plus facilement accessibles grâce aux bases de données en ligne. Cette plus grande disponibilité des données ouvre de nouveaux sujets d'étude qui nécessitent de la part des statisticiens et bio-informaticiens de développer des outils adaptés. Par ailleurs, les progrès constants de la statistique, dans des domaines tels que le clustering, la réduction de dimension, ou les régressions entre autres, nécessitent d'être régulièrement adaptés au contexte de la bio-informatique. L’objectif de cette thèse est l’application de techniques avancées de statistiques à des problématiques de bio-informatique. Dans ce manuscrit, nous présentons les résultats de nos travaux concernant le clustering de séquences génétiques via Laplacian eigenmaps et modèle de mélange gaussien, l'étude de la propagation des éléments transposables dans le génome via un processus de branchement, l'analyse de données métagénomiques en écologie via des courbes ROC ou encore la régression polytomique ordonnée pénalisée par la norme l1. / Nowadays, the quantity of sequenced genetic data is increasing exponentially under the impetus of increasingly powerful sequencing tools, such as high-throughput sequencing tools in particular. In addition, these data are increasingly accessible through online databases. This greater availability of data opens up new areas of study that require statisticians and bioinformaticians to develop appropriate tools. In addition, constant statistical progress in areas such as clustering, dimensionality reduction, regressions and others needs to be regularly adapted to the context of bioinformatics. The objective of this thesis is the application of advanced statistical techniques to bioinformatics issues. In this manuscript we present the results of our works concerning the clustering of genetic sequences via Laplacian eigenmaps and Gaussian mixture model, the study of the propagation of transposable elements in the genome via a branching process, the analysis of metagenomic data in ecology via ROC curves or the ordinal polytomous regression penalized by the l1-norm. Bio-Informatique Statistique Clustering de séquences génétiques Éléments transposables Courbes ROC Régression polytomique ordonnée Bioinformatics Statistic DNA clustering Transposable elements ROC analysis Ordinal polytomous regression 005 519
98	Structures périodiques en mots morphiques et en colorations de graphes circulants infinis / Periodic structures in morphic words and in colorings of infinite circulant graphs / ПЕРИОДИЧЕСКИЕ СТРУКТУРЫ В МОРФИЧЕСКИХ СЛОВАХ И РАСКРАСКАХ БЕСКОНЕЧНЫХ ЦИРКУЛЯНТНЫХ ГРАФОВ Parshina, Olga 29 May 2019 (has links) Cette thèse est composée de deux parties : l’une traite des propriétés combinatoires de mots infinis et l’autre des problèmes de colorations des graphes.La première partie du manuscrit concerne les structures régulières dans les mots apériodiques infinis, à savoir les sous-séquences arithmétiques et les premiers retours complets.Nous étudions la fonction qui donne la longueur maximale d’une sous-séquence arithmétique monochromatique (une progression arithmétique) en fonction de la différence commune d pour une famille de mots morphiques uniformes, qui inclut le mot de Thue-Morse. Nous obtenons la limite supérieure explicite du taux de croissance de la fonction et des emplacements des progressions arithmétiques de longueurs maximales et de différences d. Pour étudier des sous-séquences arithmétiques périodiques dans des mots infinis, nous définissons la notion d'indice arithmétique et obtenons des bornes supérieures et inférieures sur le taux de croissance de la fonction donnant l’indice arithmétique dans la même famille de mots.Dans la même veine, une autre question concerne l’étude de deux nouvelles fonctions de complexité de mots infinis basées sur les notions de mots ouverts et fermés. Nous dérivons des formules explicites pour les fonctions de complexité ouverte et fermée pour un mot d'Arnoux-Rauzy sur un alphabet de cardinalité finie.La seconde partie de la thèse traite des colorations parfaites (des partitions équitables) de graphes infinis de degré borné. Nous étudions les graphes de Caley de groupes additifs infinis avec un ensemble de générateurs fixé. Nous considérons le cas où l'ensemble des générateurs est composé d'entiers de l'intervalle [-n, n], et le cas où les générateurs sont des entiers impairs de [-2n-1, 2n+1], où n est un entier positif. Pour les deux familles de graphes, nous obtenons une caractérisation complète des colorations parfaites à deux couleurs / The content of the thesis is comprised of two parts: one deals with combinatorial properties of infinite words and the other with graph coloring problems.The first main part of the manuscript concerns regular structures in infinite aperiodic words, such as arithmetic subsequences and complete first returns.We study the function that outputs the maximal length of a monochromatic arithmetic subsequence (an arithmetic progression) as a function of the common difference d for a family of uniform morphic words, which includes the Thue-Morse word. We obtain the explicit upper bound on the rate of growth of the function and locations of arithmetic progressions of maximal lengths and difference d. To study periodic arithmetic subsequences in infinite words we define the notion of an arithmetic index and obtain upper and lower bounds on the rate of growth of the function of arithmetic index in the same family of words.Another topic in this direction involves the study of two new complexity functions of infinite words based on the notions of open and closed words. We derive explicit formulae for the open and closed complexity functions for an Arnoux-Rauzy word over an alphabet of finite cardinality.The second main part of the thesis deals with perfect colorings (a.k.a. equitable partitions) of infinite graphs of bounded degree. We study Caley graphs of infinite additive groups with a prescribed set of generators. We consider the case when the set of generators is composed of integers from the interval [-n,n], and the case when the generators are odd integers from [-2n-1,2n+1], where n is a positive integer. For both families of graphs, we obtain a complete characterization of perfect 2-colorings Mots morphiques Graphes circulants Coloris parfaits Partitions équitables Séquences automatiques Espaces linéaires transitifs Morphic words Circulant graphs Perfect colorings Equitable partitions Automatic sequences Transitive linear spaces 510
99	Filtrage spatiotemporel orienté de séquences d'images : application à l'estimation du mouvement des flux sanguins en imagerie ultrasonore Marion, Adrien 28 September 2009 (has links) (PDF) La connaissance du comportement des flux sanguins est une donnée clinique fondamentale. L'imagerie ultrasonore, couplée à des techniques Doppler, est souvent utilisée pour évaluer les vitesses de flux sanguins. Cependant, les techniques Doppler présentent quelques limitations notamment liées à la résolution spatiale des résultats et à la difficulté d'estimer des faibles vitesses. Dans cette thèse, nous avons proposé une approche basée sur des bancs de filtres spatiotemporels orientés pour l'estimation de champs denses de mouvement à partir de séquences d'images ultrasonores de flux. Le formalisme proposé a été présenté dans des contextes 2D puis 3D. Afin de valider notre méthode, nous avons utilisé des données simulées et expérimentales. A cet effet, nous avons proposé un cadre adapté à la simulation rapide de séquences d'images ultrasonores. Notre modèle de simulation a été validé en termes de statistiques du premier et deuxième ordre. La méthode d'estimation de mouvement proposée a été appliquée à des séquences de flux se déplaçant à faibles vitesses (~ 1mm/s) dans des vaisseaux de petites dimensions (~ 1mm). Les résultats obtenus ont montré un bon comportement global permettant de caractériser les flux étudiés. Une comparaison avec trois autres méthodes d'estimation de vitesses de flux a également permis de montrer que notre approche constituait un bon compromis en termes de précision et de complexité algorithmique. [SPI:OTHER] Engineering Sciences/Other Banc de filtres orientés estimation de mouvement estimation de vitesses filtrage spatiotemporel flux sanguins imagerie ultrasonore séquences d'images simulation de données ultrasons
100	Mécanismes moléculaires de la régulation et de la dérégulation de l'épissage alternatif de Tau et cTNT dans la Dystrophie Myotonique de Type 1 Ghanem, Dana 29 September 2009 (has links) (PDF) La Dystrophie Myotonique de type I (DM1) est une maladie génétique à transmission autosomique dominante. Elle est due à une expansion pathologique de triplets CTG au sein de la région 3'UTR du gène DMPK. Les individus atteints de DM1 souffrent d'une atteinte multi-systémique, qui se caractérise, sur le plan moléculaire, par une altération de l'épissage alternatif de plusieurs transcrits privilégiant l'expression d'isoformes foetales. L'hypothèse physiopathologique majeure de la DM1 repose sur un gain de fonction toxique des ARNm mutés conduisant à des altérations de facteurs régulateurs d'épissage des familles Mbnl et CELF. Dans le cerveau de patients atteints de DM1, un défaut d'épissage alternatif du transcrit de Tau conduit à la surexpression de l'isoforme foetale avec, notamment, une exclusion préférentielle des exons 2 et 3. Ce défaut s'accompagne d'une agrégation de la protéine, signe d'une dégénérescence neuronale. Ainsi, le premier objectif de ce travail a été de mieux connaître les mécanismes moléculaires responsables du phénotype d'épissage pathologique de Tau dans la DM1. Nous nous sommes également intéressés au transcrit de la Troponine T cardiaque (cTNT), transcrit exprimé dans le coeur et dont l'altération d'épissage avec la DM1 conduit à un profil d'épissage de type foetal. Concernant Tau, nos résultats montrent que le profil d'épissage foetal., et en particulier, l'exclusion des exons 2 et 3, est un phénotype qui peut être obtenu par différentes voies moléculaires impliquant différents éléments cis régulateurs. Dans la DM1, ce phénotype résulte d'un mécanisme bien spécifique. Pour l'exon 2, celui-ci semble impliquer un « silencer » intronique situé dans une région relativement loin en aval de l'exon. Cette même région semble également médier l'effet du facteur d'épissage ETR-3, facteur appartenant à la famille CELF et qui favorise l'exclusion des exons 2 et 3. Pour ce qui est de la régulation de l'exon 5 de cTNT, celle-ci met en cause plusieurs éléments cis régulateurs, tous localisés dans les 150 nucléotides introniques encadrant l'exon. Parmi ces éléments, on identifie un « silencer » et un « enhancer » en amont de l'exon et deux « enhancers » en aval. Nos résultats montrent qu'une région intronique en amont est indispensable à l'effet des expansions de CTG. De plus, dans cette région, nous avons identifié de nouveaux sites fonctionnels de fixation du facteur d'épissage Mbnl1 par rapport à ceux décrits dans la littérature. En conclusion, nos travaux mettent en évidence plusieurs éléments cis régulateurs d'épissage alternatif de Tau et cTNT. Pour ces transcrits, les régions introniques en jeu dans l'effet des expansions de triplets CTG le sont également dans l'effet des facteurs Mbnl ou CELF. Ces résultats confortent l'hypothèse physiopathologique des mécanismes de dérégulation de l'épissage alternatif dans la DM1. Ils montrent également la spécificité des mécanismes mis en jeu dans la pathologie, fournissant ainsi des cibles thérapeutiques épissage alternatif protéines tau troponine T cardiaque dystrophie myotonique épissage des ARN sites d'épissage d'ARN

Search results