Spelling suggestions: "subject:"́bioinformatics"" "subject:"́bioinformatic""
261 |
Epidémiologie moléculaire et métagénomique à haut débit sur la grilleDoan, Trung-Tung 17 December 2012 (has links) (PDF)
Résumé indisponible
|
262 |
Méthodes et outils logiciels pour la conception de sondes oligonucléotidiques pour puces à ADN. Applications aux biopuces transcriptomiques et aux biopuces de type phylogénétiqueRimour, Sébastien 06 November 2006 (has links) (PDF)
Nous abordons le problème de la conception de sondes oligonucléotidiques pour puces à ADN en proposant des solutions sur le plan informatique, mais aussi sur le plan biologique, avec la validation expérimentale de nos méthodes. Nous présentons une nouvelle approche qui combine une forte spécificité des sondes avec une bonne sensibilité. Sur le plan du Génie Logiciel, nous menons une réflexion sur la réutisabilité des composants logiciels dans le domaine des puces à ADN, qui nous amène à proposer une " Platform Independant Model" pour la conception de sondes, conformément à la démarche de développement " Model Driven Architecture" proposé par l'Object Management Group. Deux logiciels ont été développés : le premier implémente notre nouvelle approche, le second permet la détermination de sondes spécifiques de micro-organismes pour des puces ciblant l'ARNr 16S. Ce dernier a été parallélisé et déployé sur une architecture de type cluster de calcul.
|
263 |
Robustesse des réseaux d'automates booléens à seuil aux modes d'itération. Application à la modélisation des réseaux de régulation génétique.Elena, Adrien 12 May 2009 (has links) (PDF)
Dans cette thèse, nous étudions l'influence d'un changement de mode d'itération sur les attracteurs d'un réseau d'automates booléens à seuil, outil mathématique discret classiquement utilisé pour modéliser les systèmes de régulation biologiques. L'objectif est de mettre en évidence l'importance du choix du mode d'itération pour la dynamique de ces réseaux, et en particulier pour les cycles limites atteints. Nous simulons tout d'abord la dynamique d'un échantillon non biaisé de réseaux, pour des tailles comprises entre un et sept nœuds. Les résultats des simulations montrent notamment que, lorsque la taille des réseaux croît, la dynamique de ces réseaux devient de plus en plus sensible au choix du mode d'itération. Nous démontrons ensuite un résultat théorique qui permet de déterminer, pour un réseau donné, l'ensemble des modes d'itération pour lesquels on observe des cycles limites, en fonction des cycles limites observés pour le mode parallèle.
|
264 |
Comparaison de novo de données de séquençage issues de très grands échantillons métagénomiques. Application sur le projet Tara OceansMaillet, Nicolas 19 December 2013 (has links) (PDF)
La métagénomique vise à étudier le contenu génétique et génomique d'un échantillon provenant d'un environnement naturel. Cette discipline récente s'attache à étudier les génomes de différents organismes provenant d'un même milieu. La métagénomique pose de nouvelles questions, tant d'un point de vue biologique qu'informatique. Les masses de données générées par les études métagénomiques et la complexité des milieux étudiés nécessitent de développer de nouvelles structures de données et de nouveaux algorithmes dédiés. Parmi les différentes approches existantes en métagénomique, la métagénomique comparative consiste à comparer plusieurs métagénomes afin d'en connaitre les divers degrés de similarité. Lorsque cette comparaison se base uniquement sur le contenu brut des échantillons, sans faire appel à des connaissances externes, on parle de métagénomique comparative de novo. L'objectif des travaux que nous proposons est de développer une méthode permettant d'extraire les séquences similaires entre deux jeux de données métagénomiques, où chaque jeu peut être composé de centaines de millions de courtes séquences d'adn. La comparaison proposée consiste à identifier les séquences d'un premier jeu similaires à au moins une séquence d'un second jeu. Afin d'être rapide et économe en mémoire, l'implémentation de notre méthode a nécessité la conception d'une nouvelle structure d'indexation, basée sur le filtre de bloom. Le logiciel final, nommé Compareads, a une consommation mémoire faible (de l'ordre de quelques go) et peut calculer l'intersection de deux échantillons de 100 millions de séquences chacun en une dizaine d'heures. Notre méthode est une heuristique qui génère un faible taux de faux positifs. Le logiciel Compareads est dédié à l'analyse de grands jeux de données métagénomiques. À l'heure actuelle, il est le seul outil capable de comparer de tels jeux. Compareads a été appliqué sur plusieurs projets métagénomiques. Notre outil produit des résultats robustes, biologiquement exploitables et en accord avec diverses méthodes fondamentalement différentes. Il est actuellement utilisé de manière intensive sur les échantillons provenant de l'expédition tara oceans. Sur ce projet, notre méthode a permis de mettre en évidence que les grands systèmes océaniques influent sur la répartition globale des microorganismes marins.
|
265 |
L'analyse structurale de complexes protéine/ligand et ses applications en chémogénomique / Structural analysis of protein/ligand complexes and its applications in chemogenomicsDesaphy, Jérémy 09 October 2013 (has links)
Comprendre les interactions réalisées entre un candidat médicament et sa protéine cible est un enjeu crucial pour orienter la recherche de nouvelles molécules. En effet, ce processus implique de nombreux paramètres qu’il est nécessaire d’analyser séparément pour mieux comprendre leurs effets.Nous proposons ici deux nouvelles approches observant les relations protéine/ligand. La première se concentre sur la comparaison de cavités formées par les sites de liaison pouvant accueillir une molécule. Cette méthode permet d’inférer la fonction d’une protéine mais surtout de prédire « l’accessibilité » d’un site de liaison pour un médicament. La seconde tactique se focalise sur la comparaison des interactions non-covalentes réalisées entre la protéine et le ligand afin d’améliorer la sélection de molécules potentiellement actives lors de criblages virtuels, et de rechercher de nouveaux fragments moléculaires, structuralement différents mais partageant le même mode d’interaction. / Understanding the interactions between a drug and its target protein is crucial in order to guide drug discovery. Indeed, this process involves many parameters that need to be analyzed separately to better understand their effects.We propose two new approaches to observe protein/ligand relationships. The first focuses on the comparison of cavities formed by binding sites that can accommodate a small molecule. This method allows to infer the function of a protein but also to predict the accessibility of a binding site for a drug. The second method focuses on the comparison of non-covalent interactions made between the protein and the ligand to improve the selection of potentially active molecules in virtual screening, and to find new molecular fragments, structurally different but sharing the same mode of interaction.
|
266 |
Computational geometry for the determination of biomolecular structures / Géométrie computationnelle pour la détermination de structures biomoléculairesMachat, Mohamed 27 April 2017 (has links)
En bioinformatique structurale, une partie des méthodes computationnelles qui calculent les structures de protéines à l'aide de données expérimentales, effectuent une optimisation de la position des atomes sous les contraintes expérimentales mesurées sur le système étudié, ainsi que sous des contraintes provenant de la connaissance générique de la stéréochimie organique. Ces méthodes d'optimisation présentent l'inconvénient de ne pas garantir la détermination de la meilleure solution. De plus, la validation de l'optimisation se fait en comparant les résultats obtenus pour des calculs répétés, et le résultat d'un calcul est accepté dans la mesure où le même résultat est obtenu plusieurs fois. Par cette approche, on rend plus difficile la détection de conformations alternatives de protéines, qui sont pourtant le sujet d'un vif intérêt dans la littérature. En effet, le développement de la sensibilité des techniques de résonance magnétique nucléaire (RMN) a permis de mettre en évidence plusieurs cas d'échange conformationnel reliés à la fonction des protéines. Dans ce projet de thèse, nous avons étudié une nouvelle approche pour le calcul de structures des protéines et l'exploration de leurs espaces conformationnels, basée sur la résolution du problème de Géométrie de Distance associé aux contraintes de distances dans une protéine par l'algorithme "interval Branch and Prune". Le logiciel implémentant cette méthode est appelée iBPprot, il incarne l'une des premières tentatives d'échantillonnage exhaustive des espaces conformationnels des protéines. Dans un premier temps, on s'est intéressé à l'application de la méthode en utilisant exclusivement des constraintes de distances exactes. Les résultats ont démontré que iBPprot était capable de reconstruire des structures références en s'appuyant seulement sur quelques contraintes à courte portée. De plus, la reconstruction a été d'une précision telle que la conformation générée présentait un RMSD de 1 Angstrom maximum avec la structure référence. L'exploration exhaustive de l'espace conformationnel a été possible pour une bonne partie des protéines cibles. Les temps de calcul pour l'exploration des espaces conformationnels ont été très variables allant de quelques secondes pour quelques protéines jusqu'à des semaines pour d'autres. L'évaluation de la qualité des structures obtenues a démontré qu'au moins 68% des valeurs de phi et psi sont localisées dans la zone 'core' du diagramme de Ramachandran. Cependant, des clash stériques ont été détectées dans plusieurs conformations mettant en jeu jusqu'à 7% d'atomes dans quelques unes de ces conformations. Dans un deuxième temps, on s'est intéressé à l'application de la méthode en incluant des intervalles de distances comme contraintes dans les calculs. Dans ce cas de figure, la méthode a réussi a reconstruire des structures références avec un RMSD inférieur à 5 Angstrom pour plus de la moitié des protéines cibles. En contre partie, le parcours complet de l'espace conformationnel n'a été possible que pour la plus petite protéine de l'ensemble des protéines étudiées. Pour la moitié des autres protéines, plus de 70% des atomes ont vu leurs positions échantillonnées. La qualité des structures obtenues a regressé en comparaison avec les simulations faites avec des distances exactes. En effet, seulement 53% des valeurs de phi et psi étaient localisées dans la zone 'core' du diagramme de Ramachandran, et le pourcentage d'atomes impliqués dans un clash stérique s'élevait jusqu'à 22% pour quelques protéines. Concernant le temps de calcul, le taux de génération de conformations a été déterminé pour chaque protéine cible, et il s'est avéré que globalement sa valeur etait compétitive par rapport aux valeurs des taux observables dans la littérature... / Structural biology has allowed us expand our knowledge of living organisms. It is defined as the investigation of the structure and function of biological systems at the molecular level. Studying a biomolecule's structure offers insight into its geometry, as angles and distances between the biomolecule's atoms are measured in order to determine the biomolecular structure. The values of these geometrical parameters may be obtained from biophysical techniques, such as X-ray crystallography or nuclear magnetic resonance (NMR) spectroscopy. One of the most used methods to calculate protein structures from geometric restraints is simulated annealing. This method does not guarantee an exhaustive sampling of protein conformational space, which is a shortcoming as one protein may adopt multiple functional conformations, and it is important to determine them exhaustively. In this PhD project, the efficiency of a new method - derived from operations research and computational geometry - is studied in order to answer this question: How does this method explore the conformational spaces of small proteins? This method - implemented within the iBPprot software framework - treats protein structure determination as a distance geometry problem, which the interval branch-and-prune algorithm tries to solve by the full exploration of its solutions space. The results obtained by iBPprot on a set of test proteins, with sizes ranging from 24 to 120 residues and with known structures, are analyzed here. Using short-range exact distance restraints, it was possible to rebuild the structure of all protein targets, and for many of them it was possible to exhaustively explore their conformational spaces. In practice, it is not always possible to obtain exact distance restraints from experiments. Therefore, this method was then tested with interval data restraints. In these cases, iBPprot permitted the sampling of the positions of more than 70% of the atoms constituting the protein backbone for most of the targets. Furthermore, conformations whose r.m.s. deviations closer than 6 Angstrom to the target ones were obtained during the conformational space exploration. The quality of the generated structures was satisfactory with respect to Ramachandran plots, but needs improvement because of the presence of steric clashes in some conformers. The runtime for most performed calculations was competitive with existing structure determination method...
|
267 |
Développement de méthodes pour les données de cribles temporels à haut contenu et haut débit : versatilité et analyses comparatives / The versatility of high-content high-throughput time-lapse screening data : developing generic methods for data re-use and comparative analysesSchoenauer Sebag, Alice 04 December 2015 (has links)
Un crible biologique a pour objectif de tester en parallèle l'impact de nombreuses conditions expérimentales sur un processus biologique d'un organisme modèle. Le progrès technique et computationnel a rendu possible la réalisation de tels cribles à grande échelle - jusqu'à des centaines de milliers de conditions. L'imagerie sur cellules vivantes est un excellent outil pour étudier en détail les conséquences d'une perturbation chimique sur un processus biologique. L'analyse des cribles sur cellules vivantes demande toutefois la combinaison de méthodes robustes d'imagerie par ordinateur et de contrôle qualité, et d'approches statistiques efficaces pour la détection des effets significatifs. La présente thèse répond à ces défis par le développement de méthodes analytiques pour les images de cribles temporels à haut débit. Les cadres qui y sont développés sont appliqués à des données publiées, démontrant par là leur applicabilité ainsi que les bénéfices d'une ré-analyse des données de cribles à haut contenu (HCS). Le premier workflow pour l'étude de la motilité cellulaire à l'échelle d'une cellule dans de telles données constitue le chapitre 2. Le chapitre 3 applique ce workflow à des données publiées et présente une nouvelle distance pour l'inférence de cible thérapeutique à partir d'images de cribles temporels. Enfin, le chapitre 4 présente une pipeline méthodologique complète pour la conduite de cribles temporels à haut débit en toxicologie environnementale. / Biological screens test large sets of experimental conditions with respect to their specific biological effect on living systems. Technical and computational progresses have made it possible to perform such screens at a large scale - up to hundreds of thousands of experiments. Live cell imaging is an excellent tool to study in detail the consequences of chemical perturbation on a given biological process. However, the analysis of live cell screens demands the combination of robust computer vision methods, efficient statistical methods for the detection of significant effects and robust procedures for quality control. This thesis addresses these challenges by developing analytical methods for the analysis of High Throughput time-lapse microscopy screening data. The developed frameworks are applied to publicly available HCS data, demonstrating their applicability and the benefits of HCS data remining. The first multivariate workflow for the study of single cell motility in such large-scale data is detailed in Chapter 2. Chapter 3 presents this workflow application to previously published data, and the development of a new distance for drug target inference by in silico comparisons of parallel siRNA and drug screens. Finally, chapter 4 presents a complete methodological pipeline for performing HT time-lapse screens in Environmental Toxicology.
|
268 |
Intégrer les échelles moléculaires et cellulaires dans l'inférence de réseaux métaboliques : application aux xénobiotiques / Integrate molecular and cellular scales in the inference of metabolic networks : application to xenobioticsDelannée, Victorien 08 November 2017 (has links)
Prédire, modéliser et analyser le métabolisme de xénobiotiques, substances étrangères à un organisme, à l'aide de méthodes informatiques est un challenge majeur mobilisant la communauté scientifique depuis de nombreuses années. Cette thèse vise à implémenter des méthodes informatiques multi-échelles pour prédire et analyser le métabolisme des xénobiotiques. Un premier axe de cette étude portait sur la construction et l'annotation automatique de novo de graphes métaboliques combinant fortes sensibilités et précisions. Ces graphes fournissent ainsi la prédiction du métabolisme de xénobiotiques chez l'homme, ainsi que la génotoxicité des molécules et atomes qui le composent. Puis, le travail s'est orienté sur l'implémentation d'un modèle mathématique dynamique modélisant des effets de compétition enzymatique à travers le développement d'une méthodologie permettant l'exploitation de données biologiques restreintes tout en limitant les biais inhérents. / Predicting, modelling and analysing the metabolism of xenobiotics, substances foreign to an organism, using computer methods, has been a major challenge for the scientific community for many years. This thesis aims to implement multiscale computing methods for predicting and analyzing the metabolism of xenobiotics. A first focus of this study was on the construction and automatic de novo annotation of metabolic graphs combining high sensitivity and precision. These graphs thus provide the prediction of the metabolism of xenobiotics in humans, as well as the genotoxicity of the molecules and atoms that make up xenobiotics. Then, the work focused on the implementation of a dynamic mathematical model modelling enzymatic competition effects through the development of a methodology allowing the exploitation of limited biological data while limiting inherent biases.
|
269 |
Concevoir et partager des workflows d’analyse de données : application aux traitements intensifs en bioinformatique / Design and share data analysis workflows : application to bioinformatics intensive treatmentsMoreews, François 11 December 2015 (has links)
Dans le cadre d'une démarche d'Open science, nous nous intéressons aux systèmes de gestion de workflows (WfMS) scientifiques et à leurs applications pour l'analyse de données intensive en bioinformatique. Nous partons de l'hypothèse que les WfMS peuvent évoluer pour devenir des plates-formes pivots capables d'accélérer la mise au point et la diffusion de méthodes d'analyses innovantes. Elles pourraient capter et fédérer autour d'une thématique disciplinaire non seulement le public actuel des consommateurs de services mais aussi celui des producteurs de services. Pour cela, nous considérons que ces environnements doivent à la fois être adaptés aux pratiques des scientifiques concepteurs de méthodes et fournir un gain de productivité durant la conception et le traitement. Ces contraintes nous amènent à étudier la capture rapide des workflows, la simplification de l'intégration des tâches techniques, comme le parallélisme nécessaire au haut-débit, et la personnalisation du déploiement. Tout d'abord, nous avons défini un langage graphique DataFlow expressif, adapté à la capture rapide des workflows. Celui-ci est interprétable par un moteur de workflows basé sur un nouveau modèle de calcul doté de performances élevées, obtenues par l'exploitation des multiples niveaux de parallélisme. Nous présentons ensuite une approche de conception orientée modèle qui facilite la génération du parallélisme de données et la production d'implémentations adaptées à différents contextes d'exécution. Nous décrivons notamment l'intégration d'un métamodèle des composants et des plates-formes, employé pour automatiser la configuration des dépendances des workflows. Enfin, dans le cas du modèle Container as a Service (CaaS), nous avons élaboré une spécification de workflows intrinsèquement diffusable et ré-exécutable. L'adoption de ce type de modèle pourrait déboucher sur une accélération des échanges et de la mise à disposition des chaînes de traitements d'analyse de données. / As part of an Open Science initiative, we are particularly interested in the scientific Workflow Management Systems (WfMS) and their applications for intensive data analysis in bioinformatics. We start from the assumption that WfMS can evolve to become efficient hubs able to speed up the development and the dissemination of innovative analysis methods. These software platforms could rally and unite not only the current stakeholders, who are service consumers, but also the service producers, around a disciplinary theme. We therefore consider that these environments must be both adapted to the practices of the scientists who are method designers and also enhanced with increased productivity during design and treatment. These constraints lead us to study the rapid capture of workflows, the simplification of technical tasks integration, like parallelisation and the deployment customization. First, we define an expressive graphic worfklow language, adapted to the quick capture of workflows. This is interpreted by a workflow engine based on a new model of computation with high performances obtained by the use of multiple levels of parallelism. Then, we present a Model-Driven design approach that facilitates the data parallelism generation and the production of suitable implementations for different execution contexts. We describe in particular the integration of a components and platforms meta-model used to automate the configuration of workflows’ dependencies. Finally, in the case of the cloud model Container as a Service (CaaS), we develop a workflow specification intrinsically re-executable and readily disseminatable. The adoption of this kind of model could lead to an acceleration of exchanges and a better availability of data analysis workflows.
|
270 |
Fragments structuraux : comparaison, prédictibilité à partir de la séquence et application à l'identification de protéines de virus / Structural fragments : comparison, predictability from the sequence and application to the identification of viral structural proteinsGaliez, Clovis 08 December 2015 (has links)
Cette thèse propose de nouveaux outils pour la caractérisation locale de familles de protéines au niveau de la séquence et de la structure. Nous introduisons les fragments en contact (CF) comme des portions de structure conciliant localité spatiale et voisinage séquentiel. Nous montrons qu'ils bénéficient d'une meilleure prédictibilité de structure depuis la séquence que des fragments contigus ou encore que des paires de fragments qui ne seraient pas en contact en structure. Pour comparer structuralement ces CF, nous introduisons l'ASD, une nouvelle mesure de similarité ne nécessitant pas d'alignement préalable, respectant l'inégalité triangulaire tout en étant tolérante aux décalages de séquences et aux indels. Nous montrons notamment que l'ASD offre des meilleures performances que les scores classiques de comparaison de fragments sur des tâches concrètes de classification non-supervisée et de fouille structurale. Enfin, grâce à des techniques d'apprentissage automatique, nous mettrons en œuvre la détection de CF à partir de la séquence pour l'identification de protéines de virus avec l'outil VIRALpro développé au cours de cette thèse. / This thesis investigates the local characterization of protein families at both structural and sequential level. We introduce contact fragments (CF) as parts of protein structure that conciliate spatial locality together with sequential neighborhood. We show that the predictability of CF from the sequence is better than that of contiguous fragments and of structurally distant pairs of fragments. In order to structurally compare CF, we introduce ASD, a novel alignment-free dissimilarity measure that respects triangular inequality while being tolerant to sequence shifts and indels. We show that ASD outperforms classical scores for fragment comparison on practical experiments such that unsupervised classification and structural mining. Ultimately, by integrating the identification of CF from the sequence into a statistical machine learning framework, we developed VIRALpro, a tool that enables the detection of sequences of viral structural proteins.
|
Page generated in 0.0756 seconds