Spelling suggestions: "subject:"́bioinformatics"" "subject:"́bioinformatic""
111 |
A priori structurés pour l'apprentissage supervisé en biologie computationnelleJacob, Laurent 25 November 2009 (has links) (PDF)
Les méthodes d'apprentissage supervisé sont utilisées pour construire des fonctions prédisant efficacement le comportement de nouvelles entités à partir de données observées. Elles sont de ce fait très utiles en biologie computationnelle, où elles permettent d'exploiter la quantité grandissante de données expérimentales disponible. Dans certains cas cependant, la quantité de données disponible n'est pas suffisante par rapport à la complexité du problème d'apprentissage. Heureusement ce type de problème mal posé n'est pas nouveau en statistiques. Une approche classique est d'utiliser des méthodes de régularisation ou de manière équivalente d'introduire un a priori sur la forme que la fonction devrait avoir. Dans cette thèse, nous proposons de nouvelles fonctions de régularisation basées sur la connaissance biologique de certains problèmes. Dans le contexte de la conception de vaccins ou de médicaments, nous montrons comment l'utilisation du fait que les cibles similaires lient des ligands similaires permet d'améliorer sensiblement les prédictions pour les cibles ayant peu ou n'ayant pas de ligands connus. Nous proposons également une fonction prenant en compte le fait que seuls certains groupes inconnus de cibles partagent leur comportement de liaison. Finalement, dans le cadre de la prédiction de métastase de tumeurs à partir de données d'expression, nous construisons une fonction de régularisation favorisant les estimateurs parcimonieux dont le support est une union de groupes de gènes potentiellement chevauchants définis a priori, ou un ensemble de gènes ayant tendance à être connectés sur un graphe défini a priori.
|
112 |
Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux 2008Lorec, Julien 02 October 2008 (has links) (PDF)
La cartographie des réseaux de régulation de la transcription des gènes et des mécanismes moléculaires impliqués sont des problématiques importantes pour les biologistes. Les ressources bibliographiques de biologie moléculaire sont une mine prodigieuse d informations expérimentales qui couvrent l'état de l'art actuel dans le domaine de l expression de gènes. Cependant en raison de la taille gigantesque que représentent les données textuelles du domaine, des méthodes automatisées doivent être mises au point afin d explorer ces données de manière systématique. Dans cette thèse, nous proposons un ensemble de méthodes pour fouiller la littérature de biologie moléculaire et extraire les faits pertinents en relation avec l'expression de gènes humains. Nous présentons tout d'abord une procédure générique destinée à l extraction d'entités nommées candidates à partir des textes. Celle-ci combine une approche d identification à base de règles de groupes nominaux en tant qu entités nommées candidates avec une étape de mise en correspondance au sein de dictionnaires expertisés et élaborés à partir de ressources terminologiques publiques. Des techniques de désambiguïsation spécifiques au domaine sont aussi présentées afin de déterminer la nature réelle de l entité nommée identifiée. Nous détaillons ensuite une méthode qui permet à la fois d extraire les relations pertinentes établies entre les entités nommées et de retrouver certaines caractéristiques de ces associations grâce à une analyse syntaxique dite profonde et l utilisation de structures prédicat-arguments. Nous montrons que l'acquisition de la sémantique à partir de la syntaxe peut être séparée en deux phases distinctes afin de réduire le coût associé à la conception manuelle de règles d'extraction spécifiques au domaine. Finalement, les performances du système sont évaluées à l'aide d'un corpus annoté de pubIications complètes de biologie moléculaire. Les résultats sont prometteurs et malgré la nature hétérogène des données extraites, le système présente des performances à la fois homogènes et compatibles avec la montée en charge.
|
113 |
Modèles d'intégration de la connaissance pour la fouille des données d'expression des gènesMartinez, Ricardo 02 July 2007 (has links) (PDF)
Dans cette thèse, nous présentons une structure qui comprend tous les méthodes développées pour interpréter des résultats d'expression des gènes en incorporant des annotations sur les gènes. Puis, nous abordons la question de la découverte de « clusters » (algorithmes non-supervisées) parmi des profils d'expression de gène, et nous proposons deux approches spécifiques à ce sujet : CGGA (Co-expressed Gene Groups Analysis) and GENMINER (Gene-integrated analysis using association rules mining). CGGA est une méthode de l'approche a priori qu'intègre l'information issue des données des biopuces, i.e. les profils d'expression des gènes, avec les annotations fonctionnelles des gènes issues des différentes sources d'information génomique tel que Gène Ontologie. GENMINER est une méthode de co-clustering basé dans l'extraction de règles d'association qu'intègre l'information des profils d'expression des gènes (discrétisées) a partir de différentes sources d'information biologique sur les gènes (en incluant la totalité de l'information minimale contenue dans la biopuce). A la fin nous ciblons la question de la découverte de classes par des méthodes supervisés, a ce sujet nous proposons GENETREE (GENE-integrated analysis for biological sample prediction using decision TREEs). GENETREE est une méthode de co-clustering basé dans les arbres de décision qui permet d'intégrer les profils d'expression des gènes et l'information contenue dans les sources d'information biologique relative aux voies métaboliques (en tenant en compte la variable temporelle du processus biologique. Les expérimentations menées avec les trois méthodes ont permis de mettre en évidence les principaux groupes de gènes fonctionnellement riches et co-exprimés dans les différents jeux de données d'expression des gènes qui ont été analysées.
|
114 |
Analyse de données transcriptome et protéome pour l'étude des réponses aux stress oxydants et aux métaux lourdsMichaut, Magali 28 November 2008 (has links) (PDF)
Ce travail a pour objet l'analyse de données transcriptome et protéome pour l'étude des réponses aux stress oxydants et aux métaux lourds, en particulier chez la cyanobactérie Synechocystis. Cet organisme procaryote permet notamment d'aider à la compréhension des plantes tout en étant facilement manipulable génétiquement. La démarche a d'abord consisté à analyser les réponses transcriptionnelles des gènes de Synechocystis en conditions de stress, notamment en présence de cadmium ou de peroxyde d'hydrogène. Des méthodes de prédiction d'interactions protéine-protéine ont ensuite été développées afin de construire un réseau d'interactions. Ce dernier a été comparé à un réseau d'interactions identifiées expérimentalement, notamment en termes de structure. Puis il a été complété avec les données de transcriptome précédemment analysées, afin d'obtenir une vision plus intégrée des différents phénomènes et d'étudier la dynamique des modules fonctionnels. Les résultats font apparaître différentes phases dans les réponses transcriptionnelles, ainsi que des groupes fonctionnels de protéines en interaction et co-exprimées. De plus, l'automatisation d'une méthode de classification mixte hiérarchique-pyramidale est proposée. Une méthode d'identification de biais de composition entre des groupes de protéines a aussi été développée. Par ailleurs, un outil de prédiction d'interactions protéine-protéine, applicable à toutes les espèces séquencées, a été développé. Ce logiciel open-source, InteroPorc, présente l'avantage d'être flexible, puisqu'il peut s'appliquer à différents jeux d'interactions sources. En outre, l'outil est facilement utilisable en ligne à travers une interface web.
|
115 |
An efficient algorithm for an optimal modular compression. Application to the analysis of genetic sequences. /Un algorithme rapide pour une compression modulaire optimale. Application à l'analyse de séquences génétiques.Delgrange, Olivier 05 June 1997 (has links)
Abstract :
A lossless compression algorithm often applies the same coding scheme on the whole sequence to be compressed. Therefore, some factors of the sequence are shortened while others are lengthened.
In this work, we propose an optimization algorithm of compression methods which breaks off the coding where it is not profitable, so that some segments of the initial sequence are copied as they are instead of being coded. The achieved compression is said modular, meaning that the compressed sequence is a sequel of compressed segments and copied segments. Under specific hypotheses, our algorithm computes an optimal modular compression in time O(n log n) where n is the length of the sequence. We show that our optimization method can be advantageously used to analyze data, and particularly genetic sequences. The Kolmogorov complexity theory brings to light the usefulness of compression when analyzing sequences.
The work consists of three parts. The first one introduces the classical concepts of compression and coding, as well as the new concept of ICL codes for the integers. The second one presents the compression optimization algorithm by liftings that uses ICL codes. Finally, the third part presents applications of the compression optimization by liftings, especially in the context of genetic sequence analysis. With the specific problem of the localization of approximate tandem repeats, we show how the compression optimization algorithm by liftings can be used to localize regular segments and irregular segments of a sequence in a precise and optimal way. This comeback to experimentation makes it possible to analyze sequences that contain several thousands of symbols within the space of a few seconds.
/Résumé :
Une méthode de compression sans perte d'informations applique souvent le même schéma de codage d'un bout à l'autre de la séquence à comprimer. Certains facteurs de la séquence sont ainsi raccourcis mais malheureusement d'autres sont rallongés.
Dans ce travail, nous proposons un algorithme d'optimisation de compression qui rompt le codage là ou il n'est pas intéressant en recopiant des morceaux de la séquence initiale. La compression obtenue est dite modulaire : la séquence comprimée est une succession de morceaux comprimés et de morceaux recopiés tels quels. Sous certaines hypothèses, notre algorithme fournit une compression modulaire optimale en temps O(n log n) où n est la longueur de la séquence. Nous montrons que notre méthode de compression peut avantageusement être utilisée pour analyser des données et plus particulièrement des séquences génétiques. La théorie de la complexité de Kolmogorov éclaire l'idée d'analyse de séquences par compression.
Le travail comporte trois parties. La première introduit les concepts classiques de compression et de codage, ainsi que le concept nouveau de codage ICL d'entiers. La seconde développe l'algorithme d'optimisation de compression par liftings qui utilise les codes ICL. La dernière partie présente des applications de l'optimisation de compression par liftings, plus particulièrement dans le domaine de l'analyse de séquences génétiques. Nous montrons, à l'aide du problème spécifique de localisation de répétitions en tandem approximatives, comment l'algorithme d'optimisation par liftings peut être utilisé pour localiser précisément et de manière optimale les segments réguliers et les segments non réguliers des séquences. Il s'agit d'un retour à l'expérience qui permet l'analyse de séquences de plusieurs centaines de milliers de bases en quelques secondes.
|
116 |
Évolution du génome des spartines polyploïdes envahissant les marais salés : apport des nouvelles techniques de séquençage haut-débitFerreira de Carvalho, Julie 19 February 2013 (has links) (PDF)
Les Spartines jouent un rôle écologique majeur sur les marais salés. Elles représentent un excellent modèle pour appréhender les conséquences écologiques de la spéciation par hybridation et polyploïdie dans le contexte d'invasion biologique. On s'intéresse plus particulièrement, à l'hybridation récente entre une espèce hexaploïde d'origine américaine Spartina alterniflora et une espèce hexaploïde européenne S. maritima ayant donnés deux hybrides F1 (S. x townsendii et S. x neyrautii) et la nouvelle espèce envahissante allododécaploïde (S. anglica). Les nouvelles technologies de séquençage haut-débit facilitent l'exploration de ces génomes peu connus. L'assemblage et l'annotation d'un transcriptome de référence ont permis d'annoter 16 753 gènes chez les spartines hexaploïdes et d'identifier des gènes d'intérêts écologique et évolutif. Une sélection de ces gènes a ensuite été analysée à travers une étude d'expression par PCR quantitative sur les populations naturelles des 5 espèces du complexe. Les résultats ont permis de mettre en évidence une expression homogène intra-populations mais une grande variabilité entre les espèces. L'analyse du génome des Spartines a ciblé prioritairement le développement de ressources génomiques concernant l'espèce S. maritima pour l'analyse des compartiments codant et répété à l'aide de séquençage d'une banque BAC et d'un run de pyroséquençage d'ADN génomique. Les analyses ont permis d'évaluer une proportion d'éléments répétés représentant près de 30% du génome. Les données générées ont alors été comparées avec les génomes séquencés phylogénétiquement proches et ont permis de premières comparaisons entre les spartines et les autres Poaceae.
|
117 |
Adressing scaling challenges in comparative genomicsGolenetskaya, Natalia 09 September 2013 (has links) (PDF)
La génomique comparée est essentiellement une forme de fouille de données dans des grandes collections de relations n-aires. La croissance du nombre de génomes sequencés créé un stress sur la génomique comparée qui croit, au pire géométriquement, avec la croissance en données de séquence. Aujourd'hui même des laboratoires de taille modeste obtient, de façon routine, plusieurs génomes à la fois - et comme des grands consortia attend de pouvoir réaliser des analyses tout-contre-tout dans le cadre de ses stratégies multi-génomes. Afin d'adresser les besoins à tous niveaux il est nécessaire de repenser les cadres algorithmiques et les technologies de stockage de données utilisés pour la génomique comparée. Pour répondre à ces défis de mise à l'échelle, dans cette thèse nous développons des méthodes originales basées sur les technologies NoSQL et MapReduce. À partir d'une caractérisation des sorts de données utilisés en génomique comparée et d'une étude des utilisations typiques, nous définissons un formalisme pour le Big Data en génomique, l'implémentons dans la plateforme NoSQL Cassandra, et évaluons sa performance. Ensuite, à partir de deux analyses globales très différentes en génomique comparée, nous définissons deux stratégies pour adapter ces applications au paradigme MapReduce et dérivons de nouveaux algorithmes. Pour le premier, l'identification d'événements de fusion et de fission de gènes au sein d'une phylogénie, nous reformulons le problème sous forme d'un parcours en parallèle borné qui évite la latence d'algorithmes de graphe. Pour le second, le clustering consensus utilisé pour identifier des familles de protéines, nous définissons une procédure d'échantillonnage itérative qui converge rapidement vers le résultat global voulu. Pour chacun de ces deux algorithmes, nous l'implémentons dans la plateforme MapReduce Hadoop, et évaluons leurs performances. Cette performance est compétitive et passe à l'échelle beaucoup mieux que les algorithmes existants, mais exige un effort particulier (et futur) pour inventer les algorithmes spécifiques.
|
118 |
SVM Multiclasses, Théorie et ApplicationsGuermeur, Yann 28 November 2007 (has links) (PDF)
Les machines à vecteurs support (SVM) sont des modèles de l'apprentissage automatique qui font actuellement l'objet de nombreux travaux de recherche, ceci pour deux raisons principales : d'une part, <br />leurs performances constituent l'état de l'art dans de multiples domaines<br />de la reconnaissance des formes, d'autre part, elles possèdent des propriétés statistiques remarquables. Le premier modèle de SVM proposé par Vapnik et ses co-auteurs calcule des dichotomies. Il peut être utilisé pour effectuer des tâches de discrimination à catégories multiples, dans le cadre de l'application de méthodes de décomposition. Des SVM multi-classes ont également été proposées dans la littérature, parmi lesquelles nous distinguons celles qui s'appuient sur un modèle affine multivarié, que nous nommons M-SVM. Ce mémoire se présente comme une étude synthétique de la discrimination à catégories multiples au moyen de SVM. Il se concentre plus particulièrement sur l'analyse des M-SVM.<br /><br />Le chapitre deux est consacré à la description des SVM multi-classes,<br />à leur mise en oeuvre et à l'analyse de leurs performances. Nous présentons successivement le cadre théorique de leur étude, les différents modèles, une étude théorique de leurs performances en généralisation, leur programmation ainsi que les différentes méthodes de sélection de modèle qui leur sont dédiées. Le chapitre trois décrit une application de la M-SVM de Weston et Watkins en biologie structurale prédictive. Le problème traité est la prédiction de la structure secondaire des protéines globulaires.
|
119 |
De la mutation structurale aux phénotypes des pathologies animales vers une approche intégrative des mutations et de leurs conséquences /Friedrich, Anne Poch, Olivier. January 2007 (has links) (PDF)
Thèse de doctorat : Bioinformatique : Strasbourg 1 : 2007. / Titre provenant de l'écran-titre. Bibliogr. p. 269-280.
|
120 |
Algorithmes pour l'analyse de régions régulatrices dans le génome d'eucaryotes supérieursDefrance, Matthieu Touzet, Hélène January 2007 (has links)
Reproduction de : Thèse de doctorat : Informatique : Lille 1 : 2006. / N° d'ordre (Lille 1) : 3906. Résumé en français et en anglais. Titre provenant de la page de titre du document numérisé. Bibliogr. p. 91-96.
|
Page generated in 0.4211 seconds