• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 144
  • 53
  • 9
  • 1
  • 1
  • 1
  • Tagged with
  • 208
  • 63
  • 59
  • 38
  • 38
  • 37
  • 35
  • 24
  • 22
  • 19
  • 17
  • 17
  • 17
  • 16
  • 16
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Recalage de séquences cardiaques spation-temporelles IRM et TEP/SCAN

Bâty, Xavier 13 March 2007 (has links) (PDF)
Les travaux décrits dans ce manuscrit ont pour thème général le recalage de séquences d'images multimodales : Image par Résonance Magnétique (IRM), Tomographie par Émission de Positons (TEP) et images de scanner X (CT) synchronisées à l'électrocardiogramme (ECG). Ces modalités présentent un intérêt pour l'évaluation de la fonction cardiaque permettant un diagnostic et un suivi des pathologies cardio-vasculaires. La TEP permet d'évaluer la fonction ventriculaire et l'IRM est une méthode de référence pour l'étude de la fonction ventriculaire gauche. L'intérêt de ce recalage est de pouvoir fusionner des images fonctionnelles, apportées par la TEP étudiant la viabilité myocardique et des images anatomiques plus précises apportées par l'IRM. Le recalage de ces séquences d'images, nécessite la mise en place de méthodes adaptées aux modalités mises en jeu et se décompose en deux étapes distinctes : (i) un recalage global 3D rigide, entre les données IRM et CT, fondé sur une approche modèle et (ii) un recalage local 2D utilisant l'information mutuelle et une Free Form Deformation (FFD). Concernant la première étape, nous proposons l'utilisation de modèles cardiaques 3D définis sur les données IRM et CT et recalés par ICP. Le recalage local 2D fait l'objet de deux contributions. Afin de rendre l'information mutuelle sensible aux informations des données TEP et CT, nous proposons la création d'une image composite qui permet de rendre compte des contours du myocarde (visibles sur les images TEP) et de l'enveloppe totale du coeur (visible sur les images CT). Pour optimiser notre processus dans l'étude de la séquence complète des images, nous proposons une initialisation originale aux transformations utilisées en utilisant le champ de déplacement temporel issu des données IRM. L'ensemble des résultats obtenus a été évalué par un expert
32

Chaînes de Markov régulées et approximation de Poisson pour l'analyse de séquences biologiques

Vergne, Nicolas 11 July 2008 (has links) (PDF)
L'analyse statistique des séquences biologiques telles les séquences nucléotidiques (l'ADN et l'ARN) ou d'acides aminés (les protéines) nécessite la conception de différents modèles s'adaptant chacun à un ou plusieurs cas d'étude. Etant donnée la dépendance de la succession des nucléotides dans les séquences d'ADN, les modèles généralement utilisés sont des modèles de Markov. Le problème de ces modèles est de supposer l'homogénéité des séquences. Or, les séquences biologiques ne sont pas homogènes. Un exemple bien connu est la répartition en gc : le long d'une même séquence, alternent des régions riches en gc et des régions pauvres en gc. Pour rendre compte de l'hétérogénéité des séquences, d'autres modèles sont utilisés : les modèles de Markov cachés. La séquence est divisée en plusieurs régions homogènes. Les applications sont nombreuses, telle la recherche des régions codantes. Certaines particularités biologiques ne pouvant apparaître suivant ces modèles, nous proposons de nouveaux modèles, les chaînes de Markov régulées (DMM pour drifting Markov model). Au lieu d'ajuster une matrice de transition sur une séquence entière (modèle de Markov homogène classique) ou différentes matrices de transition sur différentes régions de la séquence (modèles de Markov cachés), nous permettons à la matrice de transition de varier (to drift) du début à la fin de la séquence. A chaque position t dans la séquence, nous avons une matrice de transition Πt/n(où n est la longueur de la séquence) éventuellement différente. Nos modèles sont donc des modèles de Markov hétérogènes contraints. Dans cette thèse, nous donnerons essentiellement deux manières de contraindre les modèles : la modélisation polynomiale et la modélisation par splines. Par exemple, pour une modélisation polynomiale de degré 1 (une dérive linéaire), nous nous donnons une matrice de départ Π0 et une matrice d'arrivée Π1 puis nous passons de l'une à l'autre en fonction de la position t dans la séquence : <br />Πt/n = (1-t/n) Π0 + t/n Π1.<br />Cette modélisation correspond à une évolution douce entre deux états. Par exemple cela peut traduire la transition entre deux régimes d'un chaîne de Markov cachée, qui pourrait parfois sembler trop brutale. Ces modèles peuvent donc être vus comme une alternative mais aussi comme un outil complémentaire aux modèles de Markov cachés. Tout au long de ce travail, nous avons considéré des dérives polynomiales de tout degré ainsi que des dérives par splines polynomiales : le but de ces modèles étant de les rendre plus flexibles que ceux des polynômes. Nous avons estimé nos modèles de multiples manières puis évalué la qualité de ces estimateurs avant de les utiliser en vue d'applications telle la recherche de mots exceptionnels. Nous avons mis en oeuvre le software DRIMM (bientôt disponible à http://stat.genopole.cnrs.fr/sg/software/drimm/, dédié à l'estimation de nos modèles. Ce programme regroupe toutes les possibilités offertes par nos modèles, tels le calcul des matrices en chaque position, le calcul des lois stationnaires, des distributions de probabilité en chaque position... L'utilisation de ce programme pour la recherche des mots exceptionnels est proposée dans des programmes auxiliaires (disponibles sur demande).<br />Plusieurs perspectives à ce travail sont envisageables. Nous avons jusqu'alors décidé de faire varier la matrice seulement en fonction de la position, mais nous pourrions prendre en compte des covariables tels le degré d'hydrophobicité, le pourcentage en gc, un indicateur de la structure des protéines (hélice α, feuillets β...). Nous pourrions aussi envisager de mêler HMM et variation continue, où sur chaque région, au lieu d'ajuster un modèle de Markov, nous ajusterions un modèle de chaînes de Markov régulées.
33

DÉVELOPPEMENTS THÉORIQUES ET MÉTHODES NUMÉRIQUES POUR LES ANALYSES COMPARATIVES DE GÉNOMES ET PROTÉOMES BIAISÉS. Application à la comparaison des génomes et protéomes de Plasmodium falciparum et d'Arabidopsis thaliana

Bastien, Olivier 21 April 2006 (has links) (PDF)
Le paludisme, ou malaria, est une maladie infectieuse qui touche plus de 350 millions d'êtres humains et qui tue chaque année 2,5 millions de personnes à travers le monde. Les parasites responsables de la malaria sont des apicomplexes du genre Plasmodium, essentiellement P. falciparum. Le génome de P. falciparum, est séquencé depuis octobre 2002, et présente un des taux les plus faibles de gènes annotés, avec ~60 % de gènes sans fonction attribuée. Il est difficile, voire impossible, d'identifier dans le génome de P. falciparumi, certains gènes, responsables de fonctions mesurées biochimiquement chez le parasite, par similarité avec des séquences homologues caractérisées dans d'autres organismes. Cette difficulté rencontrée lors des recherches automatiques d'homologie est une limite à tout projet exploratoire du génome malarial fondé sur la phylogénie moléculaire. En particulier, l'inventaire des séquences héritées de l'algue ancestrale, qui a réalisé l'endosymbiose secondaire qui caractérise le phylum des Apicomplexa (sous génome d'origine algale dans lequel il est possible de rechercher des cibles pour des médicaments herbicides), peut être rendu incomplet. Les caractéristiques atypiques du génome et du protéome de Plasmodium, résumées sous le terme de biais compositionnel (en particulier un pourcentage en adénosine+thymidine supérieur à 80%), ont été soupçonnées d'être un cas limite pour les outils d'analyse de séquence existants. L'objet de cette thèse a donc été d'examiner l'influence possible de ce type de biais sur les méthodologies de comparaisons de séquences et de façon plus approfondie sur leurs statistiques.<br />Nous avons proposé des développements théoriques nouveaux, associés à la statistique de la Z-value introduite par Lipman et Pearson pour évaluer la significativité d'un score d'alignement de deux séquences protéiques: (1) le théorème TULIP permettant de déduire un majorant de la probabilité d'un score d'alignement de séquences (i.e. la P-value) par la valeur 1/Z-value2 et (2) la déduction des propriétés remarquables de la distribution des Z-values à partir de quelques hypothèses sur l'évolution des protéines dans le contexte de la théorie de la fiabilité des systèmes. Ces développements théoriques ont permis certaines avancées sur le plan pratique de l'identification de séquences homologues initialement non détectées par le théorème de Karlin-Altschul et d'étayer la relation entre les scores d'alignements et l'information mutuelle, au sens de la théorie de l'information.<br />En construisant un espace de configuration des protéines homologues, permettant une expression du théorème TULIP et ayant une cohérence avec la théorie synthétique de l'évolution, nous avons déduit une méthode de reconstruction de phylogénies de séquences protéiques à l'aide des Z-values. Les phylogénies moléculaires reconstruites par cette méthode sont concordantes avec celles obtenues à partir d'alignements multiples et permettent par ailleurs de résoudre certaines incohérences rapportées avec les méthodes de reconstruction phylogéniques classiques.<br />En prenant en compte le modèle statistique que nous avons élaboré, nous avons entrepris une première analyse de l'évolution du biais en acides aminés chez Plasmodium corrélativement à l'évolution du biais en acides nucléiques dans le génome malarial et en fonction de la divergence évolutive, établie en prenant le génome non biaisé d'Arabidopsis thaliana comme référence. Nous avons observé que le biais des séquences malariales était corrélé au pourcentage de divergence avec leurs homologues végétaux. Nos analyses suggèrent de plus que le biais est vraisemblablement la conséquence d'une évolution au niveau nucléique. Nous avons examiné la possibilité de construire une famille de matrices tenant compte de cette dissymétrie dans le cas de la comparaison de Plasmodium et d'Arabidopsis. Ces matrices appelées DirAtPf, possèdent (1) une sensibilité théorique et (2) une spécificité supérieure aux familles de matrices existantes.<br />Les perspectives des travaux présentés dans ce mémoire incluent une progression de l'annotation automatique de Plasmodium falciparum et la mise en place d'une procédure statistiquement robuste et phylogénétiquement consistante pour caractériser le sous-génome algal du parasite malarial.
34

Étude multi-échelles des précipitations et du couvert végétal au Cameroun : Analyses spatiales, tendances temporelles, facteurs climatiques et anthropiques de variabilité du NDVI

Djoufack, Viviane 30 September 2011 (has links) (PDF)
De par sa géométrie et sa situation géographique (2°N-13°N - 8°E-16°E ; ouverture sur l'océan Atlantique), le Cameroun offre l'avantage de proposer un ensemble représentatif des climats régionaux rencontrés en Afrique tropicale. La diminution des cumuls de précipitations enregistrée dans la région pendant la seconde moitié du XXe siècle, est associée à la récurrence de périodes anormalement sèches, essentiellement au coeur de la saison des pluies. Ces conditions ont amplifié la dégradation du couvert végétal au travers ses contraintes socioéconomiques et démographiques (déforestation, extension des surfaces d'activité). Les conséquences souvent dommageables de la variabilité climatique en général, et des sécheresses en particulier, sur les hommes et leurs activités suscitent l'intérêt de développer des études pour mieux comprendre comment le climat et les pressions naturelles et environnementales interagissent localement. Ainsi, l'objectif de cette thèse est de diagnostiquer la variabilité multiéchelle (saisonnière, interannuelle, intra-saisonnière, synoptique) des précipitations et les relations qu'elle entretient avec le couvert végétal au sens large qui, à ces latitudes, est associé directement ou non, à la dynamique d'occupation et d'utilisation du sol, particulièrement sur la période 1951-2002. A partir de données de précipitations observées (CRU/ponctuelles), les modes spatiaux de la variabilité ont été définis aux échelles annuelles et interannuelles, par Analyses en Composante Principale (ACP) et la Classification Ascendante Hiérarchique (CAH). Ces méthodes de classifications ont permis de discriminer cinq zones climatiques, différentes les unes des autres par l'intensité des cumuls et la saisonnalité (unimodal/bimodal). Pour chaque zone, l'attention a été portée sur les paramètres intrasaisonniers qui modulent la variabilité annuelle telle que, les séquences sèches (nombre, longueur, périodes d'occurrence) et les variations des dates de début et de fin des périodes végétatives. La répartition du couvert végétal dans l'espace et dans le temps (1982-2002) a été étudiée, en utilisant des méthodes de classification non supervisée (ISODATA) sur les données de NDVI (Normalized Difference Vegetation index) à 8km de résolution. Enfin, des méthodes statistiques et de télédétection ont permis d'évaluer l'impact des facteurs pluviométriques et anthropogéniques (croissance démographique et utilisation du sol) sur la dynamique du couvert végétal en utilisant des bases de données à plus fine résolution (NDVI/1Km ; Global Land Cover (GLC 2000/1Km)). Ces dernières investigations ont été menées dans le Nord-Cameroun (6°N-13°N - 11°E-16°E), qui est la région la plus sensible des points de vue climatique, économique et environnemental.
35

Comparaison de structures secondaires d'ARN

Allali, Julien 23 December 2004 (has links) (PDF)
L'ARN, acide ribonucléique, est un des composants fondamentaux de la cellule. La majorité des ARN sont constitués d'une séquence orientée de nucléotides notés A,C,G et U. Une telle séquence se replie dans l'espace en formant des liaisons entre les nucléotides deux à deux. La fonction des ARN au sein de la cellule est liée à la conformation spatiale qu'ils adoptent. Ainsi, il est essentiel de pouvoir comparer deux ARN au niveau de leur conformation, par exemple pour déterminer si deux ARN ont la même fonction. On distingue trois niveaux dans la structure d'un ARN. La structure primaire correspond à la séquence de nucléotides, la structure secondaire est constistuée de la liste des liaisons formées entre les nucléotides tandis que la structure tertiaire consiste en la description exacte de la forme tridimensionnelle de la molécule (coordonnées de chaque nucléotide). Bien que la structure tertiaire soit celle qui décrit le mieux la forme spatiale de l'ARN, il est admis que deux ARN ayant une fonction moléculaire similaire ont une structure secondaire proche. Au niveau de la structure secondaire, une fois les liaisons nucléotidiques formées, on peut distinguer des éléments de structure secondaire telles que les hélices, les boucles multiples, les boucles terminales, les boucles internes et les renflements. Essentiellement deux formalismes ont été à ce jour proposés pour modéliser la structure secondaire des ARN. Les séquences annotées par des arcs permettent de représenter la séquence de l'ARN, les arcs codant alors pour les liaisons entre les lettres (nucléotides de la séquence). Les 2-intervalles, généralisation des séquences annotées, sont formés par deux intervalles disjoints. La structure secondaire peut alors être vue comme une famille de 2-intervalles. Enfin, les arbres racinés ordonnés offrent de nombreuses possibilités pour coder la structure secondaire, du niveau nucléotidique au niveau du réseau des boucles multiples. L'un des inconvénients de ces approches est qu'elles modélisent la structure secondaire de l'ARN selon un point de vue particulier (nucléotides, hélices etc). Nous proposons une nouvelle modélisation, appelée RNA-MiGaL, constituée de quatre arbres liés entre eux représentant la structure à différents niveaux de précision. Ainsi, le plus haut niveau code pour le réseau de boucles multiples considéré comme le squelette de la molécule. Le dernier niveau quant à lui détaille les nucléotides. Pour comparer de telles structures nous utilisons la notion de distance d'édition entre deux arbres. Cependant, au vu de certains limitations de celle-ci pour comparer des arbres représentant la structure secondaire à un haut niveau d'abstraction, nous avons introduit une nouvelle distance d'édition qui prend en compte deux nouvelles opérations d'édition: la fusion de noeud et la fusion d'arc. A l'aide de cette nouvelle distance, nous fournissons un algorithme permettant de comparer deux RNA-MiGaLs. Celui-ci est implémenté au sein d'un programme permettant la comparaison de deux structures secondaires d'ARN.
36

Le dictionnaire électronique des séquences nominales figées en coréen et de leurs formes fléchies - méthodes et applications

Bae, Sun-Mee 25 September 2002 (has links) (PDF)
Ce travail vise à présenter des méthodes de construction des dictionnaires électroniques de séquences nominales figées du coréen et de leurs formes fléchies, et à justifier leur validité en appliquant notre dictionnaire dans les domaines appliqués de l'analyse automatique de textes coréens. En vue de la reconnaissance des séquences nominales figées par dictionnaire, nous avons classé celles-ci en trois catégories selon les conventions typographiques : noms compacts (NC), noms figés à espacement facultatif (NFF) et noms figés à espacement obligatoire (NFO). Puisque des formes fléchies des séquences nominales figées apparaissent dans les textes coréens, nous avons construit, d'une part, un dictionnaire électronique des NFF à 45000 entrées et d'autre part, un transducteur des séquences de postpositions nominales avec leur segmentation, et enfin fusionné ces deux ensembles de données à partir de codes flexionnels associés à chaque entrée et de la fonctionnalité de flexion d'INTEX. Notre dictionnaire construit d'après ces méthodes a les principaux avantages suivants par rapport aux systèmes préexistants : 1) Le dictionnaire des formes fléchies de NFF permet la reconnaissance automatique de toutes les variantes de NFF liées à l'espacement 2) Le dictionnaire des formes fléchies de NFF permet la segmentation des formes fléchies des NFF en un NFF et une séquence de postpositions nominales 3) Le dictionnaire des séquences de postpositions nominales sous forme de graphes permet leur segmentation en postpositions nominales 4) Le dictionnaire des NFF sert à la segmentation des séquences nominales libres soudées 5) Le dictionnaire des NFF peut être étendu en un dictionnaire bilingue pour la traduction automatique 6) Chaque entrée du dictionnaire de NFF comporte des codes utiles pour les applications dans le traitement automatique : codes indiquant un trait sémantique, le statut de nom prédicatif, le nom tête de chaque entrée, l'origine et la catégorie grammaticale.
37

Segmentation de séquences d'images en vue du codage

Marcotegui, Beatriz 05 April 1996 (has links) (PDF)
Résumé indisponible
38

Caractérisation et analyse évolutive des répétitions intragéniques : une étude au niveau des gènes, des séquences protéiques et des structures tridimensionnelles

Abraham, Anne-Laure 15 December 2008 (has links) (PDF)
Les duplications jouent un rôle important dans l'évolution des protéines et sont à l'origine des répétitions intragéniques présentes dans environ 14% des séquences protéiques. Nous avons choisi d'étudier ces répétitions d'un point de vue évolutif. Pour cela, nous avons développé un programme, Swelfe, qui cherche les répétitions à la fois dans les gènes, les séquences d'acides aminés et les structures tridimensionnelles des protéines. Ce programme utilise le même algorithme de programmation dynamique à tous les niveaux et une représentation séquentielle des structures 3D. Les scores et les tests de significativité des répétitions obtenues ont été adaptés pour chaque niveau. Nous avons créé une banque contenant les séquences d'ADN et d'acides aminés correspondant aux structures de la PDB, et comparé Swelfe à DALI pour valider la méthode au niveau des répétitions structurales. Enfin, ce programme est disponible à http://bioserv.rpbs.jussieu.fr/swelfe. Swelfe a trouvé un nombre important de répétitions dans un ensemble non redondant de séquences nucléiques, séquences protéiques et structures tridimensionnelles, et environ 10% des protéines contiennent des répétitions à au moins un niveau. Cependant, le recouvrement des répétitions aux trois niveaux est assez faible et beaucoup de répétitions ne sont trouvées qu'à un seul niveau, ce qui confirme l'intérêt de cette étude sur les trois niveaux en parallèle L'étude des répétitions structurales longues montre qu'environ 30% de ces répétitions sont symétriques à 180°, comme le sont les deux éléments d'un homo-dimère. L'analyse de ces protéines indique que certaines pourraient effectivement remplacer des dimères.
39

An efficient algorithm for an optimal modular compression. Application to the analysis of genetic sequences. /Un algorithme rapide pour une compression modulaire optimale. Application à l'analyse de séquences génétiques.

Delgrange, Olivier 05 June 1997 (has links)
Abstract : A lossless compression algorithm often applies the same coding scheme on the whole sequence to be compressed. Therefore, some factors of the sequence are shortened while others are lengthened. In this work, we propose an optimization algorithm of compression methods which breaks off the coding where it is not profitable, so that some segments of the initial sequence are copied as they are instead of being coded. The achieved compression is said modular, meaning that the compressed sequence is a sequel of compressed segments and copied segments. Under specific hypotheses, our algorithm computes an optimal modular compression in time O(n log n) where n is the length of the sequence. We show that our optimization method can be advantageously used to analyze data, and particularly genetic sequences. The Kolmogorov complexity theory brings to light the usefulness of compression when analyzing sequences. The work consists of three parts. The first one introduces the classical concepts of compression and coding, as well as the new concept of ICL codes for the integers. The second one presents the compression optimization algorithm by liftings that uses ICL codes. Finally, the third part presents applications of the compression optimization by liftings, especially in the context of genetic sequence analysis. With the specific problem of the localization of approximate tandem repeats, we show how the compression optimization algorithm by liftings can be used to localize regular segments and irregular segments of a sequence in a precise and optimal way. This comeback to experimentation makes it possible to analyze sequences that contain several thousands of symbols within the space of a few seconds. /Résumé : Une méthode de compression sans perte d'informations applique souvent le même schéma de codage d'un bout à l'autre de la séquence à comprimer. Certains facteurs de la séquence sont ainsi raccourcis mais malheureusement d'autres sont rallongés. Dans ce travail, nous proposons un algorithme d'optimisation de compression qui rompt le codage là ou il n'est pas intéressant en recopiant des morceaux de la séquence initiale. La compression obtenue est dite modulaire : la séquence comprimée est une succession de morceaux comprimés et de morceaux recopiés tels quels. Sous certaines hypothèses, notre algorithme fournit une compression modulaire optimale en temps O(n log n) où n est la longueur de la séquence. Nous montrons que notre méthode de compression peut avantageusement être utilisée pour analyser des données et plus particulièrement des séquences génétiques. La théorie de la complexité de Kolmogorov éclaire l'idée d'analyse de séquences par compression. Le travail comporte trois parties. La première introduit les concepts classiques de compression et de codage, ainsi que le concept nouveau de codage ICL d'entiers. La seconde développe l'algorithme d'optimisation de compression par liftings qui utilise les codes ICL. La dernière partie présente des applications de l'optimisation de compression par liftings, plus particulièrement dans le domaine de l'analyse de séquences génétiques. Nous montrons, à l'aide du problème spécifique de localisation de répétitions en tandem approximatives, comment l'algorithme d'optimisation par liftings peut être utilisé pour localiser précisément et de manière optimale les segments réguliers et les segments non réguliers des séquences. Il s'agit d'un retour à l'expérience qui permet l'analyse de séquences de plusieurs centaines de milliers de bases en quelques secondes.
40

Prédiction markovienne in silico des régions constantes et variables des lentivirus

Quillon, Aurélia 06 December 2006 (has links) (PDF)
Les lentivirus présentent une évolution rapide du gène env, notamment dans la région codant la glycoprotéine de surface (SU). Un fait remarquable est que les mutations de la SU sont localisées dans des zones spécifiques, appelées régions variables (V), séparées par des régions dites constantes (C). Afin de déterminer s'il existe des signatures spécifiques des régions C et V, nous avons développé des modèles de Markov cachés, ou HMM (Hidden Markov Models), basés sur la composition en oligonucléotides de chaque type de région, capables de différencier les régions C et V des lentivirus. Nous avons entraîné des modèles de Markov cachés sur des séquences des SU des lentivirus équins, humains, simiens et des petits ruminants. Nous avons obtenu une délimitation claire des régions C et V de tous ces lentivirus ainsi que des lentivirus bovins et félins qui n'avaient pas été utilisés pour définir les modèles. Nos résultats suggèrent que les régions C et V des lentivirus ont des compositions statistiques en mots de nucléotides et d'acides aminés différentes. Des signatures caractéristiques des régions C et V ont été extraites à partir des modèles définis.

Page generated in 0.0551 seconds