Global ETD Search

161	Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data / Modélisation statistique des séquences de protéines au-delà de la prédiction structurelle : inférence en haute dimension avec des données corrélées Coucke, Alice 10 October 2016 (has links) Grâce aux progrès des techniques de séquençage, les bases de données génomiques ont connu une croissance exponentielle depuis la fin des années 1990. Un grand nombre d'outils statistiques ont été développés à l'interface entre bioinformatique, apprentissage automatique et physique statistique, dans le but d'extraire de l'information de ce déluge de données. Plusieurs approches de physique statistique ont été récemment introduites dans le contexte précis de la modélisation de séquences de protéines, dont l'analyse en couplages directs. Cette méthode d'inférence statistique globale fondée sur le principe d'entropie maximale, s'est récemment montrée d'une efficacité redoutable pour prédire la structure tridimensionnelle de protéines, à partir de considérations purement statistiques.Dans cette thèse, nous présentons les méthodes d'inférence en question, et encouragés par leur succès, explorons d'autres domaines complexes dans lesquels elles pourraient être appliquées, comme la détection d'homologies. Contrairement à la prédiction des contacts entre résidus qui se limite à une information topologique sur le réseau d'interactions, ces nouveaux champs d'application exigent des considérations énergétiques globales et donc un modèle plus quantitatif et détaillé. À travers une étude approfondie sur des donnéesartificielles et biologiques, nous proposons une meilleure interpretation des paramètres centraux de ces méthodes d'inférence, jusqu'ici mal compris, notamment dans le cas d'un échantillonnage limité. Enfin, nous présentons une nouvelle procédure plus précise d'inférence de modèles génératifs, qui mène à des avancées importantes pour des données réelles en quantité limitée. / Over the last decades, genomic databases have grown exponentially in size thanks to the constant progress of modern DNA sequencing. A large variety of statistical tools have been developed, at the interface between bioinformatics, machine learning, and statistical physics, to extract information from these ever increasing datasets. In the specific context of protein sequence data, several approaches have been recently introduced by statistical physicists, such as direct-coupling analysis, a global statistical inference method based on the maximum-entropy principle, that has proven to be extremely effective in predicting the three-dimensional structure of proteins from purely statistical considerations.In this dissertation, we review the relevant inference methods and, encouraged by their success, discuss their extension to other challenging fields, such as sequence folding prediction and homology detection. Contrary to residue-residue contact prediction, which relies on an intrinsically topological information about the network of interactions, these fields require global energetic considerations and therefore a more quantitative and detailed model. Through an extensive study on both artificial and biological data, we provide a better interpretation of the central inferred parameters, up to now poorly understood, especially in the limited sampling regime. Finally, we present a new and more precise procedure for the inference of generative models, which leads to further improvements on real, finitely sampled data. Inférence Apprentissage statistique Régularisation Entropie maximale Ccoévolution des protéines Vraisemblance maximale Champ moyen Pseudo vraisemblance Développement en grappe Inference Statistical learning Regularization Maximum entropy Protein coevolution Maximum likelihood Mean field Pseudolikelihood Cluster expansion 530.13
162	Modèles de contours actifs basés régions pour la segmentation d'images et de vidéos Jehan-Besson, Stéphanie 06 January 2003 (has links) (PDF) L'objectif de cette thèse est l'élaboration de modèles de contours actifs basés régions pour la segmentation d'images et de vidéos.<br />Nous proposons de segmenter les régions ou objets en minimisant une fonctionnelle composée d'intégrales de régions et d'intégrales de contours. Dans ce cadre de travail, les fonctions caractérisant les régions ou les contours sont appelées "descripteurs''. La recherche du minimum se fait via la propagation d'un contour actif dit basé régions. L'équation d'évolution associée est calculée en utilisant les outils de dérivation de domaines. Par ailleurs, nous prenons en compte le cas des descripteurs dépendant de la région qui évoluent au cours de la propagation du contour. Nous montrons que cette dépendance induit des termes supplémentaires dans l'équation d'évolution.<br /><br />Le cadre de travail développé est ensuite mis en oeuvre pour des applications variées de segmentation. Tout d'abord, des descripteurs statistiques basés sur le déterminant de la matrice de covariance sont étudiés pour la segmentation du visage. L'estimation des paramètres statistiques se fait conjointement à la segmentation. Nous proposons ensuite des descripteurs statistiques utilisant une distance à un histogramme de référence. Enfin, la détection des objets en mouvement dans les séquences à caméra fixe et mobile est opérée via l'utilisation hierarchique de descripteurs basés mouvement et de descripteurs spatiaux. Segmentation régions et contours actifs minimisation dérivation de domaines équations aux dérivées partielles ensembles de niveaux séquences vidéo objets vidéo détection du mouvement segmentation du visage histogrammes determinant de la matrice de covariance
163	Etude des problèmes de conception et de réalisation d'animation : le système SAFRAN Martinez, Francis 23 May 1977 (has links) (PDF) . animation images animés décors cinéma animation assistée par ordinateur cadre acteurs mise en scène Annecy festival synchronisation animateur SAFRAN S.A.F.R.A.N dessins animés séquences scènes visualisation prise de vue
164	Méthodes par ensembles de niveaux et modes conditionnels itérés pour la segmentation vidéo Ranchin, Florent 10 December 2004 (has links) (PDF) Cette thèse est consacrée à l'étude d'un problème de vision par ordinateur et de deux problèmes de vidéo surveillance. Nous proposons une méthode de détection d'objets en mouvement dans une séquence vidéo basée sur une détermination préalable du mouvement apparent et sur un problème d'optimisation de forme. Pour d'autres modèles de détection et de suivi d'objets en mouvement, nous proposons d'appliquer l'algorithme discret des modes conditionnels itérés réputé très rapide et qui permet de réduire le temps de calcul des algorithmes continus lorsqu'il leur est combiné. En vidéo surveillance, on cherche d'une part à estimer la densité d'une foule et d'autre part à détecter des comportements anormaux dans l'environnement du métro parisien. Nous proposons une estimation de la densité d'une foule basée sur un calcul de courbure sur l'image. La détection de comportements anormaux s'effectue par une recherche des modes dans l'histogramme des directions du mouvement apparent. [MATH] Mathematics analyse d'images et de séquences vidéo méthodes variationnelles méthodes par ensembles de niveaux algorithmes de relaxation déterministe flot optique
165	Synthèse d'émission spatio-temporelle pour l'imagerie acoustique Mosca, Frédéric 27 October 2010 (has links) (PDF) La recherche d'un compromis entre cadence et qualité de l'image est un enjeu majeur dans la définition de nouvelles méthodes d'imagerie cohérente. L'objectif de cette thèse est de proposer des modes d'imagerie innovants exploitant au mieux les performances des plateformes matérielles. Les applications étant l'échographie ultrasonore et l'acoustique sous-marine. Le manuscrit propose d'abord un cadre formel au problème du compromis cadence/contraste et démontre l'optimalité des méthodes de synthèse d'émission. L'équivalence, en termes de contraste et de résolution, entre la synthèse canonique et l'imagerie focalisée est ensuite établie. Le problème du rapport signal à bruit est adressé par l'utilisation de matrice d'émission maximisant l'énergie d'insonification (matrice de Hadamard). On introduit ensuite une méthode originale, dite d' " allègement de synthèse ", permettant une amélioration significative de la cadence. Pour cela, on recherche un optimum matriciel en terme de maximisation de l'énergie des faisceaux d'émission dans la zone d'insonification. Cet optimum est une matrice composée de séquences sphéroïdales aplaties. On introduit alors la " synthèse sphéroïdale " qui exploite les propriétés de cette matrice et permet de déplacer le compromis cadence/contraste en un compromis cadence/taille de l'image. La dernière partie de ce manuscrit est consacrée à la mesure et la correction des mouvements propres de la plateforme par des méthodes de micronavigation. Les résultats de ce travail de thèse font l'objet de validations expérimentales sur un échographe ultrasonore à 128 voies programmables et sur un sonar à antenne synthétique. Synthèse d'ouverture Echographie Sonar Séquences Sphéroïdales Aplaties Imagerie cohérente Matrice d'émission Speckle Micronavigation Sonar à antenne synthètique Ultrasons
166	Un modèle pour la gestion des séquences temporelles synchronisées. Application aux données musicales symboliques. Faget, Zoé 06 December 2011 (has links) (PDF) La première partie de ma thèse est la description d'un modèle algébrique pour la gestion des séquences temporelles synchronisées. Ce modèle est une extension du modèle relationnel classique auquel on ajoute un type nouveau, le type séquence temporelle. L'algèbre relationnelle est augmentée de trois opérateurs dédiés à ce nouveau type. Ces opérateurs permettent de retrouver toutes les opérations classiquement conduites sur des séquences temporelles. Le langage utilisateur correspondant est exposé, ainsi que de nombreux exemples, puisés notamment dans le domaine de la gestion des partitions symboliques. La seconde partie est la description d'un index permettant de réaliser plusieurs types de recherches dans des partitions symboliques (exacte, transposée, avec ou sans rythme et approchée). Il repose notamment sur la notion de signature algébrique. Dans la dernière partie, je décris une plateforme dédiée à la gestion du contenu musical symbolique qui est une application des deux précédentes parties. Modèle de données séquences temporelles recherche d'information musicale bibliothèques numériques recherche par contenu index n-gram signatures algébriques
167	Récepteur adaptatif multi-standards pour les signaux à étalement de spectre en contexte non coopératif Nsiala-Nzéza, Crépin 05 July 2006 (has links) (PDF) L'étalement de spectre par séquence directe occupe une place prépondérante dans les systèmes de télécommunication utilisant la technique d'accès multiple par répartition de code : ce sont les systèmes dits de troisième génération (3G). En effet, ces systèmes permettent des traﬁcs de données diverses à très hauts débits et l'accès simultané d'un très grand nombre d'utilisateurs. Dans le cadre de la surveillance du spectre radio fréquence, se posent alors les problèmes de la différenciation de ces systèmes et de la reconnaissance automatique des signaux à spectre étalé par séquence directe, sans connaissance a priori sur les systèmes de transmission. C'est dans ce contexte dit non coopératif que se situe le cadre de ce travail. La première phase de l'identification est la détection multi-utilisateurs aveugle des signaux à spectre étalé interférents. Nous avons montré que ces signaux peuvent être détectés grâce à leur effet sur les ﬂuctuations d'estimateurs statistiques. Cette méthode permet également d'estimer les périodes symboles et ainsi d'isoler les groupes de signaux transmis au même débit (c'est-à-dire, les différents systèmes). La seconde phase est la synchronisation dans chaque groupe. Elle consiste à affiner la période symbole obtenue lors de la première phase et, pour chaque signal du groupe, à évaluer de manière précise le début du premier symbole. Nous avons d'abord étendu au cas multi-utilisateurs la technique consistant à maximiser la norme carrée de la matrice de covariance du signal intercepté. La courbe de synchronisation obtenue présente alors des pics, dont le nombre correspond au nombre d'utilisateurs interférents. Toutefois, nous avons montré que certains de ces pics pouvaient être masqués. Partant de ce constat, nous avons développé une méthode originale de synchronisation consistant à maximiser les valeurs propres prépondérantes de la matrice de covariance. Une étude théorique des performances de ces deux techniques, après la synchronisation, prouve la robustesse de la nouvelle méthode. Enﬁn, une fois les signaux synchronisés, nous avons présenté une méthode d'estimation des séquences d'étalement utilisées à l'émission ainsi que des symboles transmis. Les performances simulées, en terme de taux d'erreurs chip et binaire moyens, confirment les résultats théoriques. Étalement de spectre détection multi-utilisateurs aveugle synchronisation aveugle estimation aveugle surveillance de spectre interception
168	Etude d'un schéma de quantification vectorielle algébrique et arborescente. Application à la compression de séquences d'images numériques Ricordel, Vincent 02 December 1996 (has links) (PDF) Ce travail de thèse vise à concevoir un nouveau schéma de quantification vectorielle (QV) devant prendre place au sein d'une chaîne de codage hybride pour la compression de séquences d'images. Le but est de contribuer à l'élaboration de futures normes de compression du signal vidéo (MPEG4) et à la conception de nouveaux services de vidéocommunications. La nature non-stationnaire du signal à coder (des vecteurs d'erreurs de prédiction de compensation du mouvement transformées) conduit à retenir une technique d'apprentissage pour la construction du dictionnaire. Si la condition d'opérations d'encodage-décodage rapides est remplie, une QV adaptative est opérationnelle où, quand cela est nécessaire (changement de plan vidéo), l'actualisation des vecteurs représentants est effectuée en utilisant une séquence d'apprentissage issue de la source courante. Le coût calculatoire des techniques classiques d'apprentissage les rend inadaptées. La QV algébrique, rapide, n'est appropriée que si la statistique de la source autorise une troncature aisée des réseaux. Notre approche vise alors à tirer profit de deux techniques de codage : une quantification rapide sur réseaux algébriques, la construction d'un dictionnaire arborescent non-équilibré apportant une partition de l'espace adaptée à la distribution de la source et selon un compromis débit-distorsion. Précisément, la technique utilisée consiste en un emboîtement de réseaux tronqués de même nature et aboutit à un schéma de QV multi-étages. Pour une cellule de Voronoï d'un réseau à une résolution donnée, sur un critère local débit-distorsion, il est décidé ou non de descendre au réseau plus fin. Notre recherche se conclue par l'expérimentation de ce quantificateur vectoriel inscrit au sein de deux types de codeurs : un classique (assemblage d'outils algorithmiques de la famille MPEG), l'autre novateur (codeur orienté régions). Quantification vectorielle compression de séquences d'images codage très bas débit réseaux algébriques quantification vectorielle arborescente codage en sous-bandes allocation binaire
169	Dynamique des hélitrons dans le genome d'Arabidopsis thaliana : développement de nouvelles stratégies d'analyse des éléments transposables Tempel, Sébastien 18 June 2007 (has links) (PDF) Les hélitrons constituent un groupe d'éléments transposables découverts récemment dans les génome eucaryotes. A travers une étude bioinformatique, nous avons étudié leur mode d'invasion, la modularité de leur séquence et leurs impacts sur les gènes à leur proximité dans le génome d'Arabidopsis thaliana. Les hélitrons sont les éléments transposables les plus répandus dans ce génome ; néanmoins ils ne sont que partiellement reconnus par des logiciels d'alignement. Nous avons modélisé ces éléments sous la forme d'une grammaire formelle. Cette grammaire est constituée des deux extrémités terminales séparées par une séquence nucléotidique quelconque de taille fixée. Nous avons créé une matrice d'occurrences des modèles associant toutes les combinaisons possibles d'extrémités. La matrice a fait apparaître des associations préférentielles entre certaines extrémités et a permis la découverte de nouvelles familles d'hélitrons chimériques. La détection des ORFs contenant les protéines de transposition a permis de confirmer la relation hélitron autonome non-autonome et de comprendre le mécanisme de création des chimères d'hélitrons. Nous avons proposé une nouvelle nomenclature des hélitrons basée sur leurs extrémités et non sur leur séquence globale. L'étude de la séquence d'une famille d'hélitrons a montré une réorganisation constante des domaines nucléiques entre les différentes copies de cette famille. Pour comprendre cette organisation, nous avons mis au point le logiciel DomainOrganizer qui permet d'observer la composition en domaines des éléments transposables. DomainOrganizer détecte les frontières entre domaines à partir d'un alignement multiple et crée la liste des domaines. A partir de cette liste, il recherche, par un algorithme d'optimisation combinatoire, le nombre minimal de domaines qui recouvrent au maximum l'ensemble des séquences. Enfin, DomainOrganizer visualise et classe les séquences en fonction de leurs domaines. L'analyse par domaines de la famille AtREP21 a permis de comprendre la nature de cette variabilité et de retracer l'histoire évolutive de cette famille à partir de l'identification des domaines. L'étude de la localisation des hélitrons AtREP3 dans ce génome de plante a montré une insertion préférentielle de ceux-ci dans les promoteurs de gènes. Les profils d'expression de ces gènes, nous a permis d'identifier plusieurs clusters. Par ailleurs, les motifs de régulation ont montré une grande variabilité de motifs dans les promoteurs mais pas dans les hélitrons. Ces résultats ont montré que les hélitrons non-autonomes transportent dans leurs séquences internes des motifs de liaisons aux facteurs de transcription. Des analyses complémentaires devront être réalisées pour comprendre l'action régulatrice des hélitrons sur les gènes situés à leur proximité. [INFO:INFO_OH] Computer Science/Other Bioinformatique Analyse de séquences Elément transposable Arabidopsis thaliana Domaines nucléiques Hélitron Chimère Modélisation syntaxique Optimisation combinatoire Co-régulation Arbres des suffixes
170	Amélioration de l'exactitude de l'inférence phylogénomique Roure, Béatrice 04 1900 (has links) L’explosion du nombre de séquences permet à la phylogénomique, c’est-à-dire l’étude des liens de parenté entre espèces à partir de grands alignements multi-gènes, de prendre son essor. C’est incontestablement un moyen de pallier aux erreurs stochastiques des phylogénies simple gène, mais de nombreux problèmes demeurent malgré les progrès réalisés dans la modélisation du processus évolutif. Dans cette thèse, nous nous attachons à caractériser certains aspects du mauvais ajustement du modèle aux données, et à étudier leur impact sur l’exactitude de l’inférence. Contrairement à l’hétérotachie, la variation au cours du temps du processus de substitution en acides aminés a reçu peu d’attention jusqu’alors. Non seulement nous montrons que cette hétérogénéité est largement répandue chez les animaux, mais aussi que son existence peut nuire à la qualité de l’inférence phylogénomique. Ainsi en l’absence d’un modèle adéquat, la suppression des colonnes hétérogènes, mal gérées par le modèle, peut faire disparaître un artéfact de reconstruction. Dans un cadre phylogénomique, les techniques de séquençage utilisées impliquent souvent que tous les gènes ne sont pas présents pour toutes les espèces. La controverse sur l’impact de la quantité de cellules vides a récemment été réactualisée, mais la majorité des études sur les données manquantes sont faites sur de petits jeux de séquences simulées. Nous nous sommes donc intéressés à quantifier cet impact dans le cas d’un large alignement de données réelles. Pour un taux raisonnable de données manquantes, il appert que l’incomplétude de l’alignement affecte moins l’exactitude de l’inférence que le choix du modèle. Au contraire, l’ajout d’une séquence incomplète mais qui casse une longue branche peut restaurer, au moins partiellement, une phylogénie erronée. Comme les violations de modèle constituent toujours la limitation majeure dans l’exactitude de l’inférence phylogénétique, l’amélioration de l’échantillonnage des espèces et des gènes reste une alternative utile en l’absence d’un modèle adéquat. Nous avons donc développé un logiciel de sélection de séquences qui construit des jeux de données reproductibles, en se basant sur la quantité de données présentes, la vitesse d’évolution et les biais de composition. Lors de cette étude nous avons montré que l’expertise humaine apporte pour l’instant encore un savoir incontournable. Les différentes analyses réalisées pour cette thèse concluent à l’importance primordiale du modèle évolutif. / The explosion of sequence number allows for phylogenomics, the study of species relationships based on large multi-gene alignments, to flourish. Without any doubt, phylogenomics is essentially an efficient way to eliminate the problems of single gene phylogenies due to stochastic errors, but numerous problems remain despite obvious progress realized in modeling evolutionary process. In this PhD-thesis, we are trying to characterize some consequences of a poor model fit and to study their impact on the accuracy of the phylogenetic inference. In contrast to heterotachy, the variation in the amino acid substitution process over time did not attract so far a lot of attention. We demonstrate that this heterogeneity is frequently observed within animals, but also that its existence can interfere with the quality of phylogenomic inference. In absence of an adequate model, the elimination of heterogeneous columns, which are poorly handled by the model, can eliminate an artefactual reconstruction. In a phylogenomic framework, the sequencing strategies often result in a situation where some genes are absent for some species. The issue about the impact of the quantity of empty cells was recently relaunched, but the majority of studies on missing data is performed on small datasets of simulated sequences. Therefore, we were interested on measuring the impact in the case of a large alignment of real data. With a reasonable amount of missing data, it seems that the accuracy of the inference is influenced rather by the choice of the model than the incompleteness of the alignment. For example, the addition of an incomplete sequence that breaks a long branch can at least partially re-establish an artefactual phylogeny. Because, model violations are always representing the major limitation of the accuracy of the phylogenetic inference, the improvement of species and gene sampling remains a useful alternative in the absence of an adequate model. Therefore, we developed a sequence-selection software, which allows the reproducible construction of datasets, based on the quantity of data, their evolutionary speed and their compositional bias. During this study, we did realize that the human expertise still furnishes an indispensable knowledge. The various analyses performed in the course of this PhD thesis agree on the primordial importance of the model of sequence evolution. Phylogénomique Exactitude de l’inférence Hétéropécilie Échantillonnage des espèces Sélection des séquences Données manquantes Violation de modèle Phylogenomics Accuracy of the inference Heteropecilly Species sampling Sequence sorting Missing data Model violation

Search results