Spelling suggestions: "subject:"3analyse dde séquence"" "subject:"3analyse dde conséquences""
1 |
Algorithms for ab initio identification and classification of ncRNAs / Algorithmes ab initio pour l'identification et la classification des ARNs non-codantsPlaton, Ludovic 30 January 2019 (has links)
L'identification des ARN non codants (ARNncs) permet d'améliorer notre compréhension de la biologie.Actuellement, les fonctions biologiques d'une grande partie des ARNncs sont connues.Mais il reste d'autre classes à découvrir.L'identification et la classification des ARNncs n'est pas une tâche triviale.Elle dépend de plusieurs types de données hétérogènes (séquence, structure secondaire, interaction avec d'autres composants biologiques, etc.) et nécessite l'utilisation de méthode appropriées.Durant cette thèse, nous avons développé des méthodes basées sur les cartes auto-organisatrice (SOM).Les SOMs nous permettent analyser et de représenter les ARNncs par une carte où la topologie des données est conservée.Nous avons proposé un nouvel algorithme de SOM qui permet d'intégrer plusieurs sources de données sous forme numérique ou sous forme complexe (représenté par des noyaux).Ce nouvel algorithm que nous appelons MSSOM calcule une SOM pour chaque source de données et les combine à l'aide d'une SOM finale.MSSOM calcule pour chaque cluster la meilleur combinaison de sources.Nous avons par ailleurs développer une variante supervisée de SOM qui s'appelle SLSOM.SLSOM classifie les classes connues à l'aide d'un perceptron multicouche et de la sortie d'une SOM.SLSOM intègre également une option de rejet qui lui permet de rejeter les prédictions incertaines et d’identifier de nouvelles classes.Ces méthodes nous ont permis de développer deux nouveaux outils bioinformatique.Le premier est l'application d'une variante de SLSOM pour la discrimination entre les ARNs codants et non-codants.Cet outil que nous appelons IRSOM a été testé sur plusieurs espèce venant de différents règnes (plantes, animales, bactéries et champignons).A l'aide de caractéristique simples, nous avons montré que IRSOM permet de séparer les ARNs codants des non-codants.De plus, avec la visualisation de SOM et l'option de rejet nous avons pu identifier les ARNs ambiguë chez l'humain.Le second s'appelle CRSOM et permet de classifier les ARNncs en différentes sous-classes.CRSOM est une combinaison de MSSOM et SLSOM et utilise deux sources de données qui sont la fréquence des k-mers de séquence et un noyau Gaussien de structure secondaire utilisant la distance d'édition.Nous avons montrer que CRSOM obtient des performances comparable à l'outil de référence (nRC) sans rejet, et de meilleur résultats avec le rejet. / The non-coding RNA (ncRNA) identification helps to improve our comprehension of biology. We know the biological functions for a majority of ncRNA classes. But, we don't know all the classes of ncRNAs. Besides, the identification of ncRNAs using computational methods is not a trivial task. The relevant features for each class of ncRNAs rely on multiple heterogeneous sources of data (sequences, secondary structure, interaction with other biological components, etc.). During this thesis, we developed methods relying on Self-Organizing Maps (SOM).The SOM is used to analyze and represent the ncRNAs by a map of clusters where the topology of the data is preserved.We proposed a new SOM version called MSSOM which can handle multiple sources of data composed of numerical data or complex data (represented by kernels). MSSOM combines data sources by using a SOM for each source and learns the weights of each source at the cluster level.We also proposed a supervised variant of SOM with rejection called SLSOM. SLSOM is able to identify and classify the known classes using multi layer perceptron and the output of a SOM.The rejection options associated to the output layer allow to reject the unreliable prediction and to identify the potential new classes.These methods lead to the development of bioinformatic tools.We applied a variant of SLSOM to the discrimination of coding and non-coding RNAs. This method called IRSOM has been evaluated on a wide range of species coming from different reigns (plants, animals, bacteria and fungi).By using a simple set of sequence features, we showed that IRSOM is able to separate the coding and non-coding RNAs efficiently.With the SOM visualization and the rejection option, we also highlighted and analyzed some ambiguous RNAs on the human. The second one is called CRSOM.CRSOM classify ncRNAs into sub classes by integrating two data sources which are the sequence k-mer frequencies and a Gaussian kernel using the edit distance. We show that CRSOM give comparable results with the reference tool (nRC) without reject and better results with the rejection option.
|
2 |
Une approche basée sur l'analyse des séquences pour la reconnaissance des activités et comportements dans les environnements intelligentsChikhaoui, Belkacem January 2013 (has links)
Cette thèse vise à étudier deux problématiques différentes: 1) la reconnaissance des activités de la vie quotidienne des personnes dans un habitat intelligent, et 2) la construction du profil comportemental de la personne. Nos contributions sont présentées dans deux chapitres illustrant les solutions proposées. La première contribution de cette thèse est liée à l'introduction d'une nouvelle approche non supervisée de reconnaissance d'activités nommée ADR-SPLDA (Activity Discovery and Recognition using Sequential Patterns and Latent Dirichlet Allocation). Contrairement aux approches existantes, ADR-SPLDA permet la découverte et la reconnaissance des activités de façon non supervisée sans faire nécessairement recours à l'annotation des données. En outre, ADR-SPLDA est basée sur l'analyse de patrons fréquents, ce qui permet de réduire significativement la quantité du bruit dans les données. La fiabilité de ADR-SPLDA est illustrée à travers une série de tests et de comparaisons avec les approches existantes sur une variété de données réelles.
Le deuxième travail vise la construction du profil comportemental de la personne en se basant sur ses activités. Nous avons développé une approche qui permet de découvrir les différents comportements dans les séquences, et d'extraire les relations causales entre les différents comportements. Notre contribution inclut l'introduction de l'analyse causale dans la construction du profil, ce qui nous a permis aussi de découvrir les relations causales entre les différentes activités. Une série de tests a été également effectuée pour illustrer la fiabilité de notre approche sur une variété de données. Le travail de recherche entrepris dans cette thèse constitue l'une des nombreuses étapes importantes dans l'accomplissement d'un système d'assistance efficace dans l'objectif d'assurer le bien-être des personnes.
|
3 |
Détection d'homologies lointaines à faibles identités de séquences : Application aux protéines de la signalisation des dommages de l'ADNMEYER, Vincent 26 January 2007 (has links) (PDF)
L'objectif de mon doctorat est de développer une méthode d'analyse des séquences protéiques permettant de cribler, le plus efficacement possible, les alignements non significatifs produits par le logiciel PSI-BLAST afin d'identifier des relations d'homologies lointaines. La stratégie développée repose sur deux étapes de criblage, une première s'appuyant sur les prédictions de structures secondaires, une seconde tirant profit du développement récent de méthodes de comparaison profil/profil performantes. La méthode développée a été initialement calibrée sur une base de données de séquences particulière. Cette base rassemble des séquences de domaines dont les structures sont connues permettant ainsi de contrôler l'existence effective d'homologues lointains. Cette phase a permis d'établir les seuils de détection optimaux permettant une utilisation semi-automatique du programme. Dans une seconde phase, la méthode a été testée sur un ensemble de 100 protéines impliquées dans la signalisation et la réparation des dommages de l'ADN. Au travers de différents exemples, nous montrons les potentialités du programme développé pour des recherches d'homologies lointaines à grande échelle. En particulier, mon étude suggère une nouvelle hypothèse pour comprendre l'origine d'une maladie rare, le syndrome de Nijmejen, provoqué par une mutation dans la protéine Nbs1.
|
4 |
Syntaxe, raisonnement et génomesNicolas, Jacques 13 May 2008 (has links) (PDF)
J'ai travaillé sur les problèmes de modélisation du vivant avec l'hypothèse fondamentale qu'il s'agit de machines symboliques et la volonté d'aider le chercheur en biologie à traiter avec le bon niveau d'abstraction ces machines. Le cœur de mes travaux considère les ensembles de séquences que forment les macromolécules du vivant comme des langages formels et cherche à approfondir les concepts nécessaires pour mener à bien leur analyse linguistique. Il faut tout d'abord étudier le contenu lexical des séquences génomiques, son vocabulaire. Au niveau élémentaire, les facteurs répétés fournissent les unités de sens de la séquence. Cependant, la notion naturelle de répétition dans l'ADN est beaucoup plus complexe et nécessite à la fois d'être formalisée et d'être accompagnée d'une algorithmique de recherche spécialisée. J'ai particulièrement développé cet aspect dans l'étude d'éléments génétiques mobiles à l'intérieur d'un génome ou entre deux génomes. J'ai également travaillé sur le niveau syntaxique, ce qui a mené à l'élaboration d'un langage, Logol, qui permet au biologiste de construire un modèle grammatical hypothétique puis de le tester sur des séquences génomiques. Le langage défini autorise en particulier une notion de variable de chaîne avec une face abstraite qui représente la chaîne d'origine et une face concrète pour les différentes instances copies de cette chaîne d'origine. Ce cadre a été validé sur plusieurs problèmes biologiques de recherche de protéines ou d'éléments génétiques, dont la découverte de récepteurs olfactifs chez le chien et la découverte de défensines humaines. Lorsqu'aucun modèle n'est disponible, il faut tenter de l'inférer à partir d'exemples de séquences. J'ai lancé une série de recherches tant théoriques que pratiques sur ce thème. Au niveau théorique, le problème difficile de l'inférence de grammaires algébriques a été abordé à partir d'ordres partiels sur les non-terminaux ou les arbres de dérivation. La classe mieux maîtrisable des langages réguliers a fait l'objet des travaux les plus approfondis, sur une représentation par automates d'états finis. L'inférence devient alors un problème d'optimisation par gestion d'un ensemble de contraintes dynamiques sur les équivalences d'états. Du point de vue pratique, nous avons tout particulièrement étudié ces problèmes d'inférence sur des séquences de protéines, par exemple en étudiant la prédiction de certaines liaisons (ponts disulfures) entre des sites distants sur la séquence. Enfin, je propose à la fin de mon document d'habilitation un projet pour aborder de façon plus transdisciplinaire la modélisation du vivant en tant que machine symbolique. Les questions que pose la biologie, science expérimentale par excellence, s'expriment majoritairement en termes de raisonnement hypothétique. Je propose de mener des recherches en vue de la mise au point d'un assistant d'expérimentation biochimique sur puce sur cultures cellulaires. Le but global est le développement d'un environnement permettant de relier en boucle expérimentation, observations et acquisition de connaissances, en utilisant un système complet de raisonnement automatique (apprentissage abductif et inductif et planification).
|
5 |
An efficient algorithm for an optimal modular compression. Application to the analysis of genetic sequences. /Un algorithme rapide pour une compression modulaire optimale. Application à l'analyse de séquences génétiques.Delgrange, Olivier 05 June 1997 (has links)
Abstract :
A lossless compression algorithm often applies the same coding scheme on the whole sequence to be compressed. Therefore, some factors of the sequence are shortened while others are lengthened.
In this work, we propose an optimization algorithm of compression methods which breaks off the coding where it is not profitable, so that some segments of the initial sequence are copied as they are instead of being coded. The achieved compression is said modular, meaning that the compressed sequence is a sequel of compressed segments and copied segments. Under specific hypotheses, our algorithm computes an optimal modular compression in time O(n log n) where n is the length of the sequence. We show that our optimization method can be advantageously used to analyze data, and particularly genetic sequences. The Kolmogorov complexity theory brings to light the usefulness of compression when analyzing sequences.
The work consists of three parts. The first one introduces the classical concepts of compression and coding, as well as the new concept of ICL codes for the integers. The second one presents the compression optimization algorithm by liftings that uses ICL codes. Finally, the third part presents applications of the compression optimization by liftings, especially in the context of genetic sequence analysis. With the specific problem of the localization of approximate tandem repeats, we show how the compression optimization algorithm by liftings can be used to localize regular segments and irregular segments of a sequence in a precise and optimal way. This comeback to experimentation makes it possible to analyze sequences that contain several thousands of symbols within the space of a few seconds.
/Résumé :
Une méthode de compression sans perte d'informations applique souvent le même schéma de codage d'un bout à l'autre de la séquence à comprimer. Certains facteurs de la séquence sont ainsi raccourcis mais malheureusement d'autres sont rallongés.
Dans ce travail, nous proposons un algorithme d'optimisation de compression qui rompt le codage là ou il n'est pas intéressant en recopiant des morceaux de la séquence initiale. La compression obtenue est dite modulaire : la séquence comprimée est une succession de morceaux comprimés et de morceaux recopiés tels quels. Sous certaines hypothèses, notre algorithme fournit une compression modulaire optimale en temps O(n log n) où n est la longueur de la séquence. Nous montrons que notre méthode de compression peut avantageusement être utilisée pour analyser des données et plus particulièrement des séquences génétiques. La théorie de la complexité de Kolmogorov éclaire l'idée d'analyse de séquences par compression.
Le travail comporte trois parties. La première introduit les concepts classiques de compression et de codage, ainsi que le concept nouveau de codage ICL d'entiers. La seconde développe l'algorithme d'optimisation de compression par liftings qui utilise les codes ICL. La dernière partie présente des applications de l'optimisation de compression par liftings, plus particulièrement dans le domaine de l'analyse de séquences génétiques. Nous montrons, à l'aide du problème spécifique de localisation de répétitions en tandem approximatives, comment l'algorithme d'optimisation par liftings peut être utilisé pour localiser précisément et de manière optimale les segments réguliers et les segments non réguliers des séquences. Il s'agit d'un retour à l'expérience qui permet l'analyse de séquences de plusieurs centaines de milliers de bases en quelques secondes.
|
6 |
La pâte et le décor : considération et formes professionnelles dans le monde des pâtissiers / Of dough and decoration : consideration and professional forms in the world of pâtissiersCollas, Thomas 23 November 2015 (has links)
La thèse décrit l’ensemble hétérogène et flou de produits et de situations de travail qu'embrasse le monde des pâtissiers en France de la fin des années 1970 au début des années 2010 à la lumière d'une question de sociologie : dans quelle mesure les marques de considération portées aux travailleurs et à leur travail participent-elles à stabiliser des formes professionnelles, qu'il s'agisse d’un groupe professionnel, de segments élitaires, de communautés de praticiens ou encore de trajectoires individuelles ? Les matériaux mobilisés dans les trois parties de la thèse sont issus d’un travail sur archives et d’une enquête ethnographique. Une base prosopographique de première main est exploitée à partir de méthodes d’analyse de séquences. Dans la première partie, les revendications de statut portées au nom du groupe des pâtissiers par plusieurs collectifs et les conventions esthétiques convoquées et explicitées dans ce cadre sont étudiées. Dans la deuxième partie, les rhétoriques d’excellence mises en œuvre sur trois arènes de définition du travail pâtissier (le système des concours pâtissiers, une association élitaire et les sélections critiques) sont comparées au regard des sanctions qu’elles sécrètent et des segments élitaires qu'elles concourent à stabiliser. La troisième partie est consacrée à la stabilisation de trajectoires individuelles sur les marchés du travail et sur les marchés boutiquiers, à l’appui notamment de ces marques de considération. Ce faisant, les modèles d’avantage cumulatif sont mis à l’épreuve. En filigrane, la conduite d’entreprise et les compétences décoratives apparaissent comme deux principes récurrents de considération du travail pâtissier. / The thesis describes the heterogenous world of pâtissiers – in terms of products and work situations – in France from the late 1970’s to the early 2010’s in the light of a sociological question : to what extent do marks of consideration sent to workers and to their work contribute to stabilize professional forms, be it professional groups, professional segments (elitarian or not) or individual trajectories ? The three parts of the thesis are based on empirical research, interweaving archive and ethnographic materials. An original prosopographical database is exploited through sequence analysis. The first part of the thesis presents an analysis of competing jurisdictional claims describing a group of pâtissiers and explicitly aesthetic choices that these claims reveal. In a second part, three arenas of definition of pâtissier work (pâtissier competitions, an elitarian association and critics) are compared with regard to rhetorics of excellence they convey and the elitarian segments they contribute to stabilize. The third part looks at individual trajectories that are partly built on these marks of consideration. In so doing, the cumulative advantage models are discussed. The thesis shows that entrepreneurship and decoration skills are recurrent principles of consideration of pâtissier work.
|
7 |
Inactivation de la MAP kinase atypique ERK4 via la délétion du gène Mapk4 murinRousseau, Justine January 2005 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
8 |
Analyse et visualisation de trajectoires de soins par l’exploitation de données massives hospitalières pour la pharmacovigilance / Analysis and visualization of care trajectories by using hospital big data for pharmacovigilanceLedieu, Thibault 19 October 2018 (has links)
Le phénomène de massification des données de santé constitue une opportunité de répondre aux questions des vigilances et de qualité des soins. Dans les travaux effectués au cours de cette thèse, nous présenterons des approches permettant d’exploiter la richesse et le volume des données intra hospitalières pour des cas d’usage de pharmacovigilance et de surveillance de bon usage du médicament. Cette approche reposera sur la modélisation de trajectoires de soins intra hospitalières adaptées aux besoins spécifiques de la pharmacovigilance. Il s’agira, à partir des données d’un entrepôt hospitalier de caractériser les événements d’intérêt et d’identifier un lien entre l’administration de ces produits de santé et l’apparition des effets indésirables, ou encore de rechercher les cas de mésusage du médicament. L’hypothèse posée dans cette thèse est qu’une approche visuelle interactive serait adaptée pour l’exploitation de ces données biomédicales hétérogènes et multi-domaines dans le champ de la pharmacovigilance. Nous avons développé deux prototypes permettant la visualisation et l’analyse des trajectoires de soins. Le premier prototype est un outil de visualisation du dossier patient sous forme de frise chronologique. La deuxième application est un outil de visualisation et fouille d’une cohorte de séquences d’événements. Ce dernier outil repose sur la mise en œuvre d’algorithme d’analyse de séquences (Smith-Waterman, Apriori, GSP) pour la recherche de similarité ou de motifs d’événements récurrents. Ces interfaces homme-machine ont fait l’objet d’études d’utilisabilité sur des cas d’usage tirées de la pratique réelle qui ont prouvé leur potentiel pour un usage en routine. / The massification of health data is an opportunity to answer questions about vigilance and quality of care. The emergence of big data in health is an opportunity to answer questions about vigilance and quality of care. In this thesis work, we will present approaches to exploit the diversity and volume of intra-hospital data for pharmacovigilance use and monitoring the proper use of drugs. This approach will be based on the modelling of intra-hospital care trajectories adapted to the specific needs of pharmacovigilance. Using data from a hospital warehouse, it will be necessary to characterize events of interest and identify a link between the administration of these health products and the occurrence of adverse reactions, or to look for cases of misuse of the drug. The hypothesis put forward in this thesis is that an interactive visual approach would be suitable for the exploitation of these heterogeneous and multi-domain biomedical data in the field of pharmacovigilance. We have developed two prototypes allowing the visualization and analysis of care trajectories. The first prototype is a tool for visualizing the patient file in the form of a timeline. The second application is a tool for visualizing and searching a cohort of event sequences The latter tool is based on the implementation of sequence analysis algorithms (Smith-Waterman, Apriori, GSP) for the search for similarity or patterns of recurring events. These human-machine interfaces have been the subject of usability studies on use cases from actual practice that have proven their potential for routine use.
|
9 |
Analyse et modélisation de séquences d'évènements botaniques: applications à la compréhension de la régularité d'expression des processus de croissance, de ramification et de floraisonHeuret, Patrick 04 January 2002 (has links) (PDF)
Une entité botanique peut être considérée comme une succession ordonnée d'entités botaniques d'un niveau d'organisation inférieur (ex : une unité de croissance peut se décrire comme une succession de métamères). Pour chaque entité botanique, il est possible de mesurer un certain nombre de variables qui traduisent ses caractéristiques (longueur de l'entre-nœud, type de production axillaire). La succession des valeurs prises par une ou plusieurs variables mesurées est alors appelée « séquence d'événements botaniques ». Des travaux récents menés chez des arbres fruitiers et forestiers ont permis de développer une approche statistique adaptée à l'analyse d'échantillons de séquences allant de l'analyse exploratoire à la construction de processus Markoviens. L'objectif de cette thèse est (i) d'évaluer la pertinence d'une approche couplant analyse architecturale et analyse de séquences extraites d'architectures mesurées, (ii) d'apporter une vision et une compréhension nouvelle des phénomènes de croissance, de ramification et de floraison par l'utilisation de modèles statistiques adaptés et (iii) d'analyser les applications possibles des comparaisons de séquences et de modèles dans l'étude de l'influence du milieu et la caractérisation de la plasticité architecturale. Cette problématique est illustrée par (i) l'étude des structures de ramification des différents types d'unités de croissance des pousses annuelles mono- ou polycycliques de chêne rouge d'Amérique (Quercus rubra), (ii) des synchronismes de ramification et de floraison chez Cecropia obtusa et (iii) par l'étude de l'évolution de la phyllotaxie et des modalités de ramification au cours de l'ontogénie sur plusieurs espèces de Cupressus. Les résultats montrent que la répartition des productions axillaires sur une entité porteuse n'est pas aléatoire mais qu'elle est le plus souvent organisée en une succession de zones homogènes ou montre des motifs répétés à un niveau plus local. Les mécanismes sous-jacents potentiellement responsables des organisations révélées à diverses échelles et l'apport de la prise en compte de l'information structurelle des arbres dans la mesure et l'analyse statistique des données sont discutés
|
10 |
An empirical taxonomy of early growth trajectoriesBiga Diambeidou, Mahamadou 06 May 2008 (has links)
While it is now widely accepted that new firms growth is essential for the foundation of economic dynamism, knowledge about this early growth is still scattered. Indeed, very little is known about how new firms grow and develop over time. What types of distinct growth patterns do those firms exhibit? How do these growth patterns and corresponding firms differ from each others in terms of development and strategic choices?
To better understand the process of new firm growth, recent entrepreneurship research stresses that there is a strong need for a new conceptual scheme and new longitudinal research methods. This is actually one of the main entrepreneurship research challenges. In this context, our aim is to provide new insights regarding the process of new firm growth.
In this research, we develop and test an original methodology allowing the empirical taxonomy of early growth trajectories across multiple sectors, integrating both the multidimensional and dynamic aspects of growth. Our approach applies principal component and cluster analysis to a large sample of firms, using financial and demographic data collected over time to identify in a systematic way distinct growth stages. We use then sequence analysis and a Markov chain approach to extract and compare the trajectories of individual firms over time. This allows the identification of a limited number of typical growth trajectories, which are adopted by the majority of firms in our sample. Finally, internal replication is performed to validate the growth trajectories identified and bivariate analysis is used to examine the link between the identified growth trajectories and the demographic characteristics of the corresponding firms.
We have applied our methodology to a sample of 741 Belgian firms created between 1992 and 2002 and which have grown above micro-firm size. Our approach allowed identifying four distinct growth stages and seven typical growth trajectories, which remain valid for the six first years of the majority of the firms in our sample. This taxonomy of early growth trajectories is consistent with individual patterns already identified in the literature and appears not to be sector-dependent.
The major contribution of this doctoral thesis is that, based on empirical evidence, early growth appears to be neither a continuous (or life cycle based) nor idiosyncratic (or completely random) process. It can be adequately described through a limited number of typical growth trajectories, valid across sectors. Thus, our research brings insight regarding how new firm evolve over time and therefore contributes to our understanding and appreciation of the heterogeneity of the growth trajectory phenomenon.
Next, our research provides also an original methodological approach allowing the systematic analysis of growth trajectories, which deals with key limitations identified in the literature regarding the need for a multidimensional and dynamic study of growth across multiple sectors. Our findings indicate that this novel systematic approach is useful for taxonomy development and therefore contributes to reduce the gap between the complexity of new firm growth process and the standard approaches often mobilised to deal with it. Finally, while our findings provide empirical and methodological support in early development of new firms study, they also provide many implications to entrepreneurial research and practices.
Further researches are needed to improve our understanding of the dynamic growth process of new ventures. It should explore which endogenous and exogenous factors might explain why a majority of start-ups follow the seven identified typical growth trajectories. It could be also highly relevant to refine our taxonomy by examining the relationship between innovative and technological sources and growth trajectories, both in high and low technological industries. Finally, we should test the accuracy of the proposed taxonomy across countries as well as beyond the early stage of new firm development.
|
Page generated in 0.0637 seconds