1 |
Étude de la performance d'un test d'association génétique pour des données familiales de survie en présence d'un biais de sélectionTessier, Maxime 23 March 2024 (has links)
Dans Leclerc et al. (2015, Genetic Epidemiology, 39 (6), 406-414), un test d’association entre un ensemble de variants génétiques et des phénotypes censurées en présence de dépendance familiale est proposé. Ce test a été implémenté dans une librairie R nommée gyriq. Dans ce mémoire de maîtrise, nous évaluons par simulations la performance de ce test en présence d’un biais de sélection dû au protocole de collecte de données. En effet, dans plusieurs situations, les données médicales d’une famille sont considérées si et seulement si un membre particulier de cette famille, appelé proband, est diagnostiqué de l’évènement d’intérêt au moment de son examen médical. Nous développons plusieurs stratégies pour générer des données biaisées selon ce protocole. Nous examinons l’erreur de type 1 et la puissance du test d’association avec de telles données, en présence d’un ou plusieurs proband et lorsque les proportions d’échantillonnage conservent seulement les familles dont les probands ont développé l’évènement d’intérêt ou lorsqu’on conserve une proportion de cas où les probands n’ont pas eu l’évènement d’intérêt. Nous concluons que le test demeure valide en présence d’un biais de sélection mais que la puissance est réduite dans cette situation. De plus, le test n’est pas valide lorsque l’on inclut des familles où les probands n’ont pas développé l’évènement d’intérêt. / In Leclerc et al. (2015, Genetic Epidemiology, 39 (6), 406-414), an association test between a group of genetic variants and censored phenotypes in presence of intrafamilial correlation is proposed. This test was implemented in a R package named gyriq. In this master’s thesis,we evaluate, with simulations, the performance of this test in presence of a sampling bias which stems from the data collection protocol. Indeed, in many situations, medical data from a family are considered if and only if a particular member of this family, called proband, is diagnosed with the event of interest during his medical exam. We develop multiple strategies to generate biased data according to such data collection protocol. We examine type 1 error and power of the association test in presence of such data, in the cases where there are 1 or more probands and when we sample only families where the probands have the event of interest or when we also sample a small proportion of families where the event has not occured for the probands. We conclude that the association test remains valid in presence of a selection bias but that the test power is diminished. Furthermore, the test is not valid when we include families where the event of interest has not occured for the probands.
|
2 |
Modèles d'analyse simultanée et conditionnelle pour évaluer les associations entre les haplotypes des gènes de susceptibilité et les traits des maladies complexes : application aux gènes candidats de l'ostéoporoseElfassihi, Latifa 17 April 2018 (has links)
Les maladies complexes sont des maladies multifactorielles dans lesquelles plusieurs gènes et facteurs environnementaux peuvent intervenir et interagir. De nombreuses études ont identifié des locus (gènes ou régions chromosomiques), avec ou sans effets marginaux, qui interagissent pour contribuer au risque de la maladie. Pour les études d'association par polymorphismes, plusieurs méthodes ont été développées récemment pour évaluer l'interaction gène-gène. Cependant, les études d'association par haplotypes donnent parfois une meilleure puissance pour détecter l'association. Mais, la majorité de ces dernières ne permet pas d'évaluer les interactions entre les haplotypes de deux gènes et celles qui le permettent présentent des restrictions, comme l'utilisation du phénotype de la maladie en dichotomique (présence ou absence de la maladie) ou encore n'ajustent pas pour les facteurs environnementaux. Cette thèse traite cette problématique en deux volets : méthodologique et appliqué. Au niveau méthodologique, cette thèse rapporte une nouvelle méthode statistique pour effectuer l'analyse simultanée et l'analyse conditionnelle de deux régions indépendantes (gènes ou régions chromosomiques) dans les études d'associations par haplotypes des maladies complexes. Une étude de simulation a été effectuée pour confirmer sa validité. En présence d'un effet d'interaction entre les haplotypes de deux gènes avec ou sans effets marginaux, les résultats de l'étude de simulation ont montré que notre modèle d'analyse conditionnelle a plus de puissance pour détecter l'association et donne une estimation plus précise des effets comparativement aux méthodes alternatives disponibles actuellement. Au niveau appliqué, l'approche de la cartographie fine dans un premier échantillon de Québec avec une réplication dans un échantillon indépendant de Toronto a été mise à profit pour raffiner l'étude de deux gènes candidats de l'ostéoporose : ESRRG (estrogen receptor-related gamma) et ESRRA (estrogen receptor-related alpha). Pour ESRRG, cette approche combinée aux deux méthodes d'analyse, par polymorphismes ou par haplotypes, confirma son implication dans l'étiologie de la maladie chez les femmes d'origine européenne, tandis que pour ESRRA, elle a constitué une investigation approfondie révélant une association dans un premier échantillon de femmes préménopausées de Québec, mais sans réplication dans un deuxième échantillon indépendant de femmes préménopausées de Toronto. Puisque les deux gènes étudiés appartiennent au même sentier métabolique, l'effet conditionnel de ESRRA sachant ESRRG a été évalué par notre méthode. Cette analyse a révélé une association dans un premier échantillon, mais, encore une fois, sans réplication dans le deuxième échantillon. Ces résultats suggèrent que le premier gène est un gène de susceptibilité de l'ostéoporose. Toutefois, notre étude n'était pas concluante en ce qui concerne l'effet du deuxième gène ainsi que son effet conditionnel sachant l'effet du premier. Ainsi, une réplication dans un échantillon indépendant, de même taille ou plus grande que celle de l'échantillon de Québec, s'avère nécessaire pour confirmer ou infirmer les résultats observés chez les femmes provenant de la région métropolitaine de Québec.
|
3 |
Méthodes symboliques de fouille de données avec la plate-forme CoronSzathmary, Laszlo 24 November 2006 (has links) (PDF)
Le sujet principal de cette thèse est l'extraction de connaissances dans les bases de données (ECBD). Plus précisément, nous avons étudié deux des plus importantes tâches d'ECBD actuelles, qui sont l'extraction de motifs et la génération de règles d'association. Tout au long de notre travail, notre objectif a été de trouver des règles d'associations intéressantes selon plusieurs points de vue : dans un but de fouille efficace, pour réduire au minimum l'ensemble des règles extraites et pour trouver des unités de connaissances intelligibles (et facilement interprétables). Pour atteindre ce but, nous avons développé et adapté des algorithmes spécifiques. <br />Les contributions principales de cette thèse sont : <strong>(1)</strong> nous avons développé et adapté des algorithmes pour trouver les règles d'association minimales non-redondantes ; <strong>(2)</strong> nous avons défini une nouvelle base pour les règles d'associations appelée “règles fermées” ; <strong>(3)</strong> nous avons étudié un champ de l'ECBD important mais relativement peu étudié, à savoir l'extraction des motifs rares et des règles d'association rares ; <strong>(4)</strong> nous avons regroupé nos algorithmes et une collection d'autres algorithmes ainsi que d'autres opérations auxiliaires d'ECBD dans une boîte à outils logicielle appelée Coron.
|
4 |
Impact des variations eustatiques sur les assemblages benthiques à Brachiopodes : l'Ordovicien Sarde et le Devonien Ibero-ArmoricainBOTQUELEN, Arnaud 17 December 2003 (has links) (PDF)
Ce travail de thèse avait un double objectif: préciser les relations entre les organismes marins paléozoïques et les changements paléoenvironnementaux et si possible établir un modèle applicable dans différents domaines paléogéographiques et à différentes époques du Paléozoïque. Dans ce but, des analyses sédimentologiques, paléoécologiques et taphonomiques ont été réalisées afin de déterminer la réponse de la faune benthique aux variations du niveau marin, dans un contexte environnemental de plate-forme, à 2 époques différentes, l'Ordovicien supérieur et le Dévonien inférieur.<br /><br />Une coupe du Caradoc-Ashgill de Sardaigne, cinq coupes de l'Emsien inférieur du Massif armoricain et une coupe de l'Emsien inférieur d'Espagne (León) ont été choisies. La démarche de l'étude consiste en une analyse séquentielle à haute résolution et en un échantillonnage détaillé, destiné à l'étude paléontologique (taphonomie, définition d'associations d'organismes récurrents, systématique). Dans ce travail, seuls les brachiopodes ont été étudiés du point de vue systématique. Les brachiopodes décrits et figurés comportent 20 espèces pour l'Ordovicien supérieur sarde et 33 espèces pour le Dévonien inférieur Ibéro-armoricain.<br /><br />L'étude stratonomique a permis de reconnaître plusieurs types de faciès sédimentaires et les conditions de dépôt, en relation avec la distance à la ligne de rivage. L'empilement des faciès sédimentaires s'organise en séquences génétiques engendrées par les fluctuations du niveau relatif de la mer. Le signal de variation du niveau marin est cyclique et semble lié aux changements des paramètres orbitaux de Milankovitch. Des associations d'organismes, définies à l'aide d'analyses multivariées (analyses en composantes principales, classification hiérarchique), se répartissent de façon récurrente et en accord avec les faciès sédimentaires, caractérisant ainsi des milieux de dépôt différents. 16 associations sont ainsi définies: l'association à 'Longvillia', 'Nicolella', 'Paucicrura' et 'Ibéromena' de l'Ordovicien supérieur de Sardaigne; l'association à 'Adolfia', 'Stenorhynchia', 'Chonétides', 'Crinoïdes-Brachiopodes', 'Crinoïdes-Ostracodes', 'Ostracodes', 'Ostracodes-Tentaculitides', 'Bryozoaires' et 'Dacryoconarides' du Dévonien inférieur du Massif armoricain; l'association à 'Rhynchonellides', 'Spiriférides' et 'Tétracoralliaires-Crinoïdes-Dacryoconarides' du Dévonien inférieur ibérique. Une grande partie des archives paléontologiques est conservée au sein de concentrations coquillières d'épaisseur variable. L'étude des concentrations coquillières, en considérant les différents critères taphonomiques et leur répartition au sein des séquences génétiques, a permis la distinction de 2 types de concentration et l'élaboration d'un modèle expliquant leur mise en place. La formation des concentrations coquillières est liée à la dynamique des tempêtes (facteurs autocycliques) et aux variations du niveau marin (facteurs allocycliques). Les concentrations fines de tempêtes (type A) se forment préférentiellement lors des phases de chute du niveau marin à très haute fréquence, tandis que les concentrations composites de tempêtes (type B) s'individualisent lors des périodes d'élévation du niveau de la mer à très haute fréquence. Ces périodes se caractérisent par des apports sédimentaires faibles: il s'agit d'intervalles de stabilité à l'interface eau-sédiment, favorisant la rétroaction taphonomique ou encore l'activité des organismes perforants (bioérosion). Les accumulations coquillières qui en résultent sont des niveaux condensés, caractérisées par l'amalgame de nombreuses générations d'organismes.<br /><br />La complémentarité des approches séquentielles et paléontologiques se révèle fructueuse dans la compréhension de la dynamique des associations: le résultat des analyses multivariées des niveaux à partir de leur contenu faunique est en accord avec les regroupements établis par la stratigraphie séquentielle. Les associations reflètent clairement les fluctuations du niveau marin. Lors des variations progressives et modérées du niveau marin, les remplacements d'associations se caractérisent par une réorganisation de la composition taxonomique, de la diversité et des réseaux trophiques (remplacements d'associations par réorganisation). Lors de variations rapides et importantes du niveau marin, les remplacements d'association se définissent par des renouvellements dans la structure écologique (remplacements d'associations par renouvellement). Des changements paléoécologiques sont ainsi définis en relation avec les variations eustatiques.
|
5 |
Représentations du racisme et pratiques inspirées de l'approche antiraciste chez des enseignants du primaireCharette, Josée January 2009 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
6 |
Représentations du racisme et pratiques inspirées de l'approche antiraciste chez des enseignants du primaireCharette, Josée January 2009 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
|
7 |
Impact des variations eustatiques sur les assemblages benthiques à Brachiopodes : l'ordovicien Sarde et le Dévonien Ibéro-ArmoricainBOTQUELEN, Arnaud 17 December 2003 (has links) (PDF)
Ce travail de thèse avait un double objectif: préciser les relations entre les organismes marins paléozoïques et les changements paléoenvironnementaux et si possible établir un modèle applicable dans différents domaines paléogéographiques et à différentes époques du Paléozoïque. Dans ce but, des analyses sédimentologiques, paléoécologiques et taphonomiques ont été réalisées afin de déterminer la réponse de la faune benthique aux variations du niveau marin, dans un contexte environnemental de plate-forme, à 2 époques différentes, l'Ordovicien supérieur et le Dévonien inférieur. Une coupe du Caradoc-Ashgill de Sardaigne, cinq coupes de l'Emsien inférieur du Massif armoricain et une coupe de l'Emsien inférieur d'Espagne (León) ont été choisies. La démarche de l'étude consiste en une analyse séquentielle à haute résolution et en un échantillonnage détaillé, destiné à l'étude paléontologique (taphonomie, définition d'associations d'organismes récurrents, systématique). Dans ce travail, seuls les brachiopodes ont été étudiés du point de vue systématique. Les brachiopodes décrits et figurés comportent 20 espèces pour l'Ordovicien supérieur sarde et 33 espèces pour le Dévonien inférieur Ibéro-armoricain. L'étude stratonomique a permis de reconnaître plusieurs types de faciès sédimentaires et les conditions de dépôt, en relation avec la distance à la ligne de rivage. L'empilement des faciès sédimentaires s'organise en séquences génétiques engendrées par les fluctuations du niveau relatif de la mer. Le signal de variation du niveau marin est cyclique et semble lié aux changements des paramètres orbitaux de Milankovitch. Des associations d'organismes, définies à l'aide d'analyses multivariées (analyses en composantes principales, classification hiérarchique), se répartissent de façon récurrente et en accord avec les faciès sédimentaires, caractérisant ainsi des milieux de dépôt différents. 16 associations sont ainsi définies: l'association à 'Longvillia', 'Nicolella', 'Paucicrura' et 'Ibéromena' de l'Ordovicien supérieur de Sardaigne; l'association à 'Adolfia', 'Stenorhynchia', 'Chonétides', 'Crinoïdes-Brachiopodes', 'Crinoïdes-Ostracodes', 'Ostracodes', 'Ostracodes-Tentaculitides', 'Bryozoaires' et 'Dacryoconarides' du Dévonien inférieur du Massif armoricain; l'association à 'Rhynchonellides', 'Spiriférides' et 'Tétracoralliaires-Crinoïdes-Dacryoconarides' du Dévonien inférieur ibérique. Une grande partie des archives paléontologiques est conservée au sein de concentrations coquillières d'épaisseur variable. L'étude des concentrations coquillières, en considérant les différents critères taphonomiques et leur répartition au sein des séquences génétiques, a permis la distinction de 2 types de concentration et l'élaboration d'un modèle expliquant leur mise en place. La formation des concentrations coquillières est liée à la dynamique des tempêtes (facteurs autocycliques) et aux variations du niveau marin (facteurs allocycliques). Les concentrations fines de tempêtes (type A) se forment préférentiellement lors des phases de chute du niveau marin à très haute fréquence, tandis que les concentrations composites de tempêtes (type B) s'individualisent lors des périodes d'élévation du niveau de la mer à très haute fréquence. Ces périodes se caractérisent par des apports sédimentaires faibles: il s'agit d'intervalles de stabilité à l'interface eau-sédiment, favorisant la rétroaction taphonomique ou encore l'activité des organismes perforants (bioérosion). Les accumulations coquillières qui en résultent sont des niveaux condensés, caractérisées par l'amalgame de nombreuses générations d'organismes. La complémentarité des approches séquentielles et paléontologiques se révèle fructueuse dans la compréhension de la dynamique des associations: le résultat des analyses multivariées des niveaux à partir de leur contenu faunique est en accord avec les regroupements établis par la stratigraphie séquentielle. Les associations reflètent clairement les fluctuations du niveau marin. Lors des variations progressives et modérées du niveau marin, les remplacements d'associations se caractérisent par une réorganisation de la composition taxonomique, de la diversité et des réseaux trophiques (remplacements d'associations par réorganisation). Lors de variations rapides et importantes du niveau marin, les remplacements d'association se définissent par des renouvellements dans la structure écologique (remplacements d'associations par renouvellement). Des changements paléoécologiques sont ainsi définis en relation avec les variations eustatiques.
|
8 |
Data mining of temporal sequences for the prediction of infrequent failure events : application on floating train data for predictive maintenance / Fouille de séquences temporelles pour la maintenance prédictive : application aux données de véhicules traceurs ferroviairesSammouri, Wissam 20 June 2014 (has links)
De nos jours, afin de répondre aux exigences économiques et sociales, les systèmes de transport ferroviaire ont la nécessité d'être exploités avec un haut niveau de sécurité et de fiabilité. On constate notamment un besoin croissant en termes d'outils de surveillance et d'aide à la maintenance de manière à anticiper les défaillances des composants du matériel roulant ferroviaire. Pour mettre au point de tels outils, les trains commerciaux sont équipés de capteurs intelligents envoyant des informations en temps réel sur l'état de divers sous-systèmes. Ces informations se présentent sous la forme de longues séquences temporelles constituées d'une succession d'événements. Le développement d'outils d'analyse automatique de ces séquences permettra d'identifier des associations significatives entre événements dans un but de prédiction d'événement signant l'apparition de défaillance grave. Cette thèse aborde la problématique de la fouille de séquences temporelles pour la prédiction d'événements rares et s'inscrit dans un contexte global de développement d'outils d'aide à la décision. Nous visons à étudier et développer diverses méthodes pour découvrir les règles d'association entre événements d'une part et à construire des modèles de classification d'autre part. Ces règles et/ou ces classifieurs peuvent ensuite être exploités pour analyser en ligne un flux d'événements entrants dans le but de prédire l'apparition d'événements cibles correspondant à des défaillances. Deux méthodologies sont considérées dans ce travail de thèse: La première est basée sur la recherche des règles d'association, qui est une approche temporelle et une approche à base de reconnaissance de formes. Les principaux défis auxquels est confronté ce travail sont principalement liés à la rareté des événements cibles à prédire, la redondance importante de certains événements et à la présence très fréquente de "bursts". Les résultats obtenus sur des données réelles recueillies par des capteurs embarqués sur une flotte de trains commerciaux permettent de mettre en évidence l'efficacité des approches proposées / In order to meet the mounting social and economic demands, railway operators and manufacturers are striving for a longer availability and a better reliability of railway transportation systems. Commercial trains are being equipped with state-of-the-art onboard intelligent sensors monitoring various subsystems all over the train. These sensors provide real-time flow of data, called floating train data, consisting of georeferenced events, along with their spatial and temporal coordinates. Once ordered with respect to time, these events can be considered as long temporal sequences which can be mined for possible relationships. This has created a neccessity for sequential data mining techniques in order to derive meaningful associations rules or classification models from these data. Once discovered, these rules and models can then be used to perform an on-line analysis of the incoming event stream in order to predict the occurrence of target events, i.e, severe failures that require immediate corrective maintenance actions. The work in this thesis tackles the above mentioned data mining task. We aim to investigate and develop various methodologies to discover association rules and classification models which can help predict rare tilt and traction failures in sequences using past events that are less critical. The investigated techniques constitute two major axes: Association analysis, which is temporal and Classification techniques, which is not temporal. The main challenges confronting the data mining task and increasing its complexity are mainly the rarity of the target events to be predicted in addition to the heavy redundancy of some events and the frequent occurrence of data bursts. The results obtained on real datasets collected from a fleet of trains allows to highlight the effectiveness of the approaches and methodologies used
|
9 |
Automatic Discovery of Hidden Associations Using Vector Similarity : Application to Biological Annotation Prediction / Découverte automatique des associations cachées en utilisant la similarité vectorielle : application à la prédiction de l'annotation biologiqueAlborzi, Seyed Ziaeddin 23 February 2018 (has links)
Cette thèse présente: 1) le développement d'une nouvelle approche pour trouver des associations directes entre des paires d'éléments liés indirectement à travers diverses caractéristiques communes, 2) l'utilisation de cette approche pour associer directement des fonctions biologiques aux domaines protéiques (ECDomainMiner et GODomainMiner) et pour découvrir des interactions domaine-domaine, et enfin 3) l'extension de cette approche pour annoter de manière complète à partir des domaines les structures et les séquences des protéines. Au total, 20 728 et 20 318 associations EC-Pfam et GO-Pfam non redondantes ont été découvertes, avec des F-mesures de plus de 0,95 par rapport à un ensemble de référence Gold Standard extrait d'une source d'associations connues (InterPro). Par rapport à environ 1500 associations déterminées manuellement dans InterPro, ECDomainMiner et GODomainMiner produisent une augmentation de 13 fois le nombre d'associations EC-Pfam et GO-Pfam disponibles. Ces associations domaine-fonction sont ensuite utilisées pour annoter des milliers de structures de protéines et des millions de séquences de protéines pour lesquelles leur composition de domaine est connue mais qui manquent actuellement d'annotations fonctionnelles. En utilisant des associations de domaines ayant acquis des annotations fonctionnelles inférées, et en tenant compte des informations de taxonomie, des milliers de règles d'annotation ont été générées automatiquement. Ensuite, ces règles ont été utilisées pour annoter des séquences de protéines dans la base de données TrEMBL / This thesis presents: 1) the development of a novel approach to find direct associations between pairs of elements linked indirectly through various common features, 2) the use of this approach to directly associate biological functions to protein domains (ECDomainMiner and GODomainMiner), and to discover domain-domain interactions, and finally 3) the extension of this approach to comprehensively annotate protein structures and sequences. ECDomainMiner and GODomainMiner are two applications to discover new associations between EC Numbers and GO terms to protein domains, respectively. They find a total of 20,728 and 20,318 non-redundant EC-Pfam and GO-Pfam associations, respectively, with F-measures of more than 0.95 with respect to a “Gold Standard” test set extracted from InterPro. Compared to around 1500 manually curated associations in InterPro, ECDomainMiner and GODomainMiner infer a 13-fold increase in the number of available EC-Pfam and GO-Pfam associations. These function-domain associations are then used to annotate thousands of protein structures and millions of protein sequences for which their domain composition is known but that currently lack experimental functional annotations. Using inferred function-domain associations and considering taxonomy information, thousands of annotation rules have automatically been generated. Then, these rules have been utilized to annotate millions of protein sequences in the TrEMBL database
|
Page generated in 0.0856 seconds