Global ETD Search

181	Mineral identification using data-mining in hyperspectral infrared imagery Yousefi, Bardia 05 July 2018 (has links) Les applications de l’imagerie infrarouge dans le domaine de la géologie sont principalement des applications hyperspectrales. Elles permettent entre autre l’identification minérale, la cartographie, ainsi que l’estimation de la portée. Le plus souvent, ces acquisitions sont réalisées in-situ soit à l’aide de capteurs aéroportés, soit à l’aide de dispositifs portatifs. La découverte de minéraux indicateurs a permis d’améliorer grandement l’exploration minérale. Ceci est en partie dû à l’utilisation d’instruments portatifs. Dans ce contexte le développement de systèmes automatisés permettrait d’augmenter à la fois la qualité de l’exploration et la précision de la détection des indicateurs. C’est dans ce cadre que s’inscrit le travail mené dans ce doctorat. Le sujet consistait en l’utilisation de méthodes d’apprentissage automatique appliquées à l’analyse (au traitement) d’images hyperspectrales prises dans les longueurs d’onde infrarouge. L’objectif recherché étant l’identification de grains minéraux de petites tailles utilisés comme indicateurs minéral -ogiques. Une application potentielle de cette recherche serait le développement d’un outil logiciel d’assistance pour l’analyse des échantillons lors de l’exploration minérale. Les expériences ont été menées en laboratoire dans la gamme relative à l’infrarouge thermique (Long Wave InfraRed, LWIR) de 7.7m à 11.8 m. Ces essais ont permis de proposer une méthode pour calculer l’annulation du continuum. La méthode utilisée lors de ces essais utilise la factorisation matricielle non négative (NMF). En utlisant une factorisation du premier ordre on peut déduire le rayonnement de pénétration, lequel peut ensuite être comparé et analysé par rapport à d’autres méthodes plus communes. L’analyse des résultats spectraux en comparaison avec plusieurs bibliothèques existantes de données a permis de mettre en évidence la suppression du continuum. Les expérience ayant menés à ce résultat ont été conduites en utilisant une plaque Infragold ainsi qu’un objectif macro LWIR. L’identification automatique de grains de différents matériaux tels que la pyrope, l’olivine et le quartz a commencé. Lors d’une phase de comparaison entre des approches supervisées et non supervisées, cette dernière s’est montrée plus approprié en raison du comportement indépendant par rapport à l’étape d’entraînement. Afin de confirmer la qualité de ces résultats quatre expériences ont été menées. Lors d’une première expérience deux algorithmes ont été évalués pour application de regroupements en utilisant l’approche FCC (False Colour Composite). Cet essai a permis d’observer une vitesse de convergence, jusqu’a vingt fois plus rapide, ainsi qu’une efficacité significativement accrue concernant l’identification en comparaison des résultats de la littérature. Cependant des essais effectués sur des données LWIR ont montré un manque de prédiction de la surface du grain lorsque les grains étaient irréguliers avec présence d’agrégats minéraux. La seconde expérience a consisté, en une analyse quantitaive comparative entre deux bases de données de Ground Truth (GT), nommée rigid-GT et observed-GT (rigide-GT: étiquet manuel de la région, observée-GT:étiquetage manuel les pixels). La précision des résultats était 1.5 fois meilleur lorsque l’on a utlisé la base de données observed-GT que rigid-GT. Pour les deux dernières epxérience, des données venant d’un MEB (Microscope Électronique à Balayage) ainsi que d’un microscopie à fluorescence (XRF) ont été ajoutées. Ces données ont permis d’introduire des informations relatives tant aux agrégats minéraux qu’à la surface des grains. Les résultats ont été comparés par des techniques d’identification automatique des minéraux, utilisant ArcGIS. Cette dernière a montré une performance prometteuse quand à l’identification automatique et à aussi été utilisée pour la GT de validation. Dans l’ensemble, les quatre méthodes de cette thèse représentent des méthodologies bénéfiques pour l’identification des minéraux. Ces méthodes présentent l’avantage d’être non-destructives, relativement précises et d’avoir un faible coût en temps calcul ce qui pourrait les qualifier pour être utilisée dans des conditions de laboratoire ou sur le terrain. / The geological applications of hyperspectral infrared imagery mainly consist in mineral identification, mapping, airborne or portable instruments, and core logging. Finding the mineral indicators offer considerable benefits in terms of mineralogy and mineral exploration which usually involves application of portable instrument and core logging. Moreover, faster and more mechanized systems development increases the precision of identifying mineral indicators and avoid any possible mis-classification. Therefore, the objective of this thesis was to create a tool to using hyperspectral infrared imagery and process the data through image analysis and machine learning methods to identify small size mineral grains used as mineral indicators. This system would be applied for different circumstances to provide an assistant for geological analysis and mineralogy exploration. The experiments were conducted in laboratory conditions in the long-wave infrared (7.7μm to 11.8μm - LWIR), with a LWIR-macro lens (to improve spatial resolution), an Infragold plate, and a heating source. The process began with a method to calculate the continuum removal. The approach is the application of Non-negative Matrix Factorization (NMF) to extract Rank-1 NMF and estimate the down-welling radiance and then compare it with other conventional methods. The results indicate successful suppression of the continuum from the spectra and enable the spectra to be compared with spectral libraries. Afterwards, to have an automated system, supervised and unsupervised approaches have been tested for identification of pyrope, olivine and quartz grains. The results indicated that the unsupervised approach was more suitable due to independent behavior against training stage. Once these results obtained, two algorithms were tested to create False Color Composites (FCC) applying a clustering approach. The results of this comparison indicate significant computational efficiency (more than 20 times faster) and promising performance for mineral identification. Finally, the reliability of the automated LWIR hyperspectral infrared mineral identification has been tested and the difficulty for identification of the irregular grain’s surface along with the mineral aggregates has been verified. The results were compared to two different Ground Truth(GT) (i.e. rigid-GT and observed-GT) for quantitative calculation. Observed-GT increased the accuracy up to 1.5 times than rigid-GT. The samples were also examined by Micro X-ray Fluorescence (XRF) and Scanning Electron Microscope (SEM) in order to retrieve information for the mineral aggregates and the grain’s surface (biotite, epidote, goethite, diopside, smithsonite, tourmaline, kyanite, scheelite, pyrope, olivine, and quartz). The results of XRF imagery compared with automatic mineral identification techniques, using ArcGIS, and represented a promising performance for automatic identification and have been used for GT validation. In overall, the four methods (i.e. 1.Continuum removal methods; 2. Classification or clustering methods for mineral identification; 3. Two algorithms for clustering of mineral spectra; 4. Reliability verification) in this thesis represent beneficial methodologies to identify minerals. These methods have the advantages to be a non-destructive, relatively accurate and have low computational complexity that might be used to identify and assess mineral grains in the laboratory conditions or in the field. TK 7.5 UL 2018 Apprentissage automatique Imagerie hyperspectrale Imagerie infrarouge Minéraux -- Identification
182	Mesures d’insertion sociale destinées aux détenus québécois et récidive criminelle : une approche par l'apprentissage automatique Iriart, Alejandro 26 January 2021 (has links) Dans ce mémoire, nous essayons de déterminer l’influence réelle des programmes de réinsertion sociale sur le risque de récidive. Pour ce faire, nous analysons, à l’aide d’une approche d’apprentissage automatique une base de données fournie par le Ministère de la Sécurité publique (MSP) où nous retrouvons le parcours carcéral de 97 140 détenus de 2006 jusqu’en 2018. Notre analyse se concentre uniquement sur les détenus ayant transigé dans la prison de la ville de Québec. Pour faire notre analyse, nous utilisons l’approche des Generalized Random Forests (GRF) développée par Athey et al. (2019) sur les caractéristiques des détenus ainsi que leurs résultats au LS/CMI, un test psychométrique ayant pour but de déterminer leurs besoins criminogènes, afin d’estimer l’effet de traitement individuel de la participation à des programmes. Nous en profitons aussi pour déterminer quelles sont les variables influençant le plus l’effet de traitement en utilisant une fonction de ce même algorithme qui calcule l’importance relative de chacune des variables pour faire la prédiction. Ceci est une approche révolutionnaire, car elle nous permet de faire de l’inférence sur nos résultats. En comparant les participants et les non-participants, nous avons pu démontrer que le fait de participer à un programme diminue le risque de récidiver d’environ 6.9% pour une période d’épreuve de deux ans. Le fait de participer à un programme semble toujours diminuer de manière significative la récidive. Nous avons aussi déterminé qu’au niveau des caractéristiques personnelles, ce sont l’âge, la nature de l’infraction ainsi que le nombre d’années d’études qui sont les principaux prédicteurs de l’effet causal. Pour ce qui est du LS/CMI, seulement certaines sections du questionnaire ont un vrai pouvoir prédictif alors que d’autres, comme celle sur les loisirs, n’en ont pas. À la lumière de nos résultats, nous croyons qu’un instrument plus performant étant capable de prédire la récidive peut être créé en focalisant sur les variables ayant le plus grand pouvoir prédictif. Ces avancées permettront de mieux conseiller les prisonniers sur les programmes qu’ils devraient suivre lors de leur prise en charge par les centres de détention, et ainsi augmenter leurs chances d’être mieux réintégrés en société. / In this master thesis, we tried to determine the real influence of social rehabilitation programs on the risk of recidivism. To do this, we used a machine learning algorithm to analyze a database provided by the Quebec Ministry of Public Security (MSP). In this database, we are able to follow the numerous incarcerations of 97,140 prisoners from 2006 to 2018. Our analysis focuses only on inmates who have served in the prison in Quebec City. The approach we used is named Generalized Random Forests (GRF) and was developed by Athey et al. (2019). Our main analysis focuses not only on the characteristics of the prisoners, but also on the results they obtained when they were subjected to the LS/CMI, an extensive questionnaire aimed at determining the criminogenic needs and the risk level of the inmates . We also determined which variables have the most influence on predicting the treatment effect by using a function of the same algorithm that calculates the relative importance of each of the variables to make a prediction. By comparing participants and non-participants, we were able to demonstrate that participating in a program reduces the risk of recidivism by approximately 6.9% for a two-year trial period. Participating in a program always reduces significantly recidivism no matter the definition of recidivism used. We also determined that in terms of personal characteristics, it is the age, the nature of the offence and the number of years of study that are the main predictors for the individual causal effects. As for the LS/CMI, only a few sections of the questionnaire have real predictive power while others, like the one about leisure, do not. In light of our results, we believe that a more efficient instrument capable of predicting recidivism can be created by focusing on the newly identified variables with the greatest predictive power. A better instrument will make it possible to provide better counselling to prisoners on the programs they should follow, and thus increase their chances of being fully rehabilitated. Apprentissage automatique.
183	Algorithmes d'apprentissage automatique pour la conception de composés pharmaceutiques et de vaccins Giguère, Sébastien 23 April 2018 (has links) La découverte de composés pharmaceutiques est actuellement trop longue et trop coûteuse, et le taux d’échec, trop élevé. Les bases de données biochimiques et génomiques ne cessent de grossir et il est maintenant impraticable d’interpréter ces données. Un changement radical est nécessaire ; certaines étapes de ce processus doivent être automatisées. Les peptides jouent un rôle important dans le système immunitaire et dans la signalisation cellulaire. Leurs propriétés favorables en font des candidats de choix pour initier la conception de nouveaux médicaments et assister la production de nouveaux vaccins. De plus, les techniques de synthèse modernes permettent de rapidement synthétiser ces molécules à faible coût. Les algorithmes d’apprentissage statistique sont particulièrement bien adaptés pour apprendre de façon automatisée des modèles, possiblement biochimiques, à partir des données existantes. Ces méthodes et les peptides offrent donc une solution de choix aux défis auxquels fait face la recherche pharmaceutique. Nous proposons un noyau permettant l’apprentissage de modèles statistiques de phénomènes biochimiques impliquant des peptides. Celui-ci permet, entre autres, l’apprentissage d’un modèle universel pouvant raisonnablement quantifier l’énergie de liaison entre toute séquence peptidique et tout site de liaison d’une protéine cristallisée. De plus, il unifie la théorie de plusieurs noyaux existants tout en conservant une faible complexité algorithmique. Ce noyau s’avère particulièrement adapté pour quantifier l’interaction entre les antigènes et les complexes majeurs d’histocompatibilité. Nous proposons un outil pour prédire les peptides qui survivront au processus de présentation antigénique. Cet outil a gagné une compétition internationale et aura plusieurs applications en immunologie, dont la conception de vaccins. Ultimement, un peptide doit maximiser l’interaction avec une protéine cible ou maximiser la bioactivité chez l’hôte. Nous formalisons ce problème comme un problème de prédiction de structures. Puis, nous proposons un algorithme exploitant les plus longs chemins dans un graphe pour déterminer les peptides maximisant la bioactivité prédite par un modèle préalablement appris. Nous validons cette nouvelle approche en laboratoire par la découverte de peptides antimicrobiens. Finalement, nous fournissons des garanties de performance de type PAC-Bayes pour deux algorithmes de prédiction de structure dont un est nouveau. / The discovery of pharmaceutical compounds is currently too time-consuming, too expensive, and the failure rate is too high. Biochemical and genomic databases continue to grow and it is now impracticable to interpret these data. A radical change is needed; some steps in this process must be automated. Peptides are molecules that play an important role in the immune system and in cell signaling. Their favorable properties make them prime candidates for initiating the design of new drugs and assist in the design of vaccines. In addition, modern synthesis techniques can quickly generate these molecules at low cost. Statistical learning algorithms are well suited to manage large amount of data and to learn models in an automated fashion. These methods and peptides thus offer a solution of choice to the challenges facing pharmaceutical research. We propose a kernel for learning statistical models of biochemical phenomena involving peptides. This allows, among other things, to learn a universal model that can reasonably quantify the binding energy between any peptide sequence and any binding site of a protein. In addition, it unifies the theory of many existing string kernels while maintaining a low computational complexity. This kernel is particularly suitable for quantifying the interaction between antigens and proteins of the major histocompatibility complex. We provide a tool to predict peptides that are likely to be processed by the antigen presentation pathway. This tool has won an international competition and has several applications in immunology, including vaccine design. Ultimately, a peptide should maximize the interaction with a target protein or maximize bioactivity in the host. We formalize this problem as a structured prediction problem. Then, we propose an algorithm exploiting the longest paths in a graph to identify peptides maximizing the predicted bioactivity of a previously learned model. We validate this new approach in the laboratory with the discovery of new antimicrobial peptides. Finally, we provide PAC-Bayes bound for two structured prediction algorithms, one of which is new. QA 76.05 UL 2015 Apprentissage automatique Algorithmes Médicaments -- Conception Vaccins -- Conception Peptides
184	Statistical learning applied to cardiology : discriminative clustering and aortic stenosis phenogroups Ohl, Louis 28 June 2024 (has links) La sténose de la valve aortique (SA) est une maladie chronique progressive dont la prévalence risque de tripler dans les décennies à venir en Amérique du Nord et par conséquent ses impacts en santé et économie. À l'heure actuelle, aucun médicament contre la SA n'est disponible. La nécessité de pharmacothérapies adaptées pousse donc à l'exploration des différentes causes de la progression de la SA chez les patients. Bien qu'il existe déjà certaines sous-catégories de la SA, ces dernières sont difficiles à identifier et par conséquent à cibler par une thérapie. Afin de découvrir et identifier des causes potentielles de la SA, nous formulons la recherche de ces phénogroupes en tant que problème de partitionement. Le partitionnement est un problème issu du domaine d'apprentissage automatique consistant à répartir de multiples observations en groupes nommés clusters selon leurs similarités. Afin d'accompagner ce problème d'apprentissage automatique, nous utilisons l'étude sur le progression des déterminants métaboliques de la SA (étude PROGRESSA). L'étude PROGRESSA comprend trois modalités : clinicopathologique, protéomique et radiomique pour 351 patients avec suivi annuel. La structure de PROGRESSA est complexe : elle est de grande dimension avec des variables de natures différentes. De plus, les différentes modalités ne se recouvrent pas nécessairement. Dans ce contexte, nous formulons le problème de partitionnement à travers un prisme discriminatif, ce qui permet d'intégrer avec facilité des modèles d'apprentissage profond, notamment pour manipuler des données grande dimensions. Ces dernières années ont été marquées par l'arrivée de méthodes de partitionnement profonds, souvent basés sur la maximisation de l'information mutuellee. Cependant, les récents succès de ces méthodes sont souvent spécifique à un type unique de données et ne permettent donc pas d'anticiper leur applicabilité à un problème multi-source. Afin de construire une solution pour le problème de partitionnement multi-source, cette thèse s'orchestre autour du développement d'un ensemble de méthodes de clustering nommé information mutuelle généralisée (GEMINI) à partir du Chapitre 2. Cet ensemble de méthodes permet d'utiliser n'importe quelle architecture de réseau de neurones profonds sur des données de natures variées. Nous montrons également comment cette méthode peut être améliorée pour incorporer des méchanismes de sélections de vaiables afin de faciliter l'interprétation des clusters au Chapitre 3 : Sparse GEMINI. Puis nous complètons le spectre des modèles entraînables par GEMINI avec l'introduction d'arbres non supervisés donnant un clustering avec explication intégrée dans le chapitre 4. Enfin, nous terminons cette thèse avec un pipeline intégrant divers variants de GEMINI pour la découverte de phénogroupes de la SA dans l'étude PROGRESSA au Chapitre 5. Certains de ces phénogroupes montrent une mortalité accentuée et sont caractérisés par des marqueurs spécifiques, par exemple liés aux lipoprotéines, au diabète ou à la bicuspidie des valves aortiques. Ces phénogroupes peuvent ainsi être ciblés par des thérapies spécifiques afin de réduire le risque de progression de la maladie. / Aortic valve stenosis (AS) is a chronic progressive disease whose prevalence is likely to triple in the coming decades in North America, with a consequent impact on health and the economy. However, efficient drug therapies for this disease are not available. The need for appropriate medication is therefore driving the exploration of the various causes of AS progression in patients. There exist a few sub-categories of the disease that could be differently targeted by drugs, but they are hard to define and identify. To alleviate the finding of different possible causes of AS, we formulate the search of phenogroup (i.e. disease subtypes) as a clustering problem. Clustering is a family of approaches from machine learning that consists in gathering multiple observations deemed similar in categories called clusters. To support this machine learning problem instance, we employ the metabolic determinants of the progression of AS study (PROGRESSA study). The PROGRESSA dataset comprises 3 modalities: clinicopathological, proteomics and radiomics data for 351 patients with yearly follow-ups. The structure of the PROGRESSA study is challenging for current clustering algorithms: it is high-dimensional with mixed data types. Moreover, the different modalities of the data do not necessarily overlap, making it to a multi-source clustering problem. In this context, we formulate the clustering problem through the lens of discriminative clustering: a point of view that leverages the easy integration of deep learning models for handling and concatenating high-dimensional data. Within this framework, the last decade witnessed the impressive rise of deep clustering methods that often involves the maximisation of mutual information. However, the recent success of deep clustering models are often over-specified for one type of data and therefore hardly account for multi-modal data. To pave the way for a multi-source discriminative clustering algorithm, we developed a set of discriminative clustering methods called generalised mutual information (GEMINI) in Chapter 2. Thanks to its discriminative construction, this set of methods can be used with any deep neural network architecture on data of various types. We also show how this method can be improved to incorporate variable selection mechanisms to facilitate the interpretation of clusters in Chapter 3: Sparse GEMINI. Then, we complete the spectrum of models trainable by GEMINI in Chapter 4 with the introduction of unsupervised trees giving a clustering with integrated explanation. Finally, we conclude this thesis in Chapter 5 with a pipeline integrating various GEMINI variants for the discovery of AS phenogroups in the PROGRESSA study. Some of these phenogroups show increased mortality and are characterised by specific markers, for example linked to lipoproteins, diabetes or bicuspid aortic valves. These phenogroups can therefore be targeted by specific therapies to reduce the risk of disease progression. Groupement de données par classe. Classification automatique (Statistique) Apprentissage automatique.
185	Deep learning algorithms for database-driven peptide search Zumer, Jeremie 09 1900 (has links) Modern proteomics – the large-scale analysis of proteins (Graves and Haystead, 2002) – relies heavily on the analysis of complex raw experimental, time series-like data. In a typical shotgun mass spectrometry workflow where the goal is to identify proteins in solution, a complex protein mixture is prepared, digested, fractionated for example by mass range, ionized and injected into a mass spectrometer, resulting in a so-called mass spectrum which, in tandem mass spectrometry, achieves obtain amino acid-resolution signals for the detected peptides. The spectrum must be cleaned up to become suitable for further analysis, then the peaks defined by the m/z to intensity values in the spectrum can be matched to some expected peak sequence from a set of candidate peptides (which are often simply in silico digests from the source specie’s proteome), which is the process of peptide identification proper. In this work, we select and solve some current limitations in the computational side of peptide identification research. We first introduce a new, research-oriented search engine. A major question at the boundary of current proteomics research is the integration and viability of new deep learning-driven algorithms for identification. Very little work has been done on this topic so far, with Prosit (Gessulat et al., 2019) being the only such software to see integration in an existing search engine, as far as we are aware (although rescoring algorithms like Percolator (Käll et al., 2007), which typically use more classical machine learning algorithms, have been in routine use for a while by now, they are merely applied as a postprocessing step and not integrated in the engine per se). To investigate this, we develop and present a new deep learning algorithm that performs peptide length prediction from a spectrum (a first, as far as we are aware). We compute metrics based on this prediction that we use during rescoring, and demonstrate consistently improved peptide identifications. Moreover, we propose a new full spectrum prediction algorithm (in line with PredFull (Liu et al., 2020) rather than Prosit) and a novel, random forest-based rescoring algorithm and paradigm, which we integrate within our search engine. Altogether, the deep learning tools we propose show an increase of over 20% in peptide identification rates at a 1% false discovery rate (FDR) threshold. These results provide strong evidence that deep learning-based tools proposed for proteomics can greatly improve peptide identifications. / La protéomique moderne – l’analyse à grande échelle des protéines (Graves and Haystead, 2002) - dépend fortement de l’analyse de données expérimentales de série chronologique complexes. Dans un flux de travail typique de spectrométrie de masse en shotgun, où l’objectif est d’identifier les protéines en solution, un mélange complexe de protéines est préparé, digéré, fractionné par exemple par catégorie de masse ou par hydrophobicité, ionisé et injecté dans un spectromètre de masse, ce qui donne ce que l’on appel un spectre de masse. Dans le mode de spectrométrie de masse en tandem, il représente des signaux à la résolution des acides aminés sur les peptides présentes. Le spectre doit être nettoyé pour se prêter à une analyse plus approfondie, puis les pics définis par les couples de valeurs m/z et d’intensité dans le spectre peuvent être mis en correspondance avec une séquence de pics attendue selon la séquence hypothétique du peptide présent dans le spectre (qui sont souvent obtenus par digestions in-silico du protéome de l’espèce source) ; il s’agit du processus d’identification des peptides proprement dit. Dans ce travail, nous sélectionnons et résolvons certaines limitations actuelles spécifiques au côté informatique de la recherche sur l’identification des peptides. Nous introduisons d’abord un nouveau moteur d’identification axé sur la recherche. Une question majeure à la frontière actuelle en protéomique est l’intégration et la viabilité de nouveaux algorithmes basés sur l’apprentissage profond dans un contexte d’identification. Très peu de travail a été effectué sur ce sujet jusqu’à présent, Prosit (Gessulat et al., 2019) étant le seul logiciel de ce type à voir l’intégration dans un moteur de recherche préexistant, au meilleures de nos connaissances (bien que des algorithmes de rescoring comme Percolator (Käll et al., 2007) , qui utilisent généralement des algorithmes d’apprentissage automatique plus classiques, sont habituellement utilisés depuis un certain temps maintenant, ils sont simplement appliqués comme étape de post-traitement et non intégrés dans le moteur). Pour étudier ce problème, nous développons et présentons un nouvel algorithme d’apprentissage en profondeur qui effectue la prédiction de la longueur des peptides à partir d’un spectre (le premier algorithme de ce type), et calculons des métriques basées sur cette prédiction. Nous utilisons l’algorithme résultant pour démontrer des identifications de peptides constamment améliorées après intégration dans notre engin. De plus, nous proposons un nouvel algorithme de prédiction de 5 spectres complets (conforme à PredFull (Liu et al., 2020) plutôt qu’à Prosit) ainsi qu’un nouvel algorithme et paradigme de rescoring basé sur la forêt aléatoire, que nous intégrons encore à notre moteur de recherche. En somme, les outils d’apprentissage en profondeur que nous proposons démontrent une amélioration de plus de 20% des taux d’identification de peptides à un seuil de taux de fausse découverte (FDR) de 1%. Ces résultats suggèrent pour la première fois que les algorithmes d’apprentissage profonds proposés en protéomique peuvent en effet largement améliorer les identifications. Apprentissage profond Apprentissage automatique Peptide Protéomique Deep learning Machine learning Proteomics
186	Détection précoce de ravageurs sur les plantes de cannabis par imagerie multispectrale : intelligence artificielle et apprentissage automatique Si Ahmed, Ahmed 30 April 2024 (has links) Ce mémoire porte sur l'étude de nouvelles méthodes de détection précoce des maladies sur les plantes du cannabis avec de l'imagerie par tests non-destructifs. Ces méthodes permettent la détection des ravageurs sur les plantes du cannabis à l'état précoce à partir d'images multispectrales et ainsi facilitent l'automatisation de l'inspection et la surveillance des cultures. Le travail se sépare en trois parties. Premièrement, les différentes techniques utilisées dans ce domaine pour la détection des plantes malades ainsi que la surveillance de celle-ci seront détaillées. Ensuite, il sera question d'un article publié dans le cadre de la conférence SPIE Defense + Commercial Sensing (Ahmed, et al., 2023). Cet article propose une nouvelle méthode pour la détection précoce des maladies sur les plants de cannabis en utilisant l'intelligence artificielle et l'imagerie multispectrale. À ce jour, il s'agit du premier article disponible avec cette méthode testée sur des plants du cannabis. Il permet d'introduire le reste de ce mémoire puisque le travail fait dans le cadre de cet article a directement contribué au reste de la recherche. Il sera ensuite question du travail effectué pour obtenir des images multispectrales avec la caméra multispectrale Micasense Red-Edge. Nous parlerons de la nouvelle méthode qui a été appliquée pour réussir la détection. Pour terminer, nous montrerons les résultats de ce projet sous la forme de graphes et de tableaux des différentes prédictions Insectes nuisibles -- Détection. Imagerie multispectrale. Apprentissage automatique.
187	Analyse et prédiction de la relation séquence - structure locale et flexibilité au sein des protéines globulaires Bornot, Aurélie 05 November 2009 (has links) (PDF) La prédiction in silico de la structure tridimensionnelle d'une protéine à partir de sa séquence en acides aminés constitue un défi scientifique d'intérêt majeur. Il est à présent admis que les structures protéiques peuvent être décrites à partir d'un répertoire limité de structures locales récurrentes. Cette observation a conduit au développement de techniques de prédiction de la structure 3D par assemblage de fragments. Ces techniques sont aujourd'hui parmi les plus performantes. Dans ce contexte, la prédiction des structures locales constitue une première étape vers la prédiction de la structure 3D globale d'une protéine. Mon travail de thèse porte principalement sur l'étude des structures protéiques locales à travers deux thèmes : (i) la prédiction des structures locales à partir de la séquence et (ii) l'analyse de la prédictibilité des structures locales en fonction de la flexibilité des structures protéiques. Ces études reposent sur une bibliothèque de 120 fragments chevauchants de 11 résidus de long précédemment développée au sein du laboratoire. Une méthode de prédiction des structures locales à partir de la séquence avait également été mise en place et permettait d'obtenir un taux de prédiction correct de 51 %. La prise en compte de données évolutionnaires couplée à l'utilisation de Machines à Vecteurs de Support a permis d'améliorer la prédiction des structures locales jusqu'à 63 % de prédiction correctes. De plus, un indice de confiance permettant d'évaluer directement la qualité de la prédiction et ainsi d'identifier les régions plus ardues à prédire a été mis au point. Par ailleurs, la structure des protéines n'est pas rigide. Ainsi, j'ai étendu notre analyse à l'étude la prédictibilité structurale des séquences d'acides aminés en fonction de leur flexibilité structurale au sein des protéines. Une analyse des propriétés dynamiques des structures locales a été menée en s'appuyant sur (i) les B-facteurs issus des expériences de cristallographie et (ii) les fluctuations du squelette polypeptidique observées lors de simulations de dynamique moléculaire. Ces analyses de la relation flexibilité-structure locale ont conduit au développement d'une stratégie de prédiction originale de la flexibilité à partir de la séquence. Nos différentes approches constituent une première étape vers la prédiction de la structure tridimensionnelle globale d'une protéine. Apprentissage automatique SVM
188	Conception et mise en œuvre d'algorithmes de vision temps-réel pour la vidéo surveillance intelligente Ghorayeb, Hicham 12 September 2007 (has links) (PDF) Notre objectif est d'étudier les algorithmes de vision utilisés aux différents niveaux dans une chaîne de traitement vidéo intelligente. On a prototypé une chaîne de traitement générique dédiée à l'analyse du contenu du flux vidéo. En se basant sur cette chaîne de traitement, on a développé une application de détection et de suivi de piétons. Cette application est une partie intégrante du projet PUVAME. Cette chaîne de traitement générique est composée de plusieurs étapes: détection, classification et suivi d'objets. D'autres étapes de plus haut niveau sont envisagées comme la reconnaissance d'actions, l'identification, la description sémantique ainsi que la fusion des données de plusieurs caméras. On s'est intéressé aux deux premières étapes. On a exploré des algorithmes de segmentation du fond dans un flux vidéo avec caméra fixe. On a implémenté et comparé des algorithmes basés sur la modélisation adaptative du fond. On a aussi exploré la détection visuelle d'objets basée sur l'apprentissage automatique en utilisant la technique du boosting. Cependant, On a développé une librairie intitulée LibAdaBoost qui servira comme un environnement de prototypage d'algorithmes d'apprentissage automatique. On a prototypé la technique du boosting au sein de cette librairie. On a distribué LibAdaBoost sous la licence LGPL. Cette librairie est unique avec les fonctionnalités qu'elle offre. On a exploré l'utilisation des cartes graphiques pour l'accélération des algorithmes de vision. On a effectué le portage du détecteur visuel d'objets basé sur un classifieur généré par le boosting pour qu'il s'exécute sur le processeur graphique. On était les premiers à effectuer ce portage. On a trouvé que l'architecture du processeur graphique est la mieux adaptée pour ce genre d'algorithmes. La chaîne de traitement a été implémentée et intégrée à l'environnement RTMaps. On a évalué ces algorithmes sur des scénarios bien définis. Ces scénarios ont été définis dans le cadre de PUVAME. [MATH] Mathematics Vidéo surveillance Boosting Reconnaissance automatique des formes Système de transport intelligent Apprentissage automatique Détection objet en mouvement méthode Monte Carlo
189	Méthodes d'apprentissage pour l'estimation de la pose de la tête dans des images monoculaires Bailly, Kévin 09 July 2010 (has links) (PDF) Cette thèse s'inscrit dans le cadre de PILE, un projet médical d'analyse du regard, des gestes, et des productions vocales d'enfants en bas âge. Dans ce contexte, nous avons conçu et développé des méthodes de détermination de l'orientation de la tête, pierre angulaire des systèmes d'estimation de la direction du regard. D'un point de vue méthodologique, nous avons proposé BISAR (Boosted Input Selection Algorithm for Regression), une méthode de sélection de caractéristiques adaptée aux problèmes de régression. Elle consiste à sélectionner itérativement les entrées d'un réseau de neurones incrémental. Chaque entrée est associée à un descripteur sélectionné à l'aide d'un critère original qui mesure la dépendance fonctionnelle entre un descripteur et les valeurs à prédire. La complémentarité des descripteurs est assurée par un processus de boosting qui modifie, à chaque itération, la distribution des poids associés aux exemples d'apprentissage. Cet algorithme a été validé expérimentalement au travers de deux méthodes d'estimation de la pose de la tête. La première approche apprend directement la relation entre l'apparence d'un visage et sa pose. La seconde aligne un modèle de visage dans une image, puis estime géométriquement l'orientation de ce modèle. Le processus d'alignement repose sur une fonction de coût qui évalue la qualité de l'alignement. Cette fonction est apprise par BISAR à partir d'exemples de modèles plus ou moins bien alignés. Les évaluations de ces méthodes ont donné des résultats équivalents ou supérieurs aux méthodes de l'état de l'art sur différentes bases présentant de fortes variations de pose, d'identité, d'illumination et de conditions de prise de vues. pose de la tête modèle déformable alignement sélection de descripteurs régression réseau de neurones incrémental apprentissage automatique boosting
190	Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles Nguyen, Tuan Dang 25 September 2006 (has links) (PDF) Les ressources d'information multilingues sur le Web sont devenues de plus en plus des objets d'études importantes pour différents domaines intervenant au traitement de l'information. Néanmoins, nous constatons que la structure des ressources multilingues est très peu explorée par rapport à l'abondance des méthodes de traitement automatique des langues naturelles. Dans cette thèse, nous abordons l'aspect multilinguisme dans un contexte de catégorisation des sites Web multilingues. Nous apportons quelques connaissances expérimentales portant sur la représentation de documents multilingues, la modélisation des données en une structure homogène, la qualité de la recherche d'information dans un contexte multilingues et enfin sur les notions de frontière et de centre de gravité pour départager des langues dominantes sans puiser dans des connaissances linguistiques. [INFO:INFO_OH] Computer Science/Other Apprentissage automatique Catégorisation Classication Extraction<br />d'information Fouille de textes Fouille de Web Multilinguisme

Search results