• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 49
  • 49
  • 18
  • 1
  • Tagged with
  • 119
  • 78
  • 24
  • 21
  • 20
  • 20
  • 18
  • 15
  • 15
  • 15
  • 15
  • 14
  • 14
  • 14
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Applications de l'apprentissage statistique à la biologie computationnelle

Pauwels, Edouard 14 November 2013 (has links) (PDF)
Les biotechnologies sont arrivées au point ou la quantité d'information disponible permet de penser les objets biologiques comme des systèmes complexes. Dans ce contexte, les phénomènes qui émergent de ces systèmes sont intimement liés aux spécificités de leur organisation. Cela pose des problèmes computationnels et statistiques qui sont précisément l'objet d'étude de la communauté liée à l'apprentissage statistique. Cette thèse traite d'applications de méthodes d'apprentissage pour l'étude de phénomène biologique dans une perspective de système complexe. Ces méthodes sont appliquées dans le cadre de l'analyse d'interactions protéine-ligand et d'effets secondaires, du phenotypage de populations de cellules et du plan d'expérience pour des systèmes dynamiques non linéaires partiellement observés.D'importantes quantités de données sont désormais disponibles concernant les molécules mises sur le marché, tels que les profils d'interactions protéiques et d'effets secondaires. Cela pose le problème d'intégrer ces données et de trouver une forme de structure sous tendant ces observations à grandes échelles. Nous appliquons des méthodes récentes d'apprentissage non supervisé à l'analyse d'importants jeux de données sur des médicaments. Des exemples illustrent la pertinence de l'information extraite qui est ensuite validée dans un contexte de prédiction.Les variations de réponses à un traitement entre différents individus posent le problème de définir l'effet d'un stimulus à l'échelle d'une population d'individus. Par exemple, dans le contexte de la microscopie à haut débit, une population de cellules est exposée à différents stimuli. Les variations d'une cellule à l'autre rendent la comparaison de différents traitement non triviale. Un modèle génératif est proposé pour attaquer ce problème et ses propriétés sont étudiées sur la base de données expérimentales.A l'échelle moléculaire, des comportements complexes émergent de cascades d'interactions non linéaires entre différentes espèces moléculaires. Ces non linéarités engendrent des problèmes d'identifiabilité du système. Elles peuvent cependant être contournées par des plans expérimentaux spécifiques, un des champs de recherche de la biologie des systèmes. Une stratégie Bayésienne itérative de plan expérimental est proposée est des résultats numériques basés sur des simulations in silico d'un réseau biologique sont présentées.
62

Élaboration d'un corpus étalon pour l'évaluation d'extracteurs de termes

Bernier-Colborne, Gabriel 05 1900 (has links)
Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction. / We describe a methodology for constructing a gold standard for the automatic evaluation of term extractors. These programs, designed to automatically extract specialized terms from a corpus, are used in various settings, including terminology work, translation, information retrieval, indexing, etc. Thus, the evaluation of term extractors must be carried out in accordance with a specific application. One way of evaluating term extractors is to construct a corpus in which all term occurrences have been annotated. This involves establishing a protocol for term selection and term boundary identification. To our knowledge, no well-documented annotated corpus is available for the evaluation of term extractors. This contribution aims to build such a corpus and describe what issues must be dealt with in the process. The gold standard we propose is a fully annotated corpus, constructed in accordance with a specific terminological setting, namely the compilation of a specialized dictionary of automotive mechanics. This annotated corpus accounts for the wide variety of realizations of terms in context. Terms are selected in accordance with specific criteria pertaining to the terminological setting as well as formal, linguistic and conceptual properties of terms and term variations. To evaluate a term extractor, a list of all the terminological units in the corpus is extracted and compared to the output of the term extractor, using a set of metrics to assess its performance. Subsets of terminological units may also be extracted, providing a level of customization. This allows an automatic and application-driven evaluation of term extractors. Due to its reusability, it can serve not only to assess the performance of a particular extractor, but also to compare different extractors and fine-tune extraction techniques.
63

Modélisation cognitive computationnelle de la recherche d'information utilisant des données oculomotrices

Lopez orozco, Francisco 16 July 2013 (has links) (PDF)
Cette thèse en informatique présente un travail de modélisation cognitive computationnelle, à partir de données de mouvements oculaires lors de tâches de recherche d'information dans des textes. Nous nous intéressons à cette situation quotidienne de recherche d'informations dans un journal ou une page web, dans laquelle il faut juger si un texte est sémantiquement relié ou non à un but, exprimé par quelques mots. Parce que le temps est souvent une contrainte, les textes ne sont souvent pas entièrement lus avant qu'intervienne la décision. Plus précisément, nous avons analysé les mouvements des yeux dans deux tâches de recherche d'information consistant à lire un paragraphe et à décider rapidement i) s'il est associé à un but donné et ii) s'il est plus associé à un but donné qu'un autre paragraphe traité auparavant. Un modèle est proposé pour chacune de ces situations. Nos simulations sont réalisées au niveau des fixations et des saccades oculaires. En particulier, nous prédisons le moment auquel les participants décident d'abandonner la lecture du paragraphe parce qu'ils ont suffisamment d'information pour prendre leur décision. Les modèles font ces prédictions par rapport aux mots qui sont susceptibles d'être traités avant que le paragraphe soit abandonné. Les jugements d'association sémantiques humains sont reproduits par le calcul des similarités sémantiques entre mots produits par l'analyse de la sémantique latente (LSA, Landauer et al., 2007). Nous avons suivi une approche statistique paramétrique dans la construction de nos modèles. Ils sont basés sur un classifieur bayésien. Nous proposons un seuil linéaire bi-dimensionnel pour rendre compte de la décision d'arrêter de lire un paragraphe, utilisant le Rang de la fixation et i) la similarité sémantique (Cos) entre le paragraphe et le but ainsi que ii) la différence de similarité sémantique (Gap) entre chaque paragraphe et le but. Pour chacun des modèles, les performances montrent que nous sommes capables de reproduire en moyenne le comportement des participants face aux tâches de recherche d'information étudiées durant cette thèse. Cette thèse comprend deux parties principales : 1) la conception et la passation d'expériences psychophysiques pour acquérir des données de mouvements oculaires et 2) le développement et le test de modèles cognitifs computationnels.
64

Influence of heat transfer on high pressure flame structure and stabilization in liquid rocket engines / Influence des transferts thermiques sur la structure et la stabilisation de flamme à haute pression dans les moteurs fusées cryotechniques

Mari, Raphaël 25 June 2015 (has links)
Ce travail de recherche s’intéresse au problème de la stabilisation de flammes, et du transfert de chaleur résultant, dans les moteurs fusées cryogéniques. La stabilisation de flamme dans un moteur fusée est un phénomène critique, et toute instabilité peut conduire à des dégâts importants, voire à la destruction du lanceur et des satellites embarqués. Les moteurs (Vulcain 2 et Vinci) qui équipent Ariane 5, et la future Ariane 6, utilisent le couple hydrogène / oxygène, dont la grande impulsion spécifique permet, en minimisant la masse des ergols par rapport à la masse de la charge, une meilleure performance du lanceur. Pour réduire le volume de stockage, les ergols sont refroidis à des températures très basses de l’ordre de quelques dizaines de Kelvin. Ils alimentent une flamme dont la température maximale peut atteindre 3500K, générant de très forts gradients de température dans le fluide, et des flux de chaleur extrêmes dans les parties solides de l’injecteur. Pour prédire les flux de chaleur entre la flamme, l’injecteur et les ergols froids, l’approche de Simulation aux Grandes Echelles (SGE), pour reproduire l’écoulement réactif turbulent instationnaire, est couplée au calcul de thermique du solide dans l’injecteur. Cette approche est d’abord validée par comparaison à une expérience en conditions ambiantes, menée au Laboratoire EM2C (Paris). L’interaction flamme-paroi en présence de transfert de chaleur, qui est un mécanisme de base de la stabilisation de flamme, est ensuite étudiée pour différents niveaux de pression. Finalement une configuration représentative d’un injecteur coaxial de moteur fusée est simulée pour étudier la structure et les mécanismes de stabilisation de la flamme, ainsi que les flux de chaleur reçus par l’injecteur, en vue d’évaluer la fatigue thermique du système. / This research work deals with the problem of the flame stabilization in the context of high pressure liquid rocket engines. Flame stabilization in a rocket engine is a critical feature. An instability can lead to important damages of the engine or the destruction of the launcher and the satellite. The engines (Vulcain 2 and Vinci) of the Ariane 5, and the future Ariane 6, use the hydrogen/oxygen propellants. One characteristic of this couple is its high specific impulse. The launcher performance is linked to the ratio of the payload to the total mass of propellants. For volume reasons the propellants are stored at low temperature of the order of a few tens of Kelvin. When injected in the combustion chamber, their combustion releases a huge amount of heat leading to temperature of 3500K. In order to predict the heat transfer between the flame, the solid injector and the cold propellants the Large Eddy Simulation, which allows to capture the unsteady features of the flow, is used in association with a thermal solver for the injector. This approach is validated with a low pressure experiment conducted at Centrale Paris, then a basic 1D configuration allows to understand the phenomena of high pressure flame-wall interaction. Finally a configuration representative of a coaxial rocket engine injector allows to evaluate the structure and the stabilization mechanisms of a cryogenic flame, the heat flux and the temperature of the injector.
65

A Theoretical Perspective on Hydrogenation and Oligomerization of Acetylene over Pd Based Catalysts / Une étude théorique de l’hydrogénation et l’oligomérisation de l’acétylène sur des catalyseurs de palladium

Vignola, Emanuele 29 September 2017 (has links)
L’hydrogénation sélective de l’acétylène est un processus fondamental pour l’industrie pétrochimique qui permet la purification de l’éthylène utilisé dans les réactions de polymérisation. Ce processus est promu par des catalyseurs au palladium, qui présentent une bonne sélectivité en éthylène par rapport au produit d’hydrogénation totale, c’est-à-dire l’éthane. Les catalyseurs de palladium pur sont malheureusement désactivés par des oligomères qui se forment comme sous-produits de la réaction d’hydrogénation. Les catalyseurs d’usage industriel sont, pour cette raison, plutôt des alliages de palladium avec d’autres métaux, comme par exemple, l’argent. Ces alliages réduisent la production des oligomères, sans pour autant les supprimer complètement. Ce travail de thèse a été focalisé sur la compréhension à l’échelle moléculaire de la formation de ce mélange d’oligomères, souvent appelée « huile verte ». Pour commencer, une approche de champ moyen a été développée pour déterminer rapidement l’état de la surface catalytique de l’alliage Pd-Ag en condition de réaction. Ce modèle a montré que l’acétylène est capable de réorganiser la couche de la surface et de générer des îles de palladium. Pour confirmer cette prédiction, nous avons effectué des simulations Monte Carlo en utilisant un Hamiltonien modèle. Ces calculs ont produits des résultats similaires au modèle analytique simple. Ayant attribué la formation des oligomères aux domaines de palladium ainsi obtenus, les étapes de d’oligomérisation ont été étudies et comparés à celles qui décrivent l’hydrogénation de l’acétylène. Les calculs, réalisé avec l’approximation de la théorie de la fonctionnelle de la densité (DFT), ont montré que la formation des oligomères est compétitive avec l’hydrogénation. En plus, les oligomères sont plus faciles à hydrogéner que l’acétylene et pourraient, donc, impacter négativement sur l’hydrogénation sélective de l’acétylène. Le rôle exact des îles de palladium sous conditions réalistes est encore à clarifier, sachant que le palladium est recouvert d’une grande variété d’espèces chimiques. Les techniques d’intelligence artificielle peuvent aider à atteindre ce but : nous avons ainsi démontré qu’il est possible d’interpoler les résultats des calculs DFT d’une façon automatique et de décrire l’énergie du système en série de coefficients « cluster ». Ceci permet de prendre en compte les interactions latérales entre espèces chimiques à la surface du palladium. / Selective hydrogenation of acetylene in ethylene-rich flows is a fundamental process in the petrochemical industry since it allows the purification of ethylene for polymer applications. The reaction is catalyzed by Pd, which features acceptable selectivity towards ethylene compared to the total hydrogenation product, ethane. Pure Pd is, however, deactivated by oligomeric byproducts, known as ”green oil” in the literature. Therefore, most industrial catalysts are Pd-Ag alloys, where Ag helps to suppress the secondary reactions. This work addresses the formation of initial oligomers on Pd and Ag-Pd catalysts. A mean field based theoretical model was built to efficiently screen the topology of the topper most layer of the alloy catalyst under relevant conditions. This model gave evidence for strongly favored Pd island formation. To confirm this result, the system was then re-investigated by means of Monte Carlo simulations including the effect of segregation. Emergence of large domains of Pd were confirmed over large ratios of Ag to Pd. Green oil is expected to form on these catalytically active islands. To obtain a detailed view on the oligomerization process, activation energies were computed both for hydrogenation and oligomerization steps by periodic density functional theory on Pd(111). Oligomerization was found to be competitive with hydrogenation, with the hydrogenation of the oligomers being among the fastest processes. The role of Pd domains to green oil formation is still to be clarified under realistic conditions, where the surface is covered by many different species. A step forward to this goal was taken by developing a machine-learning tool which automatically interpolates model Hamiltonians on graphical lattices based on DFT computations, accounting for lateral interactions and distorted adsorption modes on crowded surfaces.
66

Un environnement générique et ouvert pour le traitement des expressions polylexicales : de l'acquisition aux applications / A generic and open framework for multiword expressions treatment : from acquisition to applications

Ramisch, Carlos Eduardo 11 September 2012 (has links)
Cette thèse présente un environnement ouvert et souple pour l'acquisition automatique d'expressions multimots (MWE) à partir de corpus textuels monolingues. Cette recherche est motivée par l'importance des MWE pour les applications du TALN. Après avoir brièvement présenté les modules de l'environnement, le mémoire présente des résultats d'évaluation intrinsèque en utilisant deux applications: la lexicographie assistée par ordinateur et la traduction automatique statistique. Ces deux applications peuvent bénéficier de l'acquisition automatique de MWE, et les expressions acquises automatiquement à partir de corpus peuvent à la fois les accélérer et améliorer leur qualité. Les résultats prometteurs de nos expériences nous encouragent à mener des recherches ultérieures sur la façon optimale d'intégrer le traitement des MWE dans ces applications et dans bien d'autres / This thesis presents an open and flexible methodological framework for the automatic acquisition of multiword expressions (MWEs) from monolingual textual corpora. This research is motivated by the importance of MWEs for NLP applications. After briefly presenting the modules of the framework, the work reports extrinsic evaluation results considering two applications: computer-aided lexicography and statistical machine translation. Both applications can benefit from automatic MWE acquisition and the expressions acquired automatically from corpora can both speed up and improve their quality. The promising results of our experiments encourage further investigation about the optimal way to integrate MWE treatment into these and many other applications.
67

COSMO : un modèle bayésien des interactions sensori-motrices dans la perception de la parole / COSMO : a Bayesian model of sensori-motor interactions in speech perception

Laurent, Raphael 08 October 2014 (has links)
Si la parole est une faculté dont l'usage nous semble parfaitement naturel,il reste toutefois beaucoup à comprendre sur la nature des représentations et des processus cognitifs qui la gouvernent. Au cœur de cette thèse se trouve la question des interactions entre perception et action dans la production et la perception de syllabes. Nous adoptons le cadre rigoureux de la programmation bayésienne au sein duquel nous définissons mathématiquement le modèle COSMO (pour "Communicating Objects using Sensori-Motor Operations"), qui permet de formaliser les théories motrice, auditive et perceptuo-motrice de la communication parlée et de les étudier quantitativement. Cette approche conduit à un premier résultat théorique fort : nous démontrons un théorème d'indistinguabilité d'après lequel, lorsque l'on pose certaines hypothèses de conditions idéales d'apprentissage, les théories auditive et motrice font des prédictions identiques pour des tâches de perception, et sont de ce fait indistinguables. Pour s'éloigner de ces conditions, nous proposons un algorithme original d'apprentissage sensori-moteur “par accommodation”, qui permet de s'adapter au bain acoustique ambiant tout en développant des idiosyncrasies. Cet algorithme d'apprentissage par imitation de ciblesacoustiques permet l'apprentissage de compétences motrices à partir d'entrées perceptives uniquement, avec la propriété remarquable de se focaliser sur les régions d'intérêt pour l'apprentissage. Nous utilisons des syllabes synthétisées grâce au modèle de conduit vocal VLAM pour analyser les dynamiques d'évolution des modèles appris ainsi que leur robustesse aux dégradations. / While speech communication is a faculty that seems natural, a lot remainsto be understood about the nature of the cognitive representations and processes that are involved. Central to this PhD research is the study of interactions between perception and action during production or perception of syllables. We choose Bayesian Programming as a rigorous framework within which we provide a mathematical definition of the COSMO model ("Communicating Objects using Sensori-Motor Operations"), which allows to formalize motor, auditory and perceptuo-motor theories of speech communication and to study them quantitatively. This approach first leads to a strong theoretical result:we prove an indistinguishability theorem, according to which, given some ideal learning conditions, motor and auditory theories make identical predictions for perception tasks, and therefore cannot be distinguished empirically. To depart from these conditions, we introduce an original “learning by accommodation” algorithm, which enables to adapt to the ambient acoustic environment as well as to develop idiosyncrasies. This algorithm, which learns by mimicking acoustic targets, allows to acquire motor skills from acoustic inputs only, with the remarkable property of focusing its learning on the adequate regions. We use syllables synthesized by a vocal tract model (VLAM ) to analyse how thedifferent models evolve through learning and how robust they are to degradations.
68

Contributions to static and adjustable robust linear optimization / Contributions à l’optimisation linéaire robuste statique et ajustable

Costa Santos, Marcio 25 November 2016 (has links)
L'incertitude a été toujours présente dans les problèmes d'optimisation. Dans ce travail, nous nous intéressons aux problèmes d'optimisation multi-niveaux où l'incertitude apparaît très naturellement. Les problèmes d'optimisation multi-niveaux avec incertitude ont suscité un intérêt à la fois théorique et pratique. L'optimisation robuste fait partie des méthodes les plus étudiées pour traiter ces problèmes. En optimisation robuste, nous cherchons une solution qui optimise la fonction objective pour le pire scénario appartenant à un ensemble d'incertitude donné. Les problèmes d'optimisation robuste multi-niveaux sont difficiles à résoudre, même de façon heuristique. Dans cette thèse, nous abordons les problèmes d'optimisation robuste à travers le prisme des méthodes de décomposition. Ces méthodes décomposent le problème en un problème maître (MP) et plusieurs problèmes satellites de séparation (AP). Dans ce contexte, les solutions et les relaxations heuristiques ont une importance particulière. Même pour les problèmes d'optimisation combinatoires, les relaxations sont importantes pour analyser l'écart de l'optimalité des solutions heuristiques. Un autre aspect important est l'utilisation des heuristiques comme integrés dans une méthode exacte. Les principales contributions de ce travail sont les suivantes. Premièrement, nous proposons une nouvelle relaxation pour les problèmes multi-niveaux basée sur l’approche dite d’information parfaite dans le domaine de l’optimisation stochastique. L'idée principale derrière cette méthode est d'éliminer les contraintes de non anticipativité du modèle pour obtenir un problème plus simple. Nous pouvons ensuite fournir des algorithmes combinatoires ad-hoc et des formulations de programmation mixte en nombres entiers compactes pour ce problème. Deuxièmement, nous proposons de nouveaux algorithmes de programmation dynamique pour résoudre les problèmes satellites apparaissant dans une classe spécifique de problèmes robustes pour un ensemble d'incertitude de type budget. Ce type d'incertitude est basé sur le nombre maximum d'écarts autorisés et leur taille. Ces algorithmes peuvent être appliqués à des problèmes de lot-sizing et à des problèmes de tournées de véhicules. Enfin, nous proposons un modèle robuste pour un problème lié à l’installation équitable de capteurs. Ce modèle fait le lien entre l'optimisation robuste et l'optimisation stochastique avec contraintes probabilistes ambigües. / Uncertainty has always been present in optimization problems, and it arises even more severely in multistage optimization problems. Multistage optimization problems underuncertainty have attracted interest from both the theoretical and the practical level.Robust optimization stands among the most established methodologies for dealing with such problems. In robust optimization, we look for a solution that optimizes the objective function for the worst possible scenario, in a given uncertainty set. Robust multi-stage optimization problems are hard to solve even heuristically. In this thesis, we address robust optimization problems through the lens of decompositions methods. These methods are based on the decomposition of the robust problem into a master problem (MP) and several adversarial separation problems (APs). The master problem contains the original robust constraints, however, written only for finite numbers of scenarios. Additional scenarios are generated on the y by solving the APs. In this context, heuristic solutions and relaxations have a particular importance. Similarly to combinatorial optimization problems, relaxations are important to analyze the optimality gap of heuristic solutions. Heuristic solutions represent a substantial gain from the computational viewpoint, especially when used to solve the separation problem. Because the adversarial problems must be solved several times, good heuristic solution may avoid the exact solution of the APs. The main contributions of this work are three-fold. First, we propose a new relaxation for multi-stage problems based on the approach named perfect information in the field of stochastic optimization. The main idea behind this method is to remove nonanticipativity constraints from the model to obtain a simpler problem for which we can provide ad-hoc combinatorial algorithms and compact mixed integer programming formulations. Second, we propose new dynamic programming algorithms to solve the APs for robust problems involving budgeted uncertainty, which are based on the maximum number of deviations allowed and on the size of the deviations. These algorithms can be applied to lot-sizing problems and vehicle routing problems among others. Finally, we study the robust equitable sensor location problem. We make the connection between the robust optimization and the stochastic programming with ambiguous probabilistic constraints. We propose linear models for several variants of the problem together withnumerical results.
69

Approche théorique et expérimentale combinée dans l’exploration de LiFeV2O7 et son application comme matériau d’électrode positive pour batterie aux ions lithium

Benabed, Yasmine 10 1900 (has links)
No description available.
70

Applications de l'apprentissage statistique à la biologie computationnelle / Applications of machine learning in computational biology

Pauwels, Edouard 14 November 2013 (has links)
Les biotechnologies sont arrivées au point ou la quantité d'information disponible permet de penser les objets biologiques comme des systèmes complexes. Dans ce contexte, les phénomènes qui émergent de ces systèmes sont intimement liés aux spécificités de leur organisation. Cela pose des problèmes computationnels et statistiques qui sont précisément l'objet d'étude de la communauté liée à l'apprentissage statistique. Cette thèse traite d'applications de méthodes d'apprentissage pour l'étude de phénomène biologique dans une perspective de système complexe. Ces méthodes sont appliquées dans le cadre de l'analyse d'interactions protéine-ligand et d'effets secondaires, du phenotypage de populations de cellules et du plan d'expérience pour des systèmes dynamiques non linéaires partiellement observés.D'importantes quantités de données sont désormais disponibles concernant les molécules mises sur le marché, tels que les profils d'interactions protéiques et d'effets secondaires. Cela pose le problème d'intégrer ces données et de trouver une forme de structure sous tendant ces observations à grandes échelles. Nous appliquons des méthodes récentes d'apprentissage non supervisé à l'analyse d'importants jeux de données sur des médicaments. Des exemples illustrent la pertinence de l'information extraite qui est ensuite validée dans un contexte de prédiction.Les variations de réponses à un traitement entre différents individus posent le problème de définir l'effet d'un stimulus à l'échelle d'une population d'individus. Par exemple, dans le contexte de la microscopie à haut débit, une population de cellules est exposée à différents stimuli. Les variations d'une cellule à l'autre rendent la comparaison de différents traitement non triviale. Un modèle génératif est proposé pour attaquer ce problème et ses propriétés sont étudiées sur la base de données expérimentales.A l'échelle moléculaire, des comportements complexes émergent de cascades d'interactions non linéaires entre différentes espèces moléculaires. Ces non linéarités engendrent des problèmes d'identifiabilité du système. Elles peuvent cependant être contournées par des plans expérimentaux spécifiques, un des champs de recherche de la biologie des systèmes. Une stratégie Bayésienne itérative de plan expérimental est proposée est des résultats numériques basés sur des simulations in silico d'un réseau biologique sont présentées. / Biotechnologies came to an era where the amount of information one has access to allows to think about biological objects as complex systems. In this context, the phenomena emerging from those systems are tightly linked to their organizational properties. This raises computational and statistical challenges which are precisely the focus of study of the machine learning community. This thesis is about applications of machine learning methods to study biological phenomena from a complex systems viewpoint. We apply machine learning methods in the context of protein-ligand interaction and side effect analysis, cell population phenotyping and experimental design for partially observed non linear dynamical systems.Large amount of data is available about marketed molecules, such as protein target interaction profiles and side effect profiles. This raises the issue of making sense of this data and finding structure and patterns that underlie these observations at a large scale. We apply recent unsupervised learning methods to the analysis of large datasets of marketed drugs. Examples show the relevance of extracted information which is further validated in a prediction context.The variability of the response to a treatment between different individuals poses the challenge of defining the effect of this stimulus at the level of a population of individuals. For example in the context High Content Screening, a population of cells is exposed to different stimuli. Between cell variability within a population renders the comparison of different treatments difficult. A generative model is proposed to overcome this issue and properties of the model are investigated based on experimental data.At the molecular scale, complex behaviour emerge from cascades of non linear interaction between molecular species. These non linearities leads to system identifiability issues. These can be overcome by specific experimental plan, one of the field of research in systems biology. A Bayesian iterative experimental design strategy is proposed and numerical results based on in silico biological network simulations are presented.

Page generated in 0.081 seconds