Global ETD Search

41	Optimisation du test de production de circuits analogiques et RF par des techniques de modélisation statistique / Optimisation of the production test of analog and RF circuit using statistical modeling techniques Akkouche, Nourredine 09 September 2011 (has links) La part dû au test dans le coût de conception et de fabrication des circuits intégrés ne cesse de croître, d'où la nécessité d'optimiser cette étape devenue incontournable. Dans cette thèse, de nouvelles méthodes d'ordonnancement et de réduction du nombre de tests à effectuer sont proposées. La solution est un ordre des tests permettant de détecter au plus tôt les circuits défectueux, qui pourra aussi être utilisé pour éliminer les tests redondants. Ces méthodes de test sont basées sur la modélisation statistique du circuit sous test. Cette modélisation inclus plusieurs modèles paramétriques et non paramétrique permettant de s'adapté à tous les types de circuit. Une fois le modèle validé, les méthodes de test proposées génèrent un grand échantillon contenant des circuits défectueux. Ces derniers permettent une meilleure estimation des métriques de test, en particulier le taux de défauts. Sur la base de cette erreur, un ordonnancement des tests est construit en maximisant la détection des circuits défectueux au plus tôt. Avec peu de tests, la méthode de sélection et d'évaluation est utilisée pour obtenir l'ordre optimal des tests. Toutefois, avec des circuits contenant un grand nombre de tests, des heuristiques comme la méthode de décomposition, les algorithmes génétiques ou les méthodes de la recherche flottante sont utilisées pour approcher la solution optimale. / The share of test in the cost of design and manufacture of integrated circuits continues to grow, hence the need to optimize this step. In this thesis, new methods of test scheduling and reducing the number of tests are proposed. The solution is a sequence of tests for early identification of faulty circuits, which can also be used to eliminate redundant tests. These test methods are based on statistical modeling of the circuit under test. This model included several parametric and non-parametric models to adapt to all types of circuit. Once the model is validated, the suggested test methods generate a large sample containing defective circuits. These allow a better estimation of test metrics, particularly the defect level. Based on this error, a test scheduling is constructed by maximizing the detection of faulty circuits. With few tests, the Branch and Bound method is used to obtain the optimal order of tests. However, with circuits containing a large number of tests, heuristics such as decomposition method, genetic algorithms or floating search methods are used to approach the optimal solution. Circuit analogique et RF Test fonctionnel Fautes paramétriques Modélisation statistique Métriques de test Algorithme de recherche Analog and RF circuit Functional test Parametric faults Statistical modeling Test metrics Feature Selection Algorithm
42	Approche statistique pour le pronostic de défaillance : application à l'industrie du semi-conducteur / A statistical approach for fault prognosis : application to semiconductor manufacturing industry Nguyen, Thi Bich Lien 04 March 2016 (has links) Ce travail de thèse concerne le développement d'une méthode de pronostic de défaillance des systèmes de production en série. Une méthode de génération d'un indice de santé brut à partir d'un tenseur de données, appelée Méthode des Points Significatifs a été développée puis validée sur un exemple d'illustration. L'indice généré est ensuite traité par une nouvelle méthode appelée méthode des percentiles, qui permet de générer des profils monotones à partir d'un indice de santé brut. Les profils générés sont ensuite modélisés par un processus Gamma, et la fonction de densité de probabilité agrégée introduite dans ce travail a permis d'estimer le temps de vie résiduel (Remaining Useful Life (RUL)) dans un intervalle de confiance qui assure une marge de sécurité à l'utilisateur industriel. La méthode proposée est appliquée avec succès sur des données expérimentales issues des équipements de production industrielle. / This thesis develops a fault prognosis approach for Discrete Manufacturing Processes. A method of raw health index extraction from a data tensor, called Significant Points was developped and validated on an illustrative example. The generated index is later processed by a new method, called Percentile Method, which allows to generate the monotonic profiles from the raw health index. These profiles are then modelled by a Gamma process, and the aggregate probability density function introduced in this work allowed to estimate the Remaining Useful Life (RUL) in a confidence interval that ensures a safety margin for industrial users. The proposed method is applied successfully on the experimental data of industrial production machines. Pronostic de défaillance Indice de santé Modélisation statistique Processus stochastiques Analyse multi-Variée Fault prognostics Health index Statistical modelling Stochastic process Multivariate analysis
43	Caractérisation des expositions professionnelles des éleveurs laitiers bretons : déterminants professionnels de l’exposition à la fraction thoracique des bioaérosols, à l’ammoniac et à l’acétaldéhyde, et effets inflammatoires des poussières organiques / Characterisation of Breton dairy farmer's ocuppational exposures Pfister, Hugo 14 December 2017 (has links) Les éleveurs laitiers-bovins présentent une incidence plus élevée de symptômes respiratoires et de maladies broncho-pulmonaires que la population générale. Un facteur de risque important serait l’exposition professionnelle à divers aéro-contaminants d’origine biologique et chimique. Les déterminants professionnels de ces expositions et les effets biologiques des contaminants inhalés de manière répétée restent cependant mal connus. Dans ce contexte, les travaux réalisés au cours de cette thèse avaient pour objectifs i) de rechercher les déterminants professionnels de l’exposition aux bio-aérosols thoraciques (poussières organiques, endotoxines, bactéries et moisissures), à l’ammoniac et à l’acétaldéhyde, et ii) de caractériser les effets pro-inflammatoires des poussières thoraciques émises lors de la tâche de paillage mécanisé qui est connue pour induire une forte exposition aux bio-aérosols. Pour atteindre ces objectifs, nous avons réalisé une campagne de 112 mesures individuelles répétées dans 29 exploitations laitières d’élevage bovin localisées en Bretagne. Par l’utilisation de modèles multivariés à effets mixtes, nous montrons que l’exposition aux bio-aérosols est majoritairement induite par l’exécution de tâches liées à la distribution de litières et d’aliments (paille, foin, ensilage). L’exposition à l’ammoniac est fortement dépendante du nombre de vaches présentes dans l’exploitation et des temps passés en stabulation et en salle de traite. L’exposition à l’acétaldéhyde est dépendante de la taille de l’exploitation et des tâches liées à la distribution d’ensilage. Nos travaux soulignent également qu’une augmentation de la surface des ouvertures de la stabulation est associée à une réduction significative de l’exposition aux moisissures, à l’ammoniac et à l’acétaldéhyde. Enfin, notre étude montre que les poussières émises lors du paillage mécanisé ont (1) une taille leur permettant de se déposer majoritairement dans les régions trachéo-bronchiques, (2) une composition bactériologique et fongique complexe et (3) in vitro des effets pro-inflammatoires puissants induisant l’expression de TNF-α, d’IL-1β, d’IL-6 et d’IL-8 dans des macrophages humains. Au total, ces travaux de thèse ont permis d’identifier des activités professionnelles et des caractéristiques d’exploitations augmentant significativement les niveaux d’expositions des éleveurs laitiers-bovins à des contaminants chimiques et à des poussières organiques pouvant théoriquement se déposer dans les tissus bronchiques où sont censées se développer différentes maladies broncho-pulmonaires. Les modèles statistiques développés au cours de la thèse permettent dès à présent la reconstitution des expositions des éleveurs et pourront être utilisés dans de futures études épidémiologiques et dans l’élaboration de programmes de prévention. / Dairy farmers have an increased risk of lower airway diseases that is likely related to occupational exposures to airborne contaminants. Nevertheless, occupational determinants of dairy farmers’ exposures remain poorly documented and the biological effects of the contaminants chronically inhaled by farmers need to be fully characterized. In this context, the objectives of this PhD thesis were i) to identify the occupational determinants of exposure to thoracic bio-aerosols (organic dusts, endotoxins, bacteria and moulds), ammonia and acetaldehyde, and ii) to characterize the pro-inflammatory effects of thoracic dusts emitted during the mechanical spreading of straw bedding, a task well-known to generate inhalable dusts. To achieve these goals, we carried out a 112-repeated exposure measurement campaign on 29 dairy farms located in Britany. Using multivariate mixed-effect regression models, we have demonstrated that farmers’ exposures to bio-aerosols were mainly induced by tasks related to bedding material distribution and cow feeding (straw, hay, silage). Exposure levels to ammonia were highly dependent on cow numbers and times spent by the farmers in stable and milking parlour. Acetaldehyde exposure was modulated according to the farm size and times spent to distribute silage. Our work also highlighted that an increase of the area of wall opening significantly reduced exposure to mould, acetaldehyde and ammonia. Finally, our study showed that dusts emitted during mechanical straw spreading have (1) a size small enough to allow them to deposit in the tracheobronchial regions, (2) a complex bacterial and fungal composition, and (3) strong in vitro pro-inflammatory effects that induced TNF-α, IL-1β, IL-6 and IL-8 expression in human macrophages. In conclusion, these results have identified different dairy farm characteristics and occupational tasks that significantly increased the exposure levels to chemical contaminants and thoracic organic dusts. Statistical models built during this research project already allow reconstitution of dairy farmers’ exposure that may of use in future epidemiological studies and to develop new preventive measures. Modélisation statistique Expositions professionnelles Contaminant de l'air Agriculture Statistical modelling Occupational exposures Airborne contaminants Dairy farmers Lower airway diseases
44	Modélisation de la pharmacocinétique et des mécanismes d’action intracellulaire du 5-fluorouracile : applications à l’étude de la variabilité de l’effet thérapeutique en population et à l’innovation thérapeutique / Modeling of pharmacokinetics and intracellular mechanisms of action of 5-fluorouracil : applications to the study of the therapeutic effect variability in population and therapeutic innovation Bodin, Justine 24 September 2010 (has links) Les traitements existants des métastases hépatiques du cancer colorectal montrent une efficacité insuffisante. Le projet GR5FU visait à améliorer cette efficacité et consistait à délivrer le 5-fluorouracile (5FU) dans le foie via son encapsulation dans des globules rouges (GR). Dans ce contexte, la modélisation visait à prédire la quantité de 5FU à encapsuler dans les GR pour atteindre une efficacité équivalente à celle du 5FU standard. Dans cette thèse, nous avons construit et implémenté un modèle mathématique multi-échelle qui relie l’injection du 5FU à son efficacité sur la croissance tumorale en intégrant sa pharmacocinétique et son mécanisme d’action intracellulaire. Des simulations de population de ce modèle, s’appuyant sur des paramètres de la littérature, nous ont permis (i) de reproduire des résultats cliniques montrant le pouvoir prédictif de l’enzyme Thymidylate Synthase (TS) et (ii) d’identifier deux prédicteurs potentiels de la réponse au 5FU à l’échelle d’une population virtuelle, en complément du niveau de TS : la vitesse de croissance tumorale et le métabolisme intracellulaire des pyrimidines. Nous avons également analysé, à l’aide de modèles à effets mixtes, (i) la croissance in vivo de la tumeur intra-hépatique VX2 sans traitement, tenant lieu de modèle animal de métastase hépatique, et (ii) la distribution plasmatique et hépatique du 5FU chez l’animal. Cette modélisation statistique nous a permis d’identifier les modèles décrivant des données expérimentales, d’estimer les paramètres de ces modèles et leur variabilité, et de générer une meilleure connaissance de la croissance de la tumeur VX2 et de la pharmacocinétique animale du 5FU, en particulier hépatique. Dans cette thèse, nous avons illustré comment l’intégration du métabolisme d’un médicament et de son mécanisme d’action dans un modèle global et la simulation de ce modèle à l’échelle d’une population virtuelle, constituent une approche prometteuse pour optimiser le développement d’hypothèses thérapeutiques innovantes en collaboration avec des expérimentateurs. / Existing treatments for liver metastases of colorectal cancer show a lack of efficacy. In order to improve the prognosis of patients, the GR5FU project has been implemented. It consisted in delivering the drug 5-fluorouracil (5FU) in the liver via its encapsulation in red blood cells (RBC) to increase its efficacy / toxicity ratio. In this context, the modeling aimed at predicting the amount of 5FU to encapsulate in RBC to achieve an efficacy equivalent to standard 5FU. In this thesis, we have created and implemented a multiscale mathematical model that links the injection of 5FU to its efficacy on tumor growth by integrating its pharmacokinetics and mechanism of intracellular action. Population simulations of this model, using parameters from the literature, allowed us (i) to reproduce clinical results showing the predictive power of TS enzyme level and (ii) to identify two potential predictors of response to 5FU at the level of a population of virtual patients, in addition to TS level. We also analyzed, using mixed effects models, (i) the in vivo growth of intrahepatic VX2 tumor without treatment, serving as an animal model of liver metastasis, and (ii) the distribution of 5FU in the animal’s organism. This statistical modelization enabled us to identify the models describing experimental data, to estimate the parameters of these models and their variability, and generate a better knowledge of VX2 tumor growth and animal 5FU pharmacokinetics. In this thesis, we illustrated how the integration of drug metabolism and its mechanism of action in a global model and the simulation of this model at the scale of a virtual population, form a promising approach to optimize the development of innovative therapeutic hypotheses in collaboration with experimentalists. Modélisation statistique Pharmacologie Médicament anticancéreux 5-fluorouracile Modèles à effets mixtes Innovation thérapeutique Ciblage thérapeutique Oncologie Multiscale mathematical modeling Statistical modeling Pharmacology Anticancer drug 5-fluorouracil Mixed effects models Therapeutic innovation Therapeutic targeting Oncology 615
45	Modélisation du transfert thermique couplé conductif et radiatif au sein de milieux fibreux portés à haute température / Modeling of the coupled radiative and conductive heat transfer within fibrous media at high temperature Dauvois, Yann 14 December 2016 (has links) Dans ce travail, les propriétés thermiques effectives du milieu fibreux sont déterminées en tenant compte du couplage conduction et rayonnement. Un échantillon numérique fibreux statistiquement homogène composé de deux phases a été généré en empilant des cylindres finis absorbant dans le vide. Ces cylindres sont dispersés selon des fonctions de distribution de la position de leur centre et de leur orientation. L'interpénétration des cylindres est permis. L'extinction, l'absorption et la diffusion sont caractérisées par des fonctions statistiques radiatives qui permettent de savoir si le milieu est Beerien (ou non). Elles sont déterminées précisément à l'aide d'une méthode de Monte Carlo. On montre que la phase gazeuse a un comportement Beerien et que le phase fibreuse a un comportement fortement non Beerien. Le champ de puissance radiative déposée dans le milieu fibreux est calculé en résolvant un modèle qui couple une Équation du Transfert Radiatif Généralisée (ETRG) et une Équation du Transfert radiatif Classique (ETR). Le modèle de conduction thermique est basé sur une méthode de marche aléatoire ne nécessitant aucun maillage. La simulation du mouvement Brownien de marcheurs dans les fibres permet de résoudre l'équation de l'énergie. L'idée de la méthode est de caractériser la température d'un volume élémentaire par une densité de marcheurs, qui peuvent parcourir le milieu. Le problème est gouverné par les conditions aux limites ; Une concentration constante de marcheurs (ou un flux constant) est associée à une température imposée (ou un flux). / In the present work, the effective heat transfer properties of fibrous medium are determined by taking into account a coupling of heat conduction and radiation. A virtual, statistically homogeneous, two-phase fibrous sample has been built by stacking finite absorbing cylinders in vaccum. These cylinders are dispersed according to prescribed distribution functions defining the cylinder positions and orientations. Cylinder overlappings are allowed. Extinction, absorption and scattering are characterised by radiative statistical functions which allow the Beerian behaviour of a medium to be assessed (or not). They are accurately determined with a Monte Carlo method. Whereas the gaseous phase exhibits a Beerian behaviour, the fibre phase is strongly non Beerian. The radiative power field deposited within the fibrous material is calculated by resolving a model which couples a Generalized Radiative Transfer Equation (GRTE) and a classic Radiative Transfer Equation (RTE). The model of conduction transfer is based on a random walk method without meshing. The simulation of Brownian motion of walkers in fibres allows the energy equation to be solved. The idea of the method is to characterize the temperature in an elementary volume by the density of walkers, which roam the medium. The problem is governed by boundary conditions ; A constant concentration of walkers (or a constant flux) is associated with a fixed temperature (or flux). Rayonnement Couplage conduction-rayonnement Milieux fibreux Milieu anisotrope et multiphasique Phases semi-transparentes Modélisation statistique Méthode de Monte Carlo Marche aléatoire Homogénéisation Radiation Coupling radiation-conduction Fibrous media Anisotropic and multiphasic medium Semi-transparent phases Statistical modeling Monte Carlo method Random walk Homogenisation.
46	Developments in statistics applied to hydrometeorology : imputation of streamflow data and semiparametric precipitation modeling / Développements en statistiques appliquées à l'hydrométéorologie : imputation de données de débit et modélisation semi-paramétrique de la précipitation Tencaliec, Patricia 01 February 2017 (has links) Les précipitations et les débits des cours d'eau constituent les deux variables hydrométéorologiques les plus importantes pour l'analyse des bassins versants. Ils fournissent des informations fondamentales pour la gestion intégrée des ressources en eau, telles que l’approvisionnement en eau potable, l'hydroélectricité, les prévisions d'inondations ou de sécheresses ou les systèmes d'irrigation.Dans cette thèse de doctorat sont abordés deux problèmes distincts. Le premier prend sa source dans l’étude des débits des cours d’eau. Dans le but de bien caractériser le comportement global d'un bassin versant, de longues séries temporelles de débit couvrant plusieurs dizaines d'années sont nécessaires. Cependant les données manquantes constatées dans les séries représentent une perte d'information et de fiabilité, et peuvent entraîner une interprétation erronée des caractéristiques statistiques des données. La méthode que nous proposons pour aborder le problème de l'imputation des débits se base sur des modèles de régression dynamique (DRM), plus spécifiquement, une régression linéaire multiple couplée à une modélisation des résidus de type ARIMA. Contrairement aux études antérieures portant sur l'inclusion de variables explicatives multiples ou la modélisation des résidus à partir d'une régression linéaire simple, l'utilisation des DRMs permet de prendre en compte les deux aspects. Nous appliquons cette méthode pour reconstruire les données journalières de débit à huit stations situées dans le bassin versant de la Durance (France), sur une période de 107 ans. En appliquant la méthode proposée, nous parvenons à reconstituer les débits sans utiliser d'autres variables explicatives. Nous comparons les résultats de notre modèle avec ceux obtenus à partir d'un modèle complexe basé sur les analogues et la modélisation hydrologique et d'une approche basée sur le plus proche voisin. Dans la majorité des cas, les DRMs montrent une meilleure performance lors de la reconstitution de périodes de données manquantes de tailles différentes, dans certains cas pouvant allant jusqu'à 20 ans.Le deuxième problème que nous considérons dans cette thèse concerne la modélisation statistique des quantités de précipitations. La recherche dans ce domaine est actuellement très active car la distribution des précipitations exhibe une queue supérieure lourde et, au début de cette thèse, il n'existait aucune méthode satisfaisante permettant de modéliser toute la gamme des précipitations. Récemment, une nouvelle classe de distribution paramétrique, appelée distribution généralisée de Pareto étendue (EGPD), a été développée dans ce but. Cette distribution exhibe une meilleure performance, mais elle manque de flexibilité pour modéliser la partie centrale de la distribution. Dans le but d’améliorer la flexibilité, nous développons, deux nouveaux modèles reposant sur des méthodes semiparamétriques.Le premier estimateur développé transforme d'abord les données avec la distribution cumulative EGPD puis estime la densité des données transformées en appliquant un estimateur nonparamétrique par noyau. Nous comparons les résultats de la méthode proposée avec ceux obtenus en appliquant la distribution EGPD paramétrique sur plusieurs simulations, ainsi que sur deux séries de précipitations au sud-est de la France. Les résultats montrent que la méthode proposée se comporte mieux que l'EGPD, l’erreur absolue moyenne intégrée (MIAE) de la densité étant dans tous les cas presque deux fois inférieure.Le deuxième modèle considère une distribution EGPD semiparamétrique basée sur les polynômes de Bernstein. Plus précisément, nous utilisons un mélange creuse de densités béta. De même, nous comparons nos résultats avec ceux obtenus par la distribution EGPD paramétrique sur des jeux de données simulés et réels. Comme précédemment, le MIAE de la densité est considérablement réduit, cet effet étant encore plus évident à mesure que la taille de l'échantillon augmente. / Precipitation and streamflow are the two most important meteorological and hydrological variables when analyzing river watersheds. They provide fundamental insights for water resources management, design, or planning, such as urban water supplies, hydropower, forecast of flood or droughts events, or irrigation systems for agriculture.In this PhD thesis we approach two different problems. The first one originates from the study of observed streamflow data. In order to properly characterize the overall behavior of a watershed, long datasets spanning tens of years are needed. However, the quality of the measurement dataset decreases the further we go back in time, and blocks of data of different lengths are missing from the dataset. These missing intervals represent a loss of information and can cause erroneous summary data interpretation or unreliable scientific analysis.The method that we propose for approaching the problem of streamflow imputation is based on dynamic regression models (DRMs), more specifically, a multiple linear regression with ARIMA residual modeling. Unlike previous studies that address either the inclusion of multiple explanatory variables or the modeling of the residuals from a simple linear regression, the use of DRMs allows to take into account both aspects. We apply this method for reconstructing the data of eight stations situated in the Durance watershed in the south-east of France, each containing daily streamflow measurements over a period of 107 years. By applying the proposed method, we manage to reconstruct the data without making use of additional variables, like other models require. We compare the results of our model with the ones obtained from a complex approach based on analogs coupled to a hydrological model and a nearest-neighbor approach, respectively. In the majority of cases, DRMs show an increased performance when reconstructing missing values blocks of various lengths, in some of the cases ranging up to 20 years.The second problem that we approach in this PhD thesis addresses the statistical modeling of precipitation amounts. The research area regarding this topic is currently very active as the distribution of precipitation is a heavy-tailed one, and at the moment, there is no general method for modeling the entire range of data with high performance. Recently, in order to propose a method that models the full-range precipitation amounts, a new class of distribution called extended generalized Pareto distribution (EGPD) was introduced, specifically with focus on the EGPD models based on parametric families. These models provide an improved performance when compared to previously proposed distributions, however, they lack flexibility in modeling the bulk of the distribution. We want to improve, through, this aspect by proposing in the second part of the thesis, two new models relying on semiparametric methods.The first method that we develop is the transformed kernel estimator based on the EGPD transformation. That is, we propose an estimator obtained by, first, transforming the data with the EGPD cdf, and then, estimating the density of the transformed data by applying a nonparametric kernel density estimator. We compare the results of the proposed method with the ones obtained by applying EGPD on several simulated scenarios, as well as on two precipitation datasets from south-east of France. The results show that the proposed method behaves better than parametric EGPD, the MIAE of the density being in all the cases almost twice as small.A second approach consists of a new model from the general EGPD class, i.e., we consider a semiparametric EGPD based on Bernstein polynomials, more specifically, we use a sparse mixture of beta densities. Once again, we compare our results with the ones obtained by EGPD on both simulated and real datasets. As before, the MIAE of the density is considerably reduced, this effect being even more obvious as the sample size increases. Imputation des débits Modèles de régression dynamique Polynômes de Bernstein Estimateur nonparamétrique par noyau Streamflow imputation Dynamic regression models Extended generalized Pareto distribution Bernstein polynomials Nonparametric kernel estimator 510
47	Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data / Modélisation statistique des séquences de protéines au-delà de la prédiction structurelle : inférence en haute dimension avec des données corrélées Coucke, Alice 10 October 2016 (has links) Grâce aux progrès des techniques de séquençage, les bases de données génomiques ont connu une croissance exponentielle depuis la fin des années 1990. Un grand nombre d'outils statistiques ont été développés à l'interface entre bioinformatique, apprentissage automatique et physique statistique, dans le but d'extraire de l'information de ce déluge de données. Plusieurs approches de physique statistique ont été récemment introduites dans le contexte précis de la modélisation de séquences de protéines, dont l'analyse en couplages directs. Cette méthode d'inférence statistique globale fondée sur le principe d'entropie maximale, s'est récemment montrée d'une efficacité redoutable pour prédire la structure tridimensionnelle de protéines, à partir de considérations purement statistiques.Dans cette thèse, nous présentons les méthodes d'inférence en question, et encouragés par leur succès, explorons d'autres domaines complexes dans lesquels elles pourraient être appliquées, comme la détection d'homologies. Contrairement à la prédiction des contacts entre résidus qui se limite à une information topologique sur le réseau d'interactions, ces nouveaux champs d'application exigent des considérations énergétiques globales et donc un modèle plus quantitatif et détaillé. À travers une étude approfondie sur des donnéesartificielles et biologiques, nous proposons une meilleure interpretation des paramètres centraux de ces méthodes d'inférence, jusqu'ici mal compris, notamment dans le cas d'un échantillonnage limité. Enfin, nous présentons une nouvelle procédure plus précise d'inférence de modèles génératifs, qui mène à des avancées importantes pour des données réelles en quantité limitée. / Over the last decades, genomic databases have grown exponentially in size thanks to the constant progress of modern DNA sequencing. A large variety of statistical tools have been developed, at the interface between bioinformatics, machine learning, and statistical physics, to extract information from these ever increasing datasets. In the specific context of protein sequence data, several approaches have been recently introduced by statistical physicists, such as direct-coupling analysis, a global statistical inference method based on the maximum-entropy principle, that has proven to be extremely effective in predicting the three-dimensional structure of proteins from purely statistical considerations.In this dissertation, we review the relevant inference methods and, encouraged by their success, discuss their extension to other challenging fields, such as sequence folding prediction and homology detection. Contrary to residue-residue contact prediction, which relies on an intrinsically topological information about the network of interactions, these fields require global energetic considerations and therefore a more quantitative and detailed model. Through an extensive study on both artificial and biological data, we provide a better interpretation of the central inferred parameters, up to now poorly understood, especially in the limited sampling regime. Finally, we present a new and more precise procedure for the inference of generative models, which leads to further improvements on real, finitely sampled data. Inférence Apprentissage statistique Régularisation Entropie maximale Ccoévolution des protéines Vraisemblance maximale Champ moyen Pseudo vraisemblance Développement en grappe Inference Statistical learning Regularization Maximum entropy Protein coevolution Maximum likelihood Mean field Pseudolikelihood Cluster expansion 530.13
48	Reconnaissance automatique de la parole pour des langues peu dotées Le, Viet Bac 01 June 2006 (has links) (PDF) Dans la plupart des langues peu dotées, les services liés aux technologies du traitement de l'oral sont inexistants. L'originalité de mon travail de thèse vient de la volonté d'aborder ces langues pour lesquelles peu ou pas de ressources nécessaires pour la reconnaissance automatique de la parole sont disponibles. Ce manuscrit présente notre méthodologie qui vise à développer et adapter rapidement un système de reconnaissance automatique de la parole continue pour une nouvelle langue peu dotée. <br />La nature statistique des approches nécessite de disposer d'une grande quantité de ressources (vocabulaires, grands corpus de texte, grands corpus de parole, dictionnaires de prononciation) pour le développement d'un système de reconnaissance automatique de la parole continue à grand vocabulaire. Ces ressources ne sont cependant pas disponibles directement pour des langues peu dotées. Par conséquent, une première façon d'accélérer la portabilité des systèmes de reconnaissance vocale vers une nouvelle langue est de développer une méthodologie permettant une collecte rapide et facilitée de ressources écrites et orales. Dans ce travail, nous proposons tout d'abord des solutions pour résoudre les difficultés principales de récupération et de traitement des ressources textuelles spécifiques aux langues peu dotées : recueil d'un vocabulaire, collecte de documents à partir de l'Internet, normalisation de textes, segmentation de textes, filtrage. Une boîte à outils générique « open source » nommée CLIPS-Text-Tk a notamment été développée pour faciliter le portage des outils de traitement de corpus textuels vers une nouvelle langue.<br />Ensuite, la plus grande partie de notre travail de thèse concerne la construction rapide de modèles acoustiques pour une langue peu dotée. Nous proposons des concepts et des méthodes d'estimation de similarités entre unités phonémiques (phonème, polyphone, groupe de polyphones, ...). Ces mesures de similarité sont ensuite utilisées pour la portabilité et l'adaptation rapide des modèles acoustiques multilingues indépendant et dépendant du contexte vers une nouvelle langue peu dotée. Pour les langues peu dotées qui ne disposent pas encore de dictionnaire phonétique, une modélisation acoustique à base de graphèmes est aussi proposée et évaluée.<br />Enfin, les ressources écrites et orales collectées pour le vietnamien et le khmer ainsi que les résultats expérimentaux obtenus par nos systèmes de reconnaissance automatique de la parole en vietnamien et en khmer sont présentés et valident le potentiel des méthodes que nous avons proposées. langues peu dotées reconnaissance automatique de la parole ressources écrites et orales modélisation acoustique crosslingue adaptation de modèles acoustiques modélisation acoustique graphémique modélisation statistique du langage
49	Evolution de la productivité des peuplements réguliers et monospécifiques de hêtre (Fagus silvatica L.) et de chêne sessile (Quercus petraea Liebl.) dans la moitié Nord de la France au cours du XXe siècle Bontemps, Jean-Daniel 16 November 2006 (has links) (PDF) Le thème de l'évolution historique de la productivité forestière est abordé pour les deux grands feuillus sociaux du territoire, hêtre commun (Fagus sylvatica L.) et chêne sessile (Quercus petraea Liebl.), conduits en futaie régulière et pure, en forêt domaniale, avec un objectif de description et quantification du phénomène à l'échelle du peuplement. L'analyse privilégie la croissance en hauteur dominante, indicateur classique de la productivité forestière. Elle repose sur la comparaison d'accroissements reconstitués de façon rétrospective (analyses de tiges) de deux générations de peuplements, associés en couples pour assurer un contrôle efficace des conditions de fertilité. L'évolution de la vitesse de croissance est estimée par une modélisation statistique des accroissements, qui prend en compte l'effet du stade de développement des peuplements et les différences de fertilité entre couples. Le diagnostic a été régionalisé, conduisant à échantillonner les hêtraies dans 2 secteurs (Normandie/Picardie et Lorraine/Alsace) et les chênaies dans 4 secteurs (Normandie, val de Loire, plaine d'Allier, Lorraine/Alsace). Une analyse complémentaire de la croissance radiale dominante (lectures de cernes) et de la densité du bois (microdensitométrie aux rayons X) à 1,30 m a été réalisée dans les hêtraies du Nord-Est. Les conditions trophiques et climatiques des peuplements ont été caractérisées. <br />L'augmentation de la vitesse de croissance en hauteur dominante a un caractère général sur le territoire, structuré selon un gradient longitudinal. Pour chaque essence, elle est plus marquée dans le Nord-Est, tandis qu'elle reste faible ou récente dans le Nord-Ouest. L'essentiel de l'évolution a été acquis dans la seconde moitié du siècle. La progression est ponctuée de crises d'origine climatique, communes ou spécifiques, dont la plus marquée est celle de la décennie 1940. Défavorable au hêtre, la décennie 1990 a été bénéfique au chêne, et explique que l'évolution constatée pour cette essence culmine en fin de siècle à un niveau bien supérieur à celui du hêtre. L'augmentation séculaire est comprise pour les extrêmes entre +20% et +100%, et atteint dans le Nord-Est un niveau commun aux deux essences de +50-60% en excluant la période récente. Dans ce secteur, les évolutions de croissance radiale et en hauteur du hêtre sont similaires. La densité du bois est restée stable. En conséquence, la productivité en biomasse a pu suivre l'évolution estimée sur la hauteur dominante. L'analyse des relations croissance - facteur du milieu permet d'aborder la causalité des changements de productivité, et suggère un déterminisme multifactoriel. Le climat aurait eu jusqu'alors des conséquences essentiellement conjoncturelles. Des effets saisonniers opposés sur la croissance sont de plus possibles. Le caractère récent des évolutions constatées, leur organisation spatiale, conjugués à une sensibilité des essences aux conditions trophiques, font ressortir le rôle clé possible des dépôts atmosphériques azotés dans la réponse aux changements de l'environnement. Hêtre commun chêne sessile productivité tendances de croissance hauteur dominante croissance radiale densité du bois analyse rétrospective modélisation statistique modèle de croissance changements de l'environnement changement climatique dépôts azotés
50	Classification supervisée d'images d'observation de la Terre à haute résolution par utilisation de méthodes markoviennes Voisin, Aurélie 17 October 2012 (has links) (PDF) La classification d'images de télédétection incluant des zones urbaines permet d'établir des cartes d'utilisation du sol et/ou de couverture du sol, ou de zones endommagées par des phénomènes naturels (tremblements de terre, inondations...). Les méthodes de classification développées au cours de cette thèse sont des méthodes supervisées fondées sur des modèles markoviens. Une première approche a porté sur la classification d'images d'amplitudes issues de capteurs RSO (radar à synthèse d'ouverture) à simple polarisation et mono-résolution. La méthode choisie consiste à modéliser les statistiques de chacune des classes par des modèles de mélanges finis, puis à intégrer cette modélisation dans un champ de Markov. Afin d'améliorer la classification au niveau des zones urbaines, non seulement affectées par le bruit de chatoiement, mais aussi par l'hétérogénéité des matériaux qui s'y trouvent, nous avons extrait de l'image RSO un attribut de texture qui met en valeur les zones urbaines (typiquement, variance d'Haralick). Les statistiques de cette information texturelle sont combinées à celles de l'image initiale via des copules bivariées. Par la suite, nous avons cherché à améliorer la méthode de classification par l'utilisation d'un modèle de Markov hiérarchique sur quad-arbre. Nous avons intégré, dans ce modèle, une mise à jour de l'a priori qui permet, en pratique, d'aboutir à des résultats moins sensibles bruit de chatoiement. Les données mono-résolution sont décomposées hiérarchiquement en ayant recours à des ondelettes. Le principal avantage d'un tel modèle est de pouvoir utiliser des images multi-résolution et/ou multi-capteur et de pouvoir les intégrer directement dans l'arbre. En particulier, nous avons travaillé sur des données optiques (type GeoEye) et RSO (type COSMO-SkyMed) recalées. Les statistiques à chacun des niveaux de l'arbre sont modélisées par des mélanges finis de lois normales pour les images optiques et de lois gamma généralisées pour les images RSO. Ces statistiques sont ensuite combinées via des copules multivariées et intégrées dans le modèle hiérarchique. Les méthodes ont été testées et validées sur divers jeux de données mono-/multi-résolution RSO et/ou optiques. Classification supervisée Champ de Markov hiérarchique Radar à synthèse d'ouverture Modélisation statistique Données multi-capteur

Search results