Spelling suggestions: "subject:"statistique"" "subject:"qtatistique""
311 |
Ingénierie de la représentation des variables pour la classification binaire à partir des données déséquilibréesAjakan, Nora 13 December 2023 (has links)
De nombreuses applications de classification binaire, telles que la prédiction de fraude et la prédiction de rétention, impliquent des ensembles de données déséquilibrées. Bien que les méthodes d'ensemble soient les mieux adaptées à ces contraintes, les règles de décision produites sont difficiles à interpréter en tant que groupe en raison de leur nombre et de leurs redondances sous-jacentes. Il est donc intéressant de simplifier les méthodes d'ensemble apprises en un petit ensemble équivalent de conditions sans sacrifier la performance à la simplicité. En interprétant simplement un arbre de décision comme un empilement de fonctions indicatrices binaires et un modèle linéaire, nous proposons une méthode qui apprend le sous-ensemble efficace d'indicateurs qui relie les données à un espace de représentation de faible dimension où elles deviennent linéairement séparables. Ces fonctions binaires permettent à un large éventail d'algorithmes d'apprentissage automatique simples d'être efficaces et sont également plus faciles à analyser, à étudier ou à valider par les experts du domaine que les branches initiales de l'arbre dans l'ensemble appris. / Many binary classification applications, such as churn prediction and fraud detection, involve unbalanced large datasets. While ensemble trees are the most suited algorithms given these constraints, the decision rules produced are hard to interpret as a group due to their number and their underlying redundancies. It is then of interest to simplify the learned ensemble trees into a small equivalent set of conditions without trading performance for simplicity. By simply interpreting a decision tree as a stack of binary indicator functions and a linear model, we propose a method that learns the effective subset of indicators that map the data to a low dimension feature space where it becomes linearly separable. These binary functions enable a wide range of simple machine learning algorithms to be efficient and are also easier to analyze, investigate or validate by domain experts than the initial tree branches in the learned ensemble.
|
312 |
Modélisation d'une variable aléatoire à l'aide d'un réseauJarras, Heikel 20 November 2023 (has links)
Titre de l'écran-titre (visionné le 25 septembre 2023) / Le domaine de l'assurance regorge de toutes sortes de données. Avec des milliers, voire des millions de clients, les compagnies d'assurance ont su emmagasiner un nombre impressionnant d'informations. À partir de celles-ci, elles sont en mesure de développer plusieurs modèles qui leur permettent d'anticiper le comportement de leur clientèle. Elles ont maintenant à leur disposition des modèles qui permettent d'estimer le temps restant avant qu'un client n'abandonne une police d'assurance de dommages. Une compagnie d'assurance souhaite cependant approfondir ses connaissances et améliorer ses prévisions en étudiant l'influence des relations entre les clients sur l'abandon d'une police d'assurance. Certaines données descriptives des clients sont disponibles ainsi que cinq fichiers qui lient les individus à des identifiants de groupe. Ces derniers sont utilisés pour créer des réseaux représentant les relations qui existent entre les clients de la compagnie. L'objectif de ce mémoire est donc d'explorer les données réseaux et de comprendre l'impact que les relations peuvent avoir sur certaines variables, plus particulièrement sur l'abandon d'une police d'assurance de dommages. Des statistiques descriptives en lien avec les réseaux, comme le nombre de liens entre deux individus qui abandonnent ou l'assortativité, permettent rapidement de savoir s'il est pertinent de continuer l'exploration ou non. Par la suite, un test de permutation permet de mieux comprendre l'influence des relations sur le fait qu'un client abandonne ou non. Puis, pour terminer, un modèle statistique qui permet d'estimer une matrice de covariance à partir des relations d'un réseau est présenté. / The insurance sector is full of all kinds of data. With thousands, if not millions, of customers, insurance companies have accumulated a substantial amount of information. From this information, they can develop several models that allow them to anticipate their customer's behavior. They now have models that allow them to estimate the remaining time before a customer cancels their insurance policy. However, an insurance company wishes to deepen their understanding, and improve predictions by studying the influence of relationships between clients on the cancellation of damage insurance policies. Some descriptive data on the customers is available, as well as five files linking individuals to groups. This is how the networks are created. The objective of this thesis is therefore to explore network data and understand the influence that relationships can have on certain descriptive variables, and more specifically on the cancellation of a damage insurance policy. Descriptive statistics related to networks, such as the number of links between two individuals who cancel or assortativity, quickly allow us to know if it is relevant to continue the exploration or not. Then, the permutation test allows us to better understand the influence of relationships on the cancellation of the insurance policy. Finally, a statistical model that allows us to estimate a covariance matrix from a network is presented.
|
313 |
Inférence d'interactions d'ordre supérieur et de complexes simpliciaux à partir de données de présence/absenceRoy-Pomerleau, Xavier 27 January 2024 (has links)
Malgré l’efficacité des réseaux pour représenter les systèmes complexes, de récents travaux ont montré que leur structure limite parfois le pouvoir explicatif des modèles théoriques, puisqu’elle n’encode que des relations par paire. Si une interaction plus complexe existe dans le système représenté, elle est automatiquement réduite à un groupe d’interactions par paire, c’est-à-dire d’ordre un. Il faut alors utiliser des structures qui prennent en compte les interactions d’ordre supérieur. Cependant, qu’elles soient ou non d’ordre supérieur, les interactions entre les éléments d’un système sont rarement explicites dans les jeux de données. C’est notamment le cas des données de présence/absence qui indiquent quelles espèces (animales, végétales ou autres) se retrouvent (ou non) sur un site d’observation sans indiquer les relations entre elles. L’objectif de ce mémoire est alors de développer une technique d’inférence pour dénicher les interactions d’ordre supérieur au sein de données de présence/absence. Ici, deux cadres théoriques sont explorés. Le premier est basé sur la comparaison entre la topologie des données, obtenue grâce à une hypothèse souple, et celle d’un ensemble aléatoire. Le second utilise plutôt les modèles log-linéaire et les tests d’hypothèses pour inférer les interactions une à une jusqu’à l’ordre désiré. Ce cadre a permis d’élaborer plusieurs méthodes d’inférence qui génèrent des complexes simpliciaux (ou des hypergraphes) qui peut être analysés grâce aux outils standards de la science des réseaux en plus de l’homologie. Afin de valider ces méthodes, nous avons développé un modèle génératif de données de présence/absence dans lesquelles les véritables interactions sont connues. Des résultats concrets ont également été obtenus pour des jeux de données réelles. Notamment, à partir de données de présence/absence d’oiseaux nicheurs du Québec, nous avons réussi à inférer des cooccurrences d’ordre deux. / Despite the effectiveness of networks to represent complex systems, recent work has shownthat their structure sometimes limits the explanatory power of the theoretical models, sinceit only encodes dyadic interactions. If a more complex interaction exists in the system, it isautomatically reduced to a group of pairwise interactions that are of the first order. We thusneed to use structures that can take higher-order interactions into account. However, whetherrelationships are of higher order or not is rarely explicit in real data sets. This is the case ofpresence/absence data, that only indicate which species (of animals, plants or others) can befound (or not) on a site without showing the interactions between them.The goal of this project is to develop an inference method to find higher-order interactionswithin presence/absence data. Here, two frameworks are examined. The first one is based onthe comparison of the topology of the data, obtained with a non-restrictive hypothesis, andthe topology of a random ensemble. The second one uses log-linear models and hypothesistesting to infer interactions one by one until the desired order. From this framework, we havedevelopped several inference methods to generate simplicial complexes (or hypergraphs) thatcan be studied with regular tools of network science as well as homology. In order to validatethese methods, we have developed a generative model of presence/absence data in which thetrue interactions are known. Results have also been obtained on real data sets. For instance,from presence/absence data of nesting birds in Québec, we were able to infer co-occurrencesof order two
|
314 |
Évaluation des mesures de ruine dans le cadre de modèles avancés de risqueMarri, Fouad 13 April 2018 (has links)
La théorie du risque consiste en l'étude de modèles décrivant le processus de surplus d 'une compagnie d 'assurance. L'évaluation de différentes mesures de ruine dans le cadre de ces modèles permet d'obtenir une idée générale de la santé financière de la compagnie d'assurance et du risque assumé par celle-ci. Le modèle classique de risque pour décrire les arrivées et les coûts des sinistres est le modèle Poisson composé. Ce modèle est basé sur une hypothèse d 'indépendance entre le montant des sinistres et le temps écoulé entre chacun. Cette hypothèse facilite le calcul des mesures de ruine mais peut s'avérer trop restrictive dans différents contextes. L'objectif principal de cette thèse est l'étude d'extensions du modèle classique dans lesquelles sont introduites une structure de dépendance entre la sévérité et la fréquence des sinistres. La copule de Farlie-Gumbel-Morgenstern et une extension de cette copule sont utilisées pour définir cette structure. En raison de la forme et de la flexibilité de ces copules, il est possible d'adapter les outils développés récemment en théorie du risque dans l'évaluation et l'analyse des mesures de ruine. La fonction de Gerber-Shiu et certains cas particuliers de cette fonction , comme la transformée de Laplace du temps de la ruine et l'espérance de la valeur actualisée du déficit à la ruine sont étudiées dans le cadre de ces extensions. On s'intéresse également à l'évolution du processus de surplus en présence d'une barrière horizontale. Les mesures de ruine citées plus haut, ainsi que le montant total actualisé des dividendes distribués sont évaluées. / [Copule de Farlie-Gumbel-Morgenstern ; Modèle Poisson composé]
|
315 |
Nonparametric methods for the estimation of the conditional distribution of an interval-censored lifetime given continuous covariatesDehghan, Mohammad Hossein 19 April 2018 (has links)
Cette thèse contribue au développement de l'estimation non paramétrique de la fonction de survie conditionnelle étant donné une covariable continue avec données censurées. Elle est basée sur trois articles écrits avec mon directeur de thèse, le professeur Thierry Duchesne. Le premier article, intitulé "Une généralisation de l'estimateur de Turnbull pour l'estimation non paramétrique de la fonction de survie conditionnelle avec données censurées par intervalle, " a été publié en 2011 dans Lifetime Data Analysis, vol. 17, pp. 234 - 255. Le deuxième article, intitulé "Sur la performance de certains estimateurs nonparamétriques de la fonction de survie conditionnelle avec données censurées par intervalle, " est parru en 2011 dans la revue Computational Statistics & Data Analysis, vol. 55, pp. 3355-3364. Le troisième article, intitulé "Estimation de la fonction de survie conditionnelle d'un temps de défaillance étant donné une covariable variant dans le temps avec observations censurées par intervalles", sera bientôt soumis à la revue Statistica Sinica.
|
316 |
Modèles de copules Archimédiennes pour données de Bernoulli corréléesTounkara, Fode 23 April 2018 (has links)
Cette thèse introduit et explore une nouvelle classe de modèles probabilistes pour des données de Bernoulli échangeables en forme de grappe. Dans ces modèles, la probabilité conditionnelle de succès est une fonction de la probabilité marginale de succès et d’un effet aléatoire positif spécifique à chaque grappe. La distribution de l’effet aléatoire contient un paramètre d’association qui est estimé pour donner une mesure de la force de la dépendance résiduelle ignorée par les marges. Nous montrons que la transformée de Laplace de l’effet aléatoire est liée au générateur des modèles de copules Archimédiennes, ce qui nous permet d’avoir un nouvel aperçu de ces modèles. L’approche que nous proposons offre de nombreux avantages. En effet, la famille de copules Archimédiennes fournit une large classe de modèles pour la sur-dispersion dans une expérience de Bernoulli. D’un point de vue statistique, la fonction de vraisemblance marginale pour les données de l’échantillon a une expression explicite, les méthodes du maximum de vraisemblance sont alors faciles à mettre en oeuvre. Nous avons considéré quatre applications de nos modèles. Premièrement, nous construisons un intervalle de confiance par vraisemblance profilée pour le coefficient de corrélation intra-grappe (ICC). La deuxième application concerne l’estimation de la taille d’une population en présence d’hétérogénéité observée et non observée (résiduelle) dans une expérience de capture-recapture. Le troisième problème traite de l’estimation dans de petites régions, et enfin le quatrième indépendant des trois premiers, analyse les caractéristiques socio-économiques des hommes qui ont une préférence à épouser des jeunes filles de moins de 18 ans. Dans la première application, nous considérons le cas le plus simple de nos modèles où aucune covariable n’est disponible puis proposons la méthode du maximum de vraisemblance pour l’estimation du coefficient de corrélation intra-grappe (ICC) à l’aide de plusieurs spécifications de copules Archimédiennes. La sélection d’un modèle particulier est effectuée en utilisant le critère d’information d’Akaike (AIC). La procédure comprend l’estimation du maximum de vraisemblance et la méthode du profil de vraisemblance (ou vraisemblance profilée). Nous avons fait des études de simulation pour mesurer la performance de la méthode d’intervalle par vraisemblance profilée sous nos modèles en termes de taux de couverture et de longueur d’intervalle de confiance, et la sensibilité de notre approche à la spécification d’un modèle de copule. La procédure que nous proposons a aussi été appliquée à des données réelles. Nous comparons notre méthode à celle proposée sous le modèle Béta-binomial, et la méthode d’intervalle de type Wald modifié proposée par Zou and Donner (2004). L’une des conclusions importantes de ces études est que l’intervalle de confiance par vraisemblance profilée obtenu sous nos modèles présente de belles propriétés en termes de taux couverture et de longueur d’intervalle de confiance, même lorsque le nombre de grappes est petit. La sélection de modèle est une étape importante : si le modèle est mal spécifié, alors cela pourrait conduire à des résultats erronés. La seconde application, une extension de la première pour accommoder des covariables au niveau des grappes, concerne la modélisation de l’hétérogéneité dans les probabilités de capture lors d’une expérience de capture-recapture dans une population fermée. Dans ce contexte, nos modèles sont utilisés pour modéliser l’hétérogéneité résiduelle qui n’est pas prise en compte par les covariables mesurées sur des unités capturées. Plusieurs modèles sont disponibles pour l’hétérogénéité non observée et la probabilité de capture marginale est modélisée en utilisant les fonctions de liens Logit et Log-Log complémentaire. Les paramètres sont estimés en utilisant la vraisemblance conditionnelle construite à partir des observations collectées sur les unités capturées au moins une fois. Ceci généralise le modèle de Huggins (1991) qui ne tient pas compte de l’hétérogénéité résiduelle. La sensibilité de l’inférence à la spécification d’un modèle est également étudiée par des simulations. Un exemple numérique est présenté. La troisième application traite de la prédiction dans de petites régions. Nous proposons des techniques de Bayes basées sur nos modèles pour estimer des proportions régionales. L’inférence Bayésienne que nous proposons consiste à trouver la distribution a posteriori de l’effet aléatoire et sa transformée de Laplace sachant les données et les paramètres du modèle. Cette transformée de Laplace est ensuite utilisée pour trouver des estimateurs de Bayes et leurs variances a posteriori pour les vraies proportions. Nous développons une étude de comparaison entre le meilleur prédicteur de Bayes (BP) et le meilleur prédicteur linéaire sans biais (BLUP). Nous avons également étudié l’efficacité du BP obtenu sous nos modèles relativement au BLUP. Les paramètres du modèle sont estimés en utilisant la méthode du maximum de vraisemblance. L’avantage de notre approche est que la fonction de vraisemblance et l’expression du meilleur prédicteur (BP) ont une forme explicite, ce qui facilite la mise en oeuvre de leur évaluation sur le plan numérique. Nous obtenons un prédicteur empirique de Bayes (EBP) en remplaçant les paramètres par leurs estimateurs dans l’expression du BP. Nous utilisons le critère d’information d’Akaike (AIC) pour la selection d’un modèle. Nous utilisons la méthode du jackknife pour estimer l’erreur quadratique moyenne des prédicteurs empiriques. Des résultats empiriques obtenus à partir de données simulées et réelles sont également présentés. Enfin, le quatrième problème traité dans cette thèse, qui est indépendant des trois premiers, concerne l’analyse des caractéristiques socio-économiques des hommes qui ont une préférence à épouser des jeunes filles de moins de 18 ans. Dans ce contexte, nous considérons les données de l’EDS 2006 du Niger et utilisons les copules Archimédiennes bidimentionelles pour modéliser l’association entre le niveau d’éducation (variable discrète) des hommes et leur revenu pré-marital (variable continue). Nous construisons la vraisemblance pour un échantillon issu de ce couple de variables aléatoires mixtes, et déduisons une estimation du paramètre de dépendance en utilisant une procédure semi-paramétrique où les marges sont estimées par leurs équivalents empiriques. Nous utilisons la méthode du jackknife pour estimer l’erreur type. Nous utilisons la méthode de Wald pour tester l’égalité entre l’association des caractéristiques socio-économiques des hommes qui épousent des jeunes filles mineures et celle des hommes qui se marient avec des femmes âgées. Les résultats du test contribuent à la validité de notre théorie selon laquelle les hommes qui épousent des jeunes filles de moins de 18 ans ont un niveau d’éducation et un revenu pré-marital faibles, lorsqu’on les compare aux hommes qui ne le font pas. / This thesis introduces and explores a new class of probability models for exchangeable clustered binary data. In these models, the conditional probability of success is characterized by a function of the marginal probability of success and a positive cluster-specific random effect. The marginal probabilities are modeled using the logit and complementary log-log link functions. The distribution of the random effect contains an association parameter that is estimated to give a measure of the strength of the within-cluster residual dependence that is not accounted for by the margins. We show that the random effect distributions can be related to exchangeable Archimedean copula models, thus giving new insights on such models. The copula approach offers many advantages. Indeed, the family of Archimedean copulas provides a large class of models for over-dispersion in a Bernoulli experiment. From a statistical perspective, the marginal likelihood function for the sample data has an explicit expression, the maximum likelihood methods are then easy to implement and computationally straightforward. Based on the proposed models, four applications are considered. First, we investigate the construction of profile likelihood confidence interval (PLCI) for the intra-cluster correlation coefficient (ICC). The second application is concerned with an heterogeneity in capture probabilities in a mark-recapture study for estimating the size of a closed population. The third contribution deals with the estimation in small areas, the fourth and final, independent of the other three, analyzes the socioeconomic characteristics of men who prefer to marry girls under 18 years old. In the first application, we consider a simple case, without covariates and construct maximum likelihood inference procedures for the intra-cluster correlation using several specifications of Archimedean copulas. The selection of a particular model is carried out using the Akaike information criterion (AIC). Profile likelihood confidence intervals for the ICC are constructed and their performance are assessed in a simulation experiment. The sensitivity of the inference to the specification of the copula family is also investigated through simulations. Numerical examples are presented. We compare our approach with that proposed under the Beta-binomial model and with the modified Wald interval method proposed by Zou and Donner (2004). One of the important findings of these studies is that the profile confidence interval obtained under our models presents nice properties, even when the number of clusters is small. Model selection is an important step: if the model is poorly specified, then this could lead to erroneous results. The second application, an extension of the first one to accommodate cluster level covariates, is concerned with an heterogeneity in capture probabilities in a capture-recapture study for estimating the size of a closed population. Unit level covariates are recorded on the units that are captured and copulas are used to model the residual heterogeneity that is not accounted for by covariates. Several models for the unobserved heterogeneity are available and the marginal capture probability is expressed using the Logit and the complementary Log-Log link functions. The parameters are estimated using a conditional likelihood constructed with the data obtained on the units caught at least once. The population size is estimated using a Horvitz-Thompson estimator constructed using the estimated probabilities that a unit is caught at least once. This generalizes the model of Huggins (1991) that does not account for a residual heterogeneity. The sensitivity of the inference to the specification of a model is also investigated through simulations. A numerical example is presented. The third application uses the models of the first two in order to estimate small area proportions. We apply Bayes techniques using a new class of probability models, to estimate small area proportions. The Bayesian inference under the proposed models consists in obtaining the posterior distribution of the random effect and its Laplace transform. This posterior Laplace transform is then used to find Bayes estimates of small area proportions. We develop a comparison between the Best Predictor (BP) and the Best Linear Unbiased Predictor (BLUP). The model parameters are estimated using the maximum likelihood (ML) method. Under the proposed model, the likelihood function and the best predictor (BP) of small area proportion have closed form expressions. Model parameters are replaced by their ML estimates in the BP to obtain the empirical best predictor (EBP). We use the Akaike information criterion (AIC) for selecting a particular model. We propose the jackknife method to estimate the mean square error of the empirical Bayes predictor. Empirical results obtained from simulated and real data are also presented. The fourth and last problem addressed in this thesis, independently of the others three, investigates socioeconomic characteristics of men who prefer to marry girls under 18 years. We consider the data from the 2006 DHS Niger and use a bivariate Archimedean copula to model the association between education level (discrete) of men and their pre-marital income (continuous). We present the likelihood function for a sample from this pair of mixed random variables, and derive an estimate of the dependence parameter using a semiparametric procedure where margins are estimated by their empirical equivalents. We use the jackknife method to estimate the standard error. We use a Wald-type procedure, to perform a parametric hypothesis test of equality between the association of the socio economic characteristics of men who marry underage girls and that of men who marry older women instead. These test results contribute to the validity of our theory that men who marry girls under 18 years old have a low level of education and income pre-marital, when compared to men who did not.
|
317 |
Modèles de dépendance dans la théorie du risqueBargès, Mathieu 16 April 2018 (has links)
Initialement, la théorie du risque supposait l’indépendance entre les différentes variables aléatoires et autres paramètres intervenant dans la modélisation actuarielle. De nos jours, cette hypothèse d’indépendance est souvent relâchée afin de tenir compte de possibles interactions entre les différents éléments des modèles. Dans cette thèse, nous proposons d’introduire des modèles de dépendance pour différents aspects de la théorie du risque. Dans un premier temps, nous suggérons l’emploi des copules comme structure de dépendance. Nous abordons tout d’abord un problème d’allocation de capital basée sur la Tail-Value-at-Risk pour lequel nous supposons un lien introduit par une copule entre les différents risques. Nous obtenons des formules explicites pour le capital à allouer à l’ensemble du portefeuille ainsi que la contribution de chacun des risques lorsque nous utilisons la copule Farlie-Gumbel-Morgenstern. Pour les autres copules, nous fournissons une méthode d’approximation. Au deuxième chapitre, nous considérons le processus aléatoire de la somme des valeurs présentes des sinistres pour lequel les variables aléatoires du montant d’un sinistre et de temps écoulé depuis le sinistre précédent sont liées par une copule Farlie-Gumbel-Morgenstern. Nous montrons comment obtenir des formes explicites pour les deux premiers moments puis le moment d’ordre m de ce processus. Le troisième chapitre suppose un autre type de dépendance causée par un environnement extérieur. Dans le contexte de l’étude de la probabilité de ruine d’une compagnie de réassurance, nous utilisons un environnement markovien pour modéliser les cycles de souscription. Nous supposons en premier lieu des temps de changement de phases de cycle déterministes puis nous les considérons ensuite influencés en retour par les montants des sinistres. Nous obtenons, à l’aide de la méthode d’erlangisation, une approximation de la probabilité de ruine en temps fini. / Initially, it was supposed in risk theory that the random variables and other parameters of actuarial models were independent. Nowadays, this hypothesis is often relaxed to take into account possible interactions. In this thesis, we propose to introduce some dependence models for different aspects of risk theory. In a first part, we use copulas as dependence structure. We first tackle a problem of capital allocation based on the Tail- Value-at-Risk where the risks are supposed to be dependent according to a copula. We obtain explicit formulas for the capital to be allocated to the overall portfolio but also for the contribution of each risk when we use a Farlie-Gumbel-Morenstern copula. For the other copulas, we give an approximation method. In the second chapter, we consider the stochastic process of the discounted aggregate claims where the random variables for the claim amount and the time since the last claim are linked by a Farlie-Gumbel- Morgenstern copula.We show how to obtain exact expressions for the first two moments and for the moment of order m of the process. The third chapter assumes another type of dependence that is caused by an external environment. In the context of the study of the ruin probability for a reinsurance company, we use a Markovian environment to model the underwriting cycles. We suppose first deterministic cycle phase changes and then that these changes can also be influenced by the claim amounts. We use the erlangization method to obtain an approximation for the finite time ruin probability.
|
318 |
Contribution à la modélisation mathématique pour la simulation et l'observation d'états des bioprocédésBogaerts, Philippe 21 April 1999 (has links)
Les bioprocédés ont connu un essor considérable au cours de ces dernières années et sont promis à un bel avenir. Qu'il s'agisse de la production de vaccins, de la fermentation de levures pour l'industrie alimentaire ou encore de l'épuration biologique des eaux usées, les applications sont nombreuses et les produits sont d'un intérêt capital pour l'être humain. Étant donnés le coût et le temps de mise en oeuvre de ces procédés, il est particulièrement utile de construire des simulateurs permettant de reproduire le comportement macroscopique des cultures cellulaires utilisées. Ces simulateurs peuvent servir à déterminer des conditions optimales de fonctionnement (en fonction des critères de l'utilisateur) et à tester certains outils (régulateurs, capteurs logiciels, etc.). Par ailleurs, il est nécessaire, pour le suivi et la régulation de ces procédés, de disposer de grandeurs mesurées (concentrations cellulaires, en substrats, en le produit d'intérêt, etc.). Les problèmes liés à la mesure matérielle de ces grandeurs sont nombreux: coût des capteurs, destruction des échantillons, longues périodes d'échantillonnage, temps d'analyse élevés, etc. Il est dès lors utile de construire des observateurs d'états (ou capteurs logiciels) fournissant une estimation en temps continu de grandeurs non mesurées sur la base d'un modèle mathématique et de certaines mesures matérielles.
Les modèles mathématiques sont nécessaires pour la synthèse des deux types d'outils envisagés dans ce travail (simulateurs et capteurs logiciels). Les modèles utilisés consistent en les bilans massiques des constituants apparaissant dans le schéma réactionnel, ce dernier contenant les réactions essentielles pour la description des phénomènes à l'échelle macroscopique. Au sein de ces bilans massiques, une nouvelle structure générale de modèle cinétique est proposée, possédant un certain nombre de propriétés intéressantes, telles l'interprétation physique des paramètres cinétiques, les concentrations définies positives sous certaines conditions, la garantie de stabilité entrées bornées - états bornés, ou encore la possibilité de linéarisation en les paramètres à estimer.
Une méthodologie générale d'estimation paramétrique est proposée, afin d'identifier les coefficients pseudo-stoechiométriques, les coefficients cinétiques et certains paramètres expérimentaux (concentrations initiales des cultures). Cette méthodologie possède un caractère systématique, prend en compte les erreurs de mesure sur l'ensemble des signaux (y compris à l'instant initial), fournit à l'utilisateur la covariance des erreurs d'estimation paramétrique, prend en compte intrinsèquement les contraintes de signe sur les paramètres, fournit une estimation des erreurs de simulation, permet de réduire le nombre d'équations différentielles au sein du modèle, etc. La mise en oeuvre et l'intérêt de ces outils sont illustrés en simulation (cultures bactériennes) et dans le cas d'une application réelle (cultures de cellules animales CHO).
La première catégorie d'observateurs d'états étudiée dans ce travail est celle des observateurs utilisant pleinement le modèle cinétique. L'observation d'états basée sur l'identification des conditions initiales les plus vraisemblables est plus particulièrement analysée. Elle consiste à estimer en temps continu l'entièreté de l'état par intégration d'un modèle de simulation au départ des conditions initiales les plus vraisemblables. Ces dernières sont identifiées à chaque nouvel instant de mesure sur la base de toute l'information disponible jusqu'à cet instant. Certaines propriétés mathématiques sont étudiées (dont une comparaison avec le filtre de Kalman) et un certain nombre d'extensions de la méthode sont proposées (dont une version récurrente qui ne nécessite plus de résoudre un problème d'optimisation non linéaire à chaque nouvel instant de mesure). Ces outils sont à nouveau illustrés dans le cadre des cultures de cellules animales CHO, et se basent sur les modèles de simulation développés dans la première partie du travail.
Étant donné les risques de divergence des observateurs de cette première catégorie lorsque la qualité du modèle cinétique n'est pas suffisante, une seconde catégorie est envisagée, constituée des observateurs utilisant partiellement le modèle cinétique. Dans ce contexte, un nouvelle technique est proposée consistant en un observateur hybride entre le filtre de Kalman étendu (utilisant pleinement le modèle cinétique) et l'observateur asymptotique de Bastin et Dochain (n'utilisant pas du tout le modèle cinétique). Cette structure estime (conjointement avec l'état du système) un degré de confiance en le modèle cinétique. Elle est capable d'évoluer de façon progressive, en fonction de ce degré de confiance, entre les deux solutions extrêmes (filtre de Kalman et observateur asymptotique), tirant ainsi parti des avantages respectifs de ces deux méthodes selon les conditions opératoires et la qualité du modèle cinétique. Ces outils sont validés sur des cultures bactériennes simulées.
|
319 |
Phylogenetic structural modeling of molecular evolutionRodrigue, Nicolas January 2007 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
320 |
Traçabilité modulée pour la conformité à Sarbanes-OxleyLepage, Yves January 2009 (has links) (PDF)
La traçabilité est un mécanisme qui est indispensable dans la conduite des activités de vérification de la conformité des compagnies à la loi Sarbanes-Oxley. Cette loi rend les administrateurs (PDG, Chef des affaires financières, etc.) responsables des déclarations faites dans les états financiers. Elle a été établie dans la foulée des scandales corporatifs aux États-Unis, comme ceux des compagnies Enron et Worldcom. Les données utilisées pour produire les états financiers, lesquelles sont produites par des systèmes informatiques périphériques, transitent toujours par des bases de données. L'implantation d'un mécanisme de traçabilité des bases de données se heurte à plusieurs problèmes, dont le plus important est la gestion du volume des données de traçabilité, lequel devient rapidement trop important pour rendre les données de traçabilité utiles. Ce mémoire démontre qu'une solution envisageable pour résoudre ce problème consiste à identifier et à définir les comportements typiques de la fraude et d'utiliser ces comportements comme indicateurs de fraude potentielle. Jumelés à des techniques de classification telles que la classification Baysienne qui est utilisée dans le domaine de la détection du pourriel, les indicateurs permettront la classification des transactions potentiellement frauduleuses, dans le but d'appliquer le mécanisme de traçabilité qu'à ces transactions. Ainsi, nous démontrons que l'application de la classification Baysienne sur ces attributs, permet effectivement de détecter et de classifier des transactions frauduleuses comme tel et qu'en conséquence, un traitement de traçage spécifique peut être effectué sur ces transactions. En ne traçant plus spécifiquement que les transactions identifiées comme frauduleuses, le volume de données de traçabilité est alors réduit à son expression la plus utile et simple et du coup le problème de la gestion du volume des données de traçage s'en trouve d'autant diminué. Notre expérimentation démontre le bien-fondé de cette approche pour différencier les transactions honnêtes des transactions frauduleuses. Cette différenciation s'est faite avec un haut taux de succès et avec grande fiabilité, tel que démontré par les taux de détection obtenus pour les transactions frauduleuses. Les résultats détaillés sont documentés dans ce mémoire et prouvent la viabilité de cette approche. Comme les attributs utilisés qui sont basés sur les indicateurs de comportements sont intimement liés au domaine d'application, nous proposons une approche pour raffiner les résultats et ainsi rendre possible la différenciation des différents types de fraude à l'intérieur de ces transactions frauduleuses. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Fraude, Sarbanes-Oxley, Traçabilité, Détection automatique, Classification, Bayes.
|
Page generated in 0.0884 seconds