11 |
Optimisation et auto-optimisation des systèmes de commande à données échantillonnées, en présence de saturationsThellier, Pierre 01 January 1962 (has links) (PDF)
.
|
12 |
Agrégation et échantillonnage systématique de séries chronologiquesNadon, Jonathan January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
13 |
Efficient sequential learning in structured and constrained environments / Apprentissage séquentiel efficace dans des environnements structurés avec contraintesCalandriello, Daniele 18 December 2017 (has links)
L'avantage principal des méthodes d'apprentissage non-paramétriques réside dans le fait que la nombre de degrés de libertés du modèle appris s'adapte automatiquement au nombre d'échantillons. Ces méthodes sont cependant limitées par le "fléau de la kernelisation": apprendre le modèle requière dans un premier temps de construire une matrice de similitude entre tous les échantillons. La complexité est alors quadratique en temps et espace, ce qui s'avère rapidement trop coûteux pour les jeux de données de grande dimension. Cependant, la dimension "effective" d'un jeu de donnée est bien souvent beaucoup plus petite que le nombre d'échantillons lui-même. Il est alors possible de substituer le jeu de donnée réel par un jeu de données de taille réduite (appelé "dictionnaire") composé exclusivement d'échantillons informatifs. Malheureusement, les méthodes avec garanties théoriques utilisant des dictionnaires comme "Ridge Leverage Score" (RLS) ont aussi une complexité quadratique. Dans cette thèse nous présentons une nouvelle méthode d'échantillonage RLS qui met à jour le dictionnaire séquentiellement en ne comparant chaque nouvel échantillon qu'avec le dictionnaire actuel, et non avec l'ensemble des échantillons passés. Nous montrons que la taille de tous les dictionnaires ainsi construits est de l'ordre de la dimension effective du jeu de données final, garantissant ainsi une complexité en temps et espace à chaque étape indépendante du nombre total d'échantillons. Cette méthode présente l’avantage de pouvoir être parallélisée. Enfin, nous montrons que de nombreux problèmes d'apprentissage non-paramétriques peuvent être résolus de manière approchée grâce à notre méthode. / The main advantage of non-parametric models is that the accuracy of the model (degrees of freedom) adapts to the number of samples. The main drawback is the so-called "curse of kernelization": to learn the model we must first compute a similarity matrix among all samples, which requires quadratic space and time and is unfeasible for large datasets. Nonetheless the underlying effective dimension (effective d.o.f.) of the dataset is often much smaller than its size, and we can replace the dataset with a subset (dictionary) of highly informative samples. Unfortunately, fast data-oblivious selection methods (e.g., uniform sampling) almost always discard useful information, while data-adaptive methods that provably construct an accurate dictionary, such as ridge leverage score (RLS) sampling, have a quadratic time/space cost. In this thesis we introduce a new single-pass streaming RLS sampling approach that sequentially construct the dictionary, where each step compares a new sample only with the current intermediate dictionary and not all past samples. We prove that the size of all intermediate dictionaries scales only with the effective dimension of the dataset, and therefore guarantee a per-step time and space complexity independent from the number of samples. This reduces the overall time required to construct provably accurate dictionaries from quadratic to near-linear, or even logarithmic when parallelized. Finally, for many non-parametric learning problems (e.g., K-PCA, graph SSL, online kernel learning) we we show that we can can use the generated dictionaries to compute approximate solutions in near-linear that are both provably accurate and empirically competitive.
|
14 |
Photodétecteurs rapides à la longueur d’onde de 1550 nm pour la génération et la détection d’ondes sub-THz et THz / Fast photodetectors at 1550 nm wavelength for generation and detection of sub-THz and THz wavesBillet, Maximilien 16 March 2018 (has links)
Les photodétecteurs rapides sont des composants optoélectroniques qui permettent de générer et de détecter des ondes de fréquences sub-THz et THz. Cette thèse présente la conception, la fabrication et la caractérisation de photodétecteurs rapides à semiconducteurs III-V. L’objectif est de proposer des systèmes fonctionnant à la longueur d’onde de 1550 nm, et donc compatibles avec les technologies des télécommunications. Nous étudions en détail des photoconducteurs en AsGa-BT pour le sous-échantillonnage, des photodétecteurs de type MSM-InAlAs/InGaAs pour le sous-échantillonnage et le photomélange et des photodiodes UTC en InGaAs/InP pour le photomélange. / Fast photodetectors are optoelectronic devices wich allow to generate and to detect electromagnetic waves at sub-THz and THz frequencies. This thesis presents the design, the fabrication and the characterization of fast photodetectors made using III-V semiconductors. The objective is to develop systems working at a wavelength of 1550nm, compatibleswith the telecommunication technologies. We will study in detail LT-GaAs photoconductors for sub-sampling, InAlAs/InGaAs-MSM photodetectors for sub-sampling and photomixing and InGaAs/InP UTC-photodiodes for photomixing.
|
15 |
Simulations and applications of large-scale k-determinantal point processes / Simulations et applications des k-processus ponctuels déterminantauxWehbe, Diala 03 April 2019 (has links)
Avec la croissance exponentielle de la quantité de données, l’échantillonnage est une méthode pertinente pour étudier les populations. Parfois, nous avons besoin d’échantillonner un grand nombre d’objets d’une part pour exclure la possibilité d’un manque d’informations clés et d’autre part pour générer des résultats plus précis. Le problème réside dans le fait que l’échantillonnage d’un trop grand nombre d’individus peut constituer une perte de temps.Dans cette thèse, notre objectif est de chercher à établir des ponts entre la statistique et le k-processus ponctuel déterminantal(k-DPP) qui est défini via un noyau. Nous proposons trois projets complémentaires pour l’échantillonnage de grands ensembles de données en nous basant sur les k-DPPs. Le but est de sélectionner des ensembles variés qui couvrent un ensemble d’objets beaucoup plus grand en temps polynomial. Cela peut être réalisé en construisant différentes chaînes de Markov où les k-DPPs sont les lois stationnaires.Le premier projet consiste à appliquer les processus déterminantaux à la sélection d’espèces diverses dans un ensemble d’espèces décrites par un arbre phylogénétique. En définissant le noyau du k-DPP comme un noyau d’intersection, les résultats fournissent une borne polynomiale sur le temps de mélange qui dépend de la hauteur de l’arbre phylogénétique.Le second projet vise à utiliser le k-DPP dans un problème d’échantillonnage de sommets sur un graphe connecté de grande taille. La pseudo-inverse de la matrice Laplacienne normalisée est choisie d’étudier la vitesse de convergence de la chaîne de Markov créée pour l’échantillonnage de la loi stationnaire k-DPP. Le temps de mélange résultant est borné sous certaines conditions sur les valeurs propres de la matrice Laplacienne.Le troisième sujet porte sur l’utilisation des k-DPPs dans la planification d’expérience avec comme objets d’étude plus spécifiques les hypercubes latins d’ordre n et de dimension d. La clé est de trouver un noyau positif qui préserve le contrainte de ce plan c’est-à-dire qui préserve le fait que chaque point se trouve exactement une fois dans chaque hyperplan. Ensuite, en créant une nouvelle chaîne de Markov dont le n-DPP est sa loi stationnaire, nous déterminons le nombre d’étapes nécessaires pour construire un hypercube latin d’ordre n selon le n-DPP. / With the exponentially growing amount of data, sampling remains the most relevant method to learn about populations. Sometimes, larger sample size is needed to generate more precise results and to exclude the possibility of missing key information. The problem lies in the fact that sampling large number may be a principal reason of wasting time.In this thesis, our aim is to build bridges between applications of statistics and k-Determinantal Point Process(k-DPP) which is defined through a matrix kernel. We have proposed different applications for sampling large data sets basing on k-DPP, which is a conditional DPP that models only sets of cardinality k. The goal is to select diverse sets that cover a much greater set of objects in polynomial time. This can be achieved by constructing different Markov chains which have the k-DPPs as their stationary distribution.The first application consists in sampling a subset of species in a phylogenetic tree by avoiding redundancy. By defining the k-DPP via an intersection kernel, the results provide a fast mixing sampler for k-DPP, for which a polynomial bound on the mixing time is presented and depends on the height of the phylogenetic tree.The second application aims to clarify how k-DPPs offer a powerful approach to find a diverse subset of nodes in large connected graph which authorizes getting an outline of different types of information related to the ground set. A polynomial bound on the mixing time of the proposed Markov chain is given where the kernel used here is the Moore-Penrose pseudo-inverse of the normalized Laplacian matrix. The resulting mixing time is attained under certain conditions on the eigenvalues of the Laplacian matrix. The third one purposes to use the fixed cardinality DPP in experimental designs as a tool to study a Latin Hypercube Sampling(LHS) of order n. The key is to propose a DPP kernel that establishes the negative correlations between the selected points and preserve the constraint of the design which is strictly confirmed by the occurrence of each point exactly once in each hyperplane. Then by creating a new Markov chain which has n-DPP as its stationary distribution, we determine the number of steps required to build a LHS with accordance to n-DPP.
|
16 |
ECHANTILLONNAGE POUR LES ESPACES<br />DE FONCTIONS ANALYTIQUES À POIDSDhuez, Rémi 29 September 2005 (has links) (PDF)
Nous nous intéressons au problème d'échantillonnage pour les espaces de fonctions analytiques dans le disque unité $\DD\subset\CC$, à poids radial. Nous considérons l'espace de Banach <br />$$A_h(\DD)=\{f \text{ holomorphes sur } \DD : \|f\|_h=\sup_{z\in\DD}|f(z)|e^{-h(|z|)}<+\infty\},$$<br />où le poids $h$ est de classe $C^2$ et $h(r)\to+\infty$ quand $r\to1-$. <br /><br />Le premier chapitre est consacré au cas des poids à croissance lente. Nous montrons que la stabilité de Möbius de l'échantillonnage n'est pas vérifiée dans $A_h(\DD)$.<br /><br />Les deux chapitres suivants sont consacrés au cas des poids à croissance rapide. Nous caractérisons les suites d'échantillonnage pour $A_h(\DD)$ en terme de densité.
|
17 |
Estimation de la borne supérieur par des approches statistiques et par la méthode de StringerJoubir, Sami January 2010 (has links) (PDF)
Ce mémoire présente de nouvelles approches statistiques pour estimer la borne supérieure d'une population dans un contexte bien particulier, celui de la vérification comptable. Étant donné que dans la plupart des cas on se retrouve avec des échantillons où le nombre d'erreurs est souvent. faible ou nul, les méthodes classiques risquent fort d'être inadéquates.
Dans ce mémoire, nous allons revenir sur quelques méthodes classiques puis présenter différentes méthodes spécifiques proposées par des chercheurs et nous mettrons l'accent sur la méthode de Stringer qui est très utilisée dans la pratique de la profession. Notre objectif est de voir dans quels cas ces méthodes pourraient être plus efficaces que les méthodes classiques. Les propriétés des méthodes classiques sont connues, contrairement à celles des approches spécifiqes où plusieurs d'entre elles n'ont jamais été démontrées et, parmi elles, la méthode de Stringer qui nous intéresse particulièrement. À cet effet, dans le chapitre 3, nous allons faire des simulations pour confirmer les comparaisons théoriques entre les méthodes dont on connait les propriétés et voir les résultats de celles qu'on ne connaît pas. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Échantillonnage, Estimation, Borne supérieure, Méthodes classiques, Méthode de Stringer.
|
18 |
Développement et validation d'une méthode d'échantillonnage et d'analyse pour l'évaluation globale des amines en milieu de travailFournier, Mathieu January 2006 (has links) (PDF)
Les amines, dont plus de 60 sont réglementées au Québec, sont largement utilisées dans plusieurs secteurs industriels. Elles peuvent causer une grande variété de problèmes de santé chez les travailleurs exposés. L'évaluation de l'exposition professionnelle pose un défi puisque les méthodes disponibles d'échantillonnage et d'analyse sont spécifiques à une substance ou à la famille de cette substance et sont souvent compliquées à utiliser. Le projet visait le développement d'un système d'échantillonnage et d'une méthode d'analyse pour la détermination simultanée de sept amines parmi les plus susceptibles d'être retrouvées dans les milieux de travail québécois incluant des amines aliphatiques, des amines aromatiques et des alcoolamines. Le système d'échantillonnage développé utilise des cassettes de 37 mm munies d'un filtre en fibres de verre imprégné d'acide sulfurique. Immédiatement après l'échantillonnage, le filtre est transféré dans une jarre contenant une solution de chlorure de dansyle. Ce réactif est utilisé pour la dérivation parce qu'il forme des sulfonamides aromatiques fluorescentes et faciles à protoner, permettant l'analyse subséquente par CLHP-UV/FL ou CLHP/ESI-SM. Le dérivé dansylé du 1-(2-méthoxyphényl)pipérazine (MOPIP) a été utilisé comme étalon interne en étant directement ajouté sur un filtre lors de l'échantillonnage. L'efficacité de récupération du système d'échantillonnage développé est près de 100 % pour toutes les amines avec des claquages inférieurs à 1 %. L'incertitude étendue de la méthode varie entre 10 % et 18 % selon l'amine et le mode de détection. L'analyse de routine des produits est possible jusqu'à des limites de quantification inférieures de l'ordre de 0,1 µg/mL. L'analyse à haute sensibilité permet, quant à elle, de diminuer les limites de quantification de deux ordres de grandeur. Cette nouvelle stratégie sera utile dans l'évaluation de la qualité de l'air ambiant dans les milieux de travail étant donné qu'elle comprend un système d'échantillonnage unique indépendant de l'amine à quantifier. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Amine aromatique, Amine aliphatique, Alcoolamine, Analyse simultanée, Analyse de l'air.
|
19 |
Estimation robuste en population finie et infinie / Robust estimation in finite and infinite populationFavre-Martinoz, Cyril 13 October 2015 (has links)
Les travaux de recherche développés dans cette thèse portent sur l'estimation robuste dans un contexte de population finie et infinie. Cette thèse comporte cinq chapitres, une introduction et une conclusion. Le chapitre 2 passe en revue la littérature portant sur plusieurs sujets tels que : l'inférence en population finie, l'estimation pour des petits domaines, l'estimation robuste dans un contexte de populations finies mais également de populations infinies. Dans le chapitre 3, le problème du choix du seuil dans le cas des estimateurs winzorisés est abordé. Nous avons montré que ces estimateurs appartiennent à une classe plus large, ce qui a permis de déterminer la valeur du seuil qui minimise le plus grand biais conditionnel estimé de l'échantillon (en valeur absolue) par rapport à l'estimateur winzorisé. Sous certaines conditions, nous avons montré que le seuil optimal existe et qu'il est unique dans certaines situations. Nous avons également proposé une méthode de calage permettant d'assurer la cohérence externe, qui est un problème très important en pratique. Les résultats d'une étude par simulation montrent que la méthode proposée fonctionne très bien en termes de biais et d'efficacité relative. Dans le chapitre 4, nous avons généralisé les résultats obtenus par Beaumont, Haziza et Ruiz-Gazen (2013, Biometrika) au cas de l'échantillonnage à deux-phases avec application au problème de la non-réponse totale. À notre connaissance, c'est le premier article portant sur l'estimation robuste en présence de données manquantes. Nous avons développé une version robuste des estimateurs par double dilatation et des estimateurs de calage. Dans le chapitre 5, nous nous sommes intéressés à l'estimation robuste dans un contexte de statistique classique (ou de populations infinies). Nous avons proposé une alternative robuste à la moyenne empirique. En particulier, nous avons développé une expression approximative de l'erreur quadratique moyenne pour des distributions appartenant aux domaines d'attraction de Gumbel et à celui de Frechet, ce qui nous a permis de comparer l'efficacité de l'estimateur proposé à celle de l'estimateur winzorisé une fois proposé par Rivest (1994, Biometrika). Dans le chapitre 6, nous avons traité du problème de l'estimation robuste dans un contexte d'estimation pour petits domaines, qui est un sujet qui a suscité beaucoup d'intérêt dans les dernières années. Nous avons proposé une approche unifiée d'estimation robuste à la présence de valeurs influentes dans le cas d'un modèle linéaire mixte généralisé. Lorsque le modèle sous-jacent est un modèle linéaire mixte, la méthode proposée est équivalente à la méthode de Dongmo Jiongo, Haziza et Duchesne (2013, Biometrika). Nous avons effectué des simulations dans le cas d'une variable d'intérêt continue, d'une variable binaire et d'une variable de comptage et avons montré empiriquement que la méthode proposée a de bonnes propriétés en termes d'erreur quadratique moyenne. / The main topic of this thesis is the robust estimation in finite or infinite population. The thesis is divided in five chapters, an introduction and a conclusion. The chapter 2 is a literature review focus on several topics as: inference in finite population, small area estimation, robust estimation in finite and infinite population. In chapter 3, we deal with the winsorization, which is often used to treat the problem of influential values. This technique requires the determination of a constant that corresponds to the threshold above which large values are reduced. We consider a method of determining the constant which involves minimizing the sample's largest estimated conditional bias. In the context of domain estimation, we also propose a method of ensuring consistency between the domain-level winsorized estimates and the population-level winsorized estimate. The results of two simulation studies suggest that the proposed methods lead to winsorized estimators that have good bias and relative efficiency properties. In chapter 4, we extend the results of Beaumont et al. (2013) to the case of two-phase sampling designs. We extend the concept of conditional bias attached to a unit with respect to both phases and propose a robust version of the double expansion estimator. Our results can be naturally extended to the case of unit nonresponse, since the set of respondents often being viewed as a second phase sample. A robust version of calibration estimators, based on auxiliary information available at both phases, is also constructed. In chapter 5, we focus on the estimation of the population mean of a skewed population. We propose a robust version of the empirical mean, develop some mean square error approximations for the max-domain of attraction of Gumbel and Fréchet, and compare the efficiency of the proposed estimator to the one-winsorized estimator proposed by Rivest (1994, Biometrika). We also extend the result to the case of a regression coefficient for a linear model. In chapter 6, we focus on the robust estimation for small areas. We first propose a robust predictor in a general model-based framework with the use of generalized linear models and then we propose a unified framework for robust small area prediction in the context of generalized LMMs. We conduct a Monte Carlo study in the case where the variable of interest is continuous, binary or count data and we show empirically that the estimator derived from the proposed method have good bias and relative efficiency properties.
|
20 |
Active Learning : an unbiased approach / L’apprentissage actif : une approche non biaiséeRibeiro de Mello, Carlos Eduardo 04 June 2013 (has links)
L'apprentissage actif apparaît comme un problème important dans différents contextes de l'apprentissage supervisé pour lesquels obtenir des données est une tâche aisée mais les étiqueter est coûteux. En règle générale, c’est une stratégie de requête, une heuristique gloutonne basée sur un critère de sélection qui recherche les données non étiquetées potentiellement les plus intéressantes pour former ainsi un ensemble d'apprentissage. Une stratégie de requête est donc une procédure d'échantillonnage biaisée puisqu'elle favorise systématiquement certaines observations s'écartant ainsi des modèles d'échantillonnages indépendants et identiquement distribués. L'hypothèse principale de cette thèse s'inscrit dans la réduction du biais introduit par le critère de sélection. La proposition générale consiste à réduire le biais en sélectionnant le sous-ensemble minimal d'apprentissage pour lequel l'estimation de la loi de probabilité est aussi proche que possible de la loi sous-jacente prenant en compte l’intégralité des observations. Pour ce faire, une nouvelle stratégie générale de requête pour l'apprentissage actif a été mise au point utilisant la théorie de l'Information. Les performances de la stratégie de requête proposée ont été évaluées sur des données réelles et simulées. Les résultats obtenus confirment l'hypothèse sur le biais et montrent que l'approche envisagée améliore l'état de l'art sur différents jeux de données. / Active Learning arises as an important issue in several supervised learning scenarios where obtaining data is cheap, but labeling is costly. In general, this consists in a query strategy, a greedy heuristic based on some selection criterion, which searches for the potentially most informative observations to be labeled in order to form a training set. A query strategy is therefore a biased sampling procedure since it systematically favors some observations by generating biased training sets, instead of making independent and identically distributed draws. The main hypothesis of this thesis lies in the reduction of the bias inherited from the selection criterion. The general proposal consists in reducing the bias by selecting the minimal training set from which the estimated probability distribution is as close as possible to the underlying distribution of overall observations. For that, a novel general active learning query strategy has been developed using an Information-Theoretic framework. Several experiments have been performed in order to evaluate the performance of the proposed strategy. The obtained results confirm the hypothesis about the bias, showing that the proposal outperforms the baselines in different datasets.
|
Page generated in 0.0539 seconds