Spelling suggestions: "subject:"augmentation dde données"" "subject:"augmentation dee données""
1 |
Échantillonnage de Gibbs avec augmentation de données et imputation multipleVidal, Vincent 11 April 2018 (has links)
L'objectif de ce mémoire est de comparer la méthode d'échantillonnage de Gibbs avec augmentation de données, telle que présentée par Paquet (2002) et Bernier-Martel (2005), avec celle de l'imputation multiple telle que présentée par Grégoire (2004). Le critère de comparaison sera le signe des coefficients estimés. Nous travaillerons dans le contexte de bases de données indépendantes et d'un modèle linéaire à choix discret. Le modèle sera exprimé en tenant compte du choix des modes de transport des ménages de la communauté urbaine de Toronto. Pour réaliser ce projet, nous utiliserons la base de données du TTS (Transportation Tomorrow Survey) de 1986 et de 1996. Les résultats n'ont pas tous été estimés par un signe cohérent à nos attentes. Toutefois, nous pouvons conclure que l'échantillonnage de Gibbs avec augmentation de données est une approche plus intéressante que l'imputation multiple, puisqu'elle a estimé un nombre plus élevé de bons signes.
|
2 |
Rule-based data augmentation for document-level medical concept extractionShao, Qiwei 08 1900 (has links)
L'extraction de concepts médicaux au niveau du document identifie les concepts médicaux distincts dans un document entier, essentielle pour améliorer les modèles de recherche d'information et de question-réponse en comprenant les concepts dans les requêtes et les documents sans necessiter d'annotations manuelles.
Les recherches existantes se sont concentrées sur la reconnaissance d'entités nommées (Named Entity Recognition - NER) ou le liaison d'entités (Entity Linking - EL) séparément, s'appuyant fortement sur des annotations manuelles qui sont souvent indisponibles ou limitées. De plus, la plupart des méthodes de NER et EL sont limitées dans leur capacité de tenir compte du contexte lors de l'association de texte aux concepts, ce qui complique l'identification des termes polysémiques et des noms de concepts non canoniques nécessitant une désambiguïsation contextuelle.
Notre approche aborde trois défis : la rareté des données d'entraînement étiquetées, les noms de concepts non canoniques et la polysémie. Nous traitons l'extraction de concepts au niveau du document comme un problème de match de plongement concept-document. Pour entraîner un modèle de match avec des exemples limités, nous utilisons des pseudo-annotations générées par MetaMapLite pour augmenter les données de nombreux concepts de test. Notre hypothèse est que, malgré que les annotations par MetaMapLite sont bruitées, si la majorité des annotations est correcte, elles peuvent servir à entraîner un meilleur modèle de match.
Nos expériences montrent que notre méthode d'augmentation de données dépasse les modèles de base comme BioBERT, BiomedBERT, BioLinkBERT et SapBERT dans l'extraction générale de concepts et des scénarios spécifiques impliquant des concepts sous-entraînés, des noms non canoniques et des termes polysémiques de 6.8\% à 46.7\%. Notre modèle s'avère robuste à diverses configurations, y compris la quantité et le poids des examples d'entraînement augmentés, les plongements lexicaux et les filtres de pseudo-annotations.
Nous établissons une base solide dans l'extraction de concepts médicaux au niveau du document par l'augmentation des données. Notre étude montre une avenue prometteuse d'exploiter diverses techniques d'augmentation de données pour améliorer l'extraction de concepts au niveau du document. / Document-level medical concept extraction identifies distinct medical concepts across an entire document, crucial for enhancing information retrieval and question-answering models by accurately understanding concepts in queries and documents without needing precise mention annotations.
Traditional research has focused on Named Entity Recognition (NER) or Entity Linking (EL) separately, relying heavily on extensive manual annotations often unavailable in many question-answering datasets. Moreover, most NER and EL methods are limited in taking into account context when matching text to concept IDs, complicating the identification of polysemous terms and non-canonical concept names requiring contextual disambiguation.
Our approach address three challenges: scarcity of labeled training data, non-canonical concept names, and polysemy. We treats document-level concept extraction as a concept-document embedding matching problem, enabling the model to learn from context without extensive manual annotations. We use pseudo-annotations generated by MetaMapLite to tackle the lack of labeled data for many test concepts. The assumption is that while the annotations by MetaMapLite are noisy, if the majority of the annotations are correct, they can provide useful information for training a neural matching model.
Our experiments show that our data augmentation method surpasses baseline models like BioBERT, BiomedBERT, BioLinkBERT, and SapBERT in general concept extraction and specific scenarios involving undertrained concepts, non-canonical names, and polysemous terms by 6.8\% to 46.7\%. Our model proves robust to various configurations, including augmented training sample quantity and weighting, embedding methods, and pseudo-annotation filters.
We establish a solid foundation in document-level medical concept extraction through data augmentation. Our study shows a promising avenue of exploiting diverse data augmentation techniques to improve document-level concept extraction.
|
3 |
Approche bayésienne de l'évaluation de l'incertitude de mesure : application aux comparaisons interlaboratoiresDemeyer, Séverine 04 March 2011 (has links) (PDF)
La modélisation par équations structurelles est très répandue dans des domaines très variés et nous l'appliquons pour la première fois en métrologie dans le traitement de données de comparaisons interlaboratoires. Les modèles à équations structurelles à variables latentes sont des modèles multivariés utilisés pour modéliser des relations de causalité entre des variables observées (les données). Le modèle s'applique dans le cas où les données peuvent être regroupées dans des blocs disjoints où chaque bloc définit un concept modélisé par une variable latente. La structure de corrélation des variables observées est ainsi résumée dans la structure de corrélation des variables latentes. Nous proposons une approche bayésienne des modèles à équations structurelles centrée sur l'analyse de la matrice de corrélation des variables latentes. Nous appliquons une expansion paramétrique à la matrice de corrélation des variables latentes afin de surmonter l'indétermination de l'échelle des variables latentes et d'améliorer la convergence de l'algorithme de Gibbs utilisé. La puissance de l'approche structurelle nous permet de proposer une modélisation riche et flexible des biais de mesure qui vient enrichir le calcul de la valeur de consensus et de son incertitude associée dans un cadre entièrement bayésien. Sous certaines hypothèses l'approche permet de manière innovante de calculer les contributions des variables de biais au biais des laboratoires. Plus généralement nous proposons un cadre bayésien pour l'amélioration de la qualité des mesures. Nous illustrons et montrons l'intérêt d'une modélisation structurelle des biais de mesure sur des comparaisons interlaboratoires en environnement.
|
4 |
Estimation bayesienne d'un modèle de volatilité stochastique et application au risque de taux d'intérêtCloutier, Jean 18 April 2018 (has links)
La modélisation de la volatilité des actifs financiers s'est avérée un sujet très populaire depuis plusieurs années. La performance accrue des ordinateurs a permis d'appliquer les méthodes bayésiennes à l'estimation de ces modèles. Ce mémoire traite de l'estimation bayesienne des modèles d'un modèle de volatilité stochastique dans ses versions univariées et multivariées. L'estimation se fait par un algorithme MCMC via la technique de l'augmentation des données. Par la suite, une application au calcul de la valeur-à-risque sur un titre à revenus fixes est démontrée.
|
5 |
Mélanges bayésiens de modèles d'extrêmes multivariés : application à la prédétermination régionale des crues avec données incomplètes / Bayesian model mergings for multivariate extremes : application to regional predetermination of floods with incomplete dataSabourin, Anne 24 September 2013 (has links)
La théorie statistique univariée des valeurs extrêmes se généralise au cas multivarié mais l'absence d'un cadre paramétrique naturel complique l'inférence de la loi jointe des extrêmes. Les marges d'erreur associée aux estimateurs non paramétriques de la structure de dépendance sont difficilement accessibles à partir de la dimension trois. Cependant, quantifier l'incertitude est d'autant plus important pour les applications que le problème de la rareté des données extrêmes est récurrent, en particulier en hydrologie. L'objet de cette thèse est de développer des modèles de dépendance entre extrêmes, dans un cadre bayésien permettant de représenter l'incertitude. Le chapitre 2 explore les propriétés des modèles obtenus en combinant des modèles paramétriques existants, par mélange bayésien (Bayesian Model Averaging BMA). Un modèle semi-paramétrique de mélange de Dirichlet est étudié au chapitre suivant : une nouvelle paramétrisation est introduite afin de s'affranchir d'une contrainte de moments caractéristique de la structure de dépendance et de faciliter l'échantillonnage de la loi à posteriori. Le chapitre 4 est motivé par une application hydrologique : il s'agit d'estimer la structure de dépendance spatiale des crues extrêmes dans la région cévenole des Gardons en utilisant des données historiques enregistrées en quatre points. Les données anciennes augmentent la taille de l'échantillon mais beaucoup de ces données sont censurées. Une méthode d'augmentation de données est introduite, dans le cadre du mélange de Dirichlet, palliant l'absence d'expression explicite de la vraisemblance censurée. Les conclusions et perspectives sont discutées au chapitre 5 / Uni-variate extreme value theory extends to the multivariate case but the absence of a natural parametric framework for the joint distribution of extremes complexifies inferential matters. Available non parametric estimators of the dependence structure do not come with tractable uncertainty intervals for problems of dimension greater than three. However, uncertainty estimation is all the more important for applied purposes that data scarcity is a recurrent issue, particularly in the field of hydrology. The purpose of this thesis is to develop modeling tools for the dependence structure between extremes, in a Bayesian framework that allows uncertainty assessment. Chapter 2 explores the properties of the model obtained by combining existing ones, in a Bayesian Model Averaging framework. A semi-parametric Dirichlet mixture model is studied next : a new parametrization is introduced, in order to relax a moments constraint which characterizes the dependence structure. The re-parametrization significantly improves convergence and mixing properties of the reversible-jump algorithm used to sample the posterior. The last chapter is motivated by an hydrological application, which consists in estimating the dependence structure of floods recorded at four neighboring stations, in the ‘Gardons’ region, southern France, using historical data. The latter increase the sample size but most of them are censored. The lack of explicit expression for the likelihood in the Dirichlet mixture model is handled by using a data augmentation framework
|
6 |
Mélanges bayésiens de modèles d'extrêmes multivariés, Application à la prédétermination régionale des crues avec données incomplètes.Anne, Sabourin 24 September 2013 (has links) (PDF)
La théorie statistique univariée des valeurs extrêmes se généralise au cas multivarié mais l'absence d'un cadre paramétrique naturel complique l'inférence de la loi jointe des extrêmes. Les marges d'erreur associées aux estimateurs non paramétriques de la structure de dépendance sont difficilement accessibles à partir de la dimension trois. Cependant, quantifier l'incertitude est d'autant plus important pour les applications que le problème de la rareté des données extrêmes est récurrent, en particulier en hydrologie. L'objet de cette thèse est de développer des modèles de dépendance entre extrêmes, dans un cadre bayésien permettant de représenter l'incertitude. Après une introduction à la théorie des valeurs extrêmes et à l'inférence bayésienne (chapitre 1), le chapitre 2 explore les propriétés des modèles obtenus en combinant des modèles paramétriques existants, par mélange bayésien (Bayesian Model Averaging). Un modèle semi-paramétrique de mélange de Dirichlet est étudié au chapitre suivant : une nouvelle paramétrisation est introduite afin de s'affranchir d'une contrainte de moments caractéristique de la structure de dépendance et de faciliter l'échantillonnage de la loi a posteriori. Le chapitre~\ref{censorDiri} est motivé par une application hydrologique: il s'agit d'estimer la structure de dépendance spatiale des crues extrêmes dans la région cévenole des Gardons en utilisant des données historiques enregistrées en quatre points. Les données anciennes augmentent la taille de l'échantillon mais beaucoup de ces données sont censurées. Une méthode d'augmentation de données est introduite, dans le cadre du mélange de Dirichlet, palliant l'absence d'expression explicite de la vraisemblance censurée. Les perspectives sont discutées au chapitre 5.
|
7 |
Développement d'outils web de détection d'annotations manuscrites dans les imprimés anciensM'Begnan Nagnan, Arthur January 2021 (has links) (PDF)
No description available.
|
8 |
Sur la génération d'exemples pour réduire le coût d'annotationPiedboeuf, Frédéric 03 1900 (has links)
L'apprentissage machine moderne s'appuie souvent sur l'utilisation de jeux de données massifs, mais il existe de nombreux contextes où l'acquisition et la manipulation de grandes données n'est pas possible, et le développement de techniques d'apprentissage avec de petites données est donc essentiel. Dans cette thèse, nous étudions comment diminuer le nombre de données nécessaires à travers deux paradigmes d'apprentissage~: l'augmentation de données et l'apprentissage par requête synthétisée.
La thèse s'organise en quatre volets, chacun démontrant une nouvelle facette concernant la génération d'exemples pour réduire le coût d'annotation. Le premier volet regarde l'augmentation de données pour des textes en anglais, ce qui nous permet d'établir une comparaison objective des techniques et de développer de nouveaux algorithmes. Le deuxième volet regarde ensuite l'augmentation de données dans les langues autres que l'anglais, et le troisième pour la tâche de génération de mots-clés en français. Finalement, le dernier volet s'intéresse à l'apprentissage par requête synthétisée, où les exemples générés sont annotés, en contraste à l'augmentation de données qui produit des exemples sans coût d'annotation supplémentaire. Nous montrons que cette technique permet de meilleures performances, particulièrement lorsque le jeu de données est large et l'augmentation de données souvent inefficace. / Modern machine learning often relies on the use of massive datasets, but there are many contexts where acquiring and handling large data is not feasible, making the development of techniques for learning with small data essential. In this thesis, we investigate how to reduce the amount of data required through two learning paradigms~: data augmentation and membership query synthesis.
The thesis is organized into four parts, each demonstrating a new aspect of generating examples to reduce annotation costs. The first part examines data augmentation for English text, allowing us to make an objective comparison of techniques and develop new algorithms. The second one then explores data augmentation in languages other than English, and the third focuses on the task of keyword generation in French. Finally, the last part delves into membership query synthesis, where generated examples are annotated, in contrast to data augmentation, which produces examples without additional annotation costs. We show that this technique leads to better performance, especially when the dataset is large and data augmentation is often ineffective.
|
9 |
Approche bayésienne de l'évaluation de l'incertitude de mesure : application aux comparaisons interlaboratoiresDemeyer, Séverine 04 March 2011 (has links)
La modélisation par équations structurelles est très répandue dans des domaines très variés et nous l'appliquons pour la première fois en métrologie dans le traitement de données de comparaisons interlaboratoires. Les modèles à équations structurelles à variables latentes sont des modèles multivariés utilisés pour modéliser des relations de causalité entre des variables observées (les données). Le modèle s'applique dans le cas où les données peuvent être regroupées dans des blocs disjoints où chaque bloc définit un concept modélisé par une variable latente. La structure de corrélation des variables observées est ainsi résumée dans la structure de corrélation des variables latentes. Nous proposons une approche bayésienne des modèles à équations structurelles centrée sur l'analyse de la matrice de corrélation des variables latentes. Nous appliquons une expansion paramétrique à la matrice de corrélation des variables latentes afin de surmonter l'indétermination de l'échelle des variables latentes et d'améliorer la convergence de l'algorithme de Gibbs utilisé. La puissance de l'approche structurelle nous permet de proposer une modélisation riche et flexible des biais de mesure qui vient enrichir le calcul de la valeur de consensus et de son incertitude associée dans un cadre entièrement bayésien. Sous certaines hypothèses l'approche permet de manière innovante de calculer les contributions des variables de biais au biais des laboratoires. Plus généralement nous proposons un cadre bayésien pour l'amélioration de la qualité des mesures. Nous illustrons et montrons l'intérêt d'une modélisation structurelle des biais de mesure sur des comparaisons interlaboratoires en environnement. / Structural equation modelling is a widespread approach in a variety of domains and is first applied here to interlaboratory comparisons in metrology. Structural Equation Models with latent variables (SEM) are multivariate models used to model causality relationships in observed variables (the data). It is assumed that data can be grouped into separate blocks each describing a latent concept modelled by a latent variable. The correlation structure of the observed variables is transferred into the correlation structure of the latent variables. A Bayesian approach of SEM is proposed based on the analysis of the correlation matrix of latent variables using parameter expansion to overcome identifiability issues and improving the convergence of the Gibbs sampler. SEM is used as a powerful and flexible tool to model measurement bias with the aim of improving the reliability of the consensus value and its associated uncertainty in a fully Bayesian framework. The approach also allows to compute the contributions of the observed variables to the bias of the laboratories, under additional hypotheses. More generally a global Bayesian framework is proposed to improve the quality of measurements. The approach is illustrated on the structural equation modelling of measurement bias in interlaboratory comparisons in environment.
|
10 |
Approche bayésienne de l'évaluation de l'incertitude de mesure : application aux comparaisons interlaboratoires / Bayesian approach for the evaluation of measurement uncertainty applied to interlaboratory comparisonsDemeyer, Séverine 04 March 2011 (has links)
La modélisation par équations structurelles est très répandue dans des domaines très variés et nous l'appliquons pour la première fois en métrologie dans le traitement de données de comparaisons interlaboratoires. Les modèles à équations structurelles à variables latentes sont des modèles multivariés utilisés pour modéliser des relations de causalité entre des variables observées (les données). Le modèle s'applique dans le cas où les données peuvent être regroupées dans des blocs disjoints où chaque bloc définit un concept modélisé par une variable latente. La structure de corrélation des variables observées est ainsi résumée dans la structure de corrélation des variables latentes. Nous proposons une approche bayésienne des modèles à équations structurelles centrée sur l'analyse de la matrice de corrélation des variables latentes. Nous appliquons une expansion paramétrique à la matrice de corrélation des variables latentes afin de surmonter l'indétermination de l'échelle des variables latentes et d'améliorer la convergence de l'algorithme de Gibbs utilisé. La puissance de l'approche structurelle nous permet de proposer une modélisation riche et flexible des biais de mesure qui vient enrichir le calcul de la valeur de consensus et de son incertitude associée dans un cadre entièrement bayésien. Sous certaines hypothèses l'approche permet de manière innovante de calculer les contributions des variables de biais au biais des laboratoires. Plus généralement nous proposons un cadre bayésien pour l'amélioration de la qualité des mesures. Nous illustrons et montrons l'intérêt d'une modélisation structurelle des biais de mesure sur des comparaisons interlaboratoires en environnement. / Structural equation modelling is a widespread approach in a variety of domains and is first applied here to interlaboratory comparisons in metrology. Structural Equation Models with latent variables (SEM) are multivariate models used to model causality relationships in observed variables (the data). It is assumed that data can be grouped into separate blocks each describing a latent concept modelled by a latent variable. The correlation structure of the observed variables is transferred into the correlation structure of the latent variables. A Bayesian approach of SEM is proposed based on the analysis of the correlation matrix of latent variables using parameter expansion to overcome identifiability issues and improving the convergence of the Gibbs sampler. SEM is used as a powerful and flexible tool to model measurement bias with the aim of improving the reliability of the consensus value and its associated uncertainty in a fully Bayesian framework. The approach also allows to compute the contributions of the observed variables to the bias of the laboratories, under additional hypotheses. More generally a global Bayesian framework is proposed to improve the quality of measurements. The approach is illustrated on the structural equation modelling of measurement bias in interlaboratory comparisons in environment.
|
Page generated in 0.1601 seconds