Spelling suggestions: "subject:"deux dde données"" "subject:"deux dee données""
1 |
Learning Transferable Features From Different DomainsZhou, Fan 07 November 2023 (has links)
Les progrès récents en matière d'apprentissage automatique supposent généralement que les données d'apprentissage et de test proviennent de la même distribution de données. Cependant, dans la pratique, les données peuvent être collectées séparément comme des ensembles de données différents. Apprendre à partir de données provenant de plusieurs domaines sources et les généraliser à un autre domaine est un problème crucial de l'apprentissage automatique. Nous abordons ce type de problème dans le contexte de l'apprentissage par transfert (TL), notamment l'adaptation de domaine (DA), la généralisation de domaine (DG) et l'apprentissage multi-tâches (MTL), et ce dans le but de transférer les caractéristiques invariantes communes à de nouveaux domaines. Nous avons étudié ce type d'apprentissage par transfert sous différents aspects, y compris les problèmes liés au décalage conditionnel dans l'adaptation de domaine, les problèmes de désalignement sémantique et de décalage d'étiquettes dans la généralisation de domaine et l'apprentissage multi-tâches en parvenant à plusieurs résultats. Concrètement, nous explorons d'abord les problèmes de décalage conditionnel (DA) avec une stratégie d'apprentissage actif pour interroger les instances les plus informatives dans le domaine cible afin de faire migrer le terme de désaccord entre les fonctions d'étiquetage des domaines source et cible. Nous explorons ensuite les similitudes de catégories dans les problèmes liés à la généralisation de domaine (DG) via l'entraînement adversarial basé sur le transport optimal avec un objectif d'apprentissage de similarité métrique afin d'améliorer la correspondance au niveau du domaine et de la classe pour les problèmes DG. Nous étudions ensuite, plus en détail les relations entre les étiquettes et la sémantique dans le MTL, où nous fournissons une compréhension théorique de la manière de contrôler les divergences entre les étiquettes et la distribution sémantique. Enfin, nous étendons l'analyse théorique sur la façon d'exploiter les étiquettes et l'information sémantique dans la généralisation de domaine (DG), en fournissant une première analyse pour comprendre les propriétés de généralisation dans le contrôle des divergences de distribution des étiquettes et de la sémantique. Pour chaque travail reflété dans cette thèse, nous menons des expériences approfondies afin de démontrer l'efficacité et les objectifs d'apprentissage. Les résultats expérimentaux confirment que nos méthodes parviennent aux performances souhaitées et indiquées par les principes d'analyse et d'apprentissage, ce qui valide les contributions de cette thèse. / Recent machine learning progresses usually assume the data for training and testing are from the same data distribution. However, in practice, the data might be gathered separately as different datasets. To learn data from several source domains and generalize to another domain, is a crucial problem in machine learning. We tackle this kind of problem in the context of Transfer Learning (TL), including Domain Adaptation (DA), Domain Generalization (DG) and Multi-task Learning (MTL), with the sake of transferring the common invariant features to new domains. We have investigated this kind of transfer learning method in several different aspects, including the conditional shift problems in domain adaptation, semantic misalignment and label shift problems in domain generalization and multi-task learning problems with several accomplishments. Concretely, we first explore the conditional shift problems DA with an active learning strategy to query the most informative instances in the target domain to migrate the disagreement term between the source and target domain labelling functions. We then explore the category similarities in the DG problems via the optimal transport-based adversarial training with a metric similarity learning objective to enhance both the domain-level and class-level matching for DG problems. After that, we further investigate the label and semantic relations in MTL, where we provide the first theoretical understanding of how to control the label and semantic distribution divergences. Lastly, we extend the theoretical analysis on how to leverage the label and semantic information in DG, providing the first analysis to understand the generalization properties on controlling the label and semantic distribution divergences. For each work reflected in this thesis, we also conduct intensive experiments to demonstrate the effectiveness and learning objectives. The experimental results confirm that our methods achieve the desired performance indicated by the analysis and learning principles, which confirms the contributions of this thesis.
|
2 |
La recommandation des jeux de données basée sur le profilage pour le liage des données RDF / Profile-based Datas and Recommendation for RDF Data LinkingBen Ellefi, Mohamed 01 December 2016 (has links)
Avec l’émergence du Web de données, notamment les données ouvertes liées, une abondance de données est devenue disponible sur le web. Cependant, les ensembles de données LOD et leurs sous-graphes inhérents varient fortement par rapport a leur taille, le thème et le domaine, les schémas et leur dynamicité dans le temps au niveau des données. Dans ce contexte, l'identification des jeux de données appropriés, qui répondent a des critères spécifiques, est devenue une tâche majeure, mais difficile a soutenir, surtout pour répondre a des besoins spécifiques tels que la recherche d'entités centriques et la recherche des liens sémantique des données liées. Notamment, en ce qui concerne le problème de liage des données, le besoin d'une méthode efficace pour la recommandation des jeux de données est devenu un défi majeur, surtout avec l'état actuel de la topologie du LOD, dont la concentration des liens est très forte au niveau des graphes populaires multi-domaines tels que DBpedia et YAGO, alors qu'une grande liste d'autre jeux de données considérés comme candidats potentiels pour le liage est encore ignorée. Ce problème est dû a la tradition du web sémantique dans le traitement du problème de "identification des jeux de données candidats pour le liage". Bien que la compréhension de la nature du contenu d'un jeu de données spécifique est une condition cruciale pour les cas d'usage mentionnées, nous adoptons dans cette thèse la notion de "profil de jeu de données"- un ensemble de caractéristiques représentatives pour un jeu de données spécifique, notamment dans le cadre de la comparaison avec d'autres jeux de données. Notre première direction de recherche était de mettre en œuvre une approche de recommandation basée sur le filtrage collaboratif, qui exploite à la fois les prols thématiques des jeux de données, ainsi que les mesures de connectivité traditionnelles, afin d'obtenir un graphe englobant les jeux de données du LOD et leurs thèmes. Cette approche a besoin d'apprendre le comportement de la connectivité des jeux de données dans le LOD graphe. Cependant, les expérimentations ont montré que la topologie actuelle de ce nuage LOD est loin d'être complète pour être considéré comme des données d'apprentissage.Face aux limites de la topologie actuelle du graphe LOD, notre recherche a conduit a rompre avec cette représentation de profil thématique et notamment du concept "apprendre pour classer" pour adopter une nouvelle approche pour l'identification des jeux de données candidats basée sur le chevauchement des profils intensionnels entre les différents jeux de données. Par profil intensionnel, nous entendons la représentation formelle d'un ensemble d'étiquettes extraites du schéma du jeu de données, et qui peut être potentiellement enrichi par les descriptions textuelles correspondantes. Cette représentation fournit l'information contextuelle qui permet de calculer la similarité entre les différents profils d'une manière efficace. Nous identifions le chevauchement de différentes profils à l'aide d'une mesure de similarité semantico-fréquentielle qui se base sur un classement calcule par le tf*idf et la mesure cosinus. Les expériences, menées sur tous les jeux de données lies disponibles sur le LOD, montrent que notre méthode permet d'obtenir une précision moyenne de 53% pour un rappel de 100%.Afin d'assurer des profils intensionnels de haute qualité, nous introduisons Datavore- un outil oriente vers les concepteurs de métadonnées qui recommande des termes de vocabulaire a réutiliser dans le processus de modélisation des données. Datavore fournit également les métadonnées correspondant aux termes recommandés ainsi que des propositions des triples utilisant ces termes. L'outil repose sur l’écosystème des Vocabulaires Ouverts Lies (LOV) pour l'acquisition des vocabulaires existants et leurs métadonnées. / With the emergence of the Web of Data, most notably Linked Open Data (LOD), an abundance of data has become available on the web. However, LOD datasets and their inherent subgraphs vary heavily with respect to their size, topic and domain coverage, the schemas and their data dynamicity (respectively schemas and metadata) over the time. To this extent, identifying suitable datasets, which meet specific criteria, has become an increasingly important, yet challenging task to supportissues such as entity retrieval or semantic search and data linking. Particularlywith respect to the interlinking issue, the current topology of the LOD cloud underlines the need for practical and efficient means to recommend suitable datasets: currently, only well-known reference graphs such as DBpedia (the most obvious target), YAGO or Freebase show a high amount of in-links, while there exists a long tail of potentially suitable yet under-recognized datasets. This problem is due to the semantic web tradition in dealing with "finding candidate datasets to link to", where data publishers are used to identify target datasets for interlinking.While an understanding of the nature of the content of specific datasets is a crucial prerequisite for the mentioned issues, we adopt in this dissertation the notion of "dataset profile" - a set of features that describe a dataset and allow the comparison of different datasets with regard to their represented characteristics. Our first research direction was to implement a collaborative filtering-like dataset recommendation approach, which exploits both existing dataset topic proles, as well as traditional dataset connectivity measures, in order to link LOD datasets into a global dataset-topic-graph. This approach relies on the LOD graph in order to learn the connectivity behaviour between LOD datasets. However, experiments have shown that the current topology of the LOD cloud group is far from being complete to be considered as a ground truth and consequently as learning data.Facing the limits the current topology of LOD (as learning data), our research has led to break away from the topic proles representation of "learn to rank" approach and to adopt a new approach for candidate datasets identication where the recommendation is based on the intensional profiles overlap between differentdatasets. By intensional profile, we understand the formal representation of a set of schema concept labels that best describe a dataset and can be potentially enriched by retrieving the corresponding textual descriptions. This representation provides richer contextual and semantic information and allows to compute efficiently and inexpensively similarities between proles. We identify schema overlap by the help of a semantico-frequential concept similarity measure and a ranking criterion based on the tf*idf cosine similarity. The experiments, conducted over all available linked datasets on the LOD cloud, show that our method achieves an average precision of up to 53% for a recall of 100%. Furthermore, our method returns the mappings between the schema concepts across datasets, a particularly useful input for the data linking step.In order to ensure a high quality representative datasets schema profiles, we introduce Datavore| a tool oriented towards metadata designers that provides rankedlists of vocabulary terms to reuse in data modeling process, together with additional metadata and cross-terms relations. The tool relies on the Linked Open Vocabulary (LOV) ecosystem for acquiring vocabularies and metadata and is made available for the community.
|
3 |
Inférence d'interactions d'ordre supérieur et de complexes simpliciaux à partir de données de présence/absenceRoy-Pomerleau, Xavier 27 January 2024 (has links)
Malgré l’efficacité des réseaux pour représenter les systèmes complexes, de récents travaux ont montré que leur structure limite parfois le pouvoir explicatif des modèles théoriques, puisqu’elle n’encode que des relations par paire. Si une interaction plus complexe existe dans le système représenté, elle est automatiquement réduite à un groupe d’interactions par paire, c’est-à-dire d’ordre un. Il faut alors utiliser des structures qui prennent en compte les interactions d’ordre supérieur. Cependant, qu’elles soient ou non d’ordre supérieur, les interactions entre les éléments d’un système sont rarement explicites dans les jeux de données. C’est notamment le cas des données de présence/absence qui indiquent quelles espèces (animales, végétales ou autres) se retrouvent (ou non) sur un site d’observation sans indiquer les relations entre elles. L’objectif de ce mémoire est alors de développer une technique d’inférence pour dénicher les interactions d’ordre supérieur au sein de données de présence/absence. Ici, deux cadres théoriques sont explorés. Le premier est basé sur la comparaison entre la topologie des données, obtenue grâce à une hypothèse souple, et celle d’un ensemble aléatoire. Le second utilise plutôt les modèles log-linéaire et les tests d’hypothèses pour inférer les interactions une à une jusqu’à l’ordre désiré. Ce cadre a permis d’élaborer plusieurs méthodes d’inférence qui génèrent des complexes simpliciaux (ou des hypergraphes) qui peut être analysés grâce aux outils standards de la science des réseaux en plus de l’homologie. Afin de valider ces méthodes, nous avons développé un modèle génératif de données de présence/absence dans lesquelles les véritables interactions sont connues. Des résultats concrets ont également été obtenus pour des jeux de données réelles. Notamment, à partir de données de présence/absence d’oiseaux nicheurs du Québec, nous avons réussi à inférer des cooccurrences d’ordre deux. / Despite the effectiveness of networks to represent complex systems, recent work has shownthat their structure sometimes limits the explanatory power of the theoretical models, sinceit only encodes dyadic interactions. If a more complex interaction exists in the system, it isautomatically reduced to a group of pairwise interactions that are of the first order. We thusneed to use structures that can take higher-order interactions into account. However, whetherrelationships are of higher order or not is rarely explicit in real data sets. This is the case ofpresence/absence data, that only indicate which species (of animals, plants or others) can befound (or not) on a site without showing the interactions between them.The goal of this project is to develop an inference method to find higher-order interactionswithin presence/absence data. Here, two frameworks are examined. The first one is based onthe comparison of the topology of the data, obtained with a non-restrictive hypothesis, andthe topology of a random ensemble. The second one uses log-linear models and hypothesistesting to infer interactions one by one until the desired order. From this framework, we havedevelopped several inference methods to generate simplicial complexes (or hypergraphs) thatcan be studied with regular tools of network science as well as homology. In order to validatethese methods, we have developed a generative model of presence/absence data in which thetrue interactions are known. Results have also been obtained on real data sets. For instance,from presence/absence data of nesting birds in Québec, we were able to infer co-occurrencesof order two
|
4 |
Génération et analyse de jeux de données adaptés à l'application de l'apprentissage automatique en biophotoniqueBernatchez, Renaud 25 March 2024 (has links)
Titre de l'écran-titre (visionné le 18 mars 2024) / Depuis plusieurs années, il y a un intérêt croissant pour l'utilisation de l'apprentissage automatique afin d'automatiser différentes tâches d'analyse quantitative d'images en biophotonique. Cependant, les images de microscopie à fluorescence présentent des défis particuliers qui complexifient l'application d'approches d'apprentissage automatique. Notamment, l'acquisition de ces images est coûteuse, leur annotation est complexe, fastidieuse et souvent bruitée, et il peut être difficile de déterminer quel type d'analyse permettra de répondre à la question biologique d'intérêt. Il est donc nécessaire de développer des approches permettant la génération de jeux de données adaptés aux différents défis propres au domaine de l'imagerie en biophotonique. Mon projet consiste à explorer des pistes aidant à considérer les problèmes propres aux données en biophotonique afin de faciliter l'application de l'apprentissage automatique à l'analyse d'images de microscopie. Afin de limiter le temps d'annotation requis lors de la génération d'un jeu de données, une approche d'apprentissage actif considérant le coût d'annotation est développée et évaluée sur un jeu de données simple. Ensuite, un jeu de données d'images de jonction serrée intestinale est généré avec des annotations adaptées, puis analysé à l'aide d'approches d'apprentissage non supervisé. Finalement, un riche jeu de données annoté d'images de super-résolution de protéines synaptiques est construit à l'aide d'un projet de science citoyenne, permettant de prendre en compte la distribution du bruit dans les annotations. Les résultats obtenus témoignent de l'importance d'un jeu de données bien conçu lors de l'application d'approches d'apprentissage actif à l'analyse de données d'imagerie en biophotonique. Notamment, l'inclusion d'experts dans le processus de conception du jeu de données est essentielle à l'acquisition d'annotations significatives permettant de répondre à des questions biologiques. / For several years, there has been growing interest in using machine learning to automate various quantitative image analysis tasks in biophotonics. However, fluorescence microscopy images present particular challenges that complicate the application of machine learning ap-proaches. Notably, the acquisition of these images is costly, their annotation is complex, tedious and often noisy, and it can be difficult to determine which type of analysis will answer the biological question of interest. It is therefore necessary to develop approaches that allow the generation of datasets adapted to the various challenges specific to the field of biophotonics imaging. My project consists in exploring ways to consider the challenges specific to biophotonics datain order to facilitate the application of machine learning to the quantitative analysis of mi-croscopy images. In order to limit the annotation time required when generating a dataset,an active learning approach considering the annotation cost is developed and evaluated on asimple dataset. Then, a dataset of intestinal tight junction images is generated with adapted annotations and analyzed using unsupervised learning approaches. Finally, a rich annotated dataset of super-resolution images of synaptic proteins is constructed using a citizen science crowdsourcing project, allowing a measure of the distribution of noise in the annotations.The results obtained demonstrate the importance of a well-designed dataset when applying active learning approaches to the analysis of imaging data in biophotonics. In particular, the inclusion of experts in the dataset design process is essential for the acquisition of meaningful annotations to answer biological questions.
|
5 |
Un cadre d'évaluation systématique pour les outils d'intégration de systèmes d'informationGomez, José Raul January 2011 (has links)
Au fil des dernières années, le développement d'applications Internet et le développement rapide des technologies mobiles ont provoqué, dans les organisations publiques et privées, la mise en place d'un mécanisme capable d'intégrer ces nouveaux développements aux systèmes d'information existants. Ce mécanisme doit être en mesure d'intégrer différentes structures et des technologies hétérogènes par le partage des données. C'est pourquoi il est important de faire un choix éclairé lorsqu'il faut sélectionner l'outil approprié pour l'intégration de ces systèmes. Dans ce projet de recherche, on propose le développement d'un cadre d'évaluation systématique pour les outils d'intégration de systèmes d'information par l'approche par médiateur, en focalisant l'évaluation sur trois critères : le temps d'implémentation, la performance et la complexité d'implémentation. (1) Le critère du temps porte sur l'évaluation du temps que prend l'implémentation d'un outil depuis l'étude bibliographique jusqu'à l'implémentation dans un prototype qui implémente différentes structures de données. (2) Le critère de performance consiste en la vitesse avec laquelle l'outil peut traiter différents jeux de données. (3) Le critère de complexité correspond à l'évaluation de la complexité d'implémentation de l'outil de manière quantitative basée sur l'application de différentes métriques logicielles. Ce dernier critère permet, en ajoutant une partie quantitative, de renforcer le premier critère qui donne une évaluation plus qualitative de la complexité d'implémentation de l'outil. Les résultats obtenus avec l'application du cadre d'évaluation pour les outils d'intégration ont permis de proposer un système de médiation comme mécanisme d'intégration de systèmes hétérogènes capable de traiter différentes structures de données, de faire le stockage de ces données et de les partager entre les systèmes intégrés en privilégiant la facilité d'implémentation, la performance ou encore la maintenabilité.
|
6 |
Vision numérique avec peu d'étiquettes : segmentation d'objets et analyse de l'impact de la pluieTremblay, Maxime 27 January 2024 (has links)
Un besoin ayant toujours existé dans le domaine de la vision numérique est celui d'avoir accès à des ensembles d'images annotées. Les avancements scientifiques et technologiques ont exacerbé les besoins en données étiquetées; un modèle d'apprentissage profond peut nécessiter des milliers, voire des centaines de milliers (dépendamment de la complexité du problème), d'images étiquetées. Cela peut causer un problème puisque générer de grands ensembles de données étiquetées est une tâche longue et ardue. Est-il possible de travailler en vision numérique sans avoir à collecter et étiqueter des ensembles de données de plus en plus grands ? Dans le cadre de cette thèse, nous tentons de répondre à cette question sur deux fronts différents. Premièrement, nous avons développé une approche de détection et segmentation d'objets nécessitant peu de données d'entraînement. Cette approche, inspirée des modèles par les bag-of-words, modélise l'apparence et la forme des objets de façon éparse; la modélisation de la forme se fait par l'entremise d'un nouveau descripteur de forme. Deuxièmement, nous nous sommes penchés sur le fait que certains ensembles de données sont difficilement capturables et étiquetables. Nous nous sommes concentrés sur un exemple particulier, c'est-à-dire générer un ensemble d'images de scènes extérieures avec de la pluie dont les annotations consistent au taux de précipitation (mm/h). Notre solution consiste à augmenter des images réelles avec de la pluie synthétique. Si ces images augmentées sont suffisamment réalistes, il est possible d'expérimenter sur celles-ci comme si elles étaient des images de pluie réelle. Dans nos expérimentations, nous avons évalué l'effet de la pluie sur différents algorithmes de vision numérique et nous avons augmenté la robustesse de ceux-ci sur des images contenant de la vraie pluie.
|
7 |
La production de données numériques devrait-elle être considérée comme du travail : enjeux d'éthique sociale et économique de la rémunération des internautesCharbonneau, Sandrine 02 February 2024 (has links)
Nous produisons une grande quantité de données numériques lors de l’utilisation de toute plateforme, bien ou service connecté. Ces données incluent souvent des renseignements personnels, des informations sur nos déplacements, nos occupations et nos préférences. Or, l’ensemble de nos clics, historiques de navigation, de recherche et d’achats se retrouvent aux mains d’une minorité d’entreprises dominant le monde du numérique. Nous acceptons souvent tacitement les « termes et conditions d’utilisation » qui permettent à ces entreprises de collecter, d’utiliser et de vendre nos données, en échange d’un accès à des services souvent « gratuits ». Cette masse d’informations, fréquemment combinées à des algorithmes d’intelligence artificielle, permet la création d’une grande quantité de richesses. Cependant, cette richesse, dont profite surtout un petit nombre d’acteurs, ne semble pas être distribuée équitablement. Nos propres données, générées par nos activités et interactions en ligne, servent en fait à alimenter les systèmes de multinationales, qui trouvent des stratagèmes pour éviter de payer leur part d’impôts. Devant cette nouvelle dynamique numérique, où les lois peinent à suivre les marchés, comment repenser la gestion des données dans une perspective d’éthique sociale et économique ? Nous analyserons une idée provenant de l’informaticien Jaron Lanier, qui consiste à considérer la production de données comme du travail (ou data as labor). Les utilisateurs et utilisatrices seraient ainsi considérés comme les principaux maîtres et bénéficiaires de leurs données, ayant la possibilité de récolter une partie des fruits de leur contribution aux plateformes connectées. Cette approche est porteuse de bénéfices, tant sur le plan de l’autonomie et de la dignité des internautes que sur le plan de la justice sociale et de l’efficacité économique. Toutefois, ce concept comporte ses limites. La rémunération des internautes pour leurs données pourrait avoir des effets invasifs sur leur vie privée et créer plus d’injustices qu’elle n’en règle. / We produce a large amount of digital data when using any connected platform, good or service. Those data may include our personal information, as well as information about our movements, occupations and preferences. However, all of our clicks, browsing, search and purchase histories are in the hands of a minority of digitally dominant companies. We often tacitly accept the "terms and conditions of use" that allow these companies to collect, use and sell our data in exchange for access to services that are generally "free". This mass of information, often combined with artificial intelligence algorithms, enables the creation of a great deal of wealth. However, this wealth does not seem to be redistributed equitably, being monopolized by a small number of actors. Our own data, generated by our online activities and interactions, are used to feed the systems of multinational corporations that find schemes to avoid paying their fair share of taxes. In the face of this new digital dynamic, where laws are struggling to keep pace with markets,how can we rethink data management from a social and economic ethical perspective? We will analyze an idea from computer scientist Jaron Lanier, which consists in considering data production as labor (or data as labor). Users would thus be considered as the main masters and beneficiaries of their data, with the possibility of reaping part of the fruits of their contribution to the connected platforms. This approach brings benefits, both in terms of the autonomy and dignity of Internet users and in terms of social justice and economic efficiency. However, this concept has its limitations. Remunerating Internet users for their data could have invasive effects on their privacy and create more injustices than they are willing to accept.
|
8 |
Estimation de pose 2D par réseau convolutifHuppé, Samuel 04 1900 (has links)
Magic: The Gathering} est un jeu de cartes à collectionner stochastique à information imparfaite inventé par Richard Garfield en 1993. Le but de ce projet est de proposer un pipeline d'apprentissage machine permettant d'accomplir la détection et la localisation des cartes du jeu \textit{Magic} au sein d'une image typique des tournois de ce jeu. Il s'agit d'un problème de pose d'objets 2D à quatre degrés de liberté soit, la position sur deux axes, la rotation et l'échelle, dans un contexte où les cartes peuvent être superposées. À travers ce projet, nous avons développé une approche par données synthétiques à deux réseaux capable, collectivement d'identifier, et de régresser ces paramètres avec une précision significative. Dans le cadre de ce projet, nous avons développé un algorithme d'apprentissage profond par données synthétiques capable de positionner une carte avec une précision d'un demi pixel et d'une rotation de moins d'un degré. Finalement, nous avons montré que notre jeu de données synthétique est suffisamment réaliste pour permettre à nos réseaux de généraliser aux cas d'images réelles. / Magic: The Gathering} is an imperfect information, stochastic, collectible card game invented by Richard Garfield in 1993. The goal of this project is to propose a machine learning pipeline capable of detecting and localising \textit{Magic} cards within an image. This is a 2D pose problem with 4 degrees of freedom, namely translation in $x$ and $y$, rotation, and scale, in a context where cards can be superimposed on one another. We tackle this problem by relying on deep learning using a combination of two separate neural networks. Our final pipeline has the ability to tackle real-world images and gives, with a very good degree of precision, the poses of cards within an image. Through the course of this project, we have developped a method of realistic synthetic data generation to train both our models to tackle real world images. The results show that our pose subnetwork is able to predict position within half a pixel, rotation within one degree and scale within 2 percent.
|
9 |
Classification, réduction de dimensionnalité et réseaux de neurones : données massives et science des donnéesSow, Aboubakry Moussa January 2020 (has links) (PDF)
No description available.
|
10 |
Sur la génération d'exemples pour réduire le coût d'annotationPiedboeuf, Frédéric 03 1900 (has links)
L'apprentissage machine moderne s'appuie souvent sur l'utilisation de jeux de données massifs, mais il existe de nombreux contextes où l'acquisition et la manipulation de grandes données n'est pas possible, et le développement de techniques d'apprentissage avec de petites données est donc essentiel. Dans cette thèse, nous étudions comment diminuer le nombre de données nécessaires à travers deux paradigmes d'apprentissage~: l'augmentation de données et l'apprentissage par requête synthétisée.
La thèse s'organise en quatre volets, chacun démontrant une nouvelle facette concernant la génération d'exemples pour réduire le coût d'annotation. Le premier volet regarde l'augmentation de données pour des textes en anglais, ce qui nous permet d'établir une comparaison objective des techniques et de développer de nouveaux algorithmes. Le deuxième volet regarde ensuite l'augmentation de données dans les langues autres que l'anglais, et le troisième pour la tâche de génération de mots-clés en français. Finalement, le dernier volet s'intéresse à l'apprentissage par requête synthétisée, où les exemples générés sont annotés, en contraste à l'augmentation de données qui produit des exemples sans coût d'annotation supplémentaire. Nous montrons que cette technique permet de meilleures performances, particulièrement lorsque le jeu de données est large et l'augmentation de données souvent inefficace. / Modern machine learning often relies on the use of massive datasets, but there are many contexts where acquiring and handling large data is not feasible, making the development of techniques for learning with small data essential. In this thesis, we investigate how to reduce the amount of data required through two learning paradigms~: data augmentation and membership query synthesis.
The thesis is organized into four parts, each demonstrating a new aspect of generating examples to reduce annotation costs. The first part examines data augmentation for English text, allowing us to make an objective comparison of techniques and develop new algorithms. The second one then explores data augmentation in languages other than English, and the third focuses on the task of keyword generation in French. Finally, the last part delves into membership query synthesis, where generated examples are annotated, in contrast to data augmentation, which produces examples without additional annotation costs. We show that this technique leads to better performance, especially when the dataset is large and data augmentation is often ineffective.
|
Page generated in 0.0718 seconds