Global ETD Search

1	Context-aware worker selection for efficient quality control in crowdsourcing / Sélection des travailleurs attentifs au contexte pour un contrôle efficace de la qualité en externalisation à grande échelle Awwad, Tarek 13 December 2018 (has links) Le crowdsourcing est une technique qui permet de recueillir une large quantité de données d'une manière rapide et peu onéreuse. Néanmoins, La disparité comportementale et de performances des "workers" d’une part et la variété en termes de contenu et de présentation des tâches par ailleurs influent considérablement sur la qualité des contributions recueillies. Par conséquent, garder leur légitimité impose aux plateformes de crowdsourcing de se doter de mécanismes permettant l’obtention de réponses fiables et de qualité dans un délai et avec un budget optimisé. Dans cette thèse, nous proposons CAWS (Context AwareWorker Selection), une méthode de contrôle de la qualité des contributions dans le crowdsourcing visant à optimiser le délai de réponse et le coût des campagnes. CAWS se compose de deux phases, une phase d’apprentissage opérant hors-ligne et pendant laquelle les tâches de l’historique sont regroupées de manière homogène sous forme de clusters. Pour chaque cluster, un profil type optimisant la qualité des réponses aux tâches le composant, est inféré ; la seconde phase permet à l’arrivée d’une nouvelle tâche de sélectionner les meilleurs workers connectés pour y répondre. Il s’agit des workers dont le profil présente une forte similarité avec le profil type du cluster de tâches, duquel la tâche nouvellement créée est la plus proche. La seconde contribution de la thèse est de proposer un jeu de données, appelé CrowdED (Crowdsourcing Evaluation Dataset), ayant les propriétés requises pour, d’une part, tester les performances de CAWS et les comparer aux méthodes concurrentes et d’autre part, pour tester et comparer l’impact des différentes méthodes de catégorisation des tâches de l’historique (c-à-d, la méthode de vectorisation et l’algorithme de clustering utilisé) sur la qualité du résultat, tout en utilisant un jeu de tâches unique (obtenu par échantillonnage), respectant les contraintes budgétaires et gardant les propriétés de validité en terme de dimension. En outre, CrowdED rend possible la comparaison de méthodes de contrôle de qualité quelle que soient leurs catégories, du fait du respect d’un cahier des charges lors de sa constitution. Les résultats de l’évaluation de CAWS en utilisant CrowdED comparés aux méthodes concurrentes basées sur la sélection de workers, donnent des résultats meilleurs, surtout en cas de contraintes temporelles et budgétaires fortes. Les expérimentations réalisées avec un historique structuré en catégories donnent des résultats comparables à des jeux de données où les taches sont volontairement regroupées de manière homogène. La dernière contribution de la thèse est un outil appelé CREX (CReate Enrich eXtend) dont le rôle est de permettre la création, l’extension ou l’enrichissement de jeux de données destinés à tester des méthodes de crowdsourcing. Il propose des modules extensibles de vectorisation, de clusterisation et d’échantillonnages et permet une génération automatique d’une campagne de crowdsourcing. / Crowdsourcing has proved its ability to address large scale data collection tasks at a low cost and in a short time. However, due to the dependence on unknown workers, the quality of the crowdsourcing process is questionable and must be controlled. Indeed, maintaining the efficiency of crowdsourcing requires the time and cost overhead related to this quality control to stay low. Current quality control techniques suffer from high time and budget overheads and from their dependency on prior knowledge about individual workers. In this thesis, we address these limitation by proposing the CAWS (Context-Aware Worker Selection) method which operates in two phases: in an offline phase, the correlations between the worker declarative profiles and the task types are learned. Then, in an online phase, the learned profile models are used to select the most reliable online workers for the incoming tasks depending on their types. Using declarative profiles helps eliminate any probing process, which reduces the time and the budget while maintaining the crowdsourcing quality. In order to evaluate CAWS, we introduce an information-rich dataset called CrowdED (Crowdsourcing Evaluation Dataset). The generation of CrowdED relies on a constrained sampling approach that allows to produce a dataset which respects the requester budget and type constraints. Through its generality and richness, CrowdED helps also in plugging the benchmarking gap present in the crowdsourcing community. Using CrowdED, we evaluate the performance of CAWS in terms of the quality, the time and the budget gain. Results shows that automatic grouping is able to achieve a learning quality similar to job-based grouping, and that CAWS is able to outperform the state-of-the-art profile-based worker selection when it comes to quality, especially when strong budget ant time constraints exist. Finally, we propose CREX (CReate Enrich eXtend) which provides the tools to select and sample input tasks and to automatically generate custom crowdsourcing campaign sites in order to extend and enrich CrowdED. Informatique Production participative Controle de la qualité Profilage Jeu de données d'évaluation Information Technology Crowdsourcing Quality control Worker profiling Benchmarking dataset 004.607 2
2	Reconnaissance robuste d'activités humaines par vision / Robust vision based activity detection and recognition Vaquette, Geoffrey 14 February 2018 (has links) Cette thèse porte sur la segmentation supervisée d'un flux vidéo en fragments correspondant à des activités de la vie quotidienne. En différenciant geste, action et activité, cette thèse s'intéresse aux activités à haut niveau sémantique telles que "Cuisiner" ou "Prendre son repas" par opposition à des actions comme "Découper un aliment". Pour cela, elle s'appuie sur l'algorithme DOHT (Deeply Optimized Hough Transform), une méthode de l'état de l'art utilisant un paradigme de vote (par transformée de Hough). Dans un premier temps, nous adaptons l'algorithme DOHT pour fusionner les informations en provenance de différents capteurs à trois niveaux différents de l'algorithme. Nous analysons l'effet de ces trois niveaux de fusion et montrons son efficacité par une évaluation sur une base de données composée d'actions de la vie quotidienne. Ensuite, une étude des jeux de données existant est menée. Constatant le manque de vidéos adaptées à la segmentation et classification (détection) d'activités à haut niveau sémantique, une nouvelle base de données est proposée. Enregistrée dans un environnement réaliste et dans des conditions au plus proche de l'application finale, elle contient des vidéos longues et non découpées adaptées à un contexte de détection. Dans un dernier temps, nous proposons une approche hiérarchique à partir d'algorithmes DOHT pour reconnaître les activités à haut niveau sémantique. Cette approche à deux niveaux décompose le problème en une détection non-supervisée d'actions pour ensuite détecter les activités désirées. / This thesis focuses on supervised activity segmentation from video streams within application context of smart homes. Three semantic levels are defined, namely gesture, action and activity, this thesis focuses mainly on the latter. Based on the Deeply Optimized Hough Transform paridigm, three fusion levels are introduced in order to benefit from various modalities. A review of existing action based datasets is presented and the lack of activity detection oriented database is noticed. Then, a new dataset is introduced. It is composed of unsegmented long time range daily activities and has been recorded in a realistic environment. Finaly, a hierarchical activity detection method is proposed aiming to detect high level activities from unsupervised action detection. Détection d’activités Fusion d’informations Transformée de HOUGH Jeu de données Segmentation Détection hiérarchique Activity detection Information fusion HOUGH transform Database Segmentation Hierarchical detection 006.4
3	Méthodologies pour la détection de diachronies sémantiques et leurs impacts Kletz, David 08 1900 (has links) Le sens d’un mot est sujet à des variations au cours du temps. Nombre de phénomènes motivent ces modifications comme l’apparition de nouveaux objets ou les changements d’habitudes. Ainsi, un même mot peut se voir assigner un nouveau sens, retirer un sens, ou encore rester stable entre deux dates. L’étude de la diachronie sémantique est un domaine s’intéressant à ces changements de sens. Les récents travaux sur la diachronie sémantique proposent des méthodologies pour le repérage de diachronies. Pour ce faire, ils s’appuient sur des textes issus de plusieurs périodes temporelles différentes, et grâce auxquels sont entrainés des modèles de langue. Un alignement des représentations obtenues, et une comparaison de celles de mots-cibles leur permet de conclure quant à leur changement de sens. Néanmoins, l’absence de jeu de données (dataset) de référence pour la validation de ces méthodes conduit au développement de méthodes de validation alternatives, suggérant notamment de s’appuyer sur les changements de sens recensés dans les dictionnaires traditionnels. Le travail réalisé au cours de ma maitrise s’attache à exposer une réflexion sur les méthodes existantes de repérage des diachronies. En nous appuyant sur un corpus journalistique couvrant l’ensemble du XXème siècle, nous proposons des méthodes complémentaires grâce auxquelles nous démontrons que les évaluations proposées font l’objet d’ambiguïtés. Celles-ci ne permettent dès lors pas de conclure quant à la qualité des méthodes. Nous nous sommes ensuite attachés à développer une méthodologie pour la construction d’un jeu de données de validation. Cette méthodologie tire parti d’un algorithme de désambiguïsation afin d’associer à tous les sens recensés d’un mot une date d’apparition au cours du temps. Nous proposons un jeu de données composé de 151 mots permettant d’évaluer le repérage de diachronies en français entre 1910 et 1990. / The meaning of a word is subject to variations over time. Many phenomena motivate these modifications such as the appearance of new objects or changes in habits. Thus, the same word can be assigned a new meaning, or have a meaning withdrawn, or remain stable between two dates. The study of semantic diachrony is a field that focuses on these changes in meaning. Recent work on semantic diachrony proposes methodologies for the detection of diachronies. In order to do so, they rely on texts from several different temporal periods, and through which language models are trained. An alignment of the obtained representations, and a comparison of those of target words enables one to infer the change of meaning. Nevertheless, the absence of a reference dataset for the validation of these methods leads to the development of alternative validation methods, suggesting in particular to rely on the changes of meaning identified in traditional dictionaries. The work carried out during my master's degree aims at presenting a reflection on the existing methods of diachrony detection. Based on a corpus of newspapers covering the whole 20th century, we propose complementary methods thanks to which we demonstrate that the proposed evaluations are subject to ambiguities. These ambiguities do not allow us to ensure the quality of the methods. We then develop a methodology for the construction of a validation dataset. This methodology takes advantage of a disambiguation algorithm in order to associate a date of appearance in the course of time to all the senses of a word. We propose a dataset composed of 151 words allowing one to evaluate the identification of diachronies in French between 1910 and 1990. TAL diachronie évaluation validation jeu de données désambiguïsation de sens NLP diachrony dataset Word sens disambiguation
4	Methodology to estimate building energy consumption using artificial intelligence / Méthodologie pour estimer la consommation d’énergie dans les bâtiments en utilisant des techniques d’intelligence artificielle Paudel, Subodh 22 September 2016 (has links) Les normes de construction pour des bâtiments de plus en plus économes en énergie (BBC) nécessitent une attention particulière. Ces normes reposent sur l’amélioration des performances thermiques de l’enveloppe du bâtiment associé à un effet capacitif des murs augmentant la constante de temps du bâtiment. La prévision de la demande en énergie de bâtiments BBC est plutôt complexe. Ce travail aborde cette question par la mise en œuvre d’intelligence artificielle(IA). Deux approches de mise en œuvre ont été proposées : « all data » et « relevant data ». L’approche « all data » utilise la totalité de la base de données. L’approche « relevant data » consiste à extraire de la base de données un jeu de données représentant le mieux possible les prévisions météorologiques en incluant les phénomènes inertiels. Pour cette extraction, quatre modes de sélection ont été étudiés : le degré jour (HDD), une modification du degré jour (mHDD) et des techniques de reconnaissance de chemin : distance de Fréchet (FD) et déformation temporelle dynamique (DTW). Quatre techniques IA sont mises en œuvre : réseau de neurones (ANN), machine à support de vecteurs (SVM), arbre de décision (DT) et technique de forêt aléatoire (RF). Dans un premier temps, six bâtiments ont été numériquement simulés (de consommation entre 86 kWh/m².an à 25 kWh/m².an) : l’approche « relevant data » reposant sur le couple (DTW, SVM) donne les prévisions avec le moins d’erreur. L’approche « relevant data » (DTW, SVM) sur les mesures du bâtiment de l’Ecole des Mines de Nantes reste performante. / High-energy efficiency building standards (as Low energy building LEB) to improve building consumption have drawn significant attention. Building standards is basically focused on improving thermal performance of envelope and high heat capacity thus creating a higher thermal inertia. However, LEB concept introduces alarge time constant as well as large heat capacity resulting in a slower rate of heat transfer between interior of building and outdoor environment. Therefore, it is challenging to estimate and predict thermal energy demand for such LEBs. This work focuses on artificial intelligence (AI) models to predict energy consumptionof LEBs. We consider two kinds of AI modeling approaches: “all data” and “relevant data”. The “all data” uses all available data and “relevant data” uses a small representative day dataset and addresses the complexity of building non-linear dynamics by introducing past day climatic impacts behavior. This extraction is based on either simple physical understanding: Heating Degree Day (HDD), modified HDD or pattern recognition methods: Frechet Distance and Dynamic Time Warping (DTW). Four AI techniques have been considered: Artificial Neural Network (ANN), Support Vector Machine (SVM), Boosted Ensemble Decision Tree (BEDT) and Random forest (RF). In a first part, numerical simulations for six buildings (heat demand in the range [25 – 85 kWh/m².yr]) have been performed. The approach “relevant data” with (DTW, SVM) shows the best results. Real data of the building “Ecole des Mines de Nantes” proves the approach is still relevant. Prévision Bâtiment basse consommation Intelligence artificielle Jeu de données représentatives Apprentissage en ligne et hors ligne Building Energy Consumption Prediction Low Energy Building Machine Learning Small representative data Online and Offline Learning
5	Document image analysis of Balinese palm leaf manuscripts / Analyse d'images de documents des manuscrits balinais sur feuilles de palmier Kesiman, Made Windu Antara 05 July 2018 (has links) Les collections de manuscrits sur feuilles de palmier sont devenues une partie intégrante de la culture et de la vie des peuples de l'Asie du Sud-Est. Avec l’augmentation des projets de numérisation des documents patrimoniaux à travers le monde, les collections de manuscrits sur feuilles de palmier ont finalement attiré l'attention des chercheurs en analyse d'images de documents (AID). Les travaux de recherche menés dans le cadre de cette thèse ont porté sur les manuscrits d'Indonésie, et en particulier sur les manuscrits de Bali. Nos travaux visent à proposer des méthodes d’analyse pour les manuscrits sur feuilles de palmier. En effet, ces collections offrent de nouveaux défis car elles utilisent, d’une part, un support spécifique : les feuilles de palmier, et d’autre part, un langage et un script qui n'ont jamais été analysés auparavant. Prenant en compte, le contexte et les conditions de stockage des collections de manuscrits sur feuilles de palmier à Bali, nos travaux ont pour objectif d’apporter une valeur ajoutée aux manuscrits numérisés en développant des outils pour analyser, translittérer et indexer le contenu des manuscrits sur feuilles de palmier. Ces systèmes rendront ces manuscrits plus accessibles, lisibles et compréhensibles à un public plus large ainsi que pour les chercheurs et les étudiants du monde entier. Cette thèse a permis de développer un système d’AID pour les images de documents sur feuilles de palmier, comprenant plusieurs tâches de traitement d'images : numérisation du document, construction de la vérité terrain, binarisation, segmentation des lignes de texte et des glyphes, la reconnaissance des glyphes et des mots, translittération et l’indexation de document. Nous avons ainsi créé le premier corpus et jeu de données de manuscrits balinais sur feuilles de palmier. Ce corpus est actuellement disponible pour les chercheurs en AID. Nous avons également développé un système de reconnaissance des glyphes et un système de translittération automatique des manuscrits balinais. Cette thèse propose un schéma complet de reconnaissance de glyphes spatialement catégorisé pour la translittération des manuscrits balinais sur feuilles de palmier. Le schéma proposé comprend six tâches : la segmentation de lignes de texte et de glyphes, un processus de classification de glyphes, la détection de la position spatiale pour la catégorisation des glyphes, une reconnaissance globale et catégorisée des glyphes, la sélection des glyphes et la translittération basée sur des règles phonologiques. La translittération automatique de l'écriture balinaise nécessite de mettre en œuvre des mécanismes de représentation des connaissances et des règles phonologiques. Nous proposons un système de translittération sans segmentation basée sur la méthode LSTM. Celui-ci a été testé sur des données réelles et synthétiques. Il comprend un schéma d'apprentissage à deux niveaux pouvant s’appliquer au niveau du mot et au niveau de la ligne de texte. / The collection of palm leaf manuscripts is an important part of Southeast Asian people’s culture and life. Following the increasing of the digitization projects of heritage documents around the world, the collection of palm leaf manuscripts in Southeast Asia finally attracted the attention of researchers in document image analysis (DIA). The research work conducted for this dissertation focused on the heritage documents of the collection of palm leaf manuscripts from Indonesia, especially the palm leaf manuscripts from Bali. This dissertation took part in exploring DIA researches for palm leaf manuscripts collection. This collection offers new challenges for DIA researches because it uses palm leaf as writing media and also with a language and script that have never been analyzed before. Motivated by the contextual situations and real conditions of the palm leaf manuscript collections in Bali, this research tried to bring added value to digitized palm leaf manuscripts by developing tools to analyze, to transliterate and to index the content of palm leaf manuscripts. These systems aim at making palm leaf manuscripts more accessible, readable and understandable to a wider audience and, to scholars and students all over the world. This research developed a DIA system for document images of palm leaf manuscripts, that includes several image processing tasks, beginning with digitization of the document, ground truth construction, binarization, text line and glyph segmentation, ending with glyph and word recognition, transliteration and document indexing and retrieval. In this research, we created the first corpus and dataset of the Balinese palm leaf manuscripts for the DIA research community. We also developed the glyph recognition system and the automatic transliteration system for the Balinese palm leaf manuscripts. This dissertation proposed a complete scheme of spatially categorized glyph recognition for the transliteration of Balinese palm leaf manuscripts. The proposed scheme consists of six tasks: the text line and glyph segmentation, the glyph ordering process, the detection of the spatial position for glyph category, the global and categorized glyph recognition, the option selection for glyph recognition and the transliteration with phonological rules-based machine. An implementation of knowledge representation and phonological rules for the automatic transliteration of Balinese script on palm leaf manuscript is proposed. The adaptation of a segmentation-free LSTM-based transliteration system with the generated synthetic dataset and the training schemes at two different levels (word level and text line level) is also proposed. Manuscrits sur feuilles de palmier Écriture balinaise Analyse d'images de documents Jeu de données Binarisation Segmentation de ligne de texte Reconnaissance de glyphe Translittération Palm leaf manuscripts Balinese script Document image analysis Dataset Binarization Text line segmentation Glyph recognition Transliteration
6	Étude comparative et choix optimal du nombre de classes en classification et réseaux de neurones : application en science des données Sanka, Norbert Bertrand January 2021 (has links) (PDF) No description available. CAH Carte auto-organisatrice Classe Classification Classification automatique Classification hiérarchique Clustering EM Jeu de données k-means k-médoïdes Mélange de densités Méthodes de classification automatique Méthode neuronale Mnist Mybasket NbClust Nuées dynamiques Réseaux de neurones Science des données SOM Statistique
7	A data-driven discrete elastic rod model for shells and solids Patarroyo, Keith Y. 12 1900 (has links) Les structures en forme de tige sont omniprésentes dans le monde aujourd'hui. Désormais, prédire avec précision leur comportement pour l'ingénierie et les environnements virtuels est indispensable pour de nombreuses industries, notamment l'infographie, l'animation par ordinateur et la conception informatique. Dans ce mémoire, nous explorons un nouveau modèle de calcul pour les tiges élastiques qui exploite les données de simulation pour reproduire les effets de coque et de solide présents dans les tiges qui brisent les hypothèses de la théorie classique de la tige de Kirchhoff, présentant ainsi une voie d'amélioration possible pour de nombreux états de l'art techniques. Notre approche consiste à prendre un ensemble de données de simulations à partir de solides volumétriques ou de coques pour former un nouveau modèle d'énergie définie positive polynomiale d'ordre élevé pour une tige élastique. Cette nouvelle énergie élargit la gamme des comportements des matériaux qui peuvent être modélisés pour la tige, permettant ainsi de capturer une plus large gamme de phénomènes. Afin de proposer et tester ce modèle, nous concevons un pipeline expérimental pour tester les limites de la théorie linéaire des tiges et étudier les géométries d'interface entre les cas coque à tige et volume à coque pour observer les effets d'un modèle de matériau non linéaire et une section transversale non elliptique dans la déformation de la tige. Nous étudions également la relation entre la courbure de la tige et la déformation de la section transversale et la courbure pour introduire une modification sur le terme de flexion de l'énergie. Cela nous permet de reproduire à la fois le comportement de flexion asymétrique présent dans les poutres volumétriques minces et les poutres à coque avec des sections transversales non convexes. Des suggestions pour de nouvelles améliorations des modèles et des techniques expérimentales sont également données. / Rod-like structures are ubiquitous in the world today. Henceforth accurately predicting their behavior for engineering and virtual environments are indispensable for many industries including computer graphics, computer animation, and computational design. In this thesis we explore a new computational model for elastic rods that leverages simulation data to reproduce shell and solid-like effects present in rods that break the assumptions of the classical Kirchhoff rod theory, thus presenting a possible improvement avenue to many states-of-the-art techniques. Our approach consists of taking a data set of simulations from both volumetric solids or shells to train a novel high-order polynomial positive-definite energy model for an elastic rod. This new energy increases the range of material behaviors that can be modeled for the rod, thus allowing for a larger range of phenomena to be captured. In order to propose and test this model, we design an experimental pipeline to test the limits of the linear theory of rods and investigate the interface geometries between the Shell-Rod and Volume-Shell cases to observe the effects of a nonlinear material model and a non-elliptical cross-section in the rod deformation. We also investigate the relation between rod curvature and deformation of the cross-section and curvature to introduce a modification on the bending term of the energy. This allows us to reproduce both the asymmetric bending behavior present in thin volumetric solid and shell beams with non-convex cross-sections. Suggestions for further improvements in models and experimental techniques are also given. Rods Shells Solid Volumes Slender Structures Three-dimensional Elasticity Data Set Asymmetry Interface Physical simulation Kirchhoff Rod Non-linear Cross-Section Positive Definiteness Tiges Coques Volumes Solides Structures Élancées Élasticité Tridimensionnelle Jeu de Données Asymétrie Interface Simulation Physique Tige de Kirchhoff Non-Linéaire Coupe Transversale Matrice Définie Positive

1

Page generated in 0.0523 seconds