• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2047
  • 972
  • 289
  • 8
  • 3
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 3280
  • 1468
  • 668
  • 664
  • 573
  • 552
  • 371
  • 317
  • 293
  • 275
  • 275
  • 248
  • 223
  • 214
  • 212
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Corporate failure prediction models : contributions from a novel explanatory variable and imbalanced datasets approach / Modèles de prédiction de la faillite : contributions d'une nouvelle variable explicative et d'une approche de données déséquilibrés

Veganzones, David 12 July 2018 (has links)
Cette thèse explore de nouvelles approches pour développer des modèles de prédiction de la faillite. Elle contient alors trois nouveaux domaines d'intervention. La première est une nouvelle variable explicative basée sur la gestion des résultats. À cette fin, nous utilisons deux mesures (accruals et activités réelles) qui évaluent la manipulation potentielle des bénéfices. Nous avons mis en évidence que les modèles qui incluent cette nouvelle variable en combinaison avec des informations financières sont plus précis que ceux qui dépendent uniquement de données financières. La seconde analyse la capacité des modèles de faillite d'entreprise dans des ensembles de données déséquilibrés. Nous avons mis en relation les différents degrés de déséquilibre, la perte de performance et la capacité de récupération de performance, qui n'ont jamais été étudiés dans les modèles de prédiction de la faillite. Le troisième unifie les domaines précédents en évaluant la capacité de notre modèle de gestion des résultats proposé dans des ensembles de données déséquilibrés. Les recherches abordées dans cette thèse fournissent des contributions uniques et pertinentes à la littérature sur les finances d'entreprise, en particulier dans le domaine de la prédiction de la faillite. / This dissertation explores novel approaches to develop corporate failure prediction models. This thesis then contains three new areas for intervention. The first is a novel explanatory variable based on earnings management. For this purpose, we use two measures (accruals and real activities) that assess potential earnings manipulation. We evidenced that models which include this novel variable in combination with financial information are more accurate than those relying only on financial data. The second analyzes the capacity of corporate failure models in imbalanced datasets. We put into relation the different degrees of imbalance, the loss on performance and the performance recovery capacity, which have never been studied in corporate failure. The third unifies the previous areas by evaluating the capacity of our proposed earnings management model in imbalanced datasets. Researches covered in this thesis provide unique and relevant contributions to corporate finance literature, especially to corporate failure domain.
22

Un modèle réactif basé sur MARTE dédié au calcul intensif à parallélisme de données : transformation vers le modèle synchrone / A MARTE based reactive model for data paralllel intensive processing : transformation toward the synchronous model

Yu, Huafeng 27 November 2008 (has links)
Le contexte de ce travail est l'assistance à la conception de systèmes embarqués, et particulièrement de Systems on Chip (SoC). Les domaines d'application concernés sont variés: avionique, téléphones portables, automobile. La complexité de ces systèmes, et leur interaction forte avec leur environnement, posent des problème de maîtrise de la conception (pour éviter les détections d'erreurs tardives, les diagnostics et réparations coûteux en moyens, mais aussi en temps de mise sur le marché), et de validation ou certification pour les systèmes à sûreté critique (qui doivent être vérifiés avant leur mise en service). Il s'en suit un fort besoin de méthodes et d'outils pour assister la conception sûre de ces systèmes, qui prennent la forme de méthodologies et de modèles à base de composants, de langages de spécification de haut niveau, d'outils de transformation et compilation, d'analyse et de vérification, de synthèse et génération de code. Dans ce contexte, une contribution est une proposition d'un modèle intermédiaire entre les systèmes de calculs dans le cadre du parallélisme de données intensif et les langages formels. Ce modèle intermédiaire permet la génération du code en langages formel à partir de ces systèmes dans le cadre ingénierie dirigé par les modèles. La validation formelle et l'analyse statique est donc possible sur la base du code généré. Une autre contribution est une proposition de mécanismes de contrôle dans le même cadre, sous forme de constructeurs de langage de haut-niveau et de leur sémantique. On veut les définir pour leur exploitation dans la vérification, synthèse et génération de code. Il s'agit de déterminer un niveau d'abstraction de représentation des systèmes où soit extraite la partie contrôle, et de la modéliser sous forme d'automates à états finis. Ceci permet de spécifier et implémenter des changements de modes calculs, qui se distinguent par exemple par les ressources utilisées, la qualité du service fourni, le choix d'algorithme remplissant une fonctionnalité. Cette abstraction est alors favorable à l'application d'outils d'analyse et vérification (de type model checking). On s'intéressera aussi à l'utilisation de techniques de synthèse de contrôleurs discrets, qui peut assurer la correction de façon constructive: à partir d'une spécification partielle du contrôle, elle calcule la partie manquante pour que les propriétés soient satisfaites. L'avantage pour le développement de la partie contrôle est dans la simplification de la spécification, et la correction par construction du résultat. Ce travail se fera en articulation avec des travaux déjà commencés sur la proposition d'une méthodologie de séparation contrôle/donnée! de mécanismes de contrôle, et leur intégration dans l'environnement de conception de systèmes à parallélisme de données intensif Gaspard. On travaillera dans le cadre des modèles de systèmes réactifs proposés par l'approche synchrone, de ses langages de programmation à base d'automates, et de ses outils académiques et commerciaux. En étude de cas, on s'intéressera à des applications en systèmes embarqués téléphone portable multimédia. / The work presented in this dissertation is carried out in the context of System-on-Chip (SoC) and embedded system design, particularly dedicated to data-parallel intensive processing applications (DIAs). Examples of such applications are found in multimedia processing and signal processing. On the one hand, safe design of DIAs is considered to be important due to the need of Quality of Service, safety criticality, etc., in these applications. However, the complexity of current embedded systems makes it difficult to meet this requirement. On the other hand, high-Ievel safe control, is highly demanded in order to ensure the correctness and strengthen the flexibility and adaptivity of DIAs. As an answer to this issue, we propose to take advantage of synchronous languages to assist safe DIAs design. First, a synchronous modeling bridges the gap between the Gaspard2 framework, which is dedicated to SoC design for DIAs, and synchronous languages that act as a model of computation enabling formal validation. The latter, together with their tools, enable high-Ievel validation of Gaspard2 specifications. Secondly, a reactive extension to a previous control proposition in Gaspard2, is also addressed. This extension is based on mode automata and contributes to conferring safe and verifiable features onto the previous proposition. As a result, model checking and discret controller synthesis can be applied for the purpose of correctness verification. Finally, a Model-Driven Engineering (MDE) approach is adopted in order to implement and validate our proposition, as well as benefit fron the advantages of MDE to address system complexity and productivity issues. Synchronous modeling, MARTE-based (the UML profile fo Modeling and Analysis of Real-Time and Embedded system) control modeling, and model transformations, including code generation, are dealt with in the implementation.
23

Un nouvel horizon pour la recommandation : intégration de la dimension spatiale dans l'aide à la décision / A new horizon for the recommendation : integration of spatial dimensions to aid decision making

Chulyadyo, Rajani 19 October 2016 (has links)
De nos jours, il est très fréquent de représenter un système en termes de relations entre objets. Parmi les applications les plus courantes de telles données relationnelles, se situent les systèmes de recommandation (RS), qui traitent généralement des relations entre utilisateurs et items à recommander. Les modèles relationnels probabilistes (PRM) sont un bon choix pour la modélisation des dépendances probabilistes entre ces objets. Une tendance croissante dans les systèmes de recommandation est de rajouter une dimension spatiale à ces objets, que ce soient les utilisateurs, ou les items. Cette thèse porte sur l’intersection peu explorée de trois domaines connexes - modèles probabilistes relationnels (et comment apprendre les dépendances probabilistes entre attributs d’une base de données relationnelles), les données spatiales et les systèmes de recommandation. La première contribution de cette thèse porte sur le chevauchement des PRM et des systèmes de recommandation. Nous avons proposé un modèle de recommandation à base de PRM capable de faire des recommandations à partir des requêtes des utilisateurs, mais sans profils d’utilisateurs, traitant ainsi le problème du démarrage à froid. Notre deuxième contribution aborde le problème de l’intégration de l’information spatiale dans un PRM. / Nowadays it is very common to represent a system in terms of relationships between objects. One of the common applications of such relational data is Recommender System (RS), which usually deals with the relationships between users and items. Probabilistic Relational Models (PRMs) can be a good choice for modeling probabilistic dependencies between such objects. A growing trend in recommender systems is to add spatial dimensions to these objects, and make recommendations considering the location of users and/or items. This thesis deals with the (not much explored) intersection of three related fields – Probabilistic Relational Models (a method to learn probabilistic models from relational data), spatial data (often used in relational settings), and recommender systems (which deal with relational data). The first contribution of this thesis deals with the overlapping of PRM and recommender systems. We have proposed a PRM-based personalized recommender system that is capable of making recommendations from user queries in cold-start systems without user profiles. Our second contribution addresses the problem of integrating spatial information into a PRM.
24

Algorithmes exacts et approchés pour des problèmes d'ordonnancement et de placement / Exact and approximation algorithms for scheduling and placement problems

Kacem, Fadi 27 June 2012 (has links)
Dans cette thèse, nous nous intéressons à la résolution de quelques problèmes d'optimisation combinatoires que nous avons choisi de traiter en deux volets. Dans un premier temps, nous étudions des problèmes d'optimisation issus de l'ordonnancement d'un ensemble de tâches sur des machines de calcul et où on cherche à minimiser l'énergie totale consommée par ces machines tout en préservant une qualité de service acceptable. Dans un deuxième temps, nous traitons deux problèmes d'optimisation classiques à savoir un problème d'ordonnancement dans une architecture de machines parallèles avec des temps de communication, et un problème de placement de données dans des graphes modélisant des réseaux pair-à-pair et visant à minimiser le coût total d'accès aux données. / In this thesis, we focus on solving some combinatorial optimization problems that we have chosen to study in two parts. Firstly, we study optimization problems issued from scheduling a set of tasks on computing machines where we seek to minimize the total energy consumed by these machines while maintaining acceptable quality of service. In a second step, we discuss two optimization problems, namely a classical scheduling problem in architecture of parallel machines with communication delays, and a problem of placing data in graphs that represent peer-to-peer networks and the goal is to minimize the total cost of data access.
25

Localisation multi-hypothèses pour l'aide à la conduite : conception d'un filtre "réactif-coopératif" / Multi-assumptions localization for driving assistance : design of a "reactive-cooperative" filter

Ahmed Bacha, Adda Redouane 01 December 2014 (has links)
“ Lorsqu'on utilise des données provenant d'une seule source,C'est du plagiat;Lorsqu'on utilise plusieurs sources,C'est de la fusion de données ”Ces travaux présentent une approche de fusion de données collaborative innovante pour l'égo-localisation de véhicules routiers. Cette approche appelée filtre de Kalman optimisé à essaim de particules (Optimized Kalman Particle Swarm) est une méthode de fusion de données et de filtrage optimisé. La fusion de données est faite en utilisant les données d'un GPS à faible coût, une centrale inertielle, un compteur odométrique et un codeur d'angle au volant. Ce travail montre que cette approche est à la fois plus robuste et plus appropriée que les méthodes plus classiques d'égo-localisation aux situations de conduite urbaine. Cette constatation apparait clairement dans le cas de dégradations des signaux capteurs ou des situations à fortes non linéarités. Les méthodes d'égo-localisation de véhicules les plus utilisées sont les approches bayésiennes représentées par le filtre de Kalman étendu (Extended Kalman Filter) et ses variantes (UKF, DD1, DD2). Les méthodes bayésiennes souffrent de sensibilité aux bruits et d'instabilité pour les cas fortement non linéaires. Proposées pour couvrir les limitations des méthodes bayésiennes, les approches multi-hypothèses (à base de particules) sont aussi utilisées pour la localisation égo-véhiculaire. Inspiré des méthodes de simulation de Monte-Carlo, les performances du filtre à particules (Particle Filter) sont fortement dépendantes des ressources en matière de calcul. Tirant avantage des techniques de localisation existantes et en intégrant les avantages de l'optimisation méta heuristique, l'OKPS est conçu pour faire face aux bruits, aux fortes dynamiques, aux données non linéaires et aux besoins d'exécution en temps réel. Pour l'égo-localisation d'un véhicule, en particulier pour les manœuvres très dynamiques sur route, un filtre doit être robuste et réactif en même temps. Le filtre OKPS est conçu sur un nouvel algorithme de localisation coopérative-réactive et dynamique inspirée par l'Optimisation par Essaim de Particules (Particle Swarm Optimization) qui est une méthode méta heuristique. Cette nouvelle approche combine les avantages de la PSO et des deux autres filtres: Le filtre à particules (PF) et le filtre de Kalman étendu (EKF). L'OKPS est testé en utilisant des données réelles recueillies à l'aide d'un véhicule équipé de capteurs embarqués. Ses performances sont testées en comparaison avec l'EKF, le PF et le filtre par essaim de particules (Swarm Particle Filter). Le filtre SPF est un filtre à particules hybride intéressant combinant les avantages de la PSO et du filtrage à particules; Il représente la première étape de la conception de l'OKPS. Les résultats montrent l'efficacité de l'OKPS pour un scénario de conduite à dynamique élevée avec des données GPS endommagés et/ou de qualité faible. / “ When we use information from one source,it's plagiarism;Wen we use information from many,it's information fusion ”This work presents an innovative collaborative data fusion approach for ego-vehicle localization. This approach called the Optimized Kalman Particle Swarm (OKPS) is a data fusion and an optimized filtering method. Data fusion is made using data from a low cost GPS, INS, Odometer and a Steering wheel angle encoder. This work proved that this approach is both more appropriate and more efficient for vehicle ego-localization in degraded sensors performance and highly nonlinear situations. The most widely used vehicle localization methods are the Bayesian approaches represented by the EKF and its variants (UKF, DD1, DD2). The Bayesian methods suffer from sensitivity to noises and instability for the highly non-linear cases. Proposed for covering the Bayesian methods limitations, the Multi-hypothesis (particle based) approaches are used for ego-vehicle localization. Inspired from monte-carlo simulation methods, the Particle Filter (PF) performances are strongly dependent on computational resources. Taking advantages of existing localization techniques and integrating metaheuristic optimization benefits, the OKPS is designed to deal with vehicles high nonlinear dynamic, data noises and real time requirement. For ego-vehicle localization, especially for highly dynamic on-road maneuvers, a filter needs to be robust and reactive at the same time. The OKPS filter is a new cooperative-reactive localization algorithm inspired by dynamic Particle Swarm Optimization (PSO) metaheuristic methods. It combines advantages of the PSO and two other filters: The Particle Filter (PF) and the Extended Kalman filter (EKF). The OKPS is tested using real data collected using a vehicle equipped with embedded sensors. Its performances are tested in comparison with the EKF, the PF and the Swarm Particle Filter (SPF). The SPF is an interesting particle based hybrid filter combining PSO and particle filtering advantages; It represents the first step of the OKPS development. The results show the efficiency of the OKPS for a high dynamic driving scenario with damaged and low quality GPS data.
26

Mise en œuvre, diagnostic et optimisation des schémas d'assimilation de données

Desroziers, Gérald 11 May 2007 (has links) (PDF)
L'assimilation de données, telle qu'elle s'est développée en particulier en météorologie ou en océanographie, désigne le processus par lequel on cherche à estimer de la manière la plus précise possible l'état atmosphérique ou océanique à partir d'observations et en s'appuyant sur un modèle de prévision. Le formalisme de l'assimilation peut être appréhendé de multiples manières. Il conduit à des algorithmes divers, mais présentant entre eux des liens aujourd'hui assez clairement établis. Une première partie des travaux présentés correspond au développement de techniques visant à améliorer la représentation des covariances d'erreur d'ébauche qui jouent un rôle important dans un schéma d'analyse. Une autre thématique traitée concerne le gain apporté par le 4D-Var sur la qualité des prévisions et des réanalyses d'expériences comme FASTEX. Nous présentons également des travaux associés au développement théorique et pratique de diagnostics des schémas d'assimilation. Il est montré comment ces diagnostics permettent aussi de mesurer l'impact des observations dans une analyse. Des perspectives d'évolution de l'assimilation de données sont enfin indiquées.
27

APISENSE® : une plate-forme répartie pour la conception, le déploiement et l’exécution de campagnes de collecte de données sur des terminaux intelligents / APISENSE® : a distributed platform for deploying, executing and managing data collection campaigns using smart devices

Haderer, Nicolas 05 November 2014 (has links)
Le mobile crowdsensing est une nouvelle forme de collecte de données exploitant la foule de terminaux intelligents déjà déployés à travers le monde pour collecter massivement des données environnementales ou comportementales d'une population.Ces dernières années, ce type de collecte de données a suscité l'intérêt d'un grand nombre d'acteurs industriels et académiques dans de nombreux domaines tels que l'étude de la mobilité urbaine, la surveillance de l'environnement, la santé ou l'étude des comportements socioculturels. Cependant, le mobile crowdsensing n'en n'est qu'à ses premiers stades de développement, et de nombreux défis doivent encore être relevés pour pleinement profiter de son potentiel. Ces défis incluent la protection de la vie privée des utilisateurs, les ressources énergétiques limitées des terminaux mobiles, la mise en place de modèles de récompense et de déploiement adaptés pour recruter les utilisateurs les plus à même de collecter les données désirées, ainsi que faire face à l’hétérogénéité des plateformes mobiles disponibles. Dans cette thèse, nous avons cherché à réétudier les architectures des systèmes dédiés au mobile crowdsensing pour adresser les limitations liées au développement, au déploiement et à l'exécution de campagnes de collecte de données. Les différentes contributions proposées sont articulées autour APISENSE, la plate-forme résultante des travaux de cette thèse. APISENSE a été utilisé pour réaliser une campagne de collecte de données déployée auprès d'une centaine d'utilisateurs au sein d'une étude sociologique, et évalué à travers des expériences qui démontrent la validité, l'efficacité et le passage à échelle de notre solution. / Mobile crowdsensing is a new form of data collection that takes advantage of millions smart devices already deployed throughout the world to collect massively environmental or behavioral data from a population. Recently, this type of data collection has attracted interest from a large number of industrials and academic players in many areas, such as the study of urban mobility, environmental monitoring, health or the study of sociocultural attitudes. However, mobile crowdsensing is in its early stages of development, and many challenges remain to be addressed to take full advantage of its potential. These challenges include privacy, limited energy resources of devices, development of reward and recruitment models to select appropriates mobile users and dealing with heterogeneity of mobile platforms available. In this thesis, we aim to reconsider the architectural design of current mobile crowdsensing systems to provide a simple and effective way to design, deploy and manage data collection campaigns.The main contributions of this thesis are organize around APISENSE, the resulting platform of this research. APISENSE has been used to carry out a data collection campaign deployed over hundred of users in a sociological study and evaluated through experiments demonstrating the validity, effectiveness and scalability of our solution.
28

Big data, surveillance et confiance : la question de la traçabilité dans le milieu aéroportuaire / Big data, surveillance and trust : Traceability issues in airport context

Hadjipavlou, Elena 16 December 2016 (has links)
Cette thèse questionne, d’un point de vue compréhensif et critique, la notion de traces numériques à l’heure du Big Data et de la relation entre les notions de la surveillance et la confiance. Le « Big Data » fait référence à la production massive de données qui représentent une manne précieuse de bénéfices. En effet, la quantité massive de données produites dans le monde atteint des volumes si importants qu’il est indéniablement impossible de les analyser par l’humain sans l’aide d’outils technologiques et statistiques adéquats. Parmi les secteurs concernés par cette révolution technologique et sociétale, le secteur aéroportuaire est aujourd’hui confronté à une importante transformation, nourrie par l’explosion des données au sein de sa structure. Les données générées, collectées et stockées au cours du parcours du passager sont désormais massives et leur gestion est un important levier pour la sécurité, l’amélioration de services et le confort du passager. Pour autant, les avantages attendus n’en soulèvent pas moins une grande question : où vont ces données ? Difficile d’y répondre. Et tant qu’on ne sait pas, comment peut-on faire confiance ? Ces réflexions sont mises en examen à l’aéroport de Larnaca à Chypre. Les différents angles d’approche ainsi que la diversité des acteurs ont nécessité la constitution d’un corpus multidimensionnel, issu d’une méthodologie mixte, afin d’avoir une approche compréhensive du sujet. Ce corpus comprend à la fois des entretiens, des questionnaires et des récits de vie des passagers et des professionnels du terrain. L’analyse qualitative et quantitative qui a suivi était basée sur un cadre précédemment élaboré afin de croiser les représentations des acteurs à propos de la surveillance et la confiance et mettre en évidence les différentes visions inhérentes à cette question. / This research project questions, in a comprehensive and critical way, the presence of digital traces in the era of Big Data. This reflection opens up in the relation between Surveillance and Trust. In recent years, “Big Data” has massively and repeatedly been used in order to describe a new societal dynamic that would be characterized by the production of massive quantities of data. Furthermore, enormous potential benefits from using new statistical tools to analyze these data generated from connected objects and tools in more and more human actions. The airport sector is currently facing a major transformation, fueled by the explosion of data within its structure. The data generated during a passenger's journey are now extremely massive. There is no doubt that the management of this data is an important lever for the safety, the improvement of services and the comfort of the passenger. However, the expected benefits raise a great question: Where do these data go? We do not know. And as long as we do not know, how can we trust? These considerations are being examined at Larnaca airport in Cyprus. The different angles of approach as well as the diversity of the actors required the creation of a multidimensional corpus, resulting from a mixed methodology, in order to have a comprehensive approach to the subject. This corpus includes interviews, questionnaires and life stories of passengers and professionals. The qualitative and quantitative analysis that followed was based on a theoretical framework previously elaborated, in order to cross the representations of the actors concerning the surveillance and the trust and finally, highlight the different inherent visions to this issue.
29

Analyse et fouille de données de trajectoires d'objets mobiles / Analysis and data mining of moving object trajectories

El Mahrsi, Mohamed Khalil 30 September 2013 (has links)
Dans un premier temps, nous étudions l'échantillonnage de flux de trajectoires. Garder l'intégralité des trajectoires capturées par les terminaux de géo-localisation modernes peut s'avérer coûteux en espace de stockage et en temps de calcul. L'élaboration de techniques d'échantillonnage adaptées devient primordiale afin de réduire la taille des données en supprimant certaines positions tout en veillant à préserver le maximum des caractéristiques spatiotemporelles des trajectoires originales. Dans le contexte de flux de données, ces techniques doivent en plus être exécutées "à la volée" et s'adapter au caractère continu et éphémère des données. A cet effet, nous proposons l'algorithme STSS (spatiotemporal stream sampling) qui bénéficie d'une faible complexité temporelle et qui garantit une borne supérieure pour les erreurs d’échantillonnage. Nous montrons les performances de notre proposition en la comparant à d'autres approches existantes. Nous étudions également le problème de la classification non supervisée de trajectoires contraintes par un réseau routier. Nous proposons trois approches pour traiter ce cas. La première approche se focalise sur la découverte de groupes de trajectoires ayant parcouru les mêmes parties du réseau routier. La deuxième approche vise à grouper des segments routiers visités très fréquemment par les mêmes trajectoires. La troisième approche combine les deux aspects afin d'effectuer un co-clustering simultané des trajectoires et des segments. Nous démontrons comment ces approches peuvent servir à caractériser le trafic et les dynamiques de mouvement dans le réseau routier et réalisons des études expérimentales afin d'évaluer leurs performances. / In this thesis, we explore two problems related to managing and mining moving object trajectories. First, we study the problem of sampling trajectory data streams. Storing the entirety of the trajectories provided by modern location-aware devices can entail severe storage and processing overheads. Therefore, adapted sampling techniques are necessary in order to discard unneeded positions and reduce the size of the trajectories while still preserving their key spatiotemporal features. In streaming environments, this process needs to be conducted "on-the-fly" since the data are transient and arrive continuously. To this end, we introduce a new sampling algorithm called spatiotemporal stream sampling (STSS). This algorithm is computationally-efficient and guarantees an upper bound for the approximation error introduced during the sampling process. Experimental results show that stss achieves good performances and can compete with more sophisticated and costly approaches. The second problem we study is clustering trajectory data in road network environments. We present three approaches to clustering such data: the first approach discovers clusters of trajectories that traveled along the same parts of the road network; the second approach is segment-oriented and aims to group together road segments based on trajectories that they have in common; the third approach combines both aspects and simultaneously clusters trajectories and road segments. We show how these approaches can be used to reveal useful knowledge about flow dynamics and characterize traffic in road networks. We also provide experimental results where we evaluate the performances of our propositions.
30

Learning Transferable Features From Different Domains

Zhou, Fan 08 February 2022 (has links)
Les progrès récents en matière d'apprentissage automatique supposent généralement que les données d'apprentissage et de test proviennent de la même distribution de données. Cependant, dans la pratique, les données peuvent être collectées séparément comme des ensembles de données différents. Apprendre à partir de données provenant de plusieurs domaines sources et les généraliser à un autre domaine est un problème crucial de l'apprentissage automatique. Nous abordons ce type de problème dans le contexte de l'apprentissage par transfert (TL), notamment l'adaptation de domaine (DA), la généralisation de domaine (DG) et l'apprentissage multi-tâches (MTL), et ce dans le but de transférer les caractéristiques invariantes communes à de nouveaux domaines. Nous avons étudié ce type d'apprentissage par transfert sous différents aspects, y compris les problèmes liés au décalage conditionnel dans l'adaptation de domaine, les problèmes de désalignement sémantique et de décalage d'étiquettes dans la généralisation de domaine et l'apprentissage multi-tâches en parvenant à plusieurs résultats. Concrètement, nous explorons d'abord les problèmes de décalage conditionnel (DA) avec une stratégie d'apprentissage actif pour interroger les instances les plus informatives dans le domaine cible afin de faire migrer le terme de désaccord entre les fonctions d'étiquetage des domaines source et cible. Nous explorons ensuite les similitudes de catégories dans les problèmes liés à la généralisation de domaine (DG) via l'entraînement adversarial basé sur le transport optimal avec un objectif d'apprentissage de similarité métrique afin d'améliorer la correspondance au niveau du domaine et de la classe pour les problèmes DG. Nous étudions ensuite, plus en détail les relations entre les étiquettes et la sémantique dans le MTL, où nous fournissons une compréhension théorique de la manière de contrôler les divergences entre les étiquettes et la distribution sémantique. Enfin, nous étendons l'analyse théorique sur la façon d'exploiter les étiquettes et l'information sémantique dans la généralisation de domaine (DG), en fournissant une première analyse pour comprendre les propriétés de généralisation dans le contrôle des divergences de distribution des étiquettes et de la sémantique. Pour chaque travail reflété dans cette thèse, nous menons des expériences approfondies afin de démontrer l'efficacité et les objectifs d'apprentissage. Les résultats expérimentaux confirment que nos méthodes parviennent aux performances souhaitées et indiquées par les principes d'analyse et d'apprentissage, ce qui valide les contributions de cette thèse. / Recent machine learning progresses usually assume the data for training and testing are from the same data distribution. However, in practice, the data might be gathered separately as different datasets. To learn data from several source domains and generalize to another domain, is a crucial problem in machine learning. We tackle this kind of problem in the context of Transfer Learning (TL), including Domain Adaptation (DA), Domain Generalization (DG) and Multi-task Learning (MTL), with the sake of transferring the common invariant features to new domains. We have investigated this kind of transfer learning method in several different aspects, including the conditional shift problems in domain adaptation, semantic misalignment and label shift problems in domain generalization and multi-task learning problems with several accomplishments. Concretely, we first explore the conditional shift problems DA with an active learning strategy to query the most informative instances in the target domain to migrate the disagreement term between the source and target domain labelling functions. We then explore the category similarities in the DG problems via the optimal transport-based adversarial training with a metric similarity learning objective to enhance both the domain-level and class-level matching for DG problems. After that, we further investigate the label and semantic relations in MTL, where we provide the first theoretical understanding of how to control the label and semantic distribution divergences. Lastly, we extend the theoretical analysis on how to leverage the label and semantic information in DG, providing the first analysis to understand the generalization properties on controlling the label and semantic distribution divergences. For each work reflected in this thesis, we also conduct intensive experiments to demonstrate the effectiveness and learning objectives. The experimental results confirm that our methods achieve the desired performance indicated by the analysis and learning principles, which confirms the contributions of this thesis.

Page generated in 0.0424 seconds