Global ETD Search

11	Agrégation et extraction des connaissances dans les réseaux inter-véhicules ZEKRI, Dorsaf 17 January 2013 (has links) (PDF) Les travaux réalisés dans cette thèse traitent de la gestion des données dans les réseaux inter-véhiculaires (VANETs). Ces derniers sont constitués d'un ensemble d'objets mobiles qui communiquent entre eux à l'aide de réseaux sans fil de type IEEE 802.11, Bluetooth, ou Ultra Wide Band (UWB). Avec de tels mécanismes de communication, un véhicule peut recevoir des informations de ses voisins proches ou d'autres plus distants, grâce aux techniques de multi-sauts qui exploitent dans ce cas des objets intermédiaires comme relais. De nombreuses informations peuvent être échangées dans le contexte des "VANETs", notamment pour alerter les conducteurs lorsqu'un événement survient (accident, freinage d'urgence, véhicule quittant une place de stationnement et souhaitant en informer les autres, etc.). Au fur et à mesure de leurs déplacements, les véhicules sont ensuite " contaminés " par les informations transmises par d'autres. Dans ce travail, nous voulons exploiter les données de manière sensiblement différente par rapport aux travaux existants. Ces derniers visent en effet à utiliser les données échangées pour produire des alertes aux conducteurs. Une fois ces données utilisées, elles deviennent obsolètes et sont détruites. Dans ce travail, nous cherchons à générer dynamiquement à partir des données collectées par les véhicules au cours de leur trajet, un résumé (ou agrégat) qui fourni des informations aux conducteurs, y compris lorsqu'aucun véhicule communicant ne se trouve pas à proximité. Pour ce faire, nous proposons tout d'abord une structure d'agrégation spatio-temporelle permettant à un véhicule de résumer l'ensemble des événements observés. Ensuite, nous définissons un protocole d'échange des résumés entre véhicules sans l'intermédiaire d'une infrastructure, permettant à un véhicule d'améliorer sa base de connaissances locale par échange avec ses voisins. Enfin, nous définissons nos stratégies d'exploitation de résumé afin d'aider le conducteur dans la prise de décision. Nous avons validé l'ensemble de nos propositions en utilisant le simulateur " VESPA " en l'étendant pour prendre en compte la notion de résumés. Les résultats de simulation montrent que notre approche permet effectivement d'aider les conducteurs à prendre de bonnes décisions, sans avoir besoin de recourir à une infrastructure centralisatrice Réseaux inter-véhicule Agrégation d'événements de résumé Protocole d'échange Extraction de connaissances Construction de résumé
12	Autour et alentours des motifs séquentiels Teisseire, Maguelonne 05 December 2007 (has links) (PDF) Parmi les techniques utilisées en fouille de données, la recherche de motifs séquentiels permet d'extraire des connaissances sur le comportement des données. Les principaux travaux de recherche autour des motifs s'intéressent à la définition d'algorithmes efficaces pour « passer à l'échelle » et manipuler un espace de recherche volumineux. Même si ces dernières années nous nous sommes également intéressés au facteur temps pour l'extraction de motifs, les travaux présentés dans ce mémoire se focalisent plus particulièrement sur de nouvelles extensions proposées aux motifs afin d'offrir des connaissances correspondant aux attentes du décideur. Tout d'abord nous proposons une représentation des données « classiques » (i.e. booléennes) en développant les définitions de motifs séquentiels que nous avons choisis comme format de description des comportements extraits. Nous répondons ensuite, au travers de l'approche ISE, à la question suivante : comment utiliser une connaissance extraite au préalable pour optimiser la phase d'extraction lorsque de nouvelles données arrivent ? Nous proposons également une représentation moins stricte des comportements et définissons les méthodes d'extraction associées (approche approximative) : SpeedyFuzzy, MiniFuzzy et TotallyFuzzy. Via une composante floue, nous montrons que de nouveaux motifs plus informatifs peuvent être extraits. Nous poursuivons l'utilisation de l'approche approximative pour prendre en compte des contraintes temporelles dans des motifs : GETC. Cette approche complète nos précédents travaux consistant à intégrer très tôt les contraintes dans le processus d'extraction et ainsi optimiser leur prise en compte : GTC.<br />Lorsque les données manipulées deviennent plus complexes, nous montrons que les motifs s'avèrent être également une représentation adaptée. Nous nous attachons à décrire certaines de nos propositions sur deux types de données complexes : (1) pour les documents textuels, nous proposons une approche de classification supervisée SPAC et (2) pour les données multidimensionnelles, nous présentons deux nouvelles techniques permettant de prendre en compte différentes dimensions d'analyse, M2SP, et la hiérarchie disponible sur les dimensions : HYPE. Bases de données Extraction de connaissances Fouille de données Motifs séquentiels
13	Méthodologie d’extraction de connaissances spatio-temporelles par fouille de données pour l’analyse de comportements à risques : application à la surveillance maritime / Methodology of spatio-temporal knowledge discovery through data mining for risk behavior analysis : application to maritime traffic monitoring Idiri, Bilal 17 December 2013 (has links) Les progrès technologiques en systèmes de localisation (AIS, radar, GPS, RFID, etc.), de télétransmission (VHF, satellite, GSM, etc.), en systèmes embarqués et leur faible coût de production a permis leur déploiement à une large échelle. Énormément de données sur les déplacements d'objets sont produites par le biais de ces technologies et utilisées dans diverses applications de surveillance temps-réel comme la surveillance du trafic maritime. L'analyse a posteriori des données de déplacement de navires et d'événements à risques peut présenter des perspectives intéressantes pour la compréhension et l'aide à la modélisation des comportements à risques. Dans ce travail de thèse une méthodologie basée sur la fouille de données spatio-temporelle est proposée pour l'extraction de connaissances sur les comportements potentiellement à risques de navires. Un atelier d'aide à l'analyse de comportements de navires fondé sur cette méthodologie est aussi proposé. / The advent of positioning system technologies (AIS, radar, GPS, RFID, etc.), remote transmission (VHF, satellite, GSM, etc.), technological advances in embedded systems and low cost production, has enabled their deployment on a large scale. A huge amount of moving objects data are collected through these technologies and used in various applications such as real time monitoring surveillance of maritime traffic. The post-hoc analysis of data from moving ships and risk events may present interesting opportunities for the understanding and modeling support of risky behaviors. In this work, we propose a methodology based on Spatio-Temporal Data Mining for the knowledge discovery about potentially risky behaviors of ships. Based on this methodology, a workshop to support the analysis of behavior of ships is also proposed. Fouille de données Extraction de connaissances Objets mobiles Surveillance maritime Analyse de comportements Data mining Knowledge discovery Moving objects Maritime monitoring Behavior analysis
14	Approche évolutionnaire et agrégation de variables : application à la prévision de risques hydrologiques / Evolutionary approach and variable aggregation : application to hydrological risks forecasting Segretier, Wilfried 10 December 2013 (has links) Les travaux de recherche présentés dans ce mémoire s'inscrivent dans la lignée des approches de modélisation hydrologiques prédictives dirigées par les données. Nous avons particulièrement développé leur application sur le contexte difficile des phénomènes de crue éclairs caractéristiques des bassins versants de la région Caraïbe qui pose un dé fi sé.curi taire. En envisageant le problème de la prévision de crues comme un problème d'optimisation combinatoire difficile nous proposons d'utiliser la notion de métaneuristiques, à travers les algorithmes évolutionnaire notamment pour leur capacité à parcourir efficacement de grands espaces de recherche et fi fournir des solutions de bOlIDe qualité en des temps d'exécution raisonnables. Nous avons présenté l'approche de prédiction AV2D : Aggregate Variable Data Driven dom le concept central est la notion de variable agrégée. L'idée sous-jacente à ce concept est de considérer le pouvoir prédictif de nouvelles variables définies comme le résultat de fonctions tatistiques, dites d'agrégation calculées sur de donnée' correspondant à des périodes de temps précédent uo événem nt à prédire. Ces variable sont caractérisées par des ensembles de paramètres correspondant a leur pJ:opriétés. Nous avons imroduitle variables agrégées hydrométéorologiques permettant de répondre au problème de la classification d événements hydrologiques. La complexité du parcours de l'espace de recherche engendré par les paramètres définissant ces variables a été prise en compte grâce à la njse en oeuvre d'un algorithme évolutionnaire particulier dont les composants ont été spécifiquement définis pour ce problème. Nous avons montré, à travers une étude comparative avec d'autres approches de modélisation dirigées par les données, menée sur deux cas d'études de bassins versant caribéens, que l'approche AV2D est particulièrement bien adaptée à leur contexte. Nous étudions par la suite les bénéfices offerts par les approches de modélisation hydrologiques modulaires dirigées par les données, en définissant un procédé de division en sous-processus prenant en compte les caractéristiques paniculières des bassins versants auxquels nous nous intéressons. Nou avons proposé une extension des travaux précédents à travers la définition d'une approche de modélisation modulaire M2D: Spatial Modular Data Driven, consistant à considérer des sous-processus en divisant l'ensemble des exemples à classifier en sous-ensembles correspondant à des comportements hydrologiques homogènes. Nous avons montré à travers une étude comparative avec d autres approches dU'igées par les données mises en oeuvre sur les mêmes sous-ensembles de données que celte approche permet d améliorer les résultats de prédiction particulièrement à coun Lenne. Nous avons enfin proposé la modélisation d un outil de pi / The work presented in this thesis is in the area of data-driven hydrological modeling approaches. We particularly investigared their application on the difficult problem of flash flood phenomena typically observed in Caribbean watersheds. By considering the problem of flood prediction as a combinatorial optimization problem, we propose to use the notion of Oleraheuristics, through evolutionary algorithms, especially for their capacity ta visit effjciently large search space and to provide good solutions in reasonable execution times. We proposed the hydrological prediction approach AV2D: Aggregate Variable Data Driven which central concept is the notion of aggregate variable. The underlying idea of this [concept is to consider the predictive power of new variables defined as the results of statistical functions, called aggregation functions, computed on data corresponding ta time periods before an event ta predict. These variables are characterized by sets of parameters corresponding ta their specifications. We introduced hydro-meteorological aggregate variables allowing ta address the classification problem of hydrological events. We showed through a comparative study on two typical caribbean watersheds, using several common data driven modelling techniques that the AV2D approach is panicul.rly weil fitted ta the studied context. We also study the benefits offered by modulaI' approaches through the definition of the SM2D: Spatial Modular DataDriven approach, consisting in considering sub-processes partly defined by spatial criteria. We showed that the results obtained by the AV2D on these sub-processes allows to increase the performances particularly for short term prediction. Finally we proposed the modelization of a generic control tool for hydro-meteorological prediction systems, H2FCT: Hydro-meteorological Flood Forecasting Control 1'001 Métaheuristiques Algoritihmes évolutionnaires Intelligence artificielle Knowledge discovery from data Metaheuristics Evolutionary algorithms Artificial intelligence
15	Modélisation et génération d'itinéraires contextuels d'activités urbaines dans la ville / Modelling and generation of contextual itineraries of urban activities in the city Jguirim, Ines 28 November 2016 (has links) La ville est une agrégation urbaine permettant d’offrir divers services à ses citadins. Elle constitue un système complexe qui dépend de plusieurs facteurs sociaux et économiques. La configuration de l’espace influence d’une manière importante l’accessibilité aux différentes fonctionnalités de la ville. L’analyse spatiale de la structure urbaine est réalisée sur les villes afin d’étudier les caractéristiques de l’espace et pouvoir évaluer son potentiel fonctionnel. L’enjeu de la thèse est de proposer une approche d’analyse spatiale qui prenne en compte les différents aspects structurels et sémantiques de la ville. Un modèle basé sur les graphes a été proposé pour représenter le réseau de transport multimodal de la ville qui garantit l’accessibilité aux différents points d’intérêt. Les super-réseaux ont été utilisés pour intégrer la possibilité d’un transfert intermodal dans le modèle de transport par des liens d’interdépendance entre les sous-graphes associés aux différents modes de transport. L’aspect temporel a été représenté dans le modèle par des attributs spécifiant les contraintes temporelles caractérisant le parcours de chaque noeud et chaque arc tels que le temps d’exploration, le temps d’attente et le temps requis pour les pénalités routières. L’aspect fonctionnel est introduit par le concept d’activité. Nous avons proposé un modèle conceptuel qui vise à modéliser les différents éléments contextuels qui peuvent affecter la planification et l’exécution des activités urbaines tels que le cadre spatio-temporel et le profil de l’utilisateur. Ce modèle conceptuel de données a été enrichi par un système de gestion de connaissances qui vise à représenter des informations sur les comportements des individus dans le cadre d’une activité selon les profils et le contexte spatio-temporel. Nous nous basons sur des données collectées dans le cadre d’une enquête de déplacement pour l’extraction de connaissances à l’aide d’algorithmes de classement et de recherche de motifs séquentiels. Les connaissances extraites sont représentées par un système de gestion de règles permettant la planification contextuelle de l’activité à partir d’un programme d’activité adapté à un profil donné, des itinéraires assurant la réalisation de l’activité sont générés en formant un réseau d’activité contextuel. L’algorithme de recherche d’itinéraires s’appuie sur l’algorithme A* qui permet, à travers une fonction heuristique, la réduction de la complexité de la recherche en prenant en compte l’aspect temporel de l’activité et la structure multimodale de réseau. L’expérimentation de l’approche a été réalisée sur quatre villes Françaises dans l’objectif de générer des réseaux thématiques associés aux différentes activités réalisées par des profils différents. L’aspect fonctionnel représenté dans ces réseaux fait l’objet d’une analyse spatiale qui consiste à étudier la configuration de l’espace tout en prenant en compte l’usage contextuel des utilisateurs. L’analyse est basée sur les opérateurs de centralité définis par la syntaxe spatiale ainsi que des opérateurs d’étude de couverture des réseaux thématiques originaux. / The city is an urban aggregation allowing to offer diverse services to his city-dwellers. She establishes a complex system which depends on several social and economic factors. The configuration of the space influences in a important way the accessibility to the various features of the city. The spatial analysis of the urban structure is realized on cities to study the characteristics of the space and be able to estimate its functional potential. The aim of the thesis is to propose an approach to spatial analysis which takes into account the various structural and semantic aspects of the city. A model based on the graphs was proposed to represent the multimodal transport network of the city which guarantees the accessibility to the various points of interest. Super-networks were used to integrate the possibility of an intermodal transfer into the model of transport by links of interdependence between the sub-graphs associated to the various means of transportation. The temporal aspect was represented in the model by attributes specifying the temporal constraints characterizing the itinerary of every node and every edge such as the time of exploration, the waiting time and the time required for the road penalties. The functional aspect is introduced by the concept of activity. We proposed a conceptual model which aims to model the various contextual elements which can affect the planning and the execution of the urban activities such as the spatiotemporal frame and the profile of the user. This model was enriched by knowledge management which aims to represent information about individual behaviors. The extracted knowledge are represented by a management system of rules allowing the contextual planning of the activity. Théorie des graphes Analyse spatiale Modélisation contextuelle Extraction des connaissances Graph theory Spatial analysis Contextual modeling Data mining 711.4
16	Simulation numérique et approche orientée connaissance pour la découverte de nouvelles molécules thérapeutiques / Numeric simulation and knowledge-oriented approach for the discovery of new therapeutic molecules Ghemtio Wafo, Léo Aymar 07 May 2010 (has links) L’innovation thérapeutique progresse traditionnellement par la combinaison du criblage expérimental et de la modélisation moléculaire. En pratique, cette dernière approche est souvent limitée par la pénurie de données expérimentales, particulièrement les informations structurales et biologiques. Aujourd'hui, la situation a complètement changé avec le séquençage à haut débit du génome humain et les avancées réalisées dans la détermination des structures tridimensionnelles des protéines. Cette détermination permet d’avoir accès à une grande quantité de données pouvant servir à la recherche de nouveaux traitements pour un grand nombre de maladies. À cet égard, les approches informatiques permettant de développer des programmes de criblage virtuel à haut débit offrent une alternative ou un complément aux méthodes expérimentales qui font gagner du temps et de l’argent dans la découverte de nouveaux traitements.Cependant, la plupart de ces approches souffrent des mêmes limitations. Le coût et la durée des temps de calcul pour évaluer la fixation d'une collection de molécules à une cible, qui est considérable dans le contexte du haut débit, ainsi que la précision des résultats obtenus sont les défis les plus évidents dans le domaine. Le besoin de gérer une grande quantité de données hétérogènes est aussi particulièrement crucial.Pour surmonter les limitations actuelles du criblage virtuel à haut débit et ainsi optimiser les premières étapes du processus de découverte de nouveaux médicaments, j’ai mis en place une méthodologie innovante permettant, d’une part, de gérer une masse importante de données hétérogènes et d’en extraire des connaissances et, d’autre part, de distribuer les calculs nécessaires sur les grilles de calcul comportant plusieurs milliers de processeurs, le tout intégré à un protocole de criblage virtuel en plusieurs étapes. L’objectif est la prise en compte, sous forme de contraintes, des connaissances sur le problème posé afin d’optimiser la précision des résultats et les coûts en termes de temps et d’argent du criblage virtuel / Therapeutic innovation has traditionally benefited from the combination of experimental screening and molecular modelling. In practice, however, the latter is often limited by the shortage of structural and biological information. Today, the situation has completely changed with the high-throughput sequencing of the human genome, and the advances realized in the three-dimensional determination of the structures of proteins. This gives access to an enormous amount of data which can be used to search for new treatments for a large number of diseases. In this respect, computational approaches have been used for high-throughput virtual screening (HTVS) and offer an alternative or a complement to the experimental methods, which allow more time for the discovery of new treatments.However, most of these approaches suffer the same limitations. One of these is the cost and the computing time required for estimating the binding of all the molecules from a large data bank to a target, which can be considerable in the context of the high-throughput. Also, the accuracy of the results obtained is another very evident challenge in the domain. The need to manage a large amount of heterogeneous data is also particularly crucial.To try to surmount the current limitations of HTVS and to optimize the first stages of the drug discovery process, I set up an innovative methodology presenting two advantages. Firstly, it allows to manage an important mass of heterogeneous data and to extract knowledge from it. Secondly, it allows distributing the necessary calculations on a grid computing platform that contains several thousand of processors. The whole methodology is integrated into a multiple-step virtual screening funnel. The purpose is the consideration, in the form of constraints, of the knowledge available about the problem posed in order to optimize the accuracy of the results and the costs in terms of time and money at various stages of high-throughput virtual screening Criblage virtuel à haut débit Base de données Grille de calculs Extraction de connaissances Virtual high throughput screening Database Grid computing Knowledge extraction
17	Techniques d'extraction de connaissances en biodiversité / Biodiversity knowledge extraction techniques (BioKET) Inthasone, Somsack 02 April 2015 (has links) Les données sur la biodiversité sont généralement représentées et stockées dans différents formats. Cela rend difficile pour les biologistes leur agrégation et leur intégration afin d'identifier et découvrir des connaissances pertinentes dans le but, par exemple, de classer efficacement des spécimens. Nous présentons ici l'entrepôt de données BioKET issu de la consolidation de données hétérogènes de différentes sources. Actuellement, le champ d'application de BioKET concerne la botanique. Sa construction a nécessité, notamment, d'identifier et analyser les ontologies et bases botaniques existantes afin de standardiser et lier les descripteurs utilisés dans BioKET. Nous avons également développé une méthodologie pour la construction de terminologies taxonomiques, ou thésaurus, à partir d'ontologies de plantes et d'informations géo-spatiales faisant autorité. Les données de biodiversité et botanique de quatre fournisseurs majeurs et de deux systèmes d'informations géo-spatiales ont été intégrées dans BioKET. L'utilité d'un tel entrepôt de données a été démontrée par l'application de méthodes d'extraction de modèles de connaissances, basées sur les approches classiques Apriori et de la fermeture de Galois, à des ensembles de données générées à partir de BioKET. En utilisant ces méthodes, des règles d'association et des clusters conceptuels ont été extraits pour l'analyse des statuts de risque de plantes endémiques au Laos et en Asie du Sud-Est. En outre, BioKET est interfacé avec d'autres applications et ressources, tel que l'outil GeoCAT pour l'évaluation géo-spatiale des facteurs de risques, afin de fournir un outil d'analyse performant pour les données de biodiversité. / Biodiversity data are generally stored in different formats. This makes it difficult for biologists to combine and integrate them in order to retrieve useful information and discover novel knowledge for the purpose of, for example, efficiently classifying specimens. In this work, we present the BioKET data warehouse which is a consolidation of heterogeneous data stored in different formats and originating from different sources. For the time being, the scope of BioKET is botanical. Its construction required, among others things, to identify and analyze existing botanical ontologies, to standardize and relate terms in BioKET. We also developed a methodology for mapping and defining taxonomic terminologies, that are controlled vocabularies with hierarchical structures from authoritative plant ontologies, Google Maps, and OpenStreetMap geospatial information system. Data from four major biodiversity and botanical data providers and from the two previously mentioned geospatial information systems were then integrated in BioKET. The usefulness of such a data warehouse was demonstrated by applying classical knowledge pattern extraction methods, based on the classical Apriori and Galois closure based approaches, to several datasets generated from BioKET extracts. Using these methods, association rules and conceptual bi-clusters were extracted to analyze the risk status of plants endemic to Laos and Southeast Asia. Besides, BioKET is interfaced with other applications and resources, like the GeoCAT Geospatial Conservation Assessment Tool, to provide a powerful analysis tool for biodiversity data. Biodiversité Exploration de données Extraction de connaissances Entrepôts de données Technologies de l'information Ontologies Biodiversity Data mining Knowledge integration Data wharehouse Information technology Ontologies
18	Stabilité de la sélection de variables sur des données haute dimension : une application à l'expression génique / Feature selection stability on high dimensional data : an application to gene expression data Dernoncourt, David 15 October 2014 (has links) Les technologies dites « haut débit » permettent de mesurer de très grandes quantités de variables à l'échelle de chaque individu : séquence ADN, expressions des gènes, profil lipidique… L'extraction de connaissances à partir de ces données peut se faire par exemple par des méthodes de classification. Ces données contenant un très grand nombre de variables, mesurées sur quelques centaines de patients, la sélection de variables est une étape préalable indispensable pour réduire le risque de surapprentissage, diminuer les temps de calcul, et améliorer l'interprétabilité des modèles. Lorsque le nombre d’observations est faible, la sélection tend à être instable, et on observe souvent que sur deux jeux de données différents mais traitant d’un même problème, les variables sélectionnées ne se recoupent presque pas. Pourtant, obtenir une sélection stable semble crucial si l'on veut avoir confiance dans la pertinence effective des variables sélectionnées à des fins d'extraction de connaissances. Dans ce travail, nous avons d'abord cherché à déterminer quels sont les facteurs qui influencent le plus la stabilité de la sélection. Puis nous avons proposé une approche, spécifique aux données puces à ADN, faisant appel aux annotations fonctionnelles pour assister les méthodes de sélection habituelles, en enrichissant les données avec des connaissances a priori. Nous avons ensuite travaillé sur deux aspects des méthodes d'ensemble : le choix de la méthode d'agrégation et les ensembles hybrides. Dans un dernier chapitre, nous appliquons les méthodes étudiées à un problème de prédiction de la reprise de poids suite à un régime, à partir de données puces, chez des patients obèses. / High throughput technologies allow us to measure very high amounts of variables in patients: DNA sequence, gene expression, lipid profile… Knowledge discovery can be performed on such data using, for instance, classification methods. However, those data contain a very high number of variables, which are measured, in the best cases, on a few hundreds of patients. This makes feature selection a necessary first step so as to reduce the risk of overfitting, reduce computation time, and improve model interpretability. When the amount of observations is low, feature selection tends to be unstable. It is common to observe that two selections obtained from two different datasets dealing with the same problem barely overlap. Yet, it seems important to obtain a stable selection if we want to be confident that the selected variables are really relevant, in an objective of knowledge discovery. In this work, we first tried to determine which factors have the most influence on feature selection stability. We then proposed a feature selection method, specific to microarray data, using functional annotations from Gene Ontology in order to assist usual feature selection methods, with the addition of a priori knowledge to the data. We then worked on two aspects of ensemble methods: the choice of the aggregation method, and hybrid ensemble methods. In the final chapter, we applied the methods studied in the thesis to a dataset from our lab, dealing with the prediction of weight regain after a diet, from microarray data, in obese patients. Sélection de variables Stabilité Données biopuces Données haute dimension Extraction de connaissances Obésité Feature selection High dimensional data 614.4
19	Fouille de données textuelles et systèmes de recommandation appliqués aux offres d'emploi diffusées sur le web / Text mining and recommender systems applied to job postings Séguéla, Julie 03 May 2012 (has links) L'expansion du média Internet pour le recrutement a entraîné ces dernières années la multiplication des canaux dédiés à la diffusion des offres d'emploi. Dans un contexte économique où le contrôle des coûts est primordial, évaluer et comparer les performances des différents canaux de recrutement est devenu un besoin pour les entreprises. Cette thèse a pour objectif le développement d'un outil d'aide à la décision destiné à accompagner les recruteurs durant le processus de diffusion d'une annonce. Il fournit au recruteur la performance attendue sur les sites d'emploi pour un poste à pourvoir donné. Après avoir identifié les facteurs explicatifs potentiels de la performance d'une campagne de recrutement, nous appliquons aux annonces des techniques de fouille de textes afin de les structurer et d'en extraire de l'information pertinente pour enrichir leur description au sein d'un modèle explicatif. Nous proposons dans un second temps un algorithme prédictif de la performance des offres d'emploi, basé sur un système hybride de recommandation, adapté à la problématique de démarrage à froid. Ce système, basé sur une mesure de similarité supervisée, montre des résultats supérieurs à ceux obtenus avec des approches classiques de modélisation multivariée. Nos expérimentations sont menées sur un jeu de données réelles, issues d'une base de données d'annonces publiées sur des sites d'emploi. / Last years, e-recruitment expansion has led to the multiplication of web channels dedicated to job postings. In an economic context where cost control is fundamental, assessment and comparison of recruitment channel performances have become necessary. The purpose of this work is to develop a decision-making tool intended to guide recruiters while they are posting a job on the Internet. This tool provides to recruiters the expected performance on job boards for a given job offer. First, we identify the potential predictors of a recruiting campaign performance. Then, we apply text mining techniques to the job offer texts in order to structure postings and to extract information relevant to improve their description in a predictive model. The job offer performance predictive algorithm is based on a hybrid recommender system, suitable to the cold-start problem. The hybrid system, based on a supervised similarity measure, outperforms standard multivariate models. Our experiments are led on a real dataset, coming from a job posting database. Fouille de textes Extraction des connaissances Systèmes de recommandation Offres d'emploi Recrutement sur Internet Text mining Knowledge discovery Recommender systems Job postings E-Recruitment
20	Contribution to complex visual information processing and autonomous knowledge extraction : application to autonomous robotics / Contribution au traitement d’informations visuelles complexes et à l’extraction autonome des connaissances : application à la robotique autonome Ramik, Dominik Maximilián 10 December 2012 (has links) Le travail effectué lors de cette thèse concerne le développement d'un système cognitif artificiel autonome. La solution proposée repose sur l'hypothèse que la curiosité est une source de motivation d'un système cognitif dans le processus d'acquisition des nouvelles connaissances. En outre, deux types distincts de curiosité ont été identifiés conformément au système cognitif humain. Sur ce principe, une architecture cognitive à deux niveaux a été proposée. Le bas-niveau repose sur le principe de la saillance perceptive, tandis que le haut-niveau réalise l'acquisition des connaissances par l'observation et l'interaction avec l'environnement. Cette thèse apporte les contributions suivantes : A) Un état de l'art sur l'acquisition autonome de connaissance. B) L'étude, la conception et la réalisation d'un système cognitif bas-niveau basé sur le principe de la curiosité perceptive. L'approche proposée repose sur la saillance visuelle réalisée grâce au développement d'un algorithme rapide et robuste permettant la détection et l'apprentissage d'objets saillants. C) La conception d'un système cognitif haut-niveau, basé sur une approche générique, permettant l'acquisition de connaissance à partir de l'observation et de l'interaction avec son environnent (y compris avec les êtres humains). Basé sur la curiosité épistémique, le système cognitif haut-niveau développé permet à une machine (par exemple un robot) de devenir l'acteur de son propre apprentissage. Une conséquence substantielle d'un tel système est la possibilité de conférer des capacités cognitives haut-niveau multimodales à des robots pour accroître leur autonomie dans un environnement réel (environnement humain). D) La mise en œuvre de la stratégie proposée dans le cadre de la robotique autonome. Les études et les validations expérimentales réalisées ont notamment confirmé que notre approche permet d'accroître l'autonomie des robots dans un environnement réel / The work accomplished in this thesis concerns development of an autonomous machine cognition system. The proposed solution reposes on the assumption that it is the curiosity which motivates a cognitive system to acquire new knowledge. Further, two distinct kinds of curiosity are identified in conformity to human cognitive system. On this I build a two level cognitive architecture. I identify its lower level with the perceptual saliency mechanism, while the higher level performs knowledge acquisition from observation and interaction with the environment. This thesis brings the following contribution: A) Investigation of the state of the art in autonomous knowledge acquisition. B) Realization of a lower cognitive level in the ensemble of the mentioned system, which is realizing the perceptual curiosity mechanism through a novel fast, real-world robust algorithm for salient object detection and learning. C) Realization of a higher cognitive level through a general framework for knowledge acquisition from observation and interaction with the environment including humans. Based on the epistemic curiosity, the high-level cognitive system enables a machine (e.g. a robot) to be itself the actor of its learning. An important consequence of this system is the possibility to confer high level multimodal cognitive capabilities to robots to increase their autonomy in real-world environment (human environment). D) Realization of the strategy proposed in the context of autonomous robotics. The studies and experimental validations done had confirmed notably that our approach allows increasing the autonomy of robots in real-world environment Système cognitif artificiel Informations visuelles Extraction des connaissances Système cognitif Apprentissage artificiel Robotique autonome Artificial cognitive system Visual information Knowledge extraction Cognitive system Machine-Learning Autonomous Robotics

Search results