Global ETD Search

51	Contribution au développement d'un système portable automatique d'aide à la détermination de l'état d'urgence d'un blessé polytraumatisé. Apprentissage supervisé de classes de choc hémorragique. Becq, Guillaume 10 December 2004 (has links) (PDF) Dans cette thèse, nous proposons et évaluons la mise en place de la chaine complète de traitement de l'information pour la détermination de l'état de santé d'un blessé polytraumatisé. Nous faisons l'hypothèse que l'état de santé du blessé est observable dans un espace généré à partir de caractéristiques extraites sur des mesures provenant de capteurs portables. Au cours du polytraumatisme, son état se déplace dans des régions propres à chaque classe de choc hémorragique rencontrée, indépendante de l'individu. Le but de cette étude est de trouver ces régions par apprentissage supervisé pour un espace de dimension le plus faible possible (minimisation du nombre de capteurs). Pour cela, nous avons mis au point un modèle animal de choc hémorragique sur de jeunes porcs subissant une perte de sang continue à débit contrôlé. Dans un premier temps l'apprentissage a été réalisé en observant l'état instantané, l'évolution dynamique étant vue comme contextuelle. Dans un second temps nous avons évalué l'apport de l'information dynamique. [SPI:OTHER] Engineering Sciences/Other Analyse exploratoire multidimensionnelle Apprentissage supervisé Capteurs portables Choc hémorragique Classification Classifieur Diagnostic électrocardiogramme Monitorage Oxymétrie Physiologie Porcs Reconnaissance de formes Respiration Triage
52	Une approche automatisée basée sur des contraintes d'intégrité définies en UML et OCL pour la vérification de la cohérence logique dans les systèmes SOLAP : Applications dans le domaine agri-environnemental Boulil, Kamal 26 October 2012 (has links) (PDF) Les systèmes d'Entrepôts de Données et OLAP spatiaux (EDS et SOLAP) sont des technologies d'aide à la décision permettant l'analyse multidimensionnelle de gros volumes de données spatiales. Dans ces systèmes, la qualité de l'analyse dépend de trois facteurs : la qualité des données entreposées, la qualité des agrégations et la qualité de l'exploration des données. La qualité des données entreposées dépend de critères comme la précision, l'exhaustivité et la cohérence logique. La qualité d'agrégation dépend de problèmes structurels (e.g. les hiérarchies non strictes qui peuvent engendrer le comptage en double des mesures) et de problèmes sémantiques (e.g. agréger les valeurs de température par la fonction Sum peut ne pas avoir de sens considérant une application donnée). La qualité d'exploration est essentiellement affectée par des requêtes utilisateur inconsistantes (e.g. quelles ont été les valeurs de température en URSS en 2010 ?). Ces requêtes peuvent engendrer des interprétations erronées des résultats. Cette thèse s'attaque aux problèmes d'incohérence logique qui peuvent affecter les qualités de données, d'agrégation et d'exploration. L'incohérence logique est définie habituellement comme la présence de contradictions dans les données. Elle est typiquement contrôlée au moyen de Contraintes d'Intégrité (CI). Dans cette thèse nous étendons d'abord la notion de CI (dans le contexte des systèmes SOLAP) afin de prendre en compte les incohérences relatives aux agrégations et requêtes utilisateur. Pour pallier les limitations des approches existantes concernant la définition des CI SOLAP, nous proposons un Framework basé sur les langages standards UML et OCL. Ce Framework permet la spécification conceptuelle et indépendante des plates-formes des CI SOLAP et leur implémentation automatisée. Il comporte trois parties : (1) Une classification des CI SOLAP. (2) Un profil UML implémenté dans l'AGL MagicDraw, permettant la représentation conceptuelle des modèles des systèmes SOLAP et de leurs CI. (3) Une implémentation automatique qui est basée sur les générateurs de code Spatial OCL2SQL et UML2MDX qui permet de traduire les spécifications conceptuelles en code au niveau des couches EDS et serveur SOLAP. Enfin, les contributions de cette thèse ont été appliquées dans le cadre de projets nationaux de développement d'applications (S)OLAP pour l'agriculture et l'environnement. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre OLAP Spatial Entrepôt de Données Spatiales Qualité de Données Qualité d'Agrégation de Données Qualité d'Exploration SOLAP Modélisation Multidimensionnelle Profil UML Langage de Contraintes Objet Génération de Code
53	Étude de semi-conducteurs par spectroscopie d'excitation cohérente multidimensionnelle Grégoire, Pascal 07 1900 (has links) No description available. Spectroscopie multidimensionnelle Optique ultrarapide Semi-conducteur Modulation de phase Polymère semi-conducteur Polariton Microcavité optique Mélange de populations Multidimensional spectroscopy Ultrafast optics Semiconductor Phase modulation Semiconducting polymer Polariton Optical microcavity Population mixing
54	La gestion des risques informationnels dans l’entreprise privée : perspective des gestionnaires de la sécurité Desroches, Chantal 10 1900 (has links) No description available. sécurité gestion risques informationnels entreprise protection des actifs approche multidimensionnelle du risque approche de la transaction sociale security risk management organisation asset protection information risk multidimensional risk approach social transaction perspective
55	Caractérisation de l'anglais comme lingua franca professionnelle à travers une analyse de corpus de courriels échangés en entreprise : une étude de registre / Characterisation of English as a professional lingua franca : a corpus-based, register study of corporate emails Millot, Philippe 15 November 2012 (has links) Cette thèse est une contribution à la branche professionnelle de l'anglais de spécialité et au domaine de l'anglais comme lingua franca. Le contexte de la recherche est le milieu de l'entreprise où les employés échangent des courriels dans le cadre de la réalisation d'actions professionnelles routinières. Dans ce contexte, l'anglais est considéré comme une langue internationale et, dans la situation où les employés sont natifs d'autres langues que l'anglais, la lingua franca. La première partie traite des quatre concepts fondamentaux de cette recherche : l'anglais comme langue internationale, le registre, la phraséologie et les discours professionnels. De ces quatre concepts émerge l'hypothèse selon laquelle l'analyse du discours professionnel en général et des courriels professionnels en particulier reposent sur la modélisation de situations professionnelles récurrentes en situations professionnelles typiques d'échange. Cette modélisation permet ensuite une analyse de registre. La seconde partie présente la démarche méthodologique dont l'objectif estla constitution d'un corpus de 500 courriels professionnels à partir d'une base de données plus large que nous avons constituée lors de notre enquête de terrain dans le monde de l'entreprise. Le corpus est tout d'abord défini selon quatre situations linguistiques que nous présentons ci-dessous : 1. scripteurs natifs et destinataires natifs 2. scripteurs natifs et destinataires non natifs 3. scripteurs non natifs et destinataires natifs 4. scripteurs non natifs et destinataires non natifs Il est ensuite défini selon les quatre situations professionnelles suivantes : 1. achats et ventes de produits 2. management d'équipes distantes 3. administration des ressources humaines 4. résolution de problèmes techniques A partir de ce corpus, nous menons une étude de la variation sur trois ensembles de traits linguistico-discursifs et paralinguistiques qui nous permettent d'évaluer le degré de minimalisme dans les courriels, le degré d'imbrication du texte dans le contexte ainsi que de mesurer le caractère interpersonnel et intime de ce type d'échange. Notre étude nous mène tout d'abord à confirmer que l'analyse de registre est une approche efficace pour la caractérisation des discours ordinaires et routiniers dans les entreprises. Elle interroge ensuite la solidité des normes et du concept de communauté de discours en présentant l'anglais en circulation sur les réseaux professionnels, éphémères et mondiaux, comme une variété fluide. / This dissertation is a contribution to both the professional branch of English for Specific Purposes and English as a lingua franca. The research takes place in the corporate world where employees exchange emails during the course of their professional routines. In this context, English is considered as an international language and, in the situations where employees are natives of other languages than English, the lingua franca. In the first part, the four fundamental concepts used in this study are introduced: (1) English as an international language, (2) register, (3) phraseology, and (4) professional discourse. From this introduction emerges the hypothesis that professional discourse analysis in general and professional emails in particular are based on modelising recurrent, professional situations into typical exchange situations then allowing for register analysis. The second part deals with the methodological approach which consists in building a corpus comprising 500 messages extracted from a larger database which was collected while we did fieldwork in the corporate world. The corpus is defined by the four following linguistic situations : 1. native professionals writing to native professionals 2. native professionals writing to non-native professionals 3. non-native professionals writing to native professionals 4. non-native professionals writing to non-native professionals It is also defined by four professional situations, namely : 1. selling and purchasing 2. team management 3. human resources management 4. technical problem solving The situations are then used to conduct a corpus-based, register analysis alongthree linguistic and paralinguistic dimensions. Each dimension seeks to characterise professional emails as a form of minimal, embedded, and interpersonal discourse. More generally, this thesis explores and challenges the solidity of traditional norms and that of the concept of discourse community by presenting the English used in global, ephemeral and professional networks as a fluid variety. Courriels professionnels Réseaux socio-professionnels Normes épistolaires Petit corpus spécialisé Anglais comme lingua franca Professional emails Socio-professional networks Epistolary norms Small specialised corpus English as a lingua franca
56	Visualisation d’information pour une décision informée en exploration d’espace de conception par shopping / Information visualization for an informed decision to design space exploration by shopping Abi Akle, Audrey 10 July 2015 (has links) Lors de l’exploration d’espace de conception, les données résultantes de la simulation d’un grand nombre d’alternatives de conception peuvent conduire à la surcharge d’information quand il s’agit de choisir une bonne solution de conception. Cette exploration d’espace de conception s’apparente à une méthode d’optimisation en conception multicritère mais en mode manuel pour lequel des outils appropriés à la visualisation de données multidimensionnelle sont employés. Pour le concepteur, un processus en trois phases – découverte, optimisation, sélection – est suivi selon un paradigme dit de Design by Shopping. Le fait de « parcourir » l’espace de conception permet de gagner en intuition sur les sous-espaces de solutions faisables et infaisables et sur les solutions offrant de bons compromis. Le concepteur apprend au cours de ces manipulations graphiques de données. La sélection d’une solution optimale se fait donc sur la base d’une décision dite informée. L’objectif de cette recherche est la performance des représentations graphiques pour l’exploration d’espace de conception, pour les trois phases du processus en Design by Shopping. Pour cela, cinq représentations graphiques, identifiées comme potentiellement performantes, sont testées à travers deux expérimentations. Dans la première, trente participants ont testé trois graphiques, pour la phase de sélection dans une situation multi-attribut, à travers trois scénarios de conception où une voiture doit être choisie parmi quarante selon des préférences énoncées. Pour cela, un indice de qualité est proposé pour calculer la qualité de la solution du concepteur pour un des trois scénarios définis, la solution optimale selon cet indice étant comparée à celles obtenues après manipulation des graphiques. Dans la deuxième expérimentation, quarante-deux concepteurs novices ont résolu deux problèmes de conception à l’aide de trois graphiques. Dans ce cas, la performance des graphiques est testée pour la prise de décision informée et pour les trois phases du processus dans une situation multi-objectif. Les résultats révèlent qu’un graphique est adapté à chacune des trois phases du Design by Shopping :: le graphique Scatter Plot Matrix pour la phase de découverte et pour la prise de décision informée, le graphique Simple Scatter pour la phase d’optimisation et le graphique Parallel Coordinate Plot pour la phase de sélection aussi bien dans une situation multi-attribut que multi-objectif. / In Design space exploration, the resulting data, from simulation of large amount of new design alternatives, can lead to information overload when one good design solution must be chosen. The design space exploration relates to a multi-criteria optimization method in design but in manual mode, for which appropriate tools to support multi-dimensional data visualization are employed. For the designer, a three-phase process - discovery, optimization, selection - is followed according to a paradigm called Design by Shopping. Exploring the design space helps to gain insight into both feasible and infeasible solutions subspaces, and into solutions presenting good trade-offs. Designers learn during these graphical data manipulations and the selection of an optimal solution is based on a so-called informed decision. The objective of this research is the performance of graphs for design space exploration according to the three phases of the Design by Shopping process. In consequence, five graphs, identified as potentially efficient, are tested through two experiments. In the first, thirty participants tested three graphs, in three design scenarios where one car must be chosen out of a total of forty, for the selection phase in a multi-attribute situation where preferences are enounced. A response quality index is proposed to compute the choice quality for each of the three given scenarios, the optimal solutions being compared to the ones resulting from the graphical manipulations. In the second experiment, forty-two novice designers solved two design problems with three graphs. In this case, the performance of graphs is tested for informed decision-making and for the three phases of the process in a multi-objective situation. The results reveal three efficient graphs for the design space exploration: the Scatter Plot Matrix for the discovery phase and for informed decision-making, the Simple Scatter Plot for the optimization phase and the Parallel Coordinate Plot for the selection phase in a multi-attribute as well as multi-objective situation. Exploration d’espace de conception Design by Shopping Décision informée Optimisation en conception multicritère Visualisation d’information Design space exploration Design by Shopping Informed decision Multi-criteria design optimization Information visualization Multidimensional data visualization
57	Entrepôt de textes : de l'intégration à la modélisation multidimensionnelle de données textuelles / Text Warehouses : from the integration to the multidimensional modeling of textual data Aknouche, Rachid 26 April 2014 (has links) Le travail présenté dans ce mémoire vise à proposer des solutions aux problèmes d'entreposage des données textuelles. L'intérêt porté à ce type de données est motivé par le fait qu'elles ne peuvent être intégrées et entreposées par l'application de simples techniques employées dans les systèmes décisionnels actuels. Pour aborder cette problématique, nous avons proposé une démarche pour la construction d'entrepôts de textes. Elle couvre les principales phases d'un processus classique d'entreposage des données et utilise de nouvelles méthodes adaptées aux données textuelles. Dans ces travaux de thèse, nous nous sommes focalisés sur les deux premières phases qui sont l'intégration des données textuelles et leur modélisation multidimensionnelle. Pour mettre en place une solution d'intégration de ce type de données, nous avons eu recours aux techniques de recherche d'information (RI) et du traitement automatique du langage naturel (TALN). Pour cela, nous avons conçu un processus d'ETL (Extract-Transform-Load) adapté aux données textuelles. Il s'agit d'un framework d'intégration, nommé ETL-Text, qui permet de déployer différentes tâches d'extraction, de filtrage et de transformation des données textuelles originelles sous une forme leur permettant d'être entreposées. Certaines de ces tâches sont réalisées dans une approche, baptisée RICSH (Recherche d'information contextuelle par segmentation thématique de documents), de prétraitement et de recherche de données textuelles. D'autre part, l'organisation des données textuelles à des fins d'analyse est effectuée selon TWM (Text Warehouse Modelling), un nouveau modèle multidimensionnel adapté à ce type de données. Celui-ci étend le modèle en constellation classique pour prendre en charge la représentation des textes dans un environnement multidimensionnel. Dans TWM, il est défini une dimension sémantique conçue pour structurer les thèmes des documents et pour hiérarchiser les concepts sémantiques. Pour cela, TWM est adossé à une source sémantique externe, Wikipédia, en l'occurrence, pour traiter la partie sémantique du modèle. De plus, nous avons développé WikiCat, un outil pour alimenter la dimension sémantique de TWM avec des descripteurs sémantiques issus de Wikipédia. Ces deux dernières contributions complètent le framework ETL-Text pour constituer le dispositif d'entreposage des données textuelles. Pour valider nos différentes contributions, nous avons réalisé, en plus des travaux d'implémentation, une étude expérimentale pour chacune de nos propositions. Face au phénomène des données massives, nous avons développé dans le cadre d'une étude de cas des algorithmes de parallélisation des traitements en utilisant le paradigme MapReduce que nous avons testés dans l'environnement Hadoop. / The work, presented in this thesis, aims to propose solutions to the problems of textual data warehousing. The interest in the textual data is motivated by the fact that they cannot be integrated and warehoused by using the traditional applications and the current techniques of decision-making systems. In order to overcome this problem, we proposed a text warehouses approach which covers the main phases of a data warehousing process adapted to textual data. We focused specifically on the integration of textual data and their multidimensional modeling. For the textual data integration, we used information retrieval (IR) techniques and automatic natural language processing (NLP). Thus, we proposed an integration framework, called ETL-Text which is an ETL (Extract- Transform- Load) process suitable for textual data. The ETL-Text performs the extracting, filtering and transforming tasks of the original textual data in a form allowing them to be warehoused. Some of these tasks are performed in our RICSH approach (Contextual information retrieval by topics segmentation of documents) for pretreatment and textual data search. On the other hand, the organization of textual data for the analysis is carried out by our proposed TWM (Text Warehouse Modelling). It is a new multidimensional model suitable for textual data. It extends the classical constellation model to support the representation of textual data in a multidimensional environment. TWM includes a semantic dimension defined for structuring documents and topics by organizing the semantic concepts into a hierarchy. Also, we depend on a Wikipedia, as an external semantic source, to achieve the semantic part of the model. Furthermore, we developed WikiCat, which is a tool permit to feed the TWM semantic dimension with semantics descriptors from Wikipedia. These last two contributions complement the ETL-Text framework to establish the text warehouse device. To validate the different contributions, we performed, besides the implementation works, an experimental study for each model. For the emergence of large data, we developed, as part of a case study, a parallel processing algorithms using the MapReduce paradigm tested in the Apache Hadoop environment. Intégration des données textuelles Entrepôts de textes ETL Text RICSH TWM Recherche d'information MapReduce Enrichissement de documents Wikipédia Integration of textual data Text Warehouses ETL Text RICSH Text Warehouse Model TWM Information Retrieval MapReduce Enrichment of textual documents Wikipedia
58	Analyse multidimensionnelle de la pauvreté : le cas de Djibouti / Multidimensional analysis of poverty : the case of Djibouti Okiye Waais, Idriss 13 October 2017 (has links) L'objet de cette thèse est de proposer et de développer les différentes mesures multidimensionnelles de la pauvreté. La multidimensionnalité de la pauvreté fait aujourd'hui consensus. Scientifiques, décideurs politiques et professionnels du développement s'accordent pour dire que la seule dimension monétaire (le manque de revenu) ne suffit pas à représenter la pauvreté. En se basant sur les travaux de Sen (Prix Nobel d'Economie) en particulier sur l'approche des capacités, nous proposons quatre mesures différentes de la pauvreté. La première est une mesure monétaire basée sur l'approche utilitaire ; la seconde est une mesure subjective basée sur les expériences des ménages ; la troisième est une mesure multidimensionnelle axiomatique et enfin la dernière est une mesure non axiomatique basée sur la théorie des ensembles flous. Elles sont toutes mises en oeuvre en utilisant les données d'enquêtes EDAM3-IS (Enquête Djiboutienne Auprès des Ménages 2012). Les résultats s'inscrivent dans un contexte de croissance économique que connait Djibouti. Cependant, toutes les mesures utilisées ont montré des grandes disparités régionales entre la capitale et les régions en termes d'infrastructure de base et de bien-être des ménages. Chacune de ses méthodes a fourni des résultats avec différentes interprétations des déterminants de la pauvreté. Cela ne signifie pas qu'il existe une méthode bien meilleure que l'autre, mais chaque approche, dans un contexte particulier, peut-être plus pertinente. Ainsi, l'identification des pauvres en appliquant les différentes mesures de la pauvreté nous a donné un profil différencié. Par conséquent, le décideur doit définir au préalable l'objectif poursuivi dans les politiques de lutte contre la pauvreté. Nous pouvons souligner que l'intégration d'une pondération subjective dans la mesure de la pauvreté est une de nos contributions au développement de mesures multidimensionnelles de la pauvreté. / The aim of this thesis is to propose and develop the various multidimensional measures of poverty. There is a consensus on the multidimensional nature of poverty. Scientists, policy makers and development professionals agree that the monetary dimension (lack of income) is inadequate to represent poverty. On the basis of the work of Sen (Nobel Proze of Economics), particularly on the capability approach, we propose four different measures of poverty. The first one is a monetary measure based on the utilitarian approach ; the second is a subjective measure founded on household experience ; the third is a multidimensional axiomatic measure and the final one is a non-axiomatic measure based on the theory of fuzzy sets. They are implemented using survey data EDAM3-IS (Djiboutian Survey of Households 2012). The esults fall within the framework of economic growth in Djibouti. However, all the measures used have shown great disparities between the capital and the regions in terms of basic infrastructure and household welfare. Each method produced results with different interpretations of the determinants of poverty. This does not mean that there is one method being better than the other but rather each approach, in a particular context, may be more relevant. Thus, identifying the poor by applying the different measures of poverty gave us a clear-cut profile, which implies that the decision-maker must first set the aim in view in the implementation of anti-poverty policies. It can be emphasized that the inclusion of a subjective weighting in the process of measuring of poverty is one of our contributions towards the development of multidimensional measures of poverty. Pauvreté à Djibouti Pauvreté multidimensionnelle Approche capabiliste Structure axiomatique Pauvreté monétaire Ensemble flou Pauvreté subjective Décomposabilité Poverty in Djibouti Multidimensional poverty Capability approach Axiomatic structure Monetary poverty Fuzzy set operators Subjective poverty Decomposability 330.9
59	Intéressement, actionnariat et conflits dans l'entreprise : études sur données d'entreprises françaises / Profit Sharing, Employee Ownership and Conflicts in the Firm : evidences from French Firms Tall, Aguibou Bougobaly 20 June 2016 (has links) L'idée de base des contrats incitatifs est celle de la réalisation d'intérêts communs provoquant des changements dans le comportement des salariés et l'amélioration de la performance de l'entreprise. Les résultats et les succès de l'entreprise dépendent également du climat des relations professionnelles. Dans ce contexte, l'objectif de cette thèse est de contribuer à la compréhension de la participation financière (l'intéressement et l'actionnariat salarié) et ses liens avec les conflits à partir de données d'entreprises françaises. La recherche sur ces deux thèmes est d'une importance pratique et novatrice. Tout d'abord, il existe au sein de l'entreprise une multitude de types de conflits. Nous nous intéressons principalement aux conflits collectifs. Ensuite, la plupart des études sur les conflits collectifs se concentre uniquement sur les grèves, en ignorant les autres formes d'actions collectives, et très peu d'études font le lien avec les systèmes d'incitations collectives au sein de l'entreprise. Ainsi, ce travail se décompose en quatre études empiriques. La première vise à analyser les différentes formes de conflits au sein de l'entreprise. La deuxième analyse l'effet de la participation financière sur les conflits collectifs. La troisième étude s'intéresse à l'impact de la négociation et de la participation financière sur la résolution des conflits collectifs. Enfin, la dernière examine la performance des entreprises en fonction de la participation financière et des conflits collectifs. Nos recherches reposent sur des outils d'analyse multidimensionnelle et économétriques. L'approche multidimensionnelle fait appel à l'Analyse des Correspondances Multiples et à la Classification Hiérarchique Ascendante.L'approche économétrique fait usage de méthodes d'estimations classiques (OLS,Probit Simple, Probit Multinomial, Probit Ordonné), de modèles à sélection (Heckman), et des techniques d'estimations de modèles récursifs à équations simultanées traitant ainsi les problèmes d'endogénéité et la mixture (quantitative et qualitative) des variables dépendantes (Roodman, Conditional Mixed Process). / The basic idea of incentive contracts is that of achieving common interests causing changes in the behavior of employees and improving firm performance.The firms' outputs and success also depend on the industrial relation climate. In this context, the aim of this thesis is to contribute to the understanding offinancial participation (profit sharing and employee share ownership) and its links with the conflicts using data on French firms. Research on these topics isinnovative and highly recommended. First, there exists within the firm a multitude of types of conflicts. We are primarily concerned with collective conflicts. Most of studies on collective conflicts focuses only on strikes, ignoring other forms of collective actions. Very few studies make the link between collective incentive schemes and collective conflicts. Thus, this work is dividedinto four empirical studies. The first one analyzes the different forms of conflicts within the firm. The second one analyzes the effect of financial participation on collective conflicts. The third study focuses on the impact of bargaining and financial participation on the resolution of collective conflicts. The last one examines firm's performance based on financial participation and collective conflicts. Our research is based on multidimensional analysis and econometric tools. The multidimensional approach uses the Multiple Correspondence Analysis and Ascending Hierarchical Clustering. The econometric approach usesclassical estimation methods (OLS, Probit, Mutinomial Probit, Ordered Pobit),selection models (Heckman), and methods estimating simultaneous and recursive equations, treating the endogeneity problems and the mixture (quantitative and qualitative) of the dependent variables (Roodman, Conditional Mixed Process). Economie du travail Participation financière Intéressement Actionnariat salarié Conflits du travail Résolution des conflits Négociation Économétrie appliquée Analyse multidimensionnelle Labor economics Profit sharing Employee share ownership Strikes Labor conflicts Conflict resolution Union Negotiation Multidimensional analysis
60	Machine learning techniques for content-based information retrieval / Méthodes d’apprentissage automatique pour la recherche par le contenu de l’information Chafik, Sanaa 22 December 2017 (has links) Avec l’évolution des technologies numériques et la prolifération d'internet, la quantité d’information numérique a considérablement évolué. La recherche par similarité (ou recherche des plus proches voisins) est une problématique que plusieurs communautés de recherche ont tenté de résoudre. Les systèmes de recherche par le contenu de l’information constituent l’une des solutions prometteuses à ce problème. Ces systèmes sont composés essentiellement de trois unités fondamentales, une unité de représentation des données pour l’extraction des primitives, une unité d’indexation multidimensionnelle pour la structuration de l’espace des primitives, et une unité de recherche des plus proches voisins pour la recherche des informations similaires. L’information (image, texte, audio, vidéo) peut être représentée par un vecteur multidimensionnel décrivant le contenu global des données d’entrée. La deuxième unité consiste à structurer l’espace des primitives dans une structure d’index, où la troisième unité -la recherche par similarité- est effective.Dans nos travaux de recherche, nous proposons trois systèmes de recherche par le contenu de plus proches voisins. Les trois approches sont non supervisées, et donc adaptées aux données étiquetées et non étiquetées. Elles sont basées sur le concept du hachage pour une recherche efficace multidimensionnelle des plus proches voisins. Contrairement aux approches de hachage existantes, qui sont binaires, les approches proposées fournissent des structures d’index avec un hachage réel. Bien que les approches de hachage binaires fournissent un bon compromis qualité-temps de calcul, leurs performances en termes de qualité (précision) se dégradent en raison de la perte d’information lors du processus de binarisation. À l'opposé, les approches de hachage réel fournissent une bonne qualité de recherche avec une meilleure approximation de l’espace d’origine, mais induisent en général un surcoût en temps de calcul.Ce dernier problème est abordé dans la troisième contribution. Les approches proposées sont classifiées en deux catégories, superficielle et profonde. Dans la première catégorie, on propose deux techniques de hachage superficiel, intitulées Symmetries of the Cube Locality sensitive hashing (SC-LSH) et Cluster-Based Data Oriented Hashing (CDOH), fondées respectivement sur le hachage aléatoire et l’apprentissage statistique superficiel. SCLSH propose une solution au problème de l’espace mémoire rencontré par la plupart des approches de hachage aléatoire, en considérant un hachage semi-aléatoire réduisant partiellement l’effet aléatoire, et donc l’espace mémoire, de ces dernières, tout en préservant leur efficacité pour la structuration des espaces hétérogènes. La seconde technique, CDOH, propose d’éliminer l’effet aléatoire en combinant des techniques d’apprentissage non-supervisé avec le concept de hachage. CDOH fournit de meilleures performances en temps de calcul, en espace mémoire et en qualité de recherche.La troisième contribution est une approche de hachage basée sur les réseaux de neurones profonds appelée "Unsupervised Deep Neuron-per-Neuron Hashing" (UDN2H). UDN2H propose une indexation individuelle de la sortie de chaque neurone de la couche centrale d’un modèle non supervisé. Ce dernier est un auto-encodeur profond capturant une structure individuelle de haut niveau de chaque neurone de sortie.Nos trois approches, SC-LSH, CDOH et UDN2H, ont été proposées séquentiellement durant cette thèse, avec un niveau croissant, en termes de la complexité des modèles développés, et en termes de la qualité de recherche obtenue sur de grandes bases de données d'information / The amount of media data is growing at high speed with the fast growth of Internet and media resources. Performing an efficient similarity (nearest neighbor) search in such a large collection of data is a very challenging problem that the scientific community has been attempting to tackle. One of the most promising solutions to this fundamental problem is Content-Based Media Retrieval (CBMR) systems. The latter are search systems that perform the retrieval task in large media databases based on the content of the data. CBMR systems consist essentially of three major units, a Data Representation unit for feature representation learning, a Multidimensional Indexing unit for structuring the resulting feature space, and a Nearest Neighbor Search unit to perform efficient search. Media data (i.e. image, text, audio, video, etc.) can be represented by meaningful numeric information (i.e. multidimensional vector), called Feature Description, describing the overall content of the input data. The task of the second unit is to structure the resulting feature descriptor space into an index structure, where the third unit, effective nearest neighbor search, is performed.In this work, we address the problem of nearest neighbor search by proposing three Content-Based Media Retrieval approaches. Our three approaches are unsupervised, and thus can adapt to both labeled and unlabeled real-world datasets. They are based on a hashing indexing scheme to perform effective high dimensional nearest neighbor search. Unlike most recent existing hashing approaches, which favor indexing in Hamming space, our proposed methods provide index structures adapted to a real-space mapping. Although Hamming-based hashing methods achieve good accuracy-speed tradeoff, their accuracy drops owing to information loss during the binarization process. By contrast, real-space hashing approaches provide a more accurate approximation in the mapped real-space as they avoid the hard binary approximations.Our proposed approaches can be classified into shallow and deep approaches. In the former category, we propose two shallow hashing-based approaches namely, "Symmetries of the Cube Locality Sensitive Hashing" (SC-LSH) and "Cluster-based Data Oriented Hashing" (CDOH), based respectively on randomized-hashing and shallow learning-to-hash schemes. The SC-LSH method provides a solution to the space storage problem faced by most randomized-based hashing approaches. It consists of a semi-random scheme reducing partially the randomness effect of randomized hashing approaches, and thus the memory storage problem, while maintaining their efficiency in structuring heterogeneous spaces. The CDOH approach proposes to eliminate the randomness effect by combining machine learning techniques with the hashing concept. The CDOH outperforms the randomized hashing approaches in terms of computation time, memory space and search accuracy.The third approach is a deep learning-based hashing scheme, named "Unsupervised Deep Neuron-per-Neuron Hashing" (UDN2H). The UDN2H approach proposes to index individually the output of each neuron of the top layer of a deep unsupervised model, namely a Deep Autoencoder, with the aim of capturing the high level individual structure of each neuron output.Our three approaches, SC-LSH, CDOH and UDN2H, were proposed sequentially as the thesis was progressing, with an increasing level of complexity in terms of the developed models, and in terms of the effectiveness and the performances obtained on large real-world datasets Indexation multidimensionnelle Apprentissage non supervisé Hachage Recherche des plus proches voisins Apprentissage profond Multidimensionnal indexing Unsupervised learning Hashing Approximate nearest neighbor search Deep learning

Search results