Spelling suggestions: "subject:"exploration dde données"" "subject:"exploration dee données""
41 |
Exploration et interrogation de données RDF intégrant de la connaissance métier / Integrating domain knowledge for RDF dataset exploration and interrogationOuksili, Hanane 21 October 2016 (has links)
Un nombre croissant de sources de données est publié sur le Web, décrites dans les langages proposés par le W3C tels que RDF, RDF(S) et OWL. Une quantité de données sans précédent est ainsi disponible pour les utilisateurs et les applications, mais l'exploitation pertinente de ces sources constitue encore un défi : l'interrogation des sources est en effet limitée d'abord car elle suppose la maîtrise d'un langage de requêtes tel que SPARQL, mais surtout car elle suppose une certaine connaissance de la source de données qui permet de cibler les ressources et les propriétés pertinentes pour les besoins spécifiques des applications. Le travail présenté ici s'intéresse à l'exploration de sources de données RDF, et ce selon deux axes complémentaires : découvrir d'une part les thèmes sur lesquels porte la source de données, fournir d'autre part un support pour l'interrogation d'une source sans l'utilisation de langage de requêtes, mais au moyen de mots clés. L'approche d'exploration proposée se compose ainsi de deux stratégies complémentaires : l'exploration thématique et la recherche par mots clés. La découverte de thèmes dans une source de données RDF consiste à identifier un ensemble de sous-graphes, non nécessairement disjoints, chacun représentant un ensemble cohérent de ressources sémantiquement liées et définissant un thème selon le point de vue de l'utilisateur. Ces thèmes peuvent être utilisés pour permettre une exploration thématique de la source, où les utilisateurs pourront cibler les thèmes pertinents pour leurs besoins et limiter l'exploration aux seules ressources composant les thèmes sélectionnés. La recherche par mots clés est une façon simple et intuitive d'interroger les sources de données. Dans le cas des sources de données RDF, cette recherche pose un certain nombre de problèmes, comme l'indexation des éléments du graphe, l'identification des fragments du graphe pertinents pour une requête spécifique, l'agrégation de ces fragments pour former un résultat, et le classement des résultats obtenus. Nous abordons dans cette thèse ces différents problèmes, et nous proposons une approche qui permet, en réponse à une requête mots clés, de construire une liste de sous-graphes et de les classer, chaque sous-graphe correspondant à un résultat pertinent pour la requête. Pour chacune des deux stratégies d'exploration d'une source RDF, nous nous sommes intéressés à prendre en compte de la connaissance externe, permettant de mieux répondre aux besoins des utilisateurs. Cette connaissance externe peut représenter des connaissances du domaine, qui permettent de préciser le besoin exprimé dans le cas d'une requête, ou de prendre en compte des connaissances permettant d'affiner la définition des thèmes. Dans notre travail, nous nous sommes intéressés à formaliser cette connaissance externe et nous avons pour cela introduit la notion de pattern. Ces patterns représentent des équivalences de propriétés et de chemins dans le graphe représentant la source. Ils sont évalués et intégrés dans le processus d'exploration pour améliorer la qualité des résultats. / An increasing number of datasets is published on the Web, expressed in languages proposed by the W3C to describe Web data such as RDF, RDF(S) and OWL. The Web has become a unprecedented source of information available for users and applications, but the meaningful usage of this information source is still a challenge. Querying these data sources requires the knowledge of a formal query language such as SPARQL, but it mainly suffers from the lack of knowledge about the source itself, which is required in order to target the resources and properties relevant for the specific needs of the application. The work described in this thesis addresses the exploration of RDF data sources. This exploration is done according to two complementary ways: discovering the themes or topics representing the content of the data source, and providing a support for an alternative way of querying the data sources by using keywords instead of a query formulated in SPARQL. The proposed exploration approach combines two complementary strategies: thematic-based exploration and keyword search. Theme discovery from an RDF dataset consists in identifying a set of sub-graphs which are not necessarily disjoints, and such that each one represents a set of semantically related resources representing a theme according to the point of view of the user. These themes can be used to enable a thematic exploration of the data source where users can target the relevant theme and limit their exploration to the resources composing this theme. Keyword search is a simple and intuitive way of querying data sources. In the case of RDF datasets, this search raises several problems, such as indexing graph elements, identifying the relevant graph fragments for a specific query, aggregating these relevant fragments to build the query results, and the ranking of these results. In our work, we address these different problems and we propose an approach which takes as input a keyword query and provides a list of sub-graphs, each one representing a candidate result for the query. These sub-graphs are ordered according to their relevance to the query. For both keyword search and theme identification in RDF data sources, we have taken into account some external knowledge in order to capture the users needs, or to bridge the gap between the concepts invoked in a query and the ones of the data source. This external knowledge could be domain knowledge allowing to refine the user's need expressed by a query, or to refine the definition of themes. In our work, we have proposed a formalization to this external knowledge and we have introduced the notion of pattern to this end. These patterns represent equivalences between properties and paths in the dataset. They are evaluated and integrated in the exploration process to improve the quality of the result.
|
42 |
Human Habits Investigation : from Mobility Reconstruction to Mobile Traffic Prediction / L'étude des habitudes humaines : de la reconstruction de la mobilité à la prédiction du trafic mobileChen, Guangshuo 10 April 2018 (has links)
La capacité à prévoir les activités humaines a des implications essentielles dans de nombreux aspects des réseaux cellulaires. En particulier, la haute disponibilité de la prédiction de la mobilité peut permettre différents scénarios d'application; une meilleure compréhension de la demande de trafic de données mobiles peut aider à améliorer la conception de solutions pour l'équilibrage de la charge du réseau. Bien que de nombreux chercheurs aient étudié le sujet de la prédiction de la mobilité humaine, il y a eu peu de discussions sur l'anticipation du trafic de données mobiles dans les réseaux cellulaires.Pour comprendre la mobilité humaine, les ensembles de données de téléphones mobiles, consistant en des enregistrements de données de taxation (CDR), constituent un choix pratique d'empreintes humaines. Comme le déploiement du réseau cellulaire est très irrégulier et que les fréquences d'interaction sont généralement faibles, les données CDR sont souvent caractérisées par une parcimonie spatio-temporelle qui, à son tour, peut biaiser les analyses de mobilité basées sur de telles données et provoquer la perte de trajectoires individuelles.Dans cette thèse, nous présentons de nouvelles solutions de reconstruction de trajectoires individuelles et de prédiction de trafic de données mobiles individuelles. Nos contributions abordent les problèmes de (1) surmonter l'incomplétude des informations de mobilité pour l'utilisation des ensembles de données de téléphonie mobile et (2) prédire la future demande de trafic de données mobiles pour le support des applications de gestion de réseau.Premièrement, nous nous concentrons sur la faille de l'information sur la mobilité dans les ensembles de données de téléphones mobiles. Nous rapportons une analyse en profondeur de son effet sur la mesure des caractéristiques de mobilité individuelles et l'exhaustivité des trajectoires individuelles. En particulier, (1) nous fournissons une confirmation des résultats antérieurs concernant les biais dans les mesures de mobilité causées par la rareté temporelle de la CDR; (2) nous évaluons le décalage géographique provoqué par la cartographie des emplacements des utilisateurs vers les tours cellulaires et révélons le biais causé par la rareté spatiale de la CDR; (3) nous fournissons une estimation empirique de l'exhaustivité des données des trajectoires CDR individuelles. (4) nous proposons de nouvelles solutions de complétion CDR pour reconstruire incomplète. Nos solutions tirent parti de la nature des modèles de mouvements humains répétitifs et des techniques d'inférence de données de pointe et surpassent les approches précédentes illustrées par des simulations axées sur les données.Deuxièmement, nous abordons la prédiction des demandes de trafic de données mobiles générées par les abonnés individuels du réseau mobile. Sur la base de trajectoires complétées par nos solutions développées et nos historiques de consommation de données extraites d'un ensemble de données de téléphonie mobile à grande échelle, (1) nous étudions les limites de prévisibilité en mesurant la prévisibilité maximale que tout algorithme peut atteindre. les approches de prédiction du trafic de données mobiles qui utilisent les résultats de l'analyse théorique de la prévisibilité. Notre analyse théorique montre qu'il est théoriquement possible d'anticiper la demande individuelle avec une précision typique de 75% malgré l'hétérogénéité des utilisateurs et avec une précision améliorée de 80% en utilisant la prédiction conjointe avec des informations de mobilité. Notre pratique basée sur des techniques d'apprentissage automatique peut atteindre une précision typique de 65% et avoir un degré d'amélioration de 1% à 5% en considérant les déplacements individuels.En résumé, les contributions mentionnées ci-dessus vont dans le sens de l'utilisation des ensembles de données de téléphonie mobile et de la gestion des opérateurs de réseau et de leurs abonnés. / The understanding of human behaviors is a central question in multi-disciplinary research and has contributed to a wide range of applications. The ability to foresee human activities has essential implications in many aspects of cellular networks. In particular, the high availability of mobility prediction can enable various application scenarios such as location-based recommendation, home automation, and location-related data dissemination; the better understanding of mobile data traffic demand can help to improve the design of solutions for network load balancing, aiming at improving the quality of Internet-based mobile services. Although a large and growing body of literature has investigated the topic of predicting human mobility, there has been little discussion in anticipating mobile data traffic in cellular networks, especially in spatiotemporal view of individuals.For understanding human mobility, mobile phone datasets, consisting of Charging Data Records (CDRs), are a practical choice of human footprints because of the large-scale user populations and the vast diversity of individual movement patterns. The accuracy of mobility information granted by CDR depends on the network infrastructure and the frequency of user communication events. As cellular network deployment is highly irregular and interaction frequencies are typically low, CDR data is often characterized by spatial and temporal sparsity, which, in turn, can bias mobility analyses based on such data and cause the loss of whereabouts in individual trajectories.In this thesis, we present novel solutions of the reconstruction of individual trajectories and the prediction of individual mobile data traffic. Our contributions address the problems of (1) overcoming the incompleteness of mobility information for the use of mobile phone datasets and (2) predicting future mobile data traffic demand for the support of network management applications.First, we focus on the flaw of mobility information in mobile phone datasets. We report on an in-depth analysis of its effect on the measurement of individual mobility features and the completeness of individual trajectories. In particular, (1) we provide a confirmation of previous findings regarding the biases in mobility measurements caused by the temporal sparsity of CDR; (2) we evaluate the geographical shift caused by the mapping of user locations to cell towers and reveal the bias caused by the spatial sparsity of CDR; (3) we provide an empirical estimation of the data completeness of individual CDR-based trajectories. (4) we propose novel solutions of CDR completion to reconstruct incomplete. Our solutions leverage the nature of repetitive human movement patterns and the state-of-the-art data inference techniques and outperform previous approaches shown by data-driven simulations.Second, we address the prediction of mobile data traffic demands generated by individual mobile network subscribers. Building on trajectories completed by our developed solutions and data consumption histories extracted from a large-scale mobile phone dataset, (1) we investigate the limits of predictability by measuring the maximum predictability that any algorithm has potential to achieve and (2) we propose practical mobile data traffic prediction approaches that utilize the findings of the theoretical predictability analysis. Our theoretical analysis shows that it is theoretically possible to anticipate the individual demand with a typical accuracy of 75% despite the heterogeneity of users and with an improved accuracy of 80% using joint prediction with mobility information. Our practical based on machine learning techniques can achieve a typical accuracy of 65% and have a 1%~5% degree of improvement by considering individual whereabouts.In summary, the contributions mentioned above provide a step further towards supporting the use of mobile phone datasets and the management of network operators and their subscribers.
|
43 |
Interprétation littéraire numérique : modélisation algorithmique, cybersémiotique et herméneutiqueAudin, Yann 08 1900 (has links)
Dans ce mémoire, nous explorons les possibilités d’une herméneutique algorithmique littéraire en faisant d’abord des parallèles entre la lecture humaine et la modélisation textuelle numérique. À partir des caractéristiques de ces deux formes de rapports au texte littéraire, nous différencions les modèles littéraires nés de la cognition et de la computation, en plus de rester critique des formes représentatives ainsi générées. Nous utilisons ensuite les cadres théoriques de la sémiotique et de la cybersémiotique pour placer l’interprétation humaine et computationnelle sur un même continuum d’évolution biotechnologique. Ainsi, nous envisageons la possibilité de sens littéraire numérique à partir de méthodes d’exploration de données appliquées aux modèles littéraires algorithmiques. Finalement, nous considérons les potentielles conséquences, limites et avantages d’une pratique de l’herméneutique algorithmique, et la forme qu’une telle pratique pourrait prendre. / In this master thesis, we explore the possibilities of digital criticism, first by creating parallels between human reading and computational text modelling. From the characteristics of both these approaches to literary work, we differentiate literary models born of cognition and computation, and stay critical of these representative forms. We then use literary semiotics and cybersemiotics as theoretical frameworks to set human and computer interpretations as two steps on the same biotechnological evolutionary ladder. Thus, we consider the possibility of digital literary meaning produced with advanced data mining tools applied to algorithmically generated literary models. Finally, we contemplate what consequences, limits and advantages such a digital hermeneutic practice would have and offer, and the shapes it may or may not take.
|
44 |
Influent generator : towards realistic modelling of wastewater flowrate and water quality using machine-learning methodsLi, Feiyi 12 November 2023 (has links)
Depuis que l'assainissement des eaux usées est reconnu comme un des objectifs de développement durable des Nations Unies, le traitement et la gestion des eaux usées sont devenus plus importants que jamais. La modélisation et la digitalisation des stations de récupération des ressources de l'eau (StaRRE) jouent un rôle important depuis des décennies, cependant, le manque de données disponibles sur les affluents entrave le développement de la modélisation de StaRRE. Cette thèse vis e à faire progresser la modélisation des systèmes d'assainissement en général, et en particulier en ce qui concerne la génération dynamique des affluents. Dans cette étude, différents générateurs d'affluent (GA), qui peuvent fournir un profil d'affluent dynamique, ont été proposés, optimisés et discutés. Les GA développés ne se concentrent pas seulement sur le débit, les solides en suspension et la matière organique, mais également sur les substances nutritives telles que l'azote et le phosphore. En outre, cette étude vise à adapter les GA à différentes applications en fonction des différentes exigences de modélisation. Afin d'évaluer les performances des GA d'un point de vue général, une série de critères d'évaluation de la qualité du modèle est décrite. Premièrement, pour comprendre la dynamique des affluents, une procédure de caractérisation des affluents a été développée et testée pour une étude de cas à l'échelle pilote. Ensuite, pour générer différentes séries temporelles d'affluent, un premier GA a été développé. La méthodologie de modélisation est basée sur l'apprentissage automatique en raison de ses calculs rapides, de sa précision et de sa capacité à traiter les mégadonnées. De plus, diverses versions de ce GA ont été appliquées pour différents cas optimisées en fonction des disponibilités d'études et ont été des données (la fréquence et l'horizon temporel), des objectifs et des exigences de précision. Les résultats démontrent que : i) le modèle GA proposé peut être utilisé pour générer d'affluents dynamiques réalistes pour différents objectifs, et les séries temporelles résultantes incluent à la fois le débit et la concentration de polluants avec une bonne précision et distribution statistique; ii) les GA sont flexibles, ce qui permet de les améliorer selon différents objectifs d'optimisation; iii) les GA ont été développés en considérant l'équilibre entre les efforts de modélisation, la collecte de données requise et les performances du modèle. Basé sur les perspectives de modélisation des StaRRE, l'analyse des procédés et la modélisation prévisionnelle, les modèles de GA dynamiques peuvent fournir aux concepteurs et aux modélisateurs un profil d'affluent complet et réaliste, ce qui permet de surmonter les obstacles liés au manque de données d'affluent. Par conséquent, cette étude a démontré l'utilité des GA et a fait avancer la modélisation des StaRRE en focalisant sur l'application de méthodologies d'exploration de données et d'apprentissage automatique. Les GA peuvent donc être utilisés comme outil puissant pour la modélisation des StaRRE, avec des applications pour l'amélioration de la configuration de traitement, la conception de procédés, ainsi que la gestion et la prise de décision stratégique. Les GA peuvent ainsi contribuer au développement de jumeaux numériques pour les StaRRE, soit des système intelligent et automatisé de décision et de contrôle. / Since wastewater sanitation is acknowledged as one of the sustainable development goals of the United Nations, wastewater treatment and management have been more important then ever. Water Resource Recovery Facility (WRRF) modelling and digitalization have been playing an important role since decades, however, the lack of available influent data still hampers WRRF model development. This dissertation aims at advancing the field of wastewater systems modelling in general, and in particular with respect to the dynamic influent generation. In this study, different WRRF influent generators (IG), that can provide a dynamic influent flow and pollutant concentration profile, have been proposed, optimized and discussed. The developed IGs are not only focusing on flowrate, suspended solids, and organic matter, but also on nutrients such as nitrogen and phosphorus. The study further aimed at adapting the IGs to different case studies, so that future users feel comfortable to apply different IG versions according to different modelling requirements. In order to evaluate the IG performance from a general perspective, a series of criteria for evaluating the model quality were evaluated. Firstly, to understand the influent dynamics, a procedure of influent characterization has been developed and experimented at pilot scale. Then, to generate different realizations of the influent time series, the first IG was developed and a data-driven modelling approach chosen, because of its fast calculations, its precision and its capacity of handling big data. Furthermore, different realizations of IGs were applied to different case studies and were optimized for different data availabilities (frequency and time horizon), objectives, and modelling precision requirements. The overall results indicate that: i) the proposed IG model can be used to generate realistic dynamic influent time series for different case studies, including both flowrate and pollutant concentrations with good precision and statistical distribution; ii) the proposed IG is flexible and can be improved for different optimization objectives; iii) the IG model has been developed by considering the balance between modelling efforts, data collection requirements and model performance. Based on future perspectives of WRRF process modelling, process analysis, and forecasting, the dynamic IG model can provide designers and modellers with a complete and realistic influent profile and this overcomes the often-occurring barrier of shortage of influent data for modelling. Therefore, this study demonstrated the IGs' usefulness for advanced WRRF modelling focusing on the application of data mining and machine learning methodologies. It is expected to be widely used as a powerful tool for WRRF modelling, improving treatment configurations and process designs, management and strategic decision-making, such as when transforming a conventional WRRF to a digital twin that can be used as an intelligent and automated system.
|
45 |
Les Techniques De Recommandation Et De Visualisation Pour Les Données A Une Grande EchelleMoin, Afshin 09 July 2012 (has links) (PDF)
Nous avons assisté au développement rapide de la technologie de l'information au cours de la dernière décennie. D'une part, la capacité du traitement et du stockage des appareils numériques est en constante augmentation grâce aux progrès des méthodes de construction. D'autre part, l'interaction entre ces dispositifs puissants a été rendue possible grâce à la technologie de réseautage. Une conséquence naturelle de ces progrès, est que le volume des données générées dans différentes applications a grandi à un rythme sans précédent. Désormais, nous sommes confrontés à de nouveaux défis pour traiter et représenter efficacement la masse énorme de données à notre disposition. Cette thèse est centrée autour des deux axes de recommandation du contenu pertinent et de sa visualisation correcte. Le rôle des systèmes de recommandation est d'aider les utilisateurs dans le processus de prise de décision pour trouver des articles avec un contenu pertinent et une qualité satisfaisante au sein du vaste ensemble des possibilités existant dans le Web. D'autre part, la représentation correcte des données traitées est un élément central à la fois pour accroître l'utilité des données pour l'utilisateur final et pour la conception des outils d'analyse efficaces. Dans cet exposé, les principales approches des systèmes de recommandation ainsi que les techniques les plus importantes de la visualisation des données sous forme de graphes sont discutées. En outre, il est montré comment quelques-unes des mêmes techniques appliquées aux systèmes de recommandation peuvent être modifiées pour tenir compte des exigences de visualisation.
|
46 |
Prise en compte des connaissances du domaine dans l'analyse transcriptomique : Similarité sémantique, classification fonctionnelle et profils flous : application au cancer colorectal / Using domain knowledge in the Transcriptomic analysis : Semantic similarity, functional classification and fuzzy profiles. Application to colorectal cancerBenabderrahmane, Sidahmed 15 December 2011 (has links)
L'analyse bioinformatique des données de transcriptomique a pour but d'identifier les gènes qui présentent des variations d'expression entre différentes situations, par exemple entre des échantillons de tissu sain et de tissu malade et de caractériser ces gènes à partir de leurs annotations fonctionnelles. Dans ce travail de thèse, je propose quatre contributions pour la prise en compte des connaissances du domaine dans ces méthodes. Tout d'abord je définis une nouvelle mesure de similarité sémantique et fonctionnelle (IntelliGO) entre les gènes, qui exploite au mieux les annotations fonctionnelles issues de l'ontologie GO ('Gene Ontology'). Je montre ensuite, grâce à une méthodologie d'évaluation rigoureuse, que la mesure IntelliGO est performante pour la classification fonctionnelle des gènes. En troisième contribution je propose une approche différentielle avec affectation floue pour la construction de profils d'expression différentielle (PED). Je définis alors un algorithme d'analyse de recouvrement entre classes fonctionnelles et ensemble des références, ici les PEDs, pour mettre en évidence des gènes ayant à la fois les mêmes variations d'expression et des annotations fonctionnelles similaires. Cette méthode est appliquée à des données expérimentales produites à partir d'échantillons de tissus sains, de tumeur colo-rectale et de lignée cellulaire cancéreuse. Finalement, la mesure de similarité IntelliGO est généralisée à d'autres vocabulaires structurés en graphe acyclique dirigé et enraciné (rDAG) comme l'est l'ontologie GO, avec un exemple d'application concernant la réduction sémantique d'attributs avant la fouille. / Bioinformatic analyses of transcriptomic data aims to identify genes with variations in their expression level in different tissue samples, for example tissues from healthy versus seek patients, and to characterize these genes on the basis of their functional annotation. In this thesis, I present four contributions for taking into account domain knowledge in these methods. Firstly, I define a new semantic and functional similarity measure which optimally exploits functional annotations from Gene Ontology (GO). Then, I show, thanks to a rigorous evaluation method, that this measure is efficient for the functional classification of genes. In the third contribution, I propose a differential approach with fuzzy assignment for building differential expression profiles (DEPs). I define an algorithm for analyzing overlaps between functional clusters and reference sets such as DEPs here, in order to point out genes that have both similar functional annotation and similar variations in expression. This method is applied to experimental data produced from samples of healthy tissue, colorectal tumor and cancerous cultured cell line. Finally the similarity measure IntelliGO is generalized to another structured vocabulary organized as GO as a rooted directed acyclic graph, with an application concerning the semantic reduction of attributes before mining.
|
47 |
Fouille de graphes pour la découverte de contrastes entre classes : application à l'estimation de la toxicité des moléculesPoezevara, Guillaume 23 November 2011 (has links) (PDF)
Cette thèse porte sur la fouille de graphes et propose un ensemble de méthodes pour la découverte de contrastes entre classes et leurs contributions à des problématiques de prédictions de propriétés (éco)toxicologiques de composés chimiques. Nous présentons un nouveau type de motifs, les motifs émergents de graphes - les conjonctions de graphes dont la présence est liée à la classification donnée en entrée - afin de cibler l'information caractérisant les différentes lasses. Notre méthode repose sur un changement de description des graphes permettant de revenir à un contexte de fouille de données tabulaires. L'étendue des contraintes utilisées en fouille de données tabulaires peut ainsi être exploitée, telle que la contrainte d'émergence. Nous montrons également qu'il est possible d'étendre aux motifs de graphes les représentations condensées de motifs sur la contrainte d'émergence. Cette méthode synthétise les motifs de graphes et facilite leur exploration et leur usages. Le fil conducteur de ce travail est celui de l'évaluation de propriétés (éco)toxicologiques de molécules par l'usage de modèles in silico, conformément à la norme européenne REACH. Dans ce contexte, les méthodes de fouille de graphes proposées permettent d'extraire des toxicophores (i.e. des fragments de molécules qui peuvent influencer le comportement toxique des molécules) à partir des exemples d'une chimiothèque. Une série expérimentale montre l'apparition de nouvelles structures lorsque le niveau de toxicité des molécules augmente. Ces travaux contribuent à l'acquisition de nouvelles connaissances sur les mécanismes de toxicité des molécules venant compléter les connaissances expertes humaines.
|
48 |
Conception et validation d'une méthode de complétion des valeurs manquantes fondée sur leurs modèles d'apparitionBen Othman, Leila 18 November 2011 (has links) (PDF)
L'extraction de connaissances à partir de données incomplètes constitue un axe de recherche en plein essor. Dans cette thèse, nous y contribuons par la proposition d'une méthode de complétion des valeurs manquantes. Nous commençons par aborder cette problématique par la définition de modèles d'apparition des valeurs manquantes. Nous en proposons une nouvelle typologie en fonction des données connues et nous les caractérisons de façon non redondante grâce à la base d'implications propres. Un algorithme de calcul de cette base de règles, formalisé à partir de la théorie des hypergraphes, est également proposé dans cette thèse. Ensuite, nous exploitons les informations fournies lors de l'étape de caractérisation afin de proposer une méthode de complétion contextualisée, qui complète les valeurs manquantes selon le type aléatoire/non-aléatoire et selon le contexte. La complétion des valeurs manquantes non aléatoires est effectuée par des valeurs spéciales, renfermant intrinsèquement les origines des valeurs manquantes et déterminées grâce à des schémas de caractérisation. Finalement, nous nous intéressons aux techniques d'évaluation des méthodes de complétion et nous proposons une nouvelle technique fondée sur la stabilité d'un clustering entre les données de référence et les données complétées.
|
49 |
Traitement des objets 3D et images par les méthodes numériques sur graphes / 3D object processing and Image processing by numerical methodsEl Sayed, Abdul Rahman 24 October 2018 (has links)
La détection de peau consiste à détecter les pixels correspondant à une peau humaine dans une image couleur. Les visages constituent une catégorie de stimulus importante par la richesse des informations qu’ils véhiculent car avant de reconnaître n’importe quelle personne il est indispensable de localiser et reconnaître son visage. La plupart des applications liées à la sécurité et à la biométrie reposent sur la détection de régions de peau telles que la détection de visages, le filtrage d'objets 3D pour adultes et la reconnaissance de gestes. En outre, la détection de la saillance des mailles 3D est une phase de prétraitement importante pour de nombreuses applications de vision par ordinateur. La segmentation d'objets 3D basée sur des régions saillantes a été largement utilisée dans de nombreuses applications de vision par ordinateur telles que la correspondance de formes 3D, les alignements d'objets, le lissage de nuages de points 3D, la recherche des images sur le web, l’indexation des images par le contenu, la segmentation de la vidéo et la détection et la reconnaissance de visages. La détection de peau est une tâche très difficile pour différentes raisons liées en général à la variabilité de la forme et la couleur à détecter (teintes différentes d’une personne à une autre, orientation et tailles quelconques, conditions d’éclairage) et surtout pour les images issues du web capturées sous différentes conditions de lumière. Il existe plusieurs approches connues pour la détection de peau : les approches basées sur la géométrie et l’extraction de traits caractéristiques, les approches basées sur le mouvement (la soustraction de l’arrière-plan (SAP), différence entre deux images consécutives, calcul du flot optique) et les approches basées sur la couleur. Dans cette thèse, nous proposons des méthodes d'optimisation numérique pour la détection de régions de couleurs de peaux et de régions saillantes sur des maillages 3D et des nuages de points 3D en utilisant un graphe pondéré. En se basant sur ces méthodes, nous proposons des approches de détection de visage 3D à l'aide de la programmation linéaire et de fouille de données (Data Mining). En outre, nous avons adapté nos méthodes proposées pour résoudre le problème de la simplification des nuages de points 3D et de la correspondance des objets 3D. En plus, nous montrons la robustesse et l’efficacité de nos méthodes proposées à travers de différents résultats expérimentaux réalisés. Enfin, nous montrons la stabilité et la robustesse de nos méthodes par rapport au bruit. / Skin detection involves detecting pixels corresponding to human skin in a color image. The faces constitute a category of stimulus important by the wealth of information that they convey because before recognizing any person it is essential to locate and recognize his face. Most security and biometrics applications rely on the detection of skin regions such as face detection, 3D adult object filtering, and gesture recognition. In addition, saliency detection of 3D mesh is an important pretreatment phase for many computer vision applications. 3D segmentation based on salient regions has been widely used in many computer vision applications such as 3D shape matching, object alignments, 3D point-point smoothing, searching images on the web, image indexing by content, video segmentation and face detection and recognition. The detection of skin is a very difficult task for various reasons generally related to the variability of the shape and the color to be detected (different hues from one person to another, orientation and different sizes, lighting conditions) and especially for images from the web captured under different light conditions. There are several known approaches to skin detection: approaches based on geometry and feature extraction, motion-based approaches (background subtraction (SAP), difference between two consecutive images, optical flow calculation) and color-based approaches. In this thesis, we propose numerical optimization methods for the detection of skins color and salient regions on 3D meshes and 3D point clouds using a weighted graph. Based on these methods, we provide 3D face detection approaches using Linear Programming and Data Mining. In addition, we adapted our proposed methods to solve the problem of simplifying 3D point clouds and matching 3D objects. In addition, we show the robustness and efficiency of our proposed methods through different experimental results. Finally, we show the stability and robustness of our methods with respect to noise.
|
50 |
Automatic tag correction in videos : an approach based on frequent pattern mining / Correction automatique d’annotations de vidéos : une approche à base de fouille de motifs fréquentsTran, Hoang Tung 17 July 2014 (has links)
Nous présentons dans cette thèse un système de correction automatique d'annotations (tags) fournies par des utilisateurs qui téléversent des vidéos sur des sites de partage de documents multimédia sur Internet. La plupart des systèmes d'annotation automatique existants se servent principalement de l'information textuelle fournie en plus de la vidéo par les utilisateurs et apprennent un grand nombre de "classifieurs" pour étiqueter une nouvelle vidéo. Cependant, les annotations fournies par les utilisateurs sont souvent incomplètes et incorrectes. En effet, un utilisateur peut vouloir augmenter artificiellement le nombre de "vues" d'une vidéo en rajoutant des tags non pertinents. Dans cette thèse, nous limitons l'utilisation de cette information textuelle contestable et nous n'apprenons pas de modèle pour propager des annotations entre vidéos. Nous proposons de comparer directement le contenu visuel des vidéos par différents ensembles d'attributs comme les sacs de mots visuels basés sur des descripteurs SIFT ou des motifs fréquents construits à partir de ces sacs. Nous proposons ensuite une stratégie originale de correction des annotations basées sur la fréquence des annotations des vidéos visuellement proches de la vidéo que nous cherchons à corriger. Nous avons également proposé des stratégies d'évaluation et des jeux de données pour évaluer notre approche. Nos expériences montrent que notre système peut effectivement améliorer la qualité des annotations fournies et que les motifs fréquents construits à partir des sacs de motifs fréquents sont des attributs visuels pertinents / This thesis presents a new system for video auto tagging which aims at correcting the tags provided by users for videos uploaded on the Internet. Most existing auto-tagging systems rely mainly on the textual information and learn a great number of classifiers (on per possible tag) to tag new videos. However, the existing user-provided video annotations are often incorrect and incomplete. Indeed, users uploading videos might often want to rapidly increase their video’s number-of-view by tagging them with popular tags which are irrelevant to the video. They can also forget an obvious tag which might greatly help an indexing process. In this thesis, we limit the use this questionable textual information and do not build a supervised model to perform the tag propagation. We propose to compare directly the visual content of the videos described by different sets of features such as SIFT-based Bag-Of-visual-Words or frequent patterns built from them. We then propose an original tag correction strategy based on the frequency of the tags in the visual neighborhood of the videos. We have also introduced a number of strategies and datasets to evaluate our system. The experiments show that our method can effectively improve the existing tags and that frequent patterns build from Bag-Of-visual-Words are useful to construct accurate visual features
|
Page generated in 0.0913 seconds