Global ETD Search

21	Approche co-évolutive humain-système pour l'exploration de bases de données / Human-system co-evolutive approach for database exploration Rajaonarivo, Hiary Landy 29 June 2018 (has links) Ces travaux de recherche portent sur l'aide à l'exploration de bases de données.La particularité de l'approche proposée repose sur un principe de co-évolution de l'utilisateur et d'une interface intelligente. Cette dernière devant permettre d'apporter une aide à la compréhension du domaine représenté par les données. Pour cela, une métaphore de musée virtuel vivant a été adoptée. Ce musée évolue de façon incrémentale au fil des interactions de l'utilisateur. Il incarne non seulement les données mais également des informations sémantiques explicitées par un modèle de connaissances spécifique au domaine exploré.A travers l'organisation topologique et l'évolution incrémentale, le musée personnalise en ligne le parcours de l'utilisateur. L'approche est assurée par trois mécanismes principaux : l'évaluation du profil de l'utilisateur modélisé par une pondération dynamique d'informations sémantiques, l'utilisation de ce profil dynamique pour établir une recommandation ainsi que l'incarnation des données dans le musée.L'approche est appliquée au domaine du patrimoine dans le cadre du projet ANTIMOINE, financé par l'Agence Nationale de la Recherche (ANR). La généricité de cette dernière a été démontrée à travers son application à une base de données de publications mais également à travers l'utilisation de types d'interfaces variés (site web, réalité virtuelle).Des expérimentations ont permis de valider l'hypothèse que notre système s'adapte aux évolutions des comportements de l'utilisateur et qu'il est capable, en retour, d'influencer ce dernier. Elles ont également permis de comparer une interface 2D avec une interface 3D en termes de qualité de perception, de guidage, de préférence et d'efficacité. / This thesis focus on a proposition that helps humans during the exploration of database. The particularity of this proposition relies on a co-evolution principle between the user and an intelligent interface. It provides a support to the understanding of the domain represented by the data. A metaphor of living virtual museum is adopted. This museum evolves incrementally according to the user's interactions. It incarnates both the data and the semantic information which are expressed by a knowledge model specific to the domain of the data. Through the topological organization and the incremental evolution, the museum personalizes online the user's exploration. The approach is insured by three main mechanisms: the evaluation of the user profile modelled by a dynamical weighting of the semantic information, the use of this dynamic profile to establish a recommendation as well as the incarnation of the data in the living museum. The approach has been applied to the heritage domain as part of the ANTIMOINE project, funded by the National Research Agency (ANR). The genericity of the latter has been demonstrated through its application to a database of publications but also using various types of interfaces (website, virtual reality).Experiments have validated the hypothesis that our system adapts itself to the user behavior and that it is able, in turn, to influence him.They also showed the comparison between a 2D interface and a 3D interface in terms of quality of perception, guidance, preference and efficiency. Co-évolution Exploration de données Visualisation Recommandation Adaptabilité Environnement 3D Métaphores Co-evolution Data exploration Visualization Recommendation Adaptability 3D environment Metaphors
22	Expansion de la représentation succincte des générateurs minimaux Abbas, Hafida 03 1900 (has links) (PDF) L'évolution rapide des techniques de génération et de stockage de données a permis à de nombreux organismes la création de bases de données volumineuses, pour stocker l'information nécessaire à leurs activités. Ces bases de données qui deviennent de plus en plus importantes sont réellement peu exploitées, alors qu'elles cachent des connaissances potentiellement utiles pour l'organisation. L'extraction de ces informations enfouies dans ces masses de données est traitée par la fouille de données ("Data Mining"). Ce projet de mémoire traite plus particulièrement le problème d'extraction des informations sous forme de règles d'associations. Le problème de la pertinence et de l'utilité des règles extraites est un problème majeur de l'extraction des règles d'associations. Ce problème est lié au nombre important de règles extraites et à la présence d'une forte proportion de règles redondantes. Nombreuses techniques de réduction de la famille de règles ont été publiées. Dans ce contexte, les résultats obtenus par l'analyse formelle des concepts (AFC) ont permis de définir un sous-ensemble de l'ensemble des règles d'associations valides appelés bases informatives. La génération de ces bases informatives se fait par une extraction efficace des itemsets fermés fréquents et leurs générateurs minimaux associés. Les générateurs minimaux composent les prémisses minimales de ces règles alors que leurs fermetures composent les conclusions maximales de ces règles. Cependant un survol de la littérature montre que les générateurs minimaux composant l'antécédent et la conséquence de ces bases, contiennent encore de la redondance. Une représentation réduite de ces générateurs minimaux est utile pour révéler la relation d'équivalence parmi les générateurs minimaux. Une étude a été menée dernièrement dans ce sens dans laquelle l'algorithme DSFS_MINER a été proposé et validé, permettant l'extraction d'une représentation succincte sans perte d'informations des générateurs minimaux. Notre contribution dans ce projet réside d'une part, dans l'étude et l'expérimentation d'approches de représentations succinctes des générateurs minimaux, et d'autre part, dans la proposition d'un algorithme d'expansion permettant la dérivation de tous les générateurs minimaux afin de constituer la famille entière des générateurs minimaux du contexte d'extraction. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Data Mining, Règles d'associations, Analyse formelle des concepts, Générateurs minimaux, Itemset fermés, Générateur minimal, Représentation succincte des générateurs minimaux. Analyse formelle de concepts Exploration de données Itemset Règle d'association (Logique) Générateur minimal Itemset fermé
23	Extraction de relations spatio-temporelles à partir des données environnementales et de la santé Alatrista-Salas, Hugo 04 October 2013 (has links) (PDF) Face à l'explosion des nouvelles technologies (mobiles, capteurs, etc.), de grandes quantités de données localisées dans l'espace et dans le temps sont désormais disponibles. Les bases de données associées peuvent être qualifiées de bases de données spatio-temporelles car chaque donnée est décrite par une information spatiale (e.g. une ville, un quartier, une rivière, etc.) et temporelle (p. ex. la date d'un événement). Cette masse de données souvent hétérogènes et complexes génère ainsi de nouveaux besoins auxquels les méthodes d'extraction de connaissances doivent pouvoir répondre (e.g. suivre des phénomènes dans le temps et l'espace). De nombreux phénomènes avec des dynamiques complexes sont ainsi associés à des données spatio-temporelles. Par exemple, la dynamique d'une maladie infectieuse peut être décrite par les interactions entre les humains et le vecteur de transmission associé ainsi que par certains mécanismes spatio-temporels qui participent à son évolution. La modification de l'un des composants de ce système peut déclencher des variations dans les interactions entre les composants et finalement, faire évoluer le comportement global du système.Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d'exploiter au mieux l'ensemble des données disponibles. Tel est l'objectif de la fouille de données spatio-temporelles qui correspond à l'ensemble de techniques et méthodes qui permettent d'obtenir des connaissances utiles à partir de gros volumes de données spatio-temporelles. Cette thèse s'inscrit dans le cadre général de la fouille de données spatio-temporelles et l'extraction de motifs séquentiels. Plus précisément, deux méthodes génériques d'extraction de motifs sont proposées. La première permet d'extraire des motifs séquentiels incluant des caractéristiques spatiales. Dans la deuxième, nous proposons un nouveau type de motifs appelé "motifs spatio-séquentiels". Ce type de motifs permet d'étudier l'évolution d'un ensemble d'événements décrivant une zone et son entourage proche. Ces deux approches ont été testées sur deux jeux de données associées à des phénomènes spatio-temporels : la pollution des rivières en France et le suivi épidémiologique de la dengue en Nouvelle Calédonie. Par ailleurs, deux mesures de qualité ainsi qu'un prototype de visualisation de motifs sont été également proposés pour accompagner les experts dans la sélection des motifs d'intérêts. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Fouille de données spatio-temporelles Information Géographique Recherche de corrélations Exploration de données Système de détection épidémiologique
24	Querying and Mining Multigraphs / Requêtes et fouille de multigraphes Ingalalli, Vijay 27 February 2017 (has links) Avec des volumes de données et d’informations de plus en plus importants, des données de plus en plus complexes et fortement inter-reliées, l’extraction de connaissances reste un véritable défi. Les graphes offrent actuellement un support de représentation efficace pour représenter ces données. Parmi les approches existantes, les multi-graphes ont montré que leur pouvoir d’expression était particulièrement adapté pour manipuler des données complexes possédant de nombreux types de relations entre elles. Cette thèse aborde deux aspects principaux liés aux multigraphes : la recherche de sous graphes et la fouille de sous graphes fréquents dans des multigraphes.Elle propose trois propositions dans le domaines du requêtage et de la fouille de données.La première contribution s’inscrit dans la recherche de sous graphes et concerne l’isomorphisme de sous graphes dans des multigraphes. Cette approche peut, par exemple, être appliquée dans de nombreux domaines d’applications comme l’analyse d’images satellites ou de réseaux sociaux. Dans la seconde, nous nous intéressons aux graphes de connaissances et abordons la problématique de l’homorphisme de graphes dans des multigraphes RDF. Dans les deux contributions, nous proposons de nouvelles techniques d’indexations pour représenter efficacement les informations contenues dans les multigraphes. La recherche des sous graphes tire avantage de ces nouveaux index et différentes heuristiques et optimisations sont également proposées pour garantir de bonnes performances lors de l’exécution des requêtes. La seconde contribution s’inscrit dans le domaine de la fouille de données et nous proposons un algorithme efficace pour extraire les multigraphes fréquents. Etant donné l’espace de recherche à considérer, la recherche de motifs fréquents dans des graphes est un problème difficile en fouille de données. Pour parcourir efficacement l’espace de recherche encore plus volumineux pour les multigraphes, nous proposons de nouvelles techniques et méthodes pour le traverser efficacement notamment en éliminant des candidats où détectant à l’avance les motifs non fréquents. Pour chacune de ces propositions de nombreuses expérimentations sont réalisées pour valider à la fois leurs performances et exactitudes en les comparant avec les approches existantes. Finalement, nous proposons une étude de cas sur des jeux de données issues d’images satellites modélisées sous la forme de multigraphe et montrons que l’application de nos propositions permet de mettre en évidence de nouvelles connaissances utiles. / With the ever-increasing growth of data and information, extracting the right knowledge has become a real challenge.Further, the advanced applications demand the analysis of complex, interrelated data which cannot be adequately described using a propositional representation. The graph representation is of great interest for the knowledge extraction community, since graphs are versatile data structures and are one of the most general forms of data representation. Among several classes of graphs, textit{multigraphs} have been captivating the attention in the recent times, thanks to their inherent property of succinctly representing the entities by allowing the rich and complex relations among them.The focus of this thesis is streamlined into two themes of knowledge extraction; one being textit{knowledge retrieval}, where we focus on the subgraph query matching aspects in multigraphs, and the other being textit{knowledge discovery}, where we focus on the problem of frequent pattern mining in multigraphs.This thesis makes three main contributions in the field of query matching and data mining.The first contribution, which is very generic, addresses querying subgraphs in multigraphs that yields isomorphic matches, and this problem finds potential applications in the domains of remote sensing, social networks, bioinformatics, chemical informatics. The second contribution, which is focussed on knowledge graphs, addresses querying subgraphs in RDF multigraphs that yield homomorphic matches. In both the contributions, we introduce efficient indexing structures that capture the multiedge information. The query matching processes introduced have been carefully optimized, w.r.t. the time performance and the heuristics employed assure robust performance.The third contribution is in the field of data mining, where we propose an efficient frequent pattern mining algorithm for multigraphs. We observe that multigraphs pose challenges while exploring the search space, and hence we introduce novel optimization techniques and heuristic search methods to swiftly traverse the search space.For each proposed approach, we perform extensive experimental analysis by comparing with the existing state-of-the-art approaches in order to validate the performance and correctness of our approaches.In the end, we perform a case study analysis on a remote sensing dataset. Remote sensing dataset is modelled as a multigraph, and the mining and query matching processes are employed to discover some useful knowledge. Exploration de données Fouille de graphes La théorie des graphes Base de données du graphes Data mining Graph mining Graph theory Graph database
25	Techniques d'extraction de connaissances en biodiversité / Biodiversity knowledge extraction techniques (BioKET) Inthasone, Somsack 02 April 2015 (has links) Les données sur la biodiversité sont généralement représentées et stockées dans différents formats. Cela rend difficile pour les biologistes leur agrégation et leur intégration afin d'identifier et découvrir des connaissances pertinentes dans le but, par exemple, de classer efficacement des spécimens. Nous présentons ici l'entrepôt de données BioKET issu de la consolidation de données hétérogènes de différentes sources. Actuellement, le champ d'application de BioKET concerne la botanique. Sa construction a nécessité, notamment, d'identifier et analyser les ontologies et bases botaniques existantes afin de standardiser et lier les descripteurs utilisés dans BioKET. Nous avons également développé une méthodologie pour la construction de terminologies taxonomiques, ou thésaurus, à partir d'ontologies de plantes et d'informations géo-spatiales faisant autorité. Les données de biodiversité et botanique de quatre fournisseurs majeurs et de deux systèmes d'informations géo-spatiales ont été intégrées dans BioKET. L'utilité d'un tel entrepôt de données a été démontrée par l'application de méthodes d'extraction de modèles de connaissances, basées sur les approches classiques Apriori et de la fermeture de Galois, à des ensembles de données générées à partir de BioKET. En utilisant ces méthodes, des règles d'association et des clusters conceptuels ont été extraits pour l'analyse des statuts de risque de plantes endémiques au Laos et en Asie du Sud-Est. En outre, BioKET est interfacé avec d'autres applications et ressources, tel que l'outil GeoCAT pour l'évaluation géo-spatiale des facteurs de risques, afin de fournir un outil d'analyse performant pour les données de biodiversité. / Biodiversity data are generally stored in different formats. This makes it difficult for biologists to combine and integrate them in order to retrieve useful information and discover novel knowledge for the purpose of, for example, efficiently classifying specimens. In this work, we present the BioKET data warehouse which is a consolidation of heterogeneous data stored in different formats and originating from different sources. For the time being, the scope of BioKET is botanical. Its construction required, among others things, to identify and analyze existing botanical ontologies, to standardize and relate terms in BioKET. We also developed a methodology for mapping and defining taxonomic terminologies, that are controlled vocabularies with hierarchical structures from authoritative plant ontologies, Google Maps, and OpenStreetMap geospatial information system. Data from four major biodiversity and botanical data providers and from the two previously mentioned geospatial information systems were then integrated in BioKET. The usefulness of such a data warehouse was demonstrated by applying classical knowledge pattern extraction methods, based on the classical Apriori and Galois closure based approaches, to several datasets generated from BioKET extracts. Using these methods, association rules and conceptual bi-clusters were extracted to analyze the risk status of plants endemic to Laos and Southeast Asia. Besides, BioKET is interfaced with other applications and resources, like the GeoCAT Geospatial Conservation Assessment Tool, to provide a powerful analysis tool for biodiversity data. Biodiversité Exploration de données Extraction de connaissances Entrepôts de données Technologies de l'information Ontologies Biodiversity Data mining Knowledge integration Data wharehouse Information technology Ontologies
26	Neural networks in multiphase reactors data mining: feature selection, prior knowledge, and model design Tarca, Adi-Laurentiu January 2004 (has links) Les réseaux de neurones artificiels (RNA) suscitent toujours un vif intérêt dans la plupart des domaines d’ingénierie non seulement pour leur attirante « capacité d’apprentissage » mais aussi pour leur flexibilité et leur bonne performance, par rapport aux approches classiques. Les RNA sont capables «d’approximer» des relations complexes et non linéaires entre un vecteur de variables d’entrées x et une sortie y. Dans le contexte des réacteurs multiphasiques le potentiel des RNA est élevé car la modélisation via la résolution des équations d’écoulement est presque impossible pour les systèmes gaz-liquide-solide. L’utilisation des RNA dans les approches de régression et de classification rencontre cependant certaines difficultés. Un premier problème, général à tous les types de modélisation empirique, est celui de la sélection des variables explicatives qui consiste à décider quel sous-ensemble xs ⊂ x des variables indépendantes doit être retenu pour former les entrées du modèle. Les autres difficultés à surmonter, plus spécifiques aux RNA, sont : le sur-apprentissage, l’ambiguïté dans l’identification de l’architecture et des paramètres des RNA et le manque de compréhension phénoménologique du modèle résultant. Ce travail se concentre principalement sur trois problématiques dans l’utilisation des RNA: i) la sélection des variables, ii) l’utilisation de la connaissance apriori, et iii) le design du modèle. La sélection des variables, dans le contexte de la régression avec des groupes adimensionnels, a été menée avec les algorithmes génétiques. Dans le contexte de la classification, cette sélection a été faite avec des méthodes séquentielles. Les types de connaissance a priori que nous avons insérés dans le processus de construction des RNA sont : i) la monotonie et la concavité pour la régression, ii) la connectivité des classes et des coûts non égaux associés aux différentes erreurs, pour la classification. Les méthodologies développées dans ce travail ont permis de construire plusieurs modèles neuronaux fiables pour les prédictions de la rétention liquide et de la perte de charge dans les colonnes garnies à contre-courant ainsi que pour la prédiction des régimes d’écoulement dans les colonnes garnies à co-courant. / Artificial neural networks (ANN) have recently gained enormous popularity in many engineering fields, not only for their appealing “learning ability, ” but also for their versatility and superior performance with respect to classical approaches. Without supposing a particular equational form, ANNs mimic complex nonlinear relationships that might exist between an input feature vector x and a dependent (output) variable y. In the context of multiphase reactors the potential of neural networks is high as the modeling by resolution of first principle equations to forecast sought key hydrodynamics and transfer characteristics is intractable. The general-purpose applicability of neural networks in regression and classification, however, poses some subsidiary difficulties that can make their use inappropriate for certain modeling problems. Some of these problems are general to any empirical modeling technique, including the feature selection step, in which one has to decide which subset xs ⊂ x should constitute the inputs (regressors) of the model. Other weaknesses specific to the neural networks are overfitting, model design ambiguity (architecture and parameters identification), and the lack of interpretability of resulting models. This work addresses three issues in the application of neural networks: i) feature selection ii) prior knowledge matching within the models (to answer to some extent the overfitting and interpretability issues), and iii) the model design. Feature selection was conducted with genetic algorithms (yet another companion from artificial intelligence area), which allowed identification of good combinations of dimensionless inputs to use in regression ANNs, or with sequential methods in a classification context. The type of a priori knowledge we wanted the resulting ANN models to match was the monotonicity and/or concavity in regression or class connectivity and different misclassification costs in classification. Even the purpose of the study was rather methodological; some resulting ANN models might be considered contributions per se. These models-- direct proofs for the underlying methodologies-- are useful for predicting liquid hold-up and pressure drop in counter-current packed beds and flow regime type in trickle beds. TP 7.5 Réseaux neuronaux (Informatique) Exploration de données (Informatique)
27	End-user service composition from a social networks analysis perspective / La composition de service pour les utilisateurs finaux, basée sur l'analyse des réseaux sociaux Maaradji, Abderrahmane 02 December 2011 (has links) Le paradigme de service dans les nouvelles technologies de l’information et de communication est omniprésent, si bien qu’on parle de science des services. Les services Web sont définis dans le cadre des architectures orientées services (SOA) qui permet de distinguer le fournisseur de service, le répertoire de services, et enfin le consommateur du service. Cette distinction permet de créer de nouveaux services en composant des services déjà existants. Cependant, la composition de services est principalement bénéfique aux utilisateurs expérimentés comme les développeurs de logiciels car elle requiert un niveau technique élevé. Par opposition, la tendance actuelle traduite par l’émergence du Web2.0, vise à permettre aux utilisateurs du Web de créer leurs propres services à travers les environnements de Mashup, ou de collaborer et de capitaliser des connaissances à travers les réseaux et les médias sociaux. Nous croyons qu’il existe un grand potentiel pour “démocratiser” la composition de services dans de tels contextes. L’émergence du Web 2.0, basé sur des paradigmes tels que le contenu généré par l’utilisateur (UGC, Mashups) et le web social, constitue, une opportunité intéressante pour améliorer la productivité de services par l’utilisateur final et accélérer son processus créatif en capitalisant les connaissances générées par tous les utilisateurs. Dans ce contexte, cette thèse vise à soutenir l'évolution du concept de composition de services par le biais de contributions significatives. La principale contribution de cette thèse est en effet l'introduction de la dimension sociale dans le processus de construction d'un service composite à travers les environnements dédiés aux utilisateurs finaux. Ce concept considère l'activité de composition de services (création d'un Mashup) comme une activité sociale. Cette activité révèle les liens sociaux entre les utilisateurs en fonction de leur similitude dans le choix et la combinaison des services. Ces liens permettent de diffuser d'expertise de composition de services. En d'autres termes, sur la base des schémas fréquents de composition, et la similitude entre les utilisateurs, lorsqu’un utilisateur est en train d’éditer un Mashup, des recommandations dynamiques lui sont proposées. Ces recommandations visent à compléter la première partie de Mashup déjà mis en place par l'utilisateur. Ce concept a été exploré à travers (i) la complétion de Mashup étape par étape en recommandant à chaque étape un service unique, et (ii) la complétion totale de Mashup en recommandant la séquence complète de services qui pourraient le compléter. Au-delà de l’introduction de la dimension sociale dans le processus de composition de services, cette thèse a adressé une contrainte particulière du système de recommandation liée aux exigences des systèmes interactifs en termes de temps de réponse. À cet égard, nous avons développé des algorithmes robustes et adaptées aux spécificités de notre problème. Alors qu’un service composite est considéré comme une séquence de service, la recherche de similarités entre les utilisateurs revient d'abord à trouver des modèles fréquents, puis de les représenter dans une structure de données avantageuse pour l'algorithme de recommandation. L’algorithme proposé FESMA répond à ces exigences en se basant sur la structure FSTREE et offrant des résultats intéressants par rapport à l'art antérieur. Enfin, pour mettre en œuvre les algorithmes et les méthodes proposées, nous avons développé un environnement de création de Mashup, appelé ‘Social Composer’ (SoCo). Cet environnement, dédié aux utilisateurs finaux, respecte les critères d'utilisation en se basant sur le workflow graphique. En outre, il met en œuvre tous les mécanismes nécessaires pour déployer le service composé à partir d'une description abstraite introduite par l'utilisateur. De plus, SoCo a été augmentée en y incluant la fonctionnalité de recommandation dynamique, démontrant la faisabilité de ce concept / Service composition has risen from the need to make information systems more flexible and open. The Service Oriented Architecture has become the reference architecture model for applications carried by the impetus of Internet (Web). In fact, information systems are able to expose interfaces through the Web which has increased the number of available Web services. On the other hand, with the emergence of the Web 2.0, service composition has evolved toward web users with limited technical skills. Those end-users, named Y generation, are participating, creating, sharing and commenting content through the Web. This evolution in service composition is translated by the reference paradigm of Mashup and Mashup editors such as Yahoo Pipes! This paradigm has established the service composition within end users community enabling them to meet their own needs, for instance by creating applications that do not exist. Additionally, Web 2.0 has brought also its social dimension, allowing users to interact, either directly through the online social networks or indirectly by sharing, modifying content, or adding metadata. In this context, this thesis aims to support the evolving concept of service composition through meaningful contributions. The main contribution of this thesis is indeed the introduction of the social dimension within the process of building a composite service through end users’ dedicated environments. In fact, this concept of social dimension considers the activity of compositing services (creating a Mashup) as a social activity. This activity reveals social links between users based on their similarity in selecting and combining services. These links could be an interesting dissemination means of expertise, accumulated by users when compositing services. In other terms, based on frequent composition patterns, and similarity between users, when a user is editing a Mashup, dynamic recommendations are proposed. These recommendations aim to complete the initial part of Mashup already introduced by the user. This concept has been explored through (i) a step-by-step Mashup completion by recommending a single service at each step, and (ii) a full Mashup completion approaches by recommending the whole sequence of services that could complete the Mashup. Beyond pushing a vision for integrating the social dimension in the service composition process, this thesis has addressed a particular constraint for this recommendation system which conditions the interactive systems requirements in terms of response time. In this regard, we have developed robust algorithms adapted to the specificities of our problem. Whereas a composite service is considered as a sequence of basic service, finding similarities between users comes first to find frequent patterns (subsequences) and then represent them in an advantageous data structure for the recommendation algorithm. The proposed algorithm FESMA, provide exactly those requirements based on the FSTREE structure with interesting results compared to the prior art. Finally, to implement the proposed algorithms and methods, we have developed a Mashup creation framework, called Social Composer (SoCo). This framework, dedicated to end users, firstly implements abstraction and usability requirements through a workflow-based graphic environment. As well, it implements all the mechanisms needed to deploy composed service starting from an abstract description entered by the user. More importantly, SoCo has been augmented by including the dynamic recommendation functionality, demonstrating by the way the feasibility of this concept. Composition de service Mashup Réseau social Exploration de données Service composition Mashup Data mining Frequent sequence mining Social network
28	Relais de perte de synchronisme par exploration de données Syla, Burhan 18 April 2018 (has links) Le but de ce document est de vérifier la faisabilité d’un relais de protection de synchronisme en utilisant la fouille de données et les arbres de décisions. En utilisant EMTP-RV, 180 simulations ont été effectuées sur le réseau Anderson en variant l’endroit auquel survient le court-circuit, la durée, le type, ainsi que le load-flow. Pour chacune de ces simulations, 39 mesures électriques ainsi que huit mesures mécaniques sont sauvegardées. Ces simulations sont ensuite classées stables et instables en utilisant le centre d’inertie d’angle et de vitesse. Trente-trois nouvelles autres variables sont déduites des 39 premières et sont ajoutées en utilisant MATLAB. Avec le logiciel KNIME, les arbres de décision de type C4.5, CART, ADABoost, ADTree et les forêts aléatoires sont modélisées et leurs performances en fonction de la période d’échantillonnage sont comparées. Une réduction de variable par filtre de type Consistency Subset Eval, Symmetrical Uncert Attribute Set Eval et Correlation-based Feature Subset Selection est ensuite appliquée. Les simulations sont visualisées en utilisant l’ensemble de validation. Les résultats montrent que l’utilisation d’une fréquence de 240 [Hz] et 28 variables est suffisante pour obtenir, en moyenne, une aire sous la courbe de 0.9591 pour l’ensemble de test et de validation des 4 générateurs. / The goal of this document is to verify the feasability of an out-of-step relay using data mining and decision trees. Using EMTP-RV and the Anderson network, 180 simulations were done while changing the place of the short circuit, the length, the type and the load-flow. For these simulations, 39 electrical measures and 8 mechanical measures were made. These simulations were then classified as stable or instable using the center of inertia of angle and speed. With MATLAB, 33 new other variables were created by using the first 39, and then with KNIME, decisions trees such as C4.5, CART, ADABoost, ADTree and random forest were simulated and the sampling time versus the performances were compared. Using Consistency Subset Eval, Symmetrical Uncert Attribute Set Eval and Correlation-based Feature Subset Selection, the features were reduced and the simulations were visualised using the validation set. Results show that with a sampling frequency of 240 [Hz] and 28 variables is enough to obtain a mean area under the curve of 0.9591 for the training and the validation set of the 4 generators. TK 7.5 UL 2012 Exploration de données (Informatique) Arbres de décision
29	Extraction des connaissances en imagerie microspectrométrique par analyse chimiométrique : application à la caractérisation des constituants d'un calcul urinaire Elmi Rayaleh, Waïss 27 June 2006 (has links) (PDF) L'imagerie spectroscopique classique utilisant la sélection d'une bande spectrale d'absorption spécifique pour chaque composé d'un mélange a atteint ses limites lors d'analyse d'échantillons complexes naturels ou industriels. Les méthodes chimiométriques sont alors un précieux outil pour s'affranchir à la fois des limitations dues aux recouvrements spectraux et certaines limitations instrumentales. Cependant une optimisation et une adaptation des méthodologies de résolution aux cas concrets sous analyse sont nécessaires. Notre étude a ciblé les différents traitements chimiométriques permettant de mieux extraire les images microspectrométriques des constituants d'un mélange. Dans une première étape, une optimisation est effectuée sur des données synthétiques pour un ensemble des méthodes de résolution multivariées. Parmi celles-ci, OPA(var) (Orthogonal Projection Approach par sélection des variables) s'est révélée être le plus efficace qualitativement. Puis, la démarche originale mettant en oeuvre le couplage des méthodes chimiométriques de l'optimisation avec MCR-ALS (Multivariate Curve Resolution - Alternating Least Squares) a été réalisée. La capacité de résolution de MCR-ALS se trouve considérablement renforcée par ce couplage. Ensuite, au niveau du pixel, les contraintes liées au rang local ont été spécifiées et appliquées. La pertinence du couplage réalisé et l'efficacité d'extraction par les contraintes du rang local ont été mises en évidence dans les nombreux cas étudiés. L'application de cette méthodologie d'analyse, mise en place, sur des données réelles issues de la micro- spectrométrie Raman a abouti d'une manière concluante. Les constituants d'un calcul urinaire sont identifiés par leurs spectres respectifs grâce à une bibliothèque de référence. Chaque image extraite indique la répartition du composé correspondant dans la partie analysée par l'intermédiaire d'une échelle de couleur adaptée. En effet, dans ce type de pathologie, une bonne identification de la chronologie de formation de différents constituants permet un meilleur diagnostic et un traitement médical adapté. Dans notre étude, la reproduction efficace des images microspectrométriques de grande qualité par les méthodes chimiométriques est prouvée même dans un cas réel complexe. [CHIM:OTHE] Chemical Sciences/Other Chimiométrie Thèses et écrits académiques Analyse multivariée Imagerie spectroscopique Traitement d'images Spectroscopie infrarouge Calculs urinaires Exploration de données
30	Extraction de relations spatio-temporelles à partir des données environnementales et de la santé / Spatio-temporal data mining from health and environment data Alatrista-Salas, Hugo 04 October 2013 (has links) Face à l'explosion des nouvelles technologies (mobiles, capteurs, etc.), de grandes quantités de données localisées dans l'espace et dans le temps sont désormais disponibles. Les bases de données associées peuvent être qualifiées de bases de données spatio-temporelles car chaque donnée est décrite par une information spatiale (e.g. une ville, un quartier, une rivière, etc.) et temporelle (p. ex. la date d'un événement). Cette masse de données souvent hétérogènes et complexes génère ainsi de nouveaux besoins auxquels les méthodes d'extraction de connaissances doivent pouvoir répondre (e.g. suivre des phénomènes dans le temps et l'espace). De nombreux phénomènes avec des dynamiques complexes sont ainsi associés à des données spatio-temporelles. Par exemple, la dynamique d'une maladie infectieuse peut être décrite par les interactions entre les humains et le vecteur de transmission associé ainsi que par certains mécanismes spatio-temporels qui participent à son évolution. La modification de l'un des composants de ce système peut déclencher des variations dans les interactions entre les composants et finalement, faire évoluer le comportement global du système.Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d'exploiter au mieux l'ensemble des données disponibles. Tel est l'objectif de la fouille de données spatio-temporelles qui correspond à l'ensemble de techniques et méthodes qui permettent d'obtenir des connaissances utiles à partir de gros volumes de données spatio-temporelles. Cette thèse s'inscrit dans le cadre général de la fouille de données spatio-temporelles et l'extraction de motifs séquentiels. Plus précisément, deux méthodes génériques d'extraction de motifs sont proposées. La première permet d'extraire des motifs séquentiels incluant des caractéristiques spatiales. Dans la deuxième, nous proposons un nouveau type de motifs appelé "motifs spatio-séquentiels". Ce type de motifs permet d'étudier l'évolution d'un ensemble d'événements décrivant une zone et son entourage proche. Ces deux approches ont été testées sur deux jeux de données associées à des phénomènes spatio-temporels : la pollution des rivières en France et le suivi épidémiologique de la dengue en Nouvelle Calédonie. Par ailleurs, deux mesures de qualité ainsi qu'un prototype de visualisation de motifs sont été également proposés pour accompagner les experts dans la sélection des motifs d'intérêts. / Thanks to the new technologies (smartphones, sensors, etc.), large amounts of spatiotemporal data are now available. The associated database can be called spatiotemporal databases because each row is described by a spatial information (e.g. a city, a neighborhood, a river, etc.) and temporal information (e.g. the date of an event). This huge data is often complex and heterogeneous and generates new needs in knowledge extraction methods to deal with these constraints (e.g. follow phenomena in time and space).Many phenomena with complex dynamics are thus associated with spatiotemporal data. For instance, the dynamics of an infectious disease can be described as the interactions between humans and the transmission vector as well as some spatiotemporal mechanisms involved in its development. The modification of one of these components can trigger changes in the interactions between the components and finally develop the overall system behavior.To deal with these new challenges, new processes and methods must be developed to manage all available data. In this context, the spatiotemporal data mining is define as a set of techniques and methods used to obtain useful information from large volumes of spatiotemporal data. This thesis follows the general framework of spatiotemporal data mining and sequential pattern mining. More specifically, two generic methods of pattern mining are proposed. The first one allows us to extract sequential patterns including spatial characteristics of data. In the second one, we propose a new type of patterns called spatio-sequential patterns. This kind of patterns is used to study the evolution of a set of events describing an area and its near environment.Both approaches were tested on real datasets associated to two spatiotemporal phenomena: the pollution of rivers in France and the epidemiological monitoring of dengue in New Caledonia. In addition, two measures of quality and a patterns visualization prototype are also available to assist the experts in the selection of interesting patters. Fouille de données spatio-temporelles Information Géographique Recherche de corrélations Exploration de données Système de détection épidémiologique Spatio-temporal data mining Geographic information Research of correlations Data exploration Epidemiology detection system

Search results