Global ETD Search

11	Etude et réalisation d'un système d'extraction de connaissances à partir de textes Cherfi, Hacène 15 November 2004 (has links) (PDF) Ce travail de thèse porte sur la problématique d'extraction de connaissances à partir de textes, plus communément appelée la fouille de textes (FdT). Il s'articule autour des problèmes liés à l'analyse des textes, la fouille de textes proprement dite, et l'interprétation des éléments de connaissances extraits. Dans ce cadre, un système d'extraction des connaissances nécessaires pour analyser les textes en fonction de leur contenu est étudié et implanté. Les méthodes de fouille de données appliquées sont la recherche de motifs fréquents (avec l'algorithme Close) et l'extraction de règles d'association. Le mémoire s'attache à définir précisément le processus de fouille de textes et ses principales caractéristiques et propriétés en s'appuyant sur l'extraction de motifs fréquents et de règles d'association. En outre, une étude minutieuse d'un ensemble donné de mesures de qualité qu'il est possible d'attacher aux règles d'association est menée, toujours dans le cadre de la fouille de textes. Il est montré quel rôle ces mesures peuvent avoir sur la qualité et sur l'interprétation des règles extraites ; comment peuvent-elles influer sur la qualité globale du processus de fouille de textes.<br />L'utilisation d'un modèle de connaissances vient appuyer et surtout compléter cette première approche. Il est montré, par la définition d'une mesure de vraisemblance, l'intérêt de découvrir de nouvelles connaissances en écartant les connaissances déjà répertoriées et décrites par un modèle de connaissances du domaine. Les règles d'association peuvent donc être utilisées pour alimenter un modèle de connaissances terminologiques du domaine des textes choisi. La thèse inclut la réalisation d'un système appelé TAMIS : "Text Analysis by Mining Interesting ruleS" ainsi qu'une expérimentation et une validation sur des données réelles de résumés de textes en biologie moléculaire. Fouille de textes règles d'association mesures de qualité interprétation apprentissage modèle de connaissances biologie moléculaire
12	Améliorer la recherche par similarité dans une grande base d'images fixes par des techniques de fouilles de données Kouomou-Choupo, Anicet 23 February 2006 (has links) (PDF) Les images fixes peuvent, entre autres, être décrites au niveau du pixel par des descripteurs visuels globaux de couleur, de texture ou de forme. La recherche par le contenu exploite et combine alors ces descripteurs dont le coût de calcul est d'autant plus important que la taille de la base d'images est grande. Les résultats de la recherche sont ensuite classés en fonction de leur similarité à la requête soumise et présentés à l'utilisateur sous forme de liste ordonnée. Un sous-ensemble de descripteurs pourrait cependant suffire à répondre à une recherche par similarité beaucoup plus rapidement, tout en gardant une qualité acceptable des résultats de recherche. Nous proposons pour cela une méthode de sélection automatique des descripteurs visuels qui exploite les règles d'association pour élaborer des stratégies d'exécution réduisant le temps de la recherche par le contenu dans de grandes bases d'images fixes. Dans cette thèse, nous présentons également comment une recherche par le contenu peut être adaptée pour proposer des résultats intermédiaires qui sont fusionnés de façon progressive avec l'avantage pour l'utilisateur, d'une part, de ne pas attendre que toute la base ait été parcourue avant de fournir un résultat et, d'autre part, de lui permettre de stopper la requête en cours d'exécution. Les expérimentations conduites sur des bases d'images réelles montrent que notre méthode améliore notablement les temps de réponse. Elles confirment aussi l'intérêt de la combinaison des descripteurs globaux pour la recherche d'images par le contenu. règles d'association combinaison des descripteurs globaux
13	A virtual reality-based approach for interactive and visual mining of association rules Ben Said, Zohra 25 October 2012 (has links) (PDF) Cette thèse se situe à l'intersection de deux domaines actifs de recherche: la fouille de règles d'association et la réalité virtuelle. Les limites majeures des algorithmes d'extraction de règles d'association sont (i) la grande quantité de règles produites et (ii) leur faible qualité. Dans la littérature, plusieurs solutions ont été proposées pour remédier à ce problème, comme le post-traitement de règles d'association qui permet la validation des règles et l'extraction de connaissances utiles. Cependant, alors que les règles sont extraites automatiquement par des algorithmes combinatoires, le post-traitement de règles est effectué par l'utilisateur. La visualisation peut aider l'utilisateur à faire face à une grande quantité de règles en les représentants sous forme visuelle. Afin de trouver les connaissances pertinentes dans les représentations visuelles, l'utilisateur doit interagir avec la représentation de règles d'association. Par conséquent, il est essentiel de fournir à l'utilisateur des techniques d'interaction efficaces. Ce travail aborde deux problèmes essentiels : la représentation de règles d'association afin de permettre à l'utilisateur de détecter très rapidement les règles les plus intéressantes et l'exploration interactive des règles. Le premier exige une métaphore intuitive de représentation de règles d'association. Le second nécessite un processus d'exploration très interactif permettant à l'utilisateur de fouiller l'espace de règles en se concentrant sur les règles intéressantes. Les principales contributions de ce travail peuvent être résumées comme suit : (i) Nous proposons une nouvelle classification pour les techniques de fouille visuelles de données, basée sur des représentations en 3D et des techniques d'interaction. Une telle classification aide l'utilisateur à choisir une configuration pertinente pour son application. (ii) Nous proposons une nouvelle métaphore de visualisation pour les règles d'association qui prend en compte les attributs de la règle, la contribution de chacun d'eux et leurs corrélations. (iii) Nous proposons une méthodologie pour l'exploration interactive de règles d'association. Elle est conçue pour faciliter la tâche de l'utilisateur face à des grands ensembles de règles en tenant en compte ses capacités cognitives. Dans cette méthodologie, des algorithmes locaux sont utilisés pour recommander les meilleures règles basées sur une règle de référence proposée par l'utilisateur. Ensuite, l'utilisateur peut à la fois diriger l'extraction et le post-traitement des règles en utilisant des opérateurs d'interaction appropriés. (iv) Nous avons développé un outil qui implémente toutes les fonctionnalités de la méthodologie. Notre outil est basé sur un affichage intuitif dans un environnement virtuel et prend en charge plusieurs méthodes d'interaction. Règles d'association Réalité virtuelle fouille visuelle de données Visualisation Exploration Interactive de Règles
14	Algorithmes automatiques pour la fouille visuelle de données et la visualisation de règles d’association : application aux données aéronautiques / Automatic algorithms for visual data mining and association rules visualization : application to aeronautical data Bothorel, Gwenael 18 November 2014 (has links) Depuis quelques années, nous assistons à une véritable explosion de la production de données dans de nombreux domaines, comme les réseaux sociaux ou le commerce en ligne. Ce phénomène récent est renforcé par la généralisation des périphériques connectés, dont l'utilisation est devenue aujourd'hui quasi-permanente. Le domaine aéronautique n'échappe pas à cette tendance. En effet, le besoin croissant de données, dicté par l'évolution des systèmes de gestion du trafic aérien et par les événements, donne lieu à une prise de conscience sur leur importance et sur une nouvelle manière de les appréhender, qu'il s'agisse de stockage, de mise à disposition et de valorisation. Les capacités d'hébergement ont été adaptées, et ne constituent pas une difficulté majeure. Celle-ci réside plutôt dans le traitement de l'information et dans l'extraction de connaissances. Dans le cadre du Visual Analytics, discipline émergente née des conséquences des attentats de 2001, cette extraction combine des approches algorithmiques et visuelles, afin de bénéficier simultanément de la flexibilité, de la créativité et de la connaissance humaine, et des capacités de calculs des systèmes informatiques. Ce travail de thèse a porté sur la réalisation de cette combinaison, en laissant à l'homme une position centrale et décisionnelle. D'une part, l'exploration visuelle des données, par l'utilisateur, pilote la génération des règles d'association, qui établissent des relations entre elles. D'autre part, ces règles sont exploitées en configurant automatiquement la visualisation des données concernées par celles-ci, afin de les mettre en valeur. Pour cela, ce processus bidirectionnel entre les données et les règles a été formalisé, puis illustré, à l'aide d'enregistrements de trafic aérien récent, sur la plate-forme Videam que nous avons développée. Celle-ci intègre, dans un environnement modulaire et évolutif, plusieurs briques IHM et algorithmiques, permettant l'exploration interactive des données et des règles d'association, tout en laissant à l'utilisateur la maîtrise globale du processus, notamment en paramétrant et en pilotant les algorithmes. / In the past few years, we have seen a large scale data production in many areas, such as social networks and e-business. This recent phenomenon is enhanced by the widespread use of devices, which are permanently connected. The aeronautical field is also involved in this trend. Indeed, its growing need for data, which is driven by air trafic management systems evolution and by events, leads to a widescale focus on its key role and on new ways to manage it. It deals with storage, availability and exploitation. Data hosting capacity, that has been adapted, is not a major challenge. The issue is now in data processing and knowledge extraction from it. Visual Analytics is an emerging field, stemming from the September 2001 events. It combines automatic and visual approaches, in order to benefit simultaneously from human flexibility, creativity and knowledge, and also from processing capacities of computers. This PhD thesis has focused on this combination, by giving to the operator a centered and decisionmaking role. On the one hand, the visual data exploration drives association rules extraction. They correspond to links between the data. On the other hand, these rules are exploited by automatically con_gurating the visualization of the concerned data, in order to highlight it. To achieve this, a bidirectional process has been formalized, between data and rules. It has been illustrated by air trafic recordings, thanks to the Videam platform, that we have developed. By integrating several HMI and algorithmic applications in a modular and upgradeable environment, it allows interactive exploration of both data and association rules. This is done by giving to human the mastering of the global process, especially by setting and driving algorithms. Visual Analytics Fouille de données Règles d'association Mesures de qualité Sémiologie graphique Visual Analytics Data Mining Association Rules Quality Measures Graphic Semiology
15	Improving student model for individualized learning / Apports à la modélisation de l'élève pour l'apprentissage individualisé Chen, Yang 29 September 2015 (has links) Les Environnements Informatiques pour l'Apprentissage Humain ont été utilisés pour améliorer l'apprentissage humain. Ils visent à accroître la performance des élèves en fournissant un enseignement individualisé. Il a été reconnu que l'apprentissage individualisé est plus efficace que l'apprentissage classique. L'utilisation de modèles d'étudiants pour capturer les connaissances des élèves sous-tend l'apprentissage individualisé. Différents modèles d'étudiants ont été proposés. Toutefois, une partie des informations de diagnostic issues du comportement des élèves est généralement ignorée par ces modèles. En outre, pour individualiser les parcours d'apprentissage des élèves, les modèles d'étudiants devraient capturer les structures préalables de compétences. Toutefois, l'acquisition de structures de compétences nécessite beaucoup d'efforts d'ingénierie de la connaissance. Nous améliorons les modèles d'étudiants pour l'apprentissage individualisé selon deux aspects. D'une part, afin d'améliorer la capacité de diagnostic d'un modèle de l'élève, nous introduisons les motifs d'erreur d'étudiants. Pour traiter le bruit dans les données de performance des élèves, nous étendons un modèle probabiliste en y intégrant les réponses erronées. Les résultats montrent que la fonction de diagnostic permet d'améliorer la précision de la prédiction des modèles d'étudiant. D'autre part, nous cherchons à découvrir des structures de compétences préalables à partir des données de performance de l'élève. C'est une tâche difficile, car les connaissances des élèves constituent une variable latente. Nous proposons une méthode en deux phases. Notre procédé est validé en l'appliquant à des données. / Computer-based educational environments, like Intelligent Tutoring Systems (ITSs), have been used to enhance human learning. These environments aim at increasing student achievement by providing individualized instructions. It has been recognized that individualized learning is more effective than the conventional learning. Student models which are used to capture student knowledge underlie the individualized learning. In recent decades, various competing student models have been proposed. However, some diagnostic information in student behaviors is usually ignored by these models. Furthermore, to individualize learning paths, student models should capture prerequisite structures of fine-grained skills. However, acquiring skill structures requires much knowledge engineering effort. We improve student models for individualized learning with respect to the two aspects. On one hand, in order to improve the diagnostic ability of a student model, we introduce the diagnostic feature—student error patterns. To deal with the noise in student performance data, we extend a sound probabilistic model to incorporate erroneous responses. The results show that the diagnostic feature improves the prediction accuracy of student models. On the other hand, we target on discovering prerequisite structures of skills from student performance data. It is a challenging task, since student knowledge of a skill is a latent variable. We propose a two-phase method to discover skill structure from noisy observations. Our method is validated on simulated data and real data. In addition, we verify that prerequisite structures of skills can improve the accuracy of a student model. Apprentissage individualisé Le modèle de l'élève Des modèles graphiques probabilistes La structure des compétences Prérequis La recherche des règles d'association Individualized learning Student models Prerequite 004
16	Association rules mining in massive datasets : an application to polypharmacy detection Berteloot, Théophile 09 June 2023 (has links) Titre de l'écran-titre (visionné le 30 mai 2023) / Ce travail s'inscrit dans un projet de plus grande envergure, concernant la détection de polypharmacie potentiellement inappropriée, c'est-à-dire les combinaisons de 5 médicaments ou plus pris par un individu dans un court laps de temps entrainant des effets de santé indésirables. L'objectif de ce travail est de trouver une méthode efficace et rapide pour extraire un nombre raisonnable de lois d'association de qualité. Ici nos lois d'association mettent en relation des combinaisons de médicaments et des états médicaux. Nous nous sommes intéressés aux mesures permettant de juger la qualité d'une loi d'association ainsi que leur pertinence dans le projet. Ensuite, nous avons mis au point plusieurs méthodes permettant de miner des lois d'association. La première est une métaheuristique basée sur la période géologique appelée l'explosion cambrienne. Les métaheuristiques sont des algorithmes d'optimisation utilisant des processus stochastiques pour faire converger une population (un ensemble de solutions) vers l'optimum d'une fonction. Nous avons ensuite envisagé l'utilisation de réseaux de neurones profonds, plus précisément des auto-encodeurs. Nous avons alors créé l'algorithme ARM-AE qui utilise les auto-encodeurs et obtient de bonnes performances et surpasse les méthodes classiques sur plusieurs mesures de performance. Finalement, nous avons appliqué ARM-AE sur le jeu de données massives en santés de l'INSPQ (Institut national de santé publique du Québec) et nous fournissons une analyse des lois trouvées d'un point de vue statistique et médical. / This work is part of a larger project regarding the detection of potentially inappropriate polypharmacy leading to negative health effects in Quebec seniors. Polypharmacy is most often defined as a combinations of five or more medications taken at the same time by an individual. The objective of this work is to find an efficient and fast method to find a reasonable number of quality association rules. An association rule is an implication of the form A ⇒ C, which can be read as ”If A then C”, with A and C two sets of items, here the items are drugs and medical outcomes. We are interested in measures that allow to judge the quality of an association rule, as well as their relevance in the project. Then we develop several methods to mine association rules. The first one is a metaheuristic based on the geological period called the Cambrian explosion. Metaheuristics are optimisation algorithms using stochastic processes to converge a population (a set of solutions) to the optimum of a function. We then consider using deep neural networks, more precisely auto-encoders. We create the ARM-AE algorithm which uses auto-encoders and presents good performances and has several advantages over classical methods. Finally we apply ARM-AE on the massive healthcare dataset of the INSPQ (Institutnational de santé publique du Québec), and we provide an analysis of the rules found from a statistical and a medical point of view. Interactions médicamenteuses. Métaheuristiques. Extraction de règles d'association. Réseaux de neurones convolutifs. Association des idées. Analyse de données textuelles.
17	Contribution à l'extraction des règles d'association basée sur des préférences / Contribution to the extraction of association rules based on preferences Bouker, Slim 30 June 2015 (has links) Résumé indisponible. / Résumé indisponible. Fouille de données Extraction des règles d'association Mesures de qualité Préférences des experts Relation de dominance Data mining Extraction of association rules Interestingness measures Experts preferences Dominance relationship
18	Etude comportementale des mesures d'intérêt d'extraction de connaissances Grissa, Dhouha 02 December 2013 (has links) (PDF) La recherche de règles d'association intéressantes est un domaine important et actif en fouille de données. Puisque les algorithmes utilisés en extraction de connaissances à partir de données (ECD), ont tendance à générer un nombre important de règles, il est difficile à l'utilisateur de sélectionner par lui même les connaissances réellement intéressantes. Pour répondre à ce problème, un post-filtrage automatique des règles s'avère essentiel pour réduire fortement leur nombre. D'où la proposition de nombreuses mesures d'intérêt dans la littérature, parmi lesquelles l'utilisateur est supposé choisir celle qui est la plus appropriée à ses objectifs. Comme l'intérêt dépend à la fois des préférences de l'utilisateur et des données, les mesures ont été répertoriées en deux catégories : les mesures subjectives (orientées utilisateur ) et les mesures objectives (orientées données). Nous nous focalisons sur l'étude des mesures objectives. Néanmoins, il existe une pléthore de mesures objectives dans la littérature, ce qui ne facilite pas le ou les choix de l'utilisateur. Ainsi, notre objectif est d'aider l'utilisateur, dans sa problématique de sélection de mesures objectives, par une approche par catégorisation. La thèse développe deux approches pour assister l'utilisateur dans sa problématique de choix de mesures objectives : (1) étude formelle suite à la définition d'un ensemble de propriétés de mesures qui conduisent à une bonne évaluation de celles-ci ; (2) étude expérimentale du comportement des différentes mesures d'intérêt à partir du point de vue d'analyse de données. Pour ce qui concerne la première approche, nous réalisons une étude théorique approfondie d'un grand nombre de mesures selon plusieurs propriétés formelles. Pour ce faire, nous proposons tout d'abord une formalisation de ces propriétés afin de lever toute ambiguïté sur celles-ci. Ensuite, nous étudions, pour différentes mesures d'intérêt objectives, la présence ou l'absence de propriétés caractéristiques appropriées. L'évaluation des mesures est alors un point de départ pour une catégorisation de celle-ci. Différentes méthodes de classification ont été appliquées : (i) méthodes sans recouvrement (CAH et k-moyennes) qui permettent l'obtention de groupes de mesures disjoints, (ii) méthode avec recouvrement (analyse factorielle booléenne) qui permet d'obtenir des groupes de mesures qui se chevauchent. Pour ce qui concerne la seconde approche, nous proposons une étude empirique du comportement d'une soixantaine de mesures sur des jeux de données de nature différente. Ainsi, nous proposons une méthodologie expérimentale, où nous cherchons à identifier les groupes de mesures qui possèdent, empiriquement, un comportement semblable. Nous effectuons par la suite une confrontation avec les deux résultats de classification, formel et empirique dans le but de valider et mettre en valeur notre première approche. Les deux approches sont complémentaires, dans l'optique d'aider l'utilisateur à effectuer le bon choix de la mesure d'intérêt adaptée à son application. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Mesures d'intérêt Propriétés formelles Règles d'association Classification non supervisée Analyse factorielle booléenne
19	Extraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données Raïssi, Chedy 15 July 2008 (has links) (PDF) Extraction de séquences fréquentes : des bases de données statiques aux flots de données Il est reconnu aujourd'hui que l'être humain est généralement noyé sous une profusion d'informations et que sa capacité d'analyse n'est plus capable de faire face au volume sans cesse croissant de données. C'est dans ce contexte qu'est né le processus d'Extraction de Connaissance dans les bases de Données. Un des buts de ce processus est de passer d'un grand volume d'informations à un petit ensemble de connaissances à fortes valeurs ajoutées pour l'analyste ou le décideur. De plus, le processus d'ECD n'est pas un processus monolithique et univoque au cours duquel il s'agirait d'appliquer un principe général à tous les types de données stockées ou récupérées. Ainsi, une des étapes de ce processus qu'est la fouille de données peut se dériver sous plusieurs formes tels que : le clustering, la classification, l'extraction d'itemset et de règles d'associations, l'extraction de structures plus complexes tels que les épisodes, les graphes ou comme dans le cadre de cette thèse l'extraction de motifs séquentiels. Malheureusement, dans un monde sans cesse en évolution, le contexte dans lequel les travaux d'ECD ont été définis ces dernières années considérait que les données, sur lesquelles la fouille était réalisée, étaient disponibles dans des bases de données statiques. Aujourd'hui, suite au développement de nouvelles technologies et applications associées, nous devons faire face à de nouveaux modèles dans lesquels les données sont disponibles sous la forme de flots. Une question se pose alors : quid des approches d'extraction de connaissances traditionnelles ? Dans ce mémoire, nous présentons un ensemble de résultat sur les motifs séquentiels dans les bases de données d'un point de vue des représentations condensées et des méthodes d'échantillonnage puis nous étendons nos différentes approches afin de prendre en compte le nouveau modèle des flots de données. Nous présentons des algorithmes permettant ainsi l'extraction de motifs séquentiels (classiques et multidimensionnels) sur les flots. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions. [INFO] Computer Science [INFO] Informatique Extraction de connaissances fouille de données motifs séquentiels séquences fréquentes base de données de séquences représentations condensées flots de données échantillonnage règles d'association
20	Recherche de motifs graduels et application aux données médicales Lisa, Di Jorio 05 October 2010 (has links) (PDF) Avec le développement des nouvelles technologies d'analyse (comme par exemple les puces à ADN) et de gestion de l'information (augmentation des capacités de stockage), le domaine de la santé a particulièrement évolué ces dernières années. En effet, des techniques de plus en plus avancées et efficaces sont mises à disposition des chercheurs, et permettent une étude approfondie des paramètres génomiques intervenant dans des problèmes de santé divers (cancer, maladie d'Alzheimer ...) ainsi que la mise en relation avec les paramètres cliniques. Parallèlement, l'évolution des capacités de stockage permet désormais d'accumuler la masse d'information générée par les diverses expériences menées. Ainsi, les avancées en terme de médecine et de prévention passent par l'analyse complète et pertinente de cette quantité de données. Le travail de cette thèse s'inscrit dans ce contexte médical. Nous nous sommes particulièrement intéressé à l'extraction automatique de motifs graduels, qui mettent en évidence des corrélations de variation entre attributs de la forme "plus un patient est âgé, moins ses souvenirs sont précis". Nous décrivons divers types de motifs graduels tels que les itemsets graduels, les itemset multidimensionnels graduels ou encore les motifs séquentiels graduels, ainsi que les sémantiques associées à ces motifs. Chacune de nos approches est testée sur un jeu de données synthétique et/ou réel. Extraction de connaissances fouille de données règles d'association gradualité motifs graduels itemsets graduels motifs séquentiels bases médicales

Search results