Spelling suggestions: "subject:"fouille dde données"" "subject:"fouille dee données""
21 |
A structural study of lattices, d-lattices and some applications in data analysis / Une étude structurelle des treillis, d-treillis, et quelques applications en analyse de donnéesKahn, Giacomo 12 December 2018 (has links)
Nous nous intéressons à un cadre théorique de l'analyse de données : l'analyse formelle de concepts. Le formalisme de l'analyse formelle de concepts permet d'exprimer les notions centrales de la fouille de données telles que les implications ou les ensembles fermés, avec au centre la notion de treillis qui décrit la structure et les relations que ces objets ont entre eux. Pour les données multidimensionnelles, une proposition de formalisme existe en tant que généralisation de l'analyse formelle de concepts : l'analyse polyadique de concepts. Dans cette thèse, nous étudions certains problèmes de combinatoire et d'algorithmique dans le cas de l'analyse polyadique de concepts. Nous approchons aussi un cadre plus appliqué à l'analyse de données en proposant des approches de navigation conceptuelle et de classification. / We are interested in formal concept analysis, a theoretical framework for data analysis.This formalism allows to express some central notions of data mining such as implications or closed itemsets, and is centered around lattices, as the description of the relational structure that those objects can have.For multidimensional data, a formalism exists as a generalisation of formal concept analysis : polyadic concept analysis.In this document, we study some combinatorial and algorithmic problems that arose in polyadic concept analysis.We also introduce more applied data analysis techniques of conceptual navigation and classification.
|
22 |
Fouille de données à partir de séries temporelles d’images satellites / Data mining from satellite image time seriesKhiali, Lynda 28 November 2018 (has links)
Les images satellites représentent de nos jours une source d’information incontournable. Elles sont exploitées dans diverses applications, telles que : la gestion des risques, l’aménagent des territoires, la cartographie du sol ainsi qu’une multitude d’autre taches. Nous exploitons dans cette thèse les Séries Temporelles d’Images Satellites (STIS) pour le suivi des évolutions des habitats naturels et semi-naturels. L’objectif est d’identifier, organiser et mettre en évidence des patrons d’évolution caractéristiques de ces zones.Nous proposons des méthodes d’analyse de STIS orientée objets, en opposition aux approches par pixel, qui exploitent des images satellites segmentées. Nous identifions d’abord les profils d’évolution des objets de la série. Ensuite, nous analysons ces profils en utilisant des méthodes d’apprentissage automatique. Afin d’identifier les profils d’évolution, nous explorons les objets de la série pour déterminer un sous-ensemble d’objets d’intérêt (entités spatio-temporelles/objets de référence). L’évolution de ces entités spatio-temporelles est ensuite illustrée en utilisant des graphes d’évolution.Afin d’analyser les graphes d’évolution, nous avons proposé trois contributions. La première contribution explore des STIS annuelles. Elle permet d’analyser les graphes d’évolution en utilisant des algorithmes de clustering, afin de regrouper les entités spatio-temporelles évoluant similairement. Dans la deuxième contribution, nous proposons une méthode d’analyse pluri-annuelle et multi-site. Nous explorons plusieurs sites d’étude qui sont décrits par des STIS pluri-annuelles. Nous utilisons des algorithmes de clustering afin d’identifier des similarités intra et inter-site. Dans la troisième contribution, nous introduisons une méthode d’analyse semi-supervisée basée sur du clustering par contraintes. Nous proposons une méthode de sélection de contraintes. Ces contraintes sont utilisées pour guider le processus de clustering et adapter le partitionnement aux besoins de l’utilisateur.Nous avons évalué nos travaux sur différents sites d’étude. Les résultats obtenus ont permis d’identifier des profils d’évolution types sur chaque site d’étude. En outre, nous avons aussi identifié des évolutions caractéristiques communes à plusieurs sites. Par ailleurs, la sélection de contraintes pour l’apprentissage semi-supervisé a permis d’identifier des entités profitables à l’algorithme de clustering. Ainsi, les partitionnements obtenus en utilisant l’apprentissage non supervisé ont été améliorés et adaptés aux besoins de l’utilisateur. / Nowadays, remotely sensed images constitute a rich source of information that can be leveraged to support several applications including risk prevention, land use planning, land cover classification and many other several tasks. In this thesis, Satellite Image Time Series (SITS) are analysed to depict the dynamic of natural and semi-natural habitats. The objective is to identify, organize and highlight the evolution patterns of these areas.We introduce an object-oriented method to analyse SITS that consider segmented satellites images. Firstly, we identify the evolution profiles of the objects in the time series. Then, we analyse these profiles using machine learning methods. To identify the evolution profiles, we explore all the objects to select a subset of objects (spatio-temporal entities/reference objects) to be tracked. The evolution of the selected spatio-temporal entities is described using evolution graphs.To analyse these evolution graphs, we introduced three contributions. The first contribution explores annual SITS. It analyses the evolution graphs using clustering algorithms, to identify similar evolutions among the spatio-temporal entities. In the second contribution, we perform a multi-annual cross-site analysis. We consider several study areas described by multi-annual SITS. We use the clustering algorithms to identify intra and inter-site similarities. In the third contribution, we introduce à semi-supervised method based on constrained clustering. We propose a method to select the constraints that will be used to guide the clustering and adapt the results to the user needs.Our contributions were evaluated on several study areas. The experimental results allow to pinpoint relevant landscape evolutions in each study sites. We also identify the common evolutions among the different sites. In addition, the constraint selection method proposed in the constrained clustering allows to identify relevant entities. Thus, the results obtained using the unsupervised learning were improved and adapted to meet the user needs.
|
23 |
Modélisation et structuration des connaissances dans les processus de télémédecine dédiés aéronautique / Knowledge Modeling in Telemedicine Processes for In-flight Medical Incident ManagementSene, Alsane 17 December 2018 (has links)
Tout professionnel de la santé est sujet devant un patient à une incertitude inhérente à la pratique médicale. Dans le cas d'incident médical lors d'un trajet aérien, cette incertitude comporte trois sources additionnelles : (1) variabilité des conditions aéronautiques, (2) variabilité individuelle des conditions du patient, (3) variabilité individuelle des compétences de l'intervenant. Aujourd'hui les incidents médicaux dans l'avion sont estimés à 350 par jour dans le monde et lorsqu'ils surviennent, ils sont pris en charge dans 95% des cas par des professionnels de la santé passagers qui se portent volontaires. C'est souvent pour eux une première expérience. La principale raison de la réticence des professionnels de la santé à répondre à l'appel du commandant est la nécessité d'improviser; ayant à établir un diagnostic et évaluer la gravité de l'état du patient dans des conditions difficiles. A part l'assistance à distance par télémédecine l'intervenant, souvent seul face à ses doutes et son incertitude, ne dispose d'aucune autre aide à bord. Par ailleurs l'aviation civile dispose de systèmes de retour d'expérience (RETEX) pour gérer la complexité de tels processus. Des politiques de recueil et d'analyse des événements sont mises en place à l'échelle internationale, par exemple ECCAIRS (European Co-ordination Centre for Accident and Incident Reporting Systems) et ASRS (Aviation Safety Reporting System).Dans ce travail de thèse, nous proposons tout d'abord une formalisation sémantique basée sur les ontologies pour préciser conceptuellement le vocabulaire des incidents médicaux se produisant durant les vols commerciaux. Ensuite, nous mettons en œuvre un processus d'extraction des connaissances à partir des données (bases existantes) pour identifier les structures caractéristiques (patterns) des différents groupes d'incidents majeurs. Enfin, nous proposons une architecture de Système d'Aide à la Décision Médicale (SADM) qui intègre la gestion des incertitudes présentes tant sur les données récoltées que les niveaux de compétences des professionnels médicaux intervenants. / There is an inherent risk in the practice of medicine that can affect the conditions of medical activities (diagnostic or therapeutic purposes). The management of uncertainty is also an integral part of decision-making processes in the medical field. In the case of a medical incident during an air travel, this uncertainty includes three additional sources: (1) variability of the aeronautical conditions, (2) individual variability of the patient's conditions, (3) individual variability of the intervener's skills. Presently, medical incidents in the plane are estimated worldwide at 350 per day and when they occur, they are handled in 95 \% of cases by health professionals who are passengers. It is often for them a first experience. The main reason for the reluctance of health professionals to respond to the aircraft captain's call is the need to improvise; having to make a diagnosis and assess the severity of the patient's condition under difficult conditions. Apart from telemedicine with remote assistance, the intervener, often alone in the face of his doubts and uncertainty, has no other decision aid tool on board. Civil aviation also has feedback systems to manage the complexity of such processes. Event collection and analysis policies are put in place internationally, for example ECCAIRS (European Co-ordination Center for Accident and Incident Reporting Systems) and ASRS (Aviation Safety Reporting System). In this work, we first propose a semantic formalization based on ontologies to clarify conceptually the vocabulary of medical incidents occurring during commercial flights. Then, we implement a knowledge extraction process from the data available on existing databases to identify the patterns of the different groups of incidents. Finally, we propose a Clinical Decision Support System (CDSS) architecture that integrates the management of the uncertainties present on both the collected data and the skill levels of the medical professionals involved.
|
24 |
Recherche de motifs graduels et application aux données médicales / Gradual patterns extraction and application to health dataDi Jorio, Lisa 05 October 2010 (has links)
Avec le développement des nouvelles technologies d'analyse (comme par exemple les puces à ADN) et de gestion de l'information (augmentation des capacités de stockage), le domaine de la santé a particulièrement évolué ces dernières années. En effet, des techniques de plus en plus avancées et efficaces sont mises à disposition des chercheurs, et permettent une étude approfondie des paramètres génomiques intervenant dans des problèmes de santé divers (cancer, d'Alzheimer ...) ainsi que la mise en relation avec les paramètres cliniques. Parallèlement, l'évolution des capacités de stockage permet désormais d'accumuler la masse d'information générée par les diverses expériences menées. Ainsi, les avancées en terme de médecine et de prévention passent par l'analyse complète et pertinente de cette quantité de données. Le travail de cette thèse s'inscrit dans ce contexte médical. Nous nous sommes particulièrement intéressé à l'extraction automatique de motifs graduels, qui mettent en évidence des corrélations de variation entre attributs de la forme "plus un patient est âgé, moins ses souvenirs sont précis". Nous décrivons divers types de motifs graduels tels que les itemsets graduels, les itemset multidimensionnels graduels ou encore les motifs séquentiels graduels, ainsi que les sémantiques associées à ces motifs. Chacune de nos approches est testée sur un jeu de données synthétique et/ou réel. / With the raise of new biological technologies, as for example DNA chips, and IT technologies (e.g. storage capacities), health care domain has evolved through the last years. Indeed, new high technologies allow for the analysis of thousands of genomic parameters related to various deseases (as cancer, Alzheimer), and how to link them to clinical parameters. In parallel, storage evolutions enable nowadays researchers to gather a huge amount of data generated by biological experiments. This Ph.D thesis is strongly related to medical data mining. We tackle the problem of extracting gradual patterns of the form « the older a patient, the less his memories are accurate ». To handle different types of information, we propose to extract gradualness for an extensive range of patterns: gradual itemsets, gradual multidimensionnal itemsets, gradual sequencial patterns. Every contribution is experimented on a synthetic or real datasets.
|
25 |
Analyse et extraction de connaissances des bases de données spatio-temporellesZeitouni, Karine 01 December 2006 (has links) (PDF)
Ces dernières années ont vu une croissance phénoménale dans la production et la diffusion des données spatiales de sources aussi variées qu'hétérogènes. Cela a généré des besoins d'intégration dans des entrepôts de données et des perspectives d'analyse exploratoire et de fouille de données spatiales et spatiotemporelles. Nos travaux se placent dans ce contexte visant l'analyse et l'extraction des connaissances depuis les bases de données spatiotemporelles. Ils traitent différents aspects allant de la modélisation avancée des données spatiales, à la fouille de ces données en passant par leur intégration dans un entrepôt, l'optimisation des requêtes et l'analyse en ligne. Ainsi, nous décrivons nos approches pour la modélisation 3D, puis pour la modélisation spatiotemporelle d'objets mobiles. Ensuite, l'intégration de données spatiales est traitées selon deux aspects : l'intégration de formats et l'intégration de données par l'appariement géométrique. Une architecture d'entrepôt de données spatiales basée sur les standards XML et GML est proposée, puis dotée d'une technique d'optimisation de requêtes spatiales basée sur un cache sémantique. L'exploration des données spatiotemporelles a donné lieu à des solutions originales extension de l'OLAP. Enfin, différentes approches sont proposées pour la fouille de données spatiales. Nous avons ouvert le spectre de nos recherches à la fouille d'autres données complexes, telles que les données séquentielles et textuelles. Ces travaux ainsi que les développements futurs sont exposés dans ce mémoire.
|
26 |
Extraction de Connaissances à partir de Données Numériques et TextuellesAzé, Jérôme 16 December 2003 (has links) (PDF)
Le travail réalisé dans le cadre de cette thèse concerne l'extraction de connaissances dans des données transactionnelles.<br />L'analyse de telles données est souvent contrainte par la définition d'un support minimal utilisé pour filtrer les connaissances non intéressantes.<br />Les experts des données ont souvent des difficultés pour déterminer ce support.<br />Nous avons proposé une méthode permettant de ne pas fixer un support minimal et fondée sur l'utilisation de mesures de qualité.<br />Nous nous sommes focalisés sur l'extraction de connaissances de la forme "règles d'association".<br />Ces règles doivent vérifier un ou plusieurs critères de qualité pour être considérées comme intéressantes et proposées à l'expert.<br />Nous avons proposé deux mesures de qualité combinant différents critères et permettant d'extraire des règles intéressantes.<br /><br />Nous avons ainsi pu proposer un algorithme permettant d'extraire ces règles sans utiliser la contrainte du support minimal.<br />Le comportement de notre algorithme a été étudié en présence de données bruitées et nous avons pu mettre en évidence la difficulté d'extraire automatiquement des connaissances fiables à partir de données bruitées.<br />Une des solutions que nous avons proposée consiste à évaluer la résistance au bruit de chaque règle et d'en informer l'expert lors de l'analyse et de la validation des connaissances obtenues.<br /><br />Enfin, une étude sur des données réelles a été effectuée dans le cadre d'un processus de fouille de textes.<br />Les connaissances recherchées dans ces textes sont des règles d'association entre des concepts définis par l'expert et propres au domaine étudié.<br />Nous avons proposé un outil permettant d'extraire les connaissances et d'assister l'expert lors de la validation de celles-ci.<br />Les différents résultats obtenus montrent qu'il est possible d'obtenir des connaissances intéressantes à partir de données textuelles en minimisant la sollicitation de l'expert dans la phase d'extraction des règles d'association.
|
27 |
Extraction et impact des connaissances sur les performances des systèmes de recherche d'informationHaddad, Mohamed Hatem 24 September 2002 (has links) (PDF)
Dans un contexte riche d'information, un système de recherche d'information doit être capable de trouver les meilleurs résultats possibles dans un océan d'information. Notre étude s'intéresse aux connaissances qui peuvent être extraites du contenu textuel des documents en associant la finesse d'analyse d'une approche linguistique (extraction et structuration) à la capacité d'une approche statistique de traiter de gros corpus. L'approche statistique se base sur la fouille de données textuelles et principalement la technique de règles d'association. L'approche linguistique se base sur les syntagmes nominaux que nous considérons comme des entités textuelles plus susceptibles de représenter l'information contenue dans le texte que les termes simples. Elle explicite les contraintes linguistiques nécessaires à l'extraction des syntagmes nominaux et défini les rapports syntagmatiques entre les composantes d'un syntagme nominal. Ces relations syntagmatiques sont exploitées pour la structuration des syntagmes nominaux. Une mesure, appelée ``quantité d'information'', est proposée pour évaluer le pouvoir évocateur de chaque syntagme nominal, filtrer et comparer les syntagmes nominaux. Le modèle proposé démontre que la combinaison d'une approche statistique et d'une approche linguistique affine les connaissances extraites et améliore les performances d'un système de recherche d'information.
|
28 |
Extension et interrogation de résumés de flux de donnéesGabsi, Nesrine 31 May 2011 (has links) (PDF)
Au cours de ces dernières années, un nouvel environnement s'est développé dans lequel les données doivent être collectées et traitées instantanément dès leur arrivée. La gestion de cette volumétrie nécessite la mise en place d'un nouveau modèle et de nouvelles techniques de traitements de l'information. Il s'agit du traitement des flux de données. Ces derniers ont la particularité d'être continus, évolutifs, volumineux et ne peuvent être stockés, dans leur intégralité, en tant que données persistantes. Plusieurs travaux de recherche se sont intéressés à cette problématique ce qui a engendré l'apparition des systèmes de gestion de flux de données (SGFD). Ces systèmes permettent d'exprimer des requêtes continues qui s'évaluent au fur et à mesure sur un flux ou sur des fenêtres (sous ensembles finis du flux). Toutefois, dans certaines applications, de nouveaux besoins peuvent apparaître après le passage des données. Dans ce cas, le système ne peut répondre aux requêtes posées car toutes les données n'appelant aucun traitement sont définitivement perdues. Il est ainsi nécessaire de conserver un résumé du flux de données. De nombreux algorithmes de résumé ont été développés. Le choix d'une méthode de résumé particulière dépend de la nature des données à traiter et de la problématique à résoudre. Dans ce manuscrit, nous nous intéressons en premier lieu à l'élaboration d'un résumé généraliste permettant de créer un compromis entre la vitesse de construction du résumé et la qualité du résumé conservé. Nous présentons une nouvelle approche de résumé qui se veut performance face à des requêtes portant sur des données du passé lointain. Nous nous focalisons par la suite sur l'exploitation et l'accès aux évènements du flux conservés dans ces résumés. Notre objectif consiste à intégrer les structures de résumés généralistes dans l'architecture des SGFD existantes de façon à étendre le champ de requêtes possibles. A cet effet, l'évaluation des requêtes qui font appel aux données du passé lointain d'un flux (i.e. données expirées de la mémoire du SGFD) serait possible au même titre que les requêtes posées sur le passé proche d'un flux de données. Nous présentons deux approches permettant d'atteindre cet objectif. Ces approches se différencient par le rôle que détient le module de résumé lors de l'évaluation d'une requêtes.
|
29 |
Time Sequence Summarization: Theory and ApplicationsPham, Quang-Khai 09 July 2010 (has links) (PDF)
Les domaines de la médecine, du web, du commerce ou de la nance génèrent et stockent de grandes masses d'information sous la forme de séquences d'événements. Ces archives représentent des sources d'information très riches pour des analystes avides d'y découvrir des perles de connaissance. Par exemple, les biologistes cherchent à découvrir les facteurs de risque d'une maladie en analysant l'historique des patients, les producteurs de contenu web et les bureaux de marketing examinent les habitudes de consommation des clients et les opérateurs boursiers suivent les évolutions du marché pour mieux l'anticiper. Cependant, ces applications requièrent l'exploration de séquences d'événements très volumineuses, par exemple, la nance génère quotidiennement des millions d'événements, où les événements peuvent être décrits par des termes extraits de riches contenus textuels. La variabilité des descripteurs peut alors être très grande. De ce fait, découvrir des connaissances non triviales à l'aide d'approches classiques de fouille de données dans ces sources d'information prolixes est un problème dicile. Une étude récente montre que les approches classiques de fouille de données peuvent tirer prot de formes condensées de ces données, telles que des résultats d'agrégation ou encore des résumés. La connaissance ainsi extraite est qualiée de connaissance d'ordre supérieur. À partir de ce constat, nous présentons dans ces travaux le concept de résumé de séquence d'événements dont le but est d'amener les applications dépendantes du temps à gagner un facteur d'échelle sur de grandes masses de données. Un résumé s'obtient en transformant une séquence d'événements où les événements sont ordonnés chronologiquement. Chaque événement est précisément décrit par un ensemble ni de descripteurs symboliques. Le résumé produit est alors une séquence d'événements, plus concise que la séquence initiale, et pouvant s'y substituer dans les applications. Nous proposons une première méthode de construction guidée par l'utilisateur, appelée TSaR. Il s'agit d'un processus en trois phases : i) une généralisation, ii) un regroupement et iii) une formation de concepts. TSaR utilise des connaissances de domaine exprimées sous forme de taxonomies pour généraliser les descripteurs d'événements. Une fenêtre temporelle est donnée pour contrôler le processus de regroupement selon la proximité temporelle des événements. Dans un second temps, pour rendre le processus de résumé autonome, c'est- à-dire sans paramétrage, nous proposons une redénition du problème de résumé en un nouveau problème de classication. L'originalité de ce problème de classication tient au fait que la fonction objective à optimiser dépend simultanément du contenu des événements et de leur proximité dans le temps. Nous proposons deux algorithmes gloutons appelés G-BUSS et GRASS pour répondre à ce problème. Enn, nous explorons et analysons l'aptitude des résumés de séquences d'événements à contribuer à l'extraction de motifs séquentiels d'ordre supérieur. Nous analysons les caractéristiques des motifs fréquents extraits des résumés et proposons une méthodologie qui s'appuie sur ces motifs pour en découvrir d'autres, à granularité plus ne. Nous évaluons et validons nos approches de résumé et notre méthodologie par un ensemble d'expériences sur un jeu de données réelles extraites des archives d'actualités nancières produites par Reuters.
|
30 |
Étude d'algorithmes d'apprentissage artificiel pour la prédiction de la syncope chez l'hommeFeuilloy, Mathieu 08 July 2009 (has links) (PDF)
La syncope, dont l'origine peut ne pas être clairement définie, est considérée comme une pathologie fréquente. Dans ce cas et lorsque les épisodes sont répétés, le patient peut être amené à réaliser le test de la table d'inclinaison. Cet examen appelé tilt-test, est une méthode reconnue pour recréer les conditions dans lesquelles le patient ressent les symptômes de la syncope. Cependant, le principal problème de ce test est sa durée, qui peut atteindre une heure. Dès lors, pour des raisons de coût et de bien-être des patients, il paraît important de pouvoir réduire sa durée. C'est dans cet objectif que s'inscrivent les travaux réalisés dans le cadre de cette thèse, qui tentent de prédire l'apparition des symptômes liés à la syncope, et ce, le plus tôt possible. Durant nos recherches, deux axes sont ressortis naturellement : la fouille de données et le dé- veloppement de modèles capables de prédire le résultat du tilt-test. Ces deux axes partagent des méthodes issues de l'apprentissage articiel, qui permettent d'acquérir et d'extraire des connaissances à partir d'un ensemble d'observations signicatif. La littérature propose tout un ensemble de méthodes, qui nous ont permis de mettre en évidence certaines caractéristiques pertinentes, de manière à construire des modèles parcimonieux et robustes. Ces derniers ont permis d'obtenir des résultats intéressants pour la prédiction du résultat du tilt-test au terme notamment, des dix premières minutes de l'examen. Ces performances ont pu être considérablement améliorées par le développement de nouvelles techniques de fouille de données, permettant d'extraire très e- cacement de la connaissance. Les méthodes mises en place s'articulent autour de la sélection de variables et de l'interprétation de projections non linéaires. Ces méthodes, bien que développées autour de notre thématique, se sont montrées reproductibles lors de tests sur d'autres ensembles de données.
|
Page generated in 0.0736 seconds