Global ETD Search

71	Extraction de relations spatio-temporelles à partir des données environnementales et de la santé Alatrista-Salas, Hugo 04 October 2013 (has links) (PDF) Face à l'explosion des nouvelles technologies (mobiles, capteurs, etc.), de grandes quantités de données localisées dans l'espace et dans le temps sont désormais disponibles. Les bases de données associées peuvent être qualifiées de bases de données spatio-temporelles car chaque donnée est décrite par une information spatiale (e.g. une ville, un quartier, une rivière, etc.) et temporelle (p. ex. la date d'un événement). Cette masse de données souvent hétérogènes et complexes génère ainsi de nouveaux besoins auxquels les méthodes d'extraction de connaissances doivent pouvoir répondre (e.g. suivre des phénomènes dans le temps et l'espace). De nombreux phénomènes avec des dynamiques complexes sont ainsi associés à des données spatio-temporelles. Par exemple, la dynamique d'une maladie infectieuse peut être décrite par les interactions entre les humains et le vecteur de transmission associé ainsi que par certains mécanismes spatio-temporels qui participent à son évolution. La modification de l'un des composants de ce système peut déclencher des variations dans les interactions entre les composants et finalement, faire évoluer le comportement global du système.Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d'exploiter au mieux l'ensemble des données disponibles. Tel est l'objectif de la fouille de données spatio-temporelles qui correspond à l'ensemble de techniques et méthodes qui permettent d'obtenir des connaissances utiles à partir de gros volumes de données spatio-temporelles. Cette thèse s'inscrit dans le cadre général de la fouille de données spatio-temporelles et l'extraction de motifs séquentiels. Plus précisément, deux méthodes génériques d'extraction de motifs sont proposées. La première permet d'extraire des motifs séquentiels incluant des caractéristiques spatiales. Dans la deuxième, nous proposons un nouveau type de motifs appelé "motifs spatio-séquentiels". Ce type de motifs permet d'étudier l'évolution d'un ensemble d'événements décrivant une zone et son entourage proche. Ces deux approches ont été testées sur deux jeux de données associées à des phénomènes spatio-temporels : la pollution des rivières en France et le suivi épidémiologique de la dengue en Nouvelle Calédonie. Par ailleurs, deux mesures de qualité ainsi qu'un prototype de visualisation de motifs sont été également proposés pour accompagner les experts dans la sélection des motifs d'intérêts. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Fouille de données spatio-temporelles Information Géographique Recherche de corrélations Exploration de données Système de détection épidémiologique
72	Autour et alentours des motifs séquentiels Teisseire, Maguelonne 05 December 2007 (has links) (PDF) Parmi les techniques utilisées en fouille de données, la recherche de motifs séquentiels permet d'extraire des connaissances sur le comportement des données. Les principaux travaux de recherche autour des motifs s'intéressent à la définition d'algorithmes efficaces pour « passer à l'échelle » et manipuler un espace de recherche volumineux. Même si ces dernières années nous nous sommes également intéressés au facteur temps pour l'extraction de motifs, les travaux présentés dans ce mémoire se focalisent plus particulièrement sur de nouvelles extensions proposées aux motifs afin d'offrir des connaissances correspondant aux attentes du décideur. Tout d'abord nous proposons une représentation des données « classiques » (i.e. booléennes) en développant les définitions de motifs séquentiels que nous avons choisis comme format de description des comportements extraits. Nous répondons ensuite, au travers de l'approche ISE, à la question suivante : comment utiliser une connaissance extraite au préalable pour optimiser la phase d'extraction lorsque de nouvelles données arrivent ? Nous proposons également une représentation moins stricte des comportements et définissons les méthodes d'extraction associées (approche approximative) : SpeedyFuzzy, MiniFuzzy et TotallyFuzzy. Via une composante floue, nous montrons que de nouveaux motifs plus informatifs peuvent être extraits. Nous poursuivons l'utilisation de l'approche approximative pour prendre en compte des contraintes temporelles dans des motifs : GETC. Cette approche complète nos précédents travaux consistant à intégrer très tôt les contraintes dans le processus d'extraction et ainsi optimiser leur prise en compte : GTC.<br />Lorsque les données manipulées deviennent plus complexes, nous montrons que les motifs s'avèrent être également une représentation adaptée. Nous nous attachons à décrire certaines de nos propositions sur deux types de données complexes : (1) pour les documents textuels, nous proposons une approche de classification supervisée SPAC et (2) pour les données multidimensionnelles, nous présentons deux nouvelles techniques permettant de prendre en compte différentes dimensions d'analyse, M2SP, et la hiérarchie disponible sur les dimensions : HYPE. Bases de données Extraction de connaissances Fouille de données Motifs séquentiels
73	Identification du profil des utilisateurs d'un hypermédia encyclopédique à l'aide de classifieurs basés sur des dissimilarités : création d'un composant d'un système expert pour Hypergéo Abou Latif, Firas 08 July 2011 (has links) (PDF) L'objectif de cette thèse est d'identifier le profil d'utilisateur d'un hypermédia afin de l'adapter. Ceprofil est déterminé en utilisant des algorithmes d'apprentissage supervisé comme le SVM.Le modèle d'utilisateur est l'un des composants essentiels des hypermédias adaptatifs. Une des façons de caractériser ce modèle est d'associer l'utilisateur à un profil. Le Web Usage Mining (WUM)identifie ce profil à l'aide des traces de navigation. Toutefois, ces techniques ne fonctionnent généralement que sur de gros volumes de données. Dans le cadre de volumes de données réduits, nous proposons d'utiliser la structure et le contenu de l'hypermédia. Pour cela, nous avons utilisé des algorithmes d'apprentissage à noyau pour lesquels nous avons défini l'élément clé qu'est la mesure de similarité entre traces basée sur une " distance " entre documents du site. Notre approche a été validée à l'aide de données synthétiques puis à l'aide de données issues des traces des utilisateurs du site Hypergéo (site webencyclopédique spécialisé dans la géographie). Nos résultats ont été comparés à ceux obtenus à l'aide d'une des techniques du WUM (l'algorithme des motifs caractéristiques). Finalement, nos propositions pour identifier les profils a posteriori ont permis de mettre en évidence cinq profils. En appliquant une" distance sémantique " entre documents, les utilisateurs d'Hypergéo ont été classés correctement selon leurs centres d'intérêt. [INFO] Computer Science [INFO] Informatique Fouille de données d'usage du Web Algorithmes de projection Distance et dissimilarité Hypermédia adaptatif
74	Optimization-based User Group Management : Discovery, Analysis, Recommendation / Optimization-based User Group Management : Discovery, Analysis, Recommendation Omidvar Tehrani, Behrooz 06 November 2015 (has links) Les donn ́ees utilisateurs sont devenue de plus en plus disponibles dans plusieurs do- maines tels que les traces d'usage des smartphones et le Web social. Les donn ́ees util- isateurs, sont un type particulier de donn ́ees qui sont d ́ecrites par des informations socio-d ́emographiques (ex., ˆage, sexe, m ́etier, etc.) et leurs activit ́es (ex., donner un avis sur un restaurant, voter, critiquer un film, etc.). L'analyse des donn ́ees utilisa- teurs int ́eresse beaucoup les scientifiques qui travaillent sur les ́etudes de la population, le marketing en-ligne, les recommandations et l'analyse des donn ́ees `a grande ́echelle. Cependant, les outils d'analyse des donn ́ees utilisateurs sont encore tr`es limit ́es.Dans cette th`ese, nous exploitons cette opportunit ́e et proposons d'analyser les donn ́ees utilisateurs en formant des groupes d'utilisateurs. Cela diff`ere de l'analyse des util- isateurs individuels et aussi des analyses statistiques sur une population enti`ere. Un groupe utilisateur est d ́efini par un ensemble des utilisateurs dont les membres parta- gent des donn ́ees socio-d ́emographiques et ont des activit ́es en commun. L'analyse au niveau d'un groupe a pour objectif de mieux g ́erer les donn ́ees creuses et le bruit dans les donn ́ees. Dans cette th`ese, nous proposons un cadre de gestion de groupes d'utilisateurs qui contient les composantes suivantes: d ́ecouverte de groupes, analyse de groupes, et recommandation aux groupes.La premi`ere composante concerne la d ́ecouverte des groupes d'utilisateurs, c.- `a-d., compte tenu des donn ́ees utilisateurs brutes, obtenir les groupes d'utilisateurs en op- timisantuneouplusieursdimensionsdequalit ́e. Ledeuxi`emecomposant(c.-`a-d., l'analyse) est n ́ecessaire pour aborder le probl`eme de la surcharge de l'information: le r ́esultat d'une ́etape d ́ecouverte des groupes d'utilisateurs peut contenir des millions de groupes. C'est une tache fastidieuse pour un analyste `a ́ecumer tous les groupes trouv ́es. Nous proposons une approche interactive pour faciliter cette analyse. La question finale est comment utiliser les groupes trouv ́es. Dans cette th`ese, nous ́etudions une applica- tion particuli`ere qui est la recommandation aux groupes d'utilisateurs, en consid ́erant les affinit ́es entre les membres du groupe et son ́evolution dans le temps.Toutes nos contributions sont ́evalu ́ees au travers d'un grand nombre d'exp ́erimentations `a la fois pour tester la qualit ́e et la performance (le temps de r ́eponse). / User data is becoming increasingly available in multiple domains ranging from phone usage traces to data on the social Web. User data is a special type of data that is described by user demographics (e.g., age, gender, occupation, etc.) and user activities (e.g., rating, voting, watching a movie, etc.) The analysis of user data is appealing to scientists who work on population studies, online marketing, recommendations, and large-scale data analytics. However, analysis tools for user data is still lacking.In this thesis, we believe there exists a unique opportunity to analyze user data in the form of user groups. This is in contrast with individual user analysis and also statistical analysis on the whole population. A group is defined as set of users whose members have either common demographics or common activities. Group-level analysis reduces the amount of sparsity and noise in data and leads to new insights. In this thesis, we propose a user group management framework consisting of following components: user group discovery, analysis and recommendation.The very first step in our framework is group discovery, i.e., given raw user data, obtain user groups by optimizing one or more quality dimensions. The second component (i.e., analysis) is necessary to tackle the problem of information overload: the output of a user group discovery step often contains millions of user groups. It is a tedious task for an analyst to skim over all produced groups. Thus we need analysis tools to provide valuable insights in this huge space of user groups. The final question in the framework is how to use the found groups. In this thesis, we investigate one of these applications, i.e., user group recommendation, by considering affinities between group members.All our contributions of the proposed framework are evaluated using an extensive set of experiments both for quality and performance. Fouille de données Analyse des données Recommandation Analyse interactive Data mining Data Analysis Exploratory Analysis Interactive Analysis Recommendation 621
75	Découverte de règles de préférences contextuelles : application à la construction de profils utilisateurs / Contextual preference rules mining : an application for building user profiles Diallo, Mouhamadou Saliou 27 March 2015 (has links) L’utilisation de préférences suscite un intérêt croissant pour personnaliser des réponses aux requêtes et effectuer des recommandations ciblées. Pourtant, la construction manuelle de profils de préférences reste à la fois complexe et consommatrice de temps. Dans ce contexte, nous présentons dans cette thèse une nouvelle méthode automatique d’extraction de préférences basée sur des techniques de fouille de données. L’approche que nous proposons est constituée de deux phases : (1) une phase d’extraction de toutes les règles de préférences contextuelles intéressantes et (2) une phase de construction du profil utilisateur. A la fin de la première phase, nous constatons qu’il y a des règles redondantes voir superflues ; la seconde phase permet d’éliminer les règles superflues afin d’avoir un profil concis et consistant. Dans notre approche, un profil utilisateur est constitué de cet ensemble de règles de préférences contextuelles résultats de la seconde phase. La consistance garantit que les règles de préférences spécifiant les profils sont en accord avec un grand nombre de préférences utilisateur et contredisent un petit nombre d’entre elles. D’autre part, la concision implique que les profils sont constitués d’un petit nombre de règles de préférences. Nous avons aussi proposé quatre méthodes de prédiction qui utilisent les profils construits. Nous avons validé notre approche sur une base de données de films construite à partir de MovieLens et IMDB. La base de données contient 3 881 films notés par 6 040 utilisateurs. Ces derniers ont attribué 800 156 notes. Les résultats de ces expériences démontrent que la concision des profils utilisateurs est contrôlée par le seuil d’accord minimal et que même avec une forte réduction du nombre de règles, les qualités de prédiction des profils restent à un niveau acceptable. En plus des expérimentations montrant la qualité de prédiction de notre approche, nous avons montré également que les performances de notre approche peuvent rivaliser avec les qualités de prédiction de certaines méthodes de l’état de l’art, en particulier SVMRank. / The use of preferences arouses a growing interest to personalize response to requests and making targeted recommandations. Nevertheless, manual construction of preferences profiles remains complex and time-consuming. In this context, we present in this thesis a new automatic method for preferences elicitation based on data mining techniques. Our proposal is a two phase algorithm : (1) Extracting all contextual preferences rules from a set of user preferences and (2) Building user profile. At the end of the first phase, we notice that there is to much preference rules which satisfy the fixed constraints then in the second phase we eliminate the superfluous preferences rules. In our approach a user profile is constituted by the set of contextual preferences rules resulting of the second phase. A user profile must satisfy conciseness and soundness properties. The soundness property guarantees that the preference rules specifying the profiles are in agreement with a large set of the user preferences, and contradict a small number of them. On the other hand, conciseness implies that profiles are small sets of preference rules. We also proposed four predictions methods which use the extracted profiles. We validated our approach on a set of real-world movie rating datasets built from MovieLens and IMDB. The whole movie rating database consists of 800,156 votes from 6,040 users about 3,881 movies. The results of these experiments demonstrates that the conciseness of user profiles is controlled by the minimal agreement threshold and that even with strong reduction, the soundness of the profile remains at an acceptable level. These experiment also show that predictive qualities of some of our ranking strategies outperform SVMRank in several situations. Elicitation de préférences Règles de préférences contextuelles Extraction de profil utilisateur Fouille de données Preference elicitation Contextual preference rule User profile mining Data mining
76	Explorer les trajectoires de patients via les bases médico-économiques : application à l'infarctus du myocarde / Exploring trajectories of patients via medico-economic databases : application to myocardial infarction Pinaire, Jessica 17 October 2017 (has links) Avec environ 120 000 personnes atteintes chaque année, 12 000 décès suite à la première crise et 18 000 décès après une année, l'infarctus du myocarde est un enjeu majeur de santé publique. Cette pathologie nécessite une hospitalisation et une prise en charge dans une unité de soins intensifs de cardiologie. Pour étudier cette pathologie, nous nous sommes orientés vers les bases hospitalières du PMSI.La collecte des données hospitalières dans le cadre du PMSI génère sur le plan national des bases de données de l'ordre de 25 millions d'enregistrements par an.Ces données, qui sont initialement recueillies à des fins médico-économiques, contiennent des informations qui peuvent avoir d'autres finalités : amélioration de la prise en charge du patient, prédiction de l'évolution des soins, planification de leurs coûts, etc.Ainsi émerge un autre enjeu : celui de fournir des outils d'explorations des trajectoires hospitalières des patients à partir des données issues du PMSI. Par le biais de plusieurs objectifs, les travaux menés dans le cadre de cette thèse ont pour vocation de proposer des outils combinant des méthodes issues de trois disciplines : informatique médicale, fouille de données et biostatistique.Nous apportons quatre contributions.La première contribution concerne la constitution d'une base de données de qualité pour analyser les trajectoires de patients. La deuxième contribution est une méthode semi-automatique pour la revue systématique de la littérature. Cette partie des travaux délimite les contours du concept de trajectoire dans le domaine biomédical. La troisième contribution est l'identification des parcours à risque dans la prédiction du décès intra-hospitalier. Notre stratégie de recherche s'articule en deux phases : 1) Identification de trajectoires types de patients à l'aide d'outils issus de la fouille de données ; 2) Construction d'un modèle de prédiction à partir de ces trajectoires afin de prédire le décès. Enfin, la dernière contribution est la caractérisation des flux de patients à travers les différents évènements hospitaliers mais aussi en termes de délais d'occurrences et de coûts de ces évènements. Dans cette partie, nous proposons à nouveau une alliance entre une méthode de fouille de données et de classification de données longitudinales. / With approximately 120,000 people affected each year, 12,000 deaths from the first crisis and 18,000 deaths after one year, myocardial infarction is a major public health issue. This pathology requires hospitalization and management in an intensive care cardiology unit. We study this pathology using the French national Prospective Paiement System (PPS) databases.The collection of national hospital data within the framework of the PPS generates about 25 million records per year.These data, which are initially collected for medico-economic purposes, contain information that may have other purposes: improving patient care, predicting the evolution of care, planning their costs, etc.Another emerging issue is that of providing tools for exploring patients' hospital trajectories using data from the PPS. Through several objectives, this thesis aims to suggest tools combining methods from three disciplines: medical computing, data mining and biostatistics.We make four contributions.The first contribution concerns the constitution of a quality database to analyze patient trajectories. The second contribution is a semi-automatic method for the systematic review of the literature. This part of the work delineates the contours of the trajectory concept in the biomedical field. The third contribution is the identification of care trajectories in the prediction of intra-hospital death. Our research strategy is divided into two phases: 1) Identification of typical patient trajectories using data mining tools; 2) Construction of a prediction model from these trajectories to predict death. Finally, the last contribution is the characterization of patient flows through the various hospital events, also considering of delays and costs. In this contribution, we propose a combined-data mining and a longitudinal data clustering technique. Pmsi Trajectoires hospitalières Infarctus du myocarde Fouille de données Prédiction Flux de patients Pps Healthcare trajectories Myocardial infarction Data mining Prediction Flow of patients
77	Algorithmes automatiques pour la fouille visuelle de données et la visualisation de règles d’association : application aux données aéronautiques / Automatic algorithms for visual data mining and association rules visualization : application to aeronautical data Bothorel, Gwenael 18 November 2014 (has links) Depuis quelques années, nous assistons à une véritable explosion de la production de données dans de nombreux domaines, comme les réseaux sociaux ou le commerce en ligne. Ce phénomène récent est renforcé par la généralisation des périphériques connectés, dont l'utilisation est devenue aujourd'hui quasi-permanente. Le domaine aéronautique n'échappe pas à cette tendance. En effet, le besoin croissant de données, dicté par l'évolution des systèmes de gestion du trafic aérien et par les événements, donne lieu à une prise de conscience sur leur importance et sur une nouvelle manière de les appréhender, qu'il s'agisse de stockage, de mise à disposition et de valorisation. Les capacités d'hébergement ont été adaptées, et ne constituent pas une difficulté majeure. Celle-ci réside plutôt dans le traitement de l'information et dans l'extraction de connaissances. Dans le cadre du Visual Analytics, discipline émergente née des conséquences des attentats de 2001, cette extraction combine des approches algorithmiques et visuelles, afin de bénéficier simultanément de la flexibilité, de la créativité et de la connaissance humaine, et des capacités de calculs des systèmes informatiques. Ce travail de thèse a porté sur la réalisation de cette combinaison, en laissant à l'homme une position centrale et décisionnelle. D'une part, l'exploration visuelle des données, par l'utilisateur, pilote la génération des règles d'association, qui établissent des relations entre elles. D'autre part, ces règles sont exploitées en configurant automatiquement la visualisation des données concernées par celles-ci, afin de les mettre en valeur. Pour cela, ce processus bidirectionnel entre les données et les règles a été formalisé, puis illustré, à l'aide d'enregistrements de trafic aérien récent, sur la plate-forme Videam que nous avons développée. Celle-ci intègre, dans un environnement modulaire et évolutif, plusieurs briques IHM et algorithmiques, permettant l'exploration interactive des données et des règles d'association, tout en laissant à l'utilisateur la maîtrise globale du processus, notamment en paramétrant et en pilotant les algorithmes. / In the past few years, we have seen a large scale data production in many areas, such as social networks and e-business. This recent phenomenon is enhanced by the widespread use of devices, which are permanently connected. The aeronautical field is also involved in this trend. Indeed, its growing need for data, which is driven by air trafic management systems evolution and by events, leads to a widescale focus on its key role and on new ways to manage it. It deals with storage, availability and exploitation. Data hosting capacity, that has been adapted, is not a major challenge. The issue is now in data processing and knowledge extraction from it. Visual Analytics is an emerging field, stemming from the September 2001 events. It combines automatic and visual approaches, in order to benefit simultaneously from human flexibility, creativity and knowledge, and also from processing capacities of computers. This PhD thesis has focused on this combination, by giving to the operator a centered and decisionmaking role. On the one hand, the visual data exploration drives association rules extraction. They correspond to links between the data. On the other hand, these rules are exploited by automatically con_gurating the visualization of the concerned data, in order to highlight it. To achieve this, a bidirectional process has been formalized, between data and rules. It has been illustrated by air trafic recordings, thanks to the Videam platform, that we have developed. By integrating several HMI and algorithmic applications in a modular and upgradeable environment, it allows interactive exploration of both data and association rules. This is done by giving to human the mastering of the global process, especially by setting and driving algorithms. Visual Analytics Fouille de données Règles d'association Mesures de qualité Sémiologie graphique Visual Analytics Data Mining Association Rules Quality Measures Graphic Semiology
78	Méthodologie d’extraction de connaissances spatio-temporelles par fouille de données pour l’analyse de comportements à risques : application à la surveillance maritime / Methodology of spatio-temporal knowledge discovery through data mining for risk behavior analysis : application to maritime traffic monitoring Idiri, Bilal 17 December 2013 (has links) Les progrès technologiques en systèmes de localisation (AIS, radar, GPS, RFID, etc.), de télétransmission (VHF, satellite, GSM, etc.), en systèmes embarqués et leur faible coût de production a permis leur déploiement à une large échelle. Énormément de données sur les déplacements d'objets sont produites par le biais de ces technologies et utilisées dans diverses applications de surveillance temps-réel comme la surveillance du trafic maritime. L'analyse a posteriori des données de déplacement de navires et d'événements à risques peut présenter des perspectives intéressantes pour la compréhension et l'aide à la modélisation des comportements à risques. Dans ce travail de thèse une méthodologie basée sur la fouille de données spatio-temporelle est proposée pour l'extraction de connaissances sur les comportements potentiellement à risques de navires. Un atelier d'aide à l'analyse de comportements de navires fondé sur cette méthodologie est aussi proposé. / The advent of positioning system technologies (AIS, radar, GPS, RFID, etc.), remote transmission (VHF, satellite, GSM, etc.), technological advances in embedded systems and low cost production, has enabled their deployment on a large scale. A huge amount of moving objects data are collected through these technologies and used in various applications such as real time monitoring surveillance of maritime traffic. The post-hoc analysis of data from moving ships and risk events may present interesting opportunities for the understanding and modeling support of risky behaviors. In this work, we propose a methodology based on Spatio-Temporal Data Mining for the knowledge discovery about potentially risky behaviors of ships. Based on this methodology, a workshop to support the analysis of behavior of ships is also proposed. Fouille de données Extraction de connaissances Objets mobiles Surveillance maritime Analyse de comportements Data mining Knowledge discovery Moving objects Maritime monitoring Behavior analysis
79	Inférence de la grammaire structurelle d’une émission TV récurrente à partir du contenu / Content-based inference of structural grammar for recurrent TV programs from a collection of episodes Qu, Bingqing 03 December 2015 (has links) Dans cette thèse, on aborde le problème de structuration des programmes télévisés de manière non supervisée à partir du point de vue de l'inférence grammaticale, focalisant sur la découverte de la structure des programmes récurrents à partir une collection homogène. On vise à découvrir les éléments structuraux qui sont pertinents à la structure du programme, et à l’inférence grammaticale de la structure des programmes. Des expérimentations montrent que l'inférence grammaticale permet de utiliser minimum des connaissances de domaine a priori pour atteindre la découverte de la structure des programmes. / TV program structuring raises as a major theme in last decade for the task of high quality indexing. In this thesis, we address the problem of unsupervised TV program structuring from the point of view of grammatical inference, i.e., discovering a common structural model shared by a collection of episodes of a recurrent program. Using grammatical inference makes it possible to rely on only minimal domain knowledge. In particular, we assume no prior knowledge on the structural elements that might be present in a recurrent program and very limited knowledge on the program type, e.g., to name structural elements, apart from the recurrence. With this assumption, we propose an unsupervised framework operating in two stages. The first stage aims at determining the structural elements that are relevant to the structure of a program. We address this issue making use of the property of element repetitiveness in recurrent programs, leveraging temporal density analysis to filter out irrelevant events and determine valid elements. Having discovered structural elements, the second stage is to infer a grammar of the program. We explore two inference techniques based either on multiple sequence alignment or on uniform resampling. A model of the structure is derived from the grammars and used to predict the structure of new episodes. Evaluations are performed on a selection of four different types of recurrent programs. Focusing on structural element determination, we analyze the effect on the number of determined structural elements, fixing the threshold applied on the density function as well as the size of collection of episodes. For structural grammar inference, we discuss the quality of the grammars obtained and show that they accurately reflect the structure of the program. We also demonstrate that the models obtained by grammatical inference can accurately predict the structure of unseen episodes, conducting a quantitative and comparative evaluation of the two methods by segmenting the new episodes into their structural components. Finally, considering the limitations of our work, we discuss a number of open issues in structure discovery and propose three new research directions to address in future work. Analyse de contenu multimedia Structuration des programmes Fouille de données non supervisé Algorithme Expérimentations TV program structuring Unsupervised data mining Algorithms
80	Théorie des fonctions de croyance : application des outils de data mining pour le traitement des données imparfaites / Belief function theory : application of data mining tools for imperfect data treatment Samet, Ahmed 03 December 2014 (has links) Notre travail s'inscrit dans l'intersection de deux disciplines qui sont la Théorie des Fonctions de Croyance (TFC) et la fouille de données. L'interaction pouvant exister entre la TFC et la fouille de données est étudiée sous deux volets.La première interaction souligne l'apport des règles associatives génériques au sein de la TFC. Nous nous sommes intéressés au problème de fusion de sources non fiables dont la principale conséquence est l'apparition de conflit lors de la combinaison. Une approche de gestion de conflit reposant sur les règles d'association génériques appelé ACM a été proposée.La deuxième interaction s'intéresse aux bases de données imparfaites en particulier les bases de données évidentielles. Les informations, représentées par des fonctions de masse, sont étudiées afin d'extraire des connaissances cachées par le biais des outils de fouille de données. L'extraction des informations pertinentes et cachées de la base se fait grâce à la redéfinition de la mesure du support et de la confiance. Ces mesures introduites ont été les fondements d'un nouveau classifieur associatif que nous avons appelé EDMA. / This thesis explores the relation between two domains which are the Belief Function Theory (BFT) and data mining. Two main interactions between those domain have been pointed out.The first interaction studies the contribution of the generic associative rules in the BFT. We were interested in managing conflict in case of fusing conflictual information sources. A new approach for conflict management based on generic association rules has been proposed called ACM.The second interation studies imperfect databases such as evidential databases. Those kind of databases, where information is represented by belief functions, are studied in order to extract hidden knowledges using data mining tools. The extraction of those knowledges was possible thanks to a new definition to the support and the confidence measures. Those measures were integrated into a new evidential associative classifier called EDMA. Fouille de données Théorie des fonctions de croyance Gestion de conflit Classification associative Data mining Belief function theory Conflict management Associative classification

Search results