Global ETD Search

121	Contribution à la fouille de données spatio-temporelles : application à l'étude de l'érosion / Contribution to spatio-temporal data mining : application to erosion study Sanhes, Jeremy 25 September 2014 (has links) Les événements spatio-temporels regroupent une large diversité de phénomènes comportant des caractéristiques propres. Par exemple, l’étude de flux migratoires se révèle ainsi très différente de l’étude de propagation de maladies. En effet, le domaine d’intérêt de la première porte sur le suivi des trajectoires, tandis que celui de la deuxième porte sur les facteurs de la propagation. De plus, chaque classe d’un problème spatio-temporel peut être abordée différemment, que l’on considère ou non un voisinage spatial, une caractérisation des objets d’étude unique ou multiple, ou bien une (in)dépendance entre les événements. Ainsi, les techniques de fouilles de données développées sont souvent restées spécifiques à une sous-classe de problème spatio-temporel, c’est-à-dire sous un ensemble restreint d’hypothèses.Or, pour réussir à dégager des connaissances nouvelles à partir de données, il est nécessaire d’élargir cet ensemble d’hypothèses, c’est-à-dire élargir le champs des possibles quant aux corrélations qu’il peut exister entre événements. Nous proposons donc une modélisation de ces phénomènes spatio-temporels permettant de prendre en compte plus de considérations que dans l’état de l’art. En outre, cette modélisation permet d’exprimer des événements qui existent dans les phénomènes d’érosion : un objet d’étude peut se diviser en plusieurs objets, ou fusionner avec d’autres objets pour n’en former qu’un seul. Plus précisément, nous modélisons les dynamiques spatio-temporelles sous la forme d’un unique graphe orienté, que la composante temporelle des problèmes rend acyclique, et dont les sommets sont attribués par plusieurs caractéristiques. / Spatio-temporal events denote a large range of phenomena with different characteristics. For example, migration flows studies appear to be very different from disease spread studies. Indeed, interestingness of the first relies on tracking trajectories, whereas the second is about finding the factors of spread. Moreover, each class of a spatio-temporal problem can be tackled differently, depending on which parameters are considered: the studied spatial neighbourhood, the number of characteristics associated with the objects, or whether events are supposed correlated or independent. As a result, data mining techniques are often specificto a sub-class of spatio-temporal problem, that is to say, to a limited set of hypothesis.In order to bring out new knowledge from data, it seems to be necessary to enlarge this set of hypothesis, that is to say, to widen the field of possibilities regarding correlations that may exist between events. For this, we propose a new model that allows to take into account more considerations than existing studies. For example, this representation allows to model the complex spatio-temporal dynamic of erosion phenomenon: an object can be split up in several other objects, or can merge with other objects into one. More precisely, we use a single directed graph, that becomes acyclic thanks to the temporal component of the problem, and that is attributed by several characteristics. Fouille de données Fouille de graphe Spatio-Temporelles Graphe orienté acyclique Modèle expert Erosion Data mining Graph mining Spatio-Temporal Directed acyclic graph Expert model Erosion 004.36 004.6 551.300 285
122	Identification des profils de changement sur données longitudinales, illustrée par deux exemples : étude des trajectoires hopsitalières de prise en charge d'un cancer. Construction des profils évolutifs de qualité de vie lors d'un essai thérapeutique pour un cancer avancé / Identification of patterns og change on mongitudinal data, illustrated by two exemples : study of hospital pathways in the management of cancer. Constuction of quality of life change patterns in a clinical trial for advanced cancer Nuemi Tchathouang, Gilles Eric 21 October 2014 (has links) ContexteDans le domaine de la santé, l’analyse des données pour l’extraction des connaissances est un enjeu en pleine expansion. Les questions sur l’organisation des soins ou encore l’étude de l’association entre le traitement et qualité de vie (QdV) perçue pourraient être abordées sous cet angle. L’évolution des technologies permet de disposer d’outils de fouille de données performants et d’outils statistiques enrichis de méthode avancées, utilisables par les non experts. Nous avons illustré cette méthode au travers de deux questions d’actualité :1 / Quelle organisation des soins pour la prise en charge des cancers ? 2/ étude de la relation chez les patients souffrant d’un cancer métastatique entre la QdV liée à la santé perçue et les traitements reçus dans le cadre d’un essai thérapeutique.Matériels et méthodesNous disposons aujourd’hui de volumineuses bases de données. Certaines retracent le parcours hospitalier des patients, comme c’est le cas pour les données d’activités hospitalières recueillies dans le cadre du programme de médicalisation des systèmes d’information (PMSI). D’autres conservent les informations sur la QdV perçues par les patients et qui recueillies en routine actuellement dans les essais thérapeutiques. L’analyse de ces données a été réalisée suivant trois étapes principales : Tout d’abord une étape de préparation des données dont l’objectif était la compatibilité à un concept d’analyse précisé. Il s’agissait par exemple de transformer une base de données classique (centrée sur le patient) vers une nouvelle base de données où « l’unité de recueil » est une entité autre que le patient (ex. trajectoire de soins). Ensuite une deuxième étape consacrée à l’application de méthodes de fouille de données pour l’extraction connaissances : les méthodes d’analyse formelle des concepts ou encore les méthodes de classifications non-supervisée. Et enfin l’étape de restitution des résultats obtenus et présenté sous forme graphique.RésultatsPour la question de l’organisation des soins, nous avons construit une typologie des trajectoires hospitalières des soins permettait de réaliser un état des lieux des pratiques dans la prise en charge des cancers étudié depuis la chirurgie jusqu’à un an de suivi des patients. Dans le cas du Cancer du sein, nous avons décrit une typologie de prise en charge sur la base des coûts d’hospitalisation sur un suivi d’un an. Pour la deuxième question, nous avons également construit une typologie des profils évolutifs de la QdV. Celle-ci comportait 3 classes : une classe d’amélioration, une classe de stabilité et une classe de dégradation.ConclusionL’intérêt majeur de ce travail était de mettre en évidence des pistes de réflexion permettant des avancées dans la compréhension et la construction de solutions adaptées aux problèmes. / Context In healthcare domain, data mining for knowledge discovery represent a growing issue. Questions about the organisation of healthcare system and the study of the relation between treatment and quality of life (QoL) perceived could be addressed that way. The evolution of technologies provides us with efficient data mining tools and statistical packages containing advanced methods available for non-experts. We illustrate this approach through two issues: 1 / What organisation of healthcare system for cancer diseases management? 2 / Exploring in patients suffering from metastatic cancer, the relationship between health-related QoL perceived and treatment received as part of a clinical trial. Materials and methods Today we have large databases. Some are dedicated to gather together all hospital stays, as is the case for the national medico-administrative DRG-type database. Others are used to store information about QoL perceived by patients, routinely collected in clinical trials. The analysis of these data was carried out following three main steps: In the first step, data are prepared to be useable according to a defined concept of data analysis. For example, a classical database (patient-centered) was converted to a new database organised around a new defined entity which was different from the patient (eg. Care trajectory). Then in the second step, we applied data mining methods for knowledge discovery: we used the formal analysis of concepts method and unsupervised clustering techniques. And finally the results were presented in a graphical form. Results Concerning the question of the organisation of healthcare system, we constructed a typology of hospital care trajectories. We were able then to describe current practice in the management of cancers from the first cancer related surgical operation until one year of follow-up. In the case of breast cancer, we’ve described a typology of care on the basis of hospital costs over a one year follow up. Concerning the second question, we have also constructed a typology of QoL change patterns. This comprised three groups: Improvement, stability and degradation group.Conclusion The main interest of this work was to highlight new thoughts, which advances understanding and, contributing in appropriate solutions building. Fouille de données Classification Cancers Trajectoire de soins Qualité de vies Imputation de données Data mining Clustering Cancer Trajectory of care Quality of life Multiple imputation 614 616.9
123	Data mining of temporal sequences for the prediction of infrequent failure events : application on floating train data for predictive maintenance / Fouille de séquences temporelles pour la maintenance prédictive : application aux données de véhicules traceurs ferroviaires Sammouri, Wissam 20 June 2014 (has links) De nos jours, afin de répondre aux exigences économiques et sociales, les systèmes de transport ferroviaire ont la nécessité d'être exploités avec un haut niveau de sécurité et de fiabilité. On constate notamment un besoin croissant en termes d'outils de surveillance et d'aide à la maintenance de manière à anticiper les défaillances des composants du matériel roulant ferroviaire. Pour mettre au point de tels outils, les trains commerciaux sont équipés de capteurs intelligents envoyant des informations en temps réel sur l'état de divers sous-systèmes. Ces informations se présentent sous la forme de longues séquences temporelles constituées d'une succession d'événements. Le développement d'outils d'analyse automatique de ces séquences permettra d'identifier des associations significatives entre événements dans un but de prédiction d'événement signant l'apparition de défaillance grave. Cette thèse aborde la problématique de la fouille de séquences temporelles pour la prédiction d'événements rares et s'inscrit dans un contexte global de développement d'outils d'aide à la décision. Nous visons à étudier et développer diverses méthodes pour découvrir les règles d'association entre événements d'une part et à construire des modèles de classification d'autre part. Ces règles et/ou ces classifieurs peuvent ensuite être exploités pour analyser en ligne un flux d'événements entrants dans le but de prédire l'apparition d'événements cibles correspondant à des défaillances. Deux méthodologies sont considérées dans ce travail de thèse: La première est basée sur la recherche des règles d'association, qui est une approche temporelle et une approche à base de reconnaissance de formes. Les principaux défis auxquels est confronté ce travail sont principalement liés à la rareté des événements cibles à prédire, la redondance importante de certains événements et à la présence très fréquente de "bursts". Les résultats obtenus sur des données réelles recueillies par des capteurs embarqués sur une flotte de trains commerciaux permettent de mettre en évidence l'efficacité des approches proposées / In order to meet the mounting social and economic demands, railway operators and manufacturers are striving for a longer availability and a better reliability of railway transportation systems. Commercial trains are being equipped with state-of-the-art onboard intelligent sensors monitoring various subsystems all over the train. These sensors provide real-time flow of data, called floating train data, consisting of georeferenced events, along with their spatial and temporal coordinates. Once ordered with respect to time, these events can be considered as long temporal sequences which can be mined for possible relationships. This has created a neccessity for sequential data mining techniques in order to derive meaningful associations rules or classification models from these data. Once discovered, these rules and models can then be used to perform an on-line analysis of the incoming event stream in order to predict the occurrence of target events, i.e, severe failures that require immediate corrective maintenance actions. The work in this thesis tackles the above mentioned data mining task. We aim to investigate and develop various methodologies to discover association rules and classification models which can help predict rare tilt and traction failures in sequences using past events that are less critical. The investigated techniques constitute two major axes: Association analysis, which is temporal and Classification techniques, which is not temporal. The main challenges confronting the data mining task and increasing its complexity are mainly the rarity of the target events to be predicted in addition to the heavy redundancy of some events and the frequent occurrence of data bursts. The results obtained on real datasets collected from a fleet of trains allows to highlight the effectiveness of the approaches and methodologies used Fouille de données Séquences temporelles Règles d'associations Classification Maintenance Prédictive Véhicules traceurs ferroviaires Data Mining Temporal sequences Association rule mining Pattern recognition Predictive Maintenance Floating Train Data
124	Fouille de représentations concises des motifs fréquents à travers les espaces de recherche conjonctif et disjonctif / Mining concise representations of frequent patterns through conjunctive and disjunctive search spaces Hamrouni, Tarek 04 August 2009 (has links) Durant ces dernières années, les quantités de données collectées, dans divers domaines d'application de l'informatique, deviennent de plus en plus importantes. Cela suscite le besoin d'analyser et d'interpréter ces données afin d'en extraire des connaissances utiles. Dans cette situation, le processus d'Extraction de Connaissances à partir des Données est un processus complet visant à extraire des connaissances cachées, nouvelles et potentiellement utiles à partir de grands volumes de données. Parmi ces étapes, la fouille de données offre les outils et techniques permettant une telle extraction. Plusieurs travaux de recherche en fouille de données concernent la découverte des règles d'association, permettant d'identifier des liens entre ensembles de descripteurs (ou attributs ou items) décrivant un ensemble d'objets (ou individus ou transactions). Les règles d'association ont montré leur utilité dans plusieurs domaines d'application tels que la gestion de la relation client en grande distribution (analyse du panier de la ménagère pour déterminer les produits souvent achetés simultanément, et agencer les rayons et organiser les promotions en conséquence), la biologie moléculaire (analyse des associations entre gènes), etc. De manière générale, la construction des règles d'association s'effectue en deux étapes : l'extraction des ensembles d'items (ou itemsets) fréquents, puis la génération des règles d'association à partir de des itemsets fréquents. Dans la pratique, le nombre de motifs (itemsets fréquents ou règles d'associations) extraits ou générés, peut être très élevé, ce qui rend difficile leur exploitation pertinente par les utilisateurs. Pour pallier ce problème, certains travaux de recherche proposent l'usage d'un noyau de motifs, appelés représentations concises, à partir desquels les motifs redondants peuvent être régénérés. Le but de telles représentations est de condenser les motifs extraits tout en préservant autant que possible les informations cachées et intéressantes sur des données. Dans la littérature, beaucoup de représentations concises des motifs fréquents ont été proposées, explorant principalement l'espace de recherche conjonctif. Dans cet espace, les itemsets sont caractérisés par la fréquence de leur co-occurrence. Ceci fait l'objet de la première partie de ce travail. Une étude détaillée proposée dans cette thèse prouve que les itemsets fermés et les générateurs minimaux sont un moyen de représenter avec concision les itemsets fréquents et les règles d'association. Les itemsets fermés structurent l'espace de recherche dans des classes d'équivalence tels que chaque classe regroupe les itemsets apparaissant dans le même sous-ensemble (appelé aussi objets ou transactions) des données. Un itemset fermé inclut l'expression la plus spécifique décrivant les transactions associées, alors qu'un générateur minimal inclut une des expressions les plus générales. Cependant, une redondance combinatoire intra-classe résulte logiquement de l'absence inhérente d'un seul générateur minimal associé à un itemset fermé donné. Ceci nous a motivé à effectuer une étude approfondie visant à. maintenir seulement les générateurs minimaux irréductibles dans chaque classe d'équivalence, et d'élaguer les autres. À cet égard, il est proposé une réduction sans perte d'information de l'ensemble des générateurs minimaux grâce à un nouveau processus basé sur la substitution. Une étude complète des propriétés associées aux familles obtenues est présentée. Les résultats théoriques sont ensuite étendus au cadre de règles d'association afin de réduire autant que possible le nombre de règles maintenues sans perte d'information. Puis, est présentée une étude formelle complète du mécanisme d'inférence permettant de dériver toutes les règles d'association redondantes, à partir de celles maintenues. / The last years witnessed an explosive progress in networking, storage, and processing technologies resulting in an unprecedented amount of digitalization of data. There is hence a considerable need for tools or techniques to delve and efflciently discover valuable, non-obvious information from large databases. In this situation, Knowledge Discovery in Databases offers a complete process for the non-trivial extraction of implicit, previously unknown, and potentially useful knowledge from data. Amongst its steps, data mining offers tools and techniques for such an extraction. Much research in data mining from large databases has focused on the discovery of association rules which are used to identify relationships between sets of items in a database. The discovered association rules can be used in various tasks, such as depicting purchase dependencies, classification, medical data analysis, etc. In practice however, the number of frequently occurring itemsets, used as a basis for rule derivation, is very large, hampering their effective exploitation by the end-users. In this situation, a determined effort focused on defining manageably-sized sets of patterns, called concise representations, from which redundant patterns can be regenerated. The purpose of such representations is to reduce the number of mined patterns to make them manageable by the end-users while preserving as much as possible the hidden and interesting information about data. Many concise representations for frequent patterns were so far proposed in the literature, mainly exploring the conjunctive search space. In this space, itemsets are characterized by the frequency of their co-occurrence. A detailed study proposed in this thesis shows that closed itemsets and minimal generators play a key role for concisely representing both frequent itemsets and association rules. These itemsets structure the search space into equivalence classes such that each class gathers the itemsets appearing in the sanie subset (aka objects or transactions) of the given data. A closed itemset includes the most specific expression describing the associated transactions, while a minimal generator includes one of the most general expressions. However, an intra-class combinatorial redundancy would logically results from the inherent absence of a unique minimal generator associated to a given dosed item et. This motivated us to carry out an in-depth study zdming at only retaining irreducible minimal generators in each equivalence class, and pruning the remaining ones. In this respect, we propose lossless reductions of the minimal generator set thanks to a new substitution-based process. We tiien carry out a thorough study of the associated properties of the obtained families. Our tlieoretical results will then be extended to the association rule framework in order to reduce as muchas poib1e the number of retained rules without information loss. We then give a thorough formai study of the related inférence mechanism allowing to derive all redundant association rules, starting from the retained ones. In order to validate our approach, computing means for the new pattern familles are presented together with empirical evidences about their relative sizes w. r. t. the entire sets of patterns. We also lead a thorough exploration of the disjunctive search space, where itemsets are characterized by their respective disjunctive supports, instead of the conjunctive ones. Thus, an itemset verifies a portion of data if at least one of its items belongs to it. Disjunctive itemsets thus convey knowledge about complementary occurrences of items in a dataset. This exploration is motivated by the fact that, in some applications, such information - conveyed through disjunctive support - brings richer knowledge to the end-users. Fouille de données Classe d'équivalence Itemset Itemset essentiel Itemset fermé Itemset fermé disjonctif Générateur minimal Opérateur de fermeture Règle d'association Règle d'association généralisée Représentation concise Support disjonctif
125	Identification du profil des utilisateurs d’un hypermédia encyclopédique à l’aide de classifieurs basés sur des dissimilarités : création d’un composant d’un système expert pour Hypergéo / Identification of hypermedia encyclopedic user's profile using classifiers based on dissimilarities : creating a component of an expert system for Hypergeo Abou Latif, Firas 08 July 2011 (has links) L’objectif de cette thèse est d’identifier le profil d’utilisateur d’un hypermédia afin de l’adapter. Ceprofil est déterminé en utilisant des algorithmes d’apprentissage supervisé comme le SVM.Le modèle d’utilisateur est l’un des composants essentiels des hypermédias adaptatifs. Une des façons de caractériser ce modèle est d’associer l’utilisateur à un profil. Le Web Usage Mining (WUM)identifie ce profil à l’aide des traces de navigation. Toutefois, ces techniques ne fonctionnent généralement que sur de gros volumes de données. Dans le cadre de volumes de données réduits, nous proposons d’utiliser la structure et le contenu de l’hypermédia. Pour cela, nous avons utilisé des algorithmes d’apprentissage à noyau pour lesquels nous avons défini l’élément clé qu’est la mesure de similarité entre traces basée sur une « distance » entre documents du site. Notre approche a été validée à l’aide de données synthétiques puis à l’aide de données issues des traces des utilisateurs du site Hypergéo (site webencyclopédique spécialisé dans la géographie). Nos résultats ont été comparés à ceux obtenus à l’aide d’une des techniques du WUM (l’algorithme des motifs caractéristiques). Finalement, nos propositions pour identifier les profils a posteriori ont permis de mettre en évidence cinq profils. En appliquant une« distance sémantique » entre documents, les utilisateurs d’Hypergéo ont été classés correctement selon leurs centres d’intérêt. / This thesis is devoted to identify the profile of hypermedia user, then to adapt it according to user’s profile. This profile is found by using supervised learning algorithm like SVM. The user model is one of the essential components of adaptive hypermedia. One way to characterize this model is to associate a user to a profile. Web Usage Mining (WUM) identifies this profile from traces. However, these techniques usually operate on large mass of data. In the case when not enough data are available, we propose to use the structure and the content of the hypermedia. Hence, we used supervised kernel learning algorithms for which we have defined the measure of similarity between traces based on a “distance” between documents of the site. Our approach was validated using synthetic data and then using real data from the traces of Hypergéo users, Hypergéo is an encyclopedic website specialized in geography. Our results were compared with those obtained using a techniques of WUM(the algorithm of characteristic patterns). Finally, our proposals to identify the profiles a posteriori led usto highlight five profiles. Hypergéo users are classified according to their interests when the “semantic distance” between documents is applied. Fouille de données d’usage du Web Algorithmes de projection Distance et dissimilarité Hypermédia adaptatif Web usage mining Supervised and unsupervised learning Visualization Dimensionality reduction Distance and dissimilarity Adaptive hypermedia.
126	Extraction d’Information pour les réseaux de régulation de la graine chez Arabidopsis Thaliana. / Information Extraction for the Seed Development Regulatory Networks of Arabidopsis Thaliana. Valsamou, Dialekti 17 January 2017 (has links) Même si l’information est abondante dans le monde, l’information structurée, prête à être utilisée est rare. Ce travail propose l’Extraction d’Information (EI) comme une approche efficace pour la production de l’information structurée, utilisable sur la biologie, en présentant une tâche complète d’EI sur un organisme modèle, Arabidopsis thaliana. Un système d’EI se charge d’extraire les parties de texte les plus significatives et d’identifier leurs relations sémantiques. En collaboration avec des experts biologistes sur la plante A. Thaliana un modèle de connaissance a été conçu. Son objectif est de formaliser la connaissance nécessaire pour bien décrire le domaine du développement de la graine. Ce modèle contient toutes les entités et relations les connectant qui sont essentielles et peut être directement utilisé par des algorithmes. En parallèle ce modèle a été testé et appliqué sur un ensemble d’articles scientifiques du domaine, le corpus nécessaire pour l’entraînement de l’apprentissage automatique. Les experts ont annoté le texte en utilisant les entités et relations du modèle. Le modèle et le corpus annoté sont les premiers proposés pour le développement de la graine, et parmi les rares pour A. Thaliana, malgré son importance biologique. Ce modèle réconcilie les besoins d’avoir un modèle assez complexe pour bien décrirele domaine, et d’avoir assez de généralité pour pouvoir utiliser des méthodes d’apprentissage automatique. Une approche d’extraction de relations (AlvisRE) a également été élaborée et développée. Une fois les entités reconnues, l’extracteur de relations cherche à détecter les cas où le texte mentionne une relation entre elles, et identifier précisément de quel type de relation du modèle il s’agit. L’approche AlvisRE est basée sur la similarité textuelle et utilise à la fois des informations lexiques,syntactiques et sémantiques. Dans les expériences réalisées, AlvisRE donne des résultats qui sont équivalents et parfois supérieurs à l’état de l’art. En plus, AlvisRE a l’avantage de la modularité et adaptabilité en utilisant des informations sémantiques produites automatiquement. Ce dernier caractéristique permet d’attendre des performances équivalentes dans d’autres domaines. / While information is abundant in the world, structured, ready-to-use information is rare. Thiswork proposes Information Extraction (IE) as an efficient approach for producing structured,usable information on biology, by presenting a complete IE task on a model biological organism,Arabidopsis thaliana. Information Extraction is the process of extracting meaningful parts of text and identifying their semantic relations.In collaboration with experts on the plant A. Thaliana, a knowledge model was conceived. The goal of this model is providing a formal representation of the knowledge that is necessary to sufficiently describe the domain of grain development. This model contains all the entities and the relations between them which are essential and it can directly be used by algorithms. Inparallel, this model was tested and applied on a set of scientific articles of the domain. These documents constitute the corpus which is needed to train machine learning algorithms. Theexperts annotated the text using the entities and relations of the model. This corpus and this model are the first available for grain development and among very few on A. Thaliana, despite the latter’s importance in biology. This model manages to answer both needs of being complexenough to describe the domain well, and of having enough generalization for machine learning.A relation extraction approach (AlvisRE) was also elaborated and developed. After entityre cognition, the relation extractor tries to detect the cases where the text mentions that twoentities are in a relation, and identify precisely to which type of the model these relations belongto. AlvisRE’s approach is based on textual similarity and it uses all types of information available:lexical, syntactic and semantic. In the tests conducted, AlvisRE had results that are equivalentor sometimes better than the state of the art. Additionally, AlvisRE has the advantage of being modular and adaptive by using semantic information that was produced automatically. This last feature allows me to expect similar performance in other domains. Extraction d'information Fouille de données Traitement automatique de langues Bioinformatique Apprentissage automatique Fouille de texte Information Extraction Data Mining Natural Language Processing Bioinformatics Machine Learning Text Mining
127	Fouille de motifs : entre accessibilité et robustesse / Pattern mining : between accessibility and robustness Abboud, Yacine 28 November 2018 (has links) L'information occupe désormais une place centrale dans notre vie quotidienne, elle est à la fois omniprésente et facile d'accès. Pourtant, l'extraction de l'information à partir des données est un processus souvent inaccessible. En effet, même si les méthodes de fouilles de données sont maintenant accessibles à tous, les résultats de ces fouilles sont souvent complexes à obtenir et à exploiter pour l'utilisateur. La fouille de motifs combinée à l'utilisation de contraintes est une direction très prometteuse de la littérature pour à la fois améliorer l'efficience de la fouille et rendre ses résultats plus appréhendables par l'utilisateur. Cependant, la combinaison de contraintes désirée par l'utilisateur est souvent problématique car, elle n'est pas toujours adaptable aux caractéristiques des données fouillées tel que le bruit. Dans cette thèse, nous proposons deux nouvelles contraintes et un algorithme pour pallier ce problème. La contrainte de robustesse permet de fouiller des données bruitées en conservant la valeur ajoutée de la contrainte de contiguïté. La contrainte de clôture allégée améliore l'appréhendabilité de la fouille de motifs tout en étant plus résistante au bruit que la contrainte de clôture classique. L'algorithme C3Ro est un algorithme générique de fouille de motifs séquentiels intégrant de nombreuses contraintes, notamment les deux nouvelles contraintes que nous avons introduites, afin de proposer à l'utilisateur la fouille la plus efficiente possible tout en réduisant au maximum la taille de l'ensemble des motifs extraits. C3Ro rivalise avec les meilleurs algorithmes de fouille de motifs de la littérature en termes de temps d'exécution tout en consommant significativement moins de mémoire. C3Ro a été expérimenté dans le cadre de l’extraction de compétences présentes dans les offres d'emploi sur le Web / Information now occupies a central place in our daily lives, it is both ubiquitous and easy to access. Yet extracting information from data is often an inaccessible process. Indeed, even though data mining methods are now accessible to all, the results of these mining are often complex to obtain and exploit for the user. Pattern mining combined with the use of constraints is a very promising direction of the literature to both improve the efficiency of the mining and make its results more apprehensible to the user. However, the combination of constraints desired by the user is often problematic because it does not always fit with the characteristics of the searched data such as noise. In this thesis, we propose two new constraints and an algorithm to overcome this issue. The robustness constraint allows to mine noisy data while preserving the added value of the contiguity constraint. The extended closedness constraint improves the apprehensibility of the set of extracted patterns while being more noise-resistant than the conventional closedness constraint. The C3Ro algorithm is a generic sequential pattern mining algorithm that integrates many constraints, including the two new constraints that we have introduced, to provide the user the most efficient mining possible while reducing the size of the set of extracted patterns. C3Ro competes with the best pattern mining algorithms in the literature in terms of execution time while consuming significantly less memory. C3Ro has been experienced in extracting competencies from web-based job postings Fouille de données Fouille de motifs Contraintes Résistance au bruit Data mining Pattern mining Constraints Noise-resistant 006.312
128	On Computational Stylistics : mining Literary Texts for the Extraction of Characterizing Stylistic Patterns / De la stylistique computationnelle : fouille de textes littéraires pour l'extraction de motifs stylistiques caractérisants Boukhaled, Mohamed Amine 13 September 2016 (has links) Notre thèse se situe dans le domaine interdisciplinaire de la stylistique computationnelle, à savoir l'application des méthodes statistiques et computationnelles à l'étude du style littéraire. Historiquement, la plupart des travaux effectués en stylistique computationnelle se sont concentrés sur les aspects lexicaux. Dans notre thèse, l’accent est mis sur l'aspect syntaxique du style qui est beaucoup plus difficile à analyser étant donné sa nature abstraite. Comme contribution principale, dans cette thèse, nous travaillons sur une approche à l'étude stylistique computationnelle de textes classiques de littérature française d'un point de vue herméneutique, où découvrir des traits linguistiques intéressants se fait sans aucune connaissance préalable. Plus concrètement, nous nous concentrons sur le développement et l'extraction des motifs morphosyntaxiques. Suivant la ligne de pensée herméneutique, nous proposons un processus de découverte de connaissances pour la caractérisation stylistique accentué sur la dimension syntaxique du style et permettant d'extraire des motifs pertinents à partir d'un texte donné. Ce processus proposé consiste en deux étapes principales, une étape d'extraction de motifs séquentiels suivi de l'application de certaines mesures d'intérêt. En particulier, l'extraction de tous les motifs syntaxiques possibles d'une longueur donnée est proposée comme un moyen particulièrement utile pour extraire des caractéristiques intéressantes dans un scénario exploratoire. Nous proposons, évaluons et présentons des résultats sur les trois mesures d'intérêt proposées, basée chacune sur un raisonnement théorique linguistique et statistique différent. / The present thesis locates itself in the interdisciplinary field of computational stylistics, namely the application of statistical and computational methods to the study of literary style. Historically, most of the work done in computational stylistics has been focused on lexical aspects especially in the early decades of the discipline. However, in this thesis, our focus is put on the syntactic aspect of style which is quite much harder to capture and to analyze given its abstract nature. As main contribution, we work on an approach to the computational stylistic study of classic French literary texts based on a hermeneutic point of view, in which discovering interesting linguistic patterns is done without any prior knowledge. More concretely, we focus on the development and the extraction of complex yet computationally feasible stylistic features that are linguistically motivated, namely morpho-syntactic patterns. Following the hermeneutic line of thought, we propose a knowledge discovery process for the stylistic characterization with an emphasis on the syntactic dimension of style by extracting relevant patterns from a given text. This knowledge discovery process consists of two main steps, a sequential pattern mining step followed by the application of some interestingness measures. In particular, the extraction of all possible syntactic patterns of a given length is proposed as a particularly useful way to extract interesting features in an exploratory scenario. We propose, carry out an experimental evaluation and report results on three proposed interestingness measures, each of which is based on a different theoretical linguistic and statistical backgrounds. Stylistique computationnelle Fouille de données séquentielles Découverte de connaissances Fouille de textes Motif morphosyntaxique Mesure d'interêt Computational stylistics Sequential data mining Knowledge dicovery 004
129	Evaluation des connaissances acquises lors de l’apprentissage de l’ingénierie système dans un environnement E-learning collaboratif / Assessment of acquired knowledge during learning of system engineering in a collaborative E-learning environment Berriche, Fatima Zahra 29 June 2018 (has links) Pour rester concurrentiel et faire face à la complexité du développement des systèmes complexes, il est nécessaire d’avoir de bons ingénieurs système expérimentés sur le marché. De ce fait, Les ingénieurs système ainsi que les enseignants-chercheurs doivent mettre en place des stratégies et des méthodologies didactiques pour préparer les futurs ingénieurs systèmes. L’idée est d’assurer aux étudiants ingénieurs une préparation approfondie à l’ingénierie système (IS) et un savoir-faire quasi-professionnel fondés sur des expériences pratiques. Cette thèse répond à la nécessité de l’évaluation des étudiants, dans l’optique de vérifier leur maîtrise des processus du développement d’un système complexe tout le long de son cycle de vie. Nous nous intéressons particulièrement au problème de l’évaluation des connaissances acquises des apprenants lors de l’apprentissage actif de l’IS dans un environnement E-learning collaboratif en se fondant sur l’approche d’acquisition de connaissances. Pour cela, nous avons élaboré et mis en œuvre nos travaux de recherche dans le cadre d’une démarche d’E-apprentissage par projet, approche pédagogique qui facilite l’apprentissage en ligne de l’IS basé sur des projets. Dans ce contexte, nous avons décidé de piloter notre environnement Eapprentissage par des projets initiés à partir des processus normalisés en IS. Nous avons également guidé la formalisation de ces processus standardisés par l’intégration des modèles de compétences d’IS afin de soutenir le développement professionnel d’un système. Lors de la phase d’apprentissage, différents étudiants collaborent à distance. Ce partage d’information est fondé généralement sur des échanges formels ou informels. L’intérêt de l’acquisition de ces connaissances, issues des compte-rendus écrits, des retours d’expérience et des erreurs rectifiées, est d’aider à étudier et évaluer les expériences et les activités des étudiants pour favoriser l’apprentissage actif et collaboratif de l’IS. Notre proposition est une solution permettant l’évaluation des connaissances acquises fondée sur des outils sémantiques. La solution s’adresse aux étudiants et aux enseignants de la plateforme. D’une part, elle permet le suivi et l’évaluation des étudiants d’une manière intelligente et d’autre part, elle permet l’accompagnement de l’enseignant lors de la définition de son projet. Tout d’abord, nous présentons une méthode d’évaluation mixte qui combine le raisonnement à partir de cas et le processmining afin de fournir des représentations visuelles qui aident l’enseignant dans son processus d’évaluation ainsi que la définition de son scénario d’apprentissage. Nous exploitons des techniques d’analyse de réseaux sociaux pour étudier les interactions des apprenants. Ensuite, nous proposons un processus d’annotation sémantique des travaux des étudiants. Le processus a pour but de guider l’enseignant dans son processus d’évaluation. De plus, afin d’enrichir la mise en œuvre de l’évaluation des connaissances, nous introduisons le concept d’évaluation par les pairs afin de promouvoir la réflexivité et la confiance en soi de l’apprenant. Enfin, les différentes contributions sont illustrées au moyen d’une étude de cas. A la lumière de cette étude de cas, nous avons montré que les hypothèses de recherche sont valides. / To remain competitive and to deal with the complexities of developing complex systems, it is necessary to have skilled and experienced system engineers on the labor market. As a result, system engineers, teachers and researchers must put in place strategies and didactic methodologies to prepare future systems engineers. The idea is to ensure engineering students with depth preparation for system engineering (SE) and a quasiprofessional expertise based on practical experiences. This thesis meets the need for student evaluation, to verify their knowledge of the processes of developing a complex system throughout its lifecycle. We are particularly interested in the problem of evaluating the knowledge acquired by learners during the active learning of the SE in a collaborative Elearning environment based on the knowledge acquisition approach. For this, we have developed and implemented our research as part of an E-learning project approach. This is a pedagogical approach that facilitates online learning of SE based on projects. We decided to pilot our E-learning environment with projects initiated from standard SE processes. We also conducted a formalization of these standardized processes by integrating SE competencies models to support the professional development of a system. During the learning phase, different students collaborate remotely. This sharing of information is generally based on formal or informal exchanges. The interest of the acquisition of this knowledge, resulting from written reports, feedback and rectified errors, is to help study and evaluate the experiences and activities of students to promote active learning and collaboration of the SE. Our proposal is a solution for the evaluation of acquired knowledge based on semantic tools. The solution is addressed to students and teachers of the platform. On the one side, it allows the monitoring and evaluation of students in an intelligent way. On the other side, it allows to support the teacher during the definition of his project. First, we present a mixed assessment method that combines reasoning from cases and process-mining to provide visual representations that help the teacher in his assessment process as well as the definition of his learning scenario. We use social network analysis techniques to study learner interactions. Then, we propose a semantic annotation process of student works. The purpose of this process is to guide the teacher in his assessment process. Furthermore, we introduce the concept of peer review in order to promote the reflexivity and self-confidence of learner. Finally, the different contributions are illustrated by a case study. Based on this case study, we show that the research hypotheses are valid. Apprentissage de IS Evaluation des connaissances E-apprentissage par projet Ontologies Modèle de compétences Fouille des données éducatives Systems engineering learning Knowledge Assessment Project-based E-learning Ontologies Competencies model Educational data mining
130	Fouille de données d'usage du Web : Contributions au prétraitement de logs Web Intersites et à l'extraction des motifs séquentiels avec un faible support Tanasa, Doru 03 June 2005 (has links) (PDF) Les quinze dernières années ont été marquées par une croissance exponentielle du domaine du Web tant dans le nombre de sites Web disponibles que dans le nombre d'utilisateurs de ces sites. Cette croissance a généré de très grandes masses de données relatives aux traces d'usage duWeb par les internautes, celles-ci enregistrées dans des fichiers logs Web. De plus, les propriétaires de ces sites ont exprimé le besoin de mieux comprendre leurs visiteurs afin de mieux répondre à leurs attentes. Le Web Usage Mining (WUM), domaine de recherche assez récent, correspond justement au processus d'extraction des connaissances à partir des données (ECD) appliqué aux données d'usage sur le Web. Il comporte trois étapes principales : le prétraitement des données, la découverte des schémas et l'analyse (ou l'interprétation) des résultats. Un processus WUM extrait des patrons de comportement à partir des données d'usage et, éventuellement, à partir d'informations sur le site (structure et contenu) et sur les utilisateurs du site (profils). La quantité des données d'usage à analyser ainsi que leur faible qualité (en particulier l'absence de structuration) sont les principaux problèmes en WUM. Les algorithmes classiques de fouille de données appliqués sur ces données donnent généralement des résultats décevants en termes de pratiques des internautes (par exemple des patrons séquentiels évidents, dénués d'intérêt). Dans cette thèse, nous apportons deux contributions importantes pour un processus WUM, implémentées dans notre bo^³te à outils AxisLogMiner. Nous proposons une méthodologie générale de prétraitement des logs Web et une méthodologie générale divisive avec trois approches (ainsi que des méthodes concrètes associées) pour la découverte des motifs séquentiels ayant un faible support. Notre première contribution concerne le prétraitement des données d'usage Web, domaine encore très peu abordé dans la littérature. L'originalité de la méthodologie de prétraitement proposée consiste dans le fait qu'elle prend en compte l'aspect multi-sites du WUM, indispensable pour appréhender les pratiques des internautes qui naviguent de fa»con transparente, par exemple, sur plusieurs sites Web d'une même organisation. Outre l'intégration des principaux travaux existants sur ce thème, nous proposons dans notre méthodologie quatre étapes distinctes : la fusion des fichiers logs, le nettoyage, la structuration et l'agrégation des données. En particulier, nous proposons plusieurs heuristiques pour le nettoyage des robots Web, des variables agrégées décrivant les sessions et les visites, ainsi que l'enregistrement de ces données dans un modèle relationnel. Plusieurs expérimentations ont été réalisées, montrant que notre méthodologie permet une forte réduction (jusqu'à 10 fois) du nombre des requêtes initiales et offre des logs structurés plus riches pour l'étape suivante de fouille de données. Notre deuxième contribution vise la découverte à partir d'un fichier log prétraité de grande taille, des comportements minoritaires correspondant à des motifs séquentiels de très faible support. Pour cela, nous proposons une méthodologie générale visant à diviser le fichier log prétraité en sous-logs, se déclinant selon trois approches d'extraction de motifs séquentiels au support faible (Séquentielle, Itérative et Hiérarchique). Celles-ci ont été implémentées dans des méthodes concrètes hybrides mettant en jeu des algorithmes de classification et d'extraction de motifs séquentiels. Plusieurs expérimentations, réalisées sur des logs issus de sites académiques, nous ont permis de découvrir des motifs séquentiels intéressants ayant un support très faible, dont la découverte par un algorithme classique de type Apriori était impossible. Enfin, nous proposons une boite à outils appelée AxisLogMiner, qui supporte notre méthodologie de prétraitement et, actuellement, deux méthodes concrètes hybrides pour la découverte des motifs séquentiels en WUM. Cette boite à outils a donné lieu à de nombreux prétraitements de fichiers logs et aussi à des expérimentations avec nos méthodes implémentées. Web usage mining (WUM) journaux d'accµes Web méthodologie WUM prétraitement WUM WUM multi-sites fouille de données Web fouille de données extraction des motifs séquentiels support faible classi¯cation non-supervisée méthodologie divisive boîte à outils WUM Apriori-GST AxisLogMiner

Search results