• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 157
  • 100
  • 33
  • 1
  • 1
  • Tagged with
  • 283
  • 193
  • 156
  • 118
  • 98
  • 93
  • 52
  • 50
  • 45
  • 44
  • 42
  • 41
  • 39
  • 39
  • 37
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
251

Confiance et risque pour engager un échange en milieu hostile / Trust and risk to exchange into hostil environment

Legrand, Véronique 19 June 2013 (has links)
De nos jours, l’échange électronique est le seul média qui offre l’accès à l’information pour tous, partout et tout le temps, mais en même temps il s’est ouvert à de nouvelles formes de vulnérabilités. La régulation des systèmes numériques, en héritage de la régulation cybernétique, maintient les équilibres à l’aide d’une boucle de rétroaction négative. Ainsi, leurs sys-tèmes de défense, désignés sous le terme de zone démilitarisée (DMZ) suivent-ils une régulation cybernétique en émettant ce que l’on appelle des évènements de sécurité. De tels évènements sont issus de sondes de surveillance qui matérialisent la ligne de dé-fense du système régulé. Toutefois, de telles sondes sont des système-experts et ces évènements appris au préalable ne rendent pas toujours compte de la dynamique de l’environnement et plus encore de la psychologie des individus. Plus encore, la multi-plication des systèmes de surveillance a entrainé une production considérable de ces évènements rendant cet ensemble de plus en plus inefficace. Par ailleurs, les systèmes vivants obéissent à une régulation complexe, l’homéostasie, qui les guide dans l’incertain à l’aide de mécanismes de surveillance continue. La force de tels mécanismes repose sur la variété des points de vue qu’ils empruntent ce qui leur permet de conjuguer leurs connaissances préalables à leurs informations de contexte pour comprendre leur environnement et s’adapter. Dans notre thèse, nous proposons d’associer à chaque système communicant, un sys-tème de surveillance continue : Dangerousness Incident Management (DIM) qui rend compte des changements de l’environnement en collectant et analysant toutes les traces laissées par les activités des usagers ou systèmes, légitimes ou non ; de cette manière, un tel système accède à une information étendue et reste sensible à son contexte. Néan-moins, plusieurs difficultés surviennent liées à la compréhension des informations re-cueillies dont le sens est noyé dans une grande masse d’informations, elles sont deve-nues implicites. Notre contribution principale repose sur un mécanisme de fouille de données adapté aux informations implicites. Nous proposons une structure à fort pou-voir d’abstraction fondée sur le principe d’un treillis de concepts. À partir de ce modèle de référence adaptatif, il nous est possible de représenter tous les acteurs d’un échange afin de faire coopérer plusieurs points de vue et plusieurs systèmes, qu’ils soient hu-mains ou machine. Lorsque l’incertitude de ces situations persiste, nous proposons un mécanisme pour guider l’usager dans ses décisions fondé sur le risque et la confiance. Enfin, nous évaluons nos résultats en les comparant aux systèmes de références Com-mon Vulnerabilities and Exposures (CVE) proposés par le National Institute of Stan-dards and Technology (NIST). / Nowadays, the electronic form of exchanges offers a new media able to make easy all information access, ubiquitous access, everywhere and everytime. But, at the same time, such a media - new, opened and complex - introduces unknown threats and breaches. So, how can we start up trust exchanges? From the system theory point of view, the cybernetic regulation maintains the sys-tems equilibrium with negative feedback loops. In this way, the defense line is based on a set of defense components still named Demilitarized Zone (DMZ) in order to block flow, to control anomalies and give out alerts messages if deviances are detected. Nev-ertheless, most of these messages concern only anomalies of machines and very little of human. So, messages do not take into account neither psychological behavior nor the dynamic of the context. Furthermore, messages suffer of the "big data" problem and become confused due to too much velocity, volume and variety. Finally, we can limit this problem to the understanding difficulty during the access to the specific knowledge in connection with the message. For example, the identity theft with the XSS attack is an illustration of this unfriendly environment. On the contrary, the living sciences show that organisms follow a positive regulation by where each one itself adapts according to his complexity. For that, they deploy adapted and continuous environment monitoring process still named "homeostasis". During this cycle, inputs capture information, then outputs adjust in response corre-sponding actions : this is the feedback. The strength of such a mechanism lies on the information meaning and in particular on the clues they include. In fact, some of these information include clues by which organisms can explain situations. For example, the information « attention" alludes to dangerous situation. This faculty comes from ad-vanced knowledge having first explicit relationship with this information: this relation forms what we call the "cognitive loop". To illustrate this phenomenon, the cognitive sciences often evoke "a friend immediately recognized by her friend" despite he is swal-lowed up in the crowd. But, the cognitive loop should not be broken. Like the living beings functioning, our work propose a cognitive model named Diag-nostic And Incident Model (DIM). The main idea lies on the context-aware model in order to adapt itself like "homeostasis". DIM has been founded on the principle of the "cognitive loop" where the inputs are the "logs" of numerics systems. So, in order to make easier the comparison between contextual and known situation, we will design "logs" and advanced knowledge by a common model. DIM proposes a conceptual struc-ture to extract clues from massive and various "logs” issued from environment based on advanced knowledge acquisition. Then, we propose the cognitive structure will be applied to the anomaly detection, incident management and diagnosis process.
252

Big data management for periodic wireless sensor networks / Gestion de données volumineuses dans les réseaux de capteurs périodiques

Medlej, Maguy 30 June 2014 (has links)
Les recherches présentées dans ce mémoire s’inscrivent dans le cadre des réseaux decapteurs périodiques. Elles portent sur l’étude et la mise en oeuvre d’algorithmes et de protocolesdistribués dédiés à la gestion de données volumineuses, en particulier : la collecte, l’agrégation etla fouille de données. L’approche de la collecte de données permet à chaque noeud d’adapter sontaux d’échantillonnage à l’évolution dynamique de l’environnement. Par ce modèle le suréchantillonnageest réduit et par conséquent la quantité d’énergie consommée. Elle est basée surl’étude de la dépendance de la variance de mesures captées pendant une même période voirpendant plusieurs périodes différentes. Ensuite, pour sauvegarder plus de l’énergie, un modèled’adpatation de vitesse de collecte de données est étudié. Ce modèle est basé sur les courbes debézier en tenant compte des exigences des applications. Dans un second lieu, nous étudions unetechnique pour la réduction de la taille de données massive qui est l’agrégation de données. Lebut est d’identifier tous les noeuds voisins qui génèrent des séries de données similaires. Cetteméthode est basée sur les fonctions de similarité entre les ensembles de mesures et un modèle defiltrage par fréquence. La troisième partie est consacrée à la fouille de données. Nous proposonsune adaptation de l’approche k-means clustering pour classifier les données en clusters similaires,d’une manière à l’appliquer juste sur les préfixes des séries de mesures au lieu de l’appliquer auxséries complètes. Enfin, toutes les approches proposées ont fait l’objet d’études de performancesapprofondies au travers de simulation (OMNeT++) et comparées aux approches existantes dans lalittérature. / This thesis proposes novel big data management techniques for periodic sensor networksembracing the limitations imposed by wsn and the nature of sensor data. First, we proposed anadaptive sampling approach for periodic data collection allowing each sensor node to adapt itssampling rates to the physical changing dynamics. It is based on the dependence of conditionalvariance of measurements over time. Then, we propose a multiple level activity model that usesbehavioral functions modeled by modified Bezier curves to define application classes and allowfor sampling adaptive rate. Moving forward, we shift gears to address the periodic dataaggregation on the level of sensor node data. For this purpose, we introduced two tree-based bilevelperiodic data aggregation techniques for periodic sensor networks. The first one look on aperiodic basis at each data measured at the first tier then, clean it periodically while conservingthe number of occurrences of each measure captured. Secondly, data aggregation is performedbetween groups of nodes on the level of the aggregator while preserving the quality of theinformation. We proposed a new data aggregation approach aiming to identify near duplicatenodes that generate similar sets of collected data in periodic applications. We suggested the prefixfiltering approach to optimize the computation of similarity values and we defined a new filteringtechnique based on the quality of information to overcome the data latency challenge. Last butnot least, we propose a new data mining method depending on the existing K-means clusteringalgorithm to mine the aggregated data and overcome the high computational cost. We developeda new multilevel optimized version of « k-means » based on prefix filtering technique. At the end,all the proposed approaches for data management in periodic sensor networks are validatedthrough simulation results based on real data generated by periodic wireless sensor network.
253

Automatic diagnosis of melanoma from dermoscopic images of melanocytic tumors : Analytical and comparative approaches / Automatic diagnosis of melanoma from digital images of melanocytic tumors : Analytical and comparative approaches

Wazaefi, Yanal 17 December 2013 (has links)
Le mélanome est la forme la plus grave de cancer de la peau. Cette thèse a contribué au développement de deux approches différentes pour le diagnostic assisté par ordinateur du mélanome : approche analytique et approche comparative.L'approche analytique imite le comportement du dermatologue en détectant les caractéristiques de malignité sur la base de méthodes analytiques populaires dans une première étape, et en combinant ces caractéristiques dans une deuxième étape. Nous avons étudié l’impacte d’un système du diagnostic automatique utilisant des images dermoscopique de lésions cutanées pigmentées sur le diagnostic de dermatologues. L'approche comparative, appelé concept du Vilain Petit Canard (VPC), suppose que les naevus chez le même patient ont tendance à partager certaines caractéristiques morphologiques ainsi que les dermatologues identifient quelques groupes de similarité. VPC est le naevus qui ne rentre dans aucune de ces groupes, susceptibles d'être mélanome. / Melanoma is the most serious type of skin cancer. This thesis focused on the development of two different approaches for computer-aided diagnosis of melanoma: analytical approach and comparative approach. The analytical approach mimics the dermatologist’s behavior by first detecting malignancy features based on popular analytical methods, and in a second step, by combining these features. We investigated to what extent the melanoma diagnosis can be impacted by an automatic system using dermoscopic images of pigmented skin lesions. The comparative approach, called Ugly Duckling (UD) concept, assumes that nevi in the same patient tend to share some morphological features so that dermatologists identify a few similarity clusters. UD is the nevus that does not fit into any of those clusters, likely to be suspicious. The goal was to model the ability of dermatologists to build consistent clusters of pigmented skin lesions in patients.
254

Étude comparative du vocabulaire de description de la danse dans les archives et du vocabulaire de représentation de la danse dans la littérature

Paquette-Bigras, Ève 03 1900 (has links)
Notre recherche s’insère dans la mouvance des humanités numériques; nous y faisons dialoguer les arts et les sciences de l’information. Depuis quelques décennies, la danse est un sujet d’études et de recherche à part entière. Il devient donc nécessaire de mieux décrire la danse dans les archives, sachant que la description en amont influe grandement sur l’accès en aval. Les méthodes d’extraction automatique de connaissances nous semblent offrir de nouvelles possibilités. L’objectif de notre recherche est de contribuer au développement d’outils de gestion de l’information dans les archives de la danse en comparant un vocabulaire de description de la danse dans les archives et un vocabulaire de représentation de la danse dans la littérature, recueilli grâce à des méthodes d’extraction automatique de connaissances, pour en distinguer une possible complémentarité, particulièrement en ce qui a trait au vocabulaire de l’expérience esthétique. D’abord, nous analysons un vocabulaire de description de la danse dans les archives. Nous décrivons certains outils de description des archives de la danse et nous analysons le thésaurus de descripteurs Collier. Nous constatons que le vocabulaire de description de la danse dans les archives ne semble pas prendre en compte l’expérience esthétique. Ensuite, nous analysons un vocabulaire de représentation de la danse dans la littérature. Un vocabulaire structuré de l’expérience esthétique de la danse moderne est ainsi extrait d’un corpus de textes de l’écrivain français Stéphane Mallarmé et analysé. Puis nous comparons les deux vocabulaires afin d'en distinguer la complémentarité quant à la description de l’expérience esthétique. Nous formulons une première suggestion d’amélioration de certains thésaurus employés dans les archives de la danse : un thésaurus au vocabulaire essentiellement factuel, comme le thésaurus de descripteurs Collier, peut être enrichi de termes à propos de l’expérience esthétique. Le vocabulaire de représentation de la danse dans la littérature est jusqu’à un certain point complémentaire au vocabulaire de description de l’expérience esthétique de la danse dans les archives. Nous menons ainsi une première expérimentation qui justifie en partie la pertinence de certaines méthodes d’extraction de connaissances dans le développement et la maintenance de ressources documentaires pour le domaine des arts d’interprétation tels que la danse. / This research falls within the field of digital humanities; arts and information science engage in dialogue. In the last few decades, dance has become a distinct research subject. Dance description in archives needs to be improved, because the quality of the description impacts access to the documentation. Knowledge extraction seems to offer new opportunities in this regard. The goal of this research is to contribute to the development of information management tools by comparing a vocabulary for describing dance in archives with a vocabulary for representing dance in literature obtained through knowledge extraction. We look for possible complementarity, particularly in regard to the aesthetic experience. First, some tools for describing dance in archives are described, and the Collier Descriptor Thesaurus is analyzed. We observe that this vocabulary for describing dance in archives does not take into account aesthetic experience. Second, a vocabulary for representing dance in literature is analyzed. More specifically, a structured vocabulary of aesthetic experience of modern dance is drawn from a corpus of texts from the French writer Stéphane Mallarmé, and the vocabulary obtained is analyzed. Finally, the two vocabularies are compared to consider their complementarity. We conclude that some vocabularies for describing dance in archives, consisting mainly of factual terms, such as the Collier Descriptor Thesaurus, can be enriched with terms related to aesthetic experience. The vocabulary for representing dance in literature complements to a certain extent the vocabulary for describing dance in archives. Thus this initial experiment supports the relevance of knowledge extraction in information resources maintenance and development for performing arts such as dance. / Diese Arbeit beschäftigt sich mit dem Fachgebiet der Digital Humanities und verbindet dabei Kunst mit informationswissenschaftlichen Methoden. In den letzten Jahrzehnten ist Tanz ein eigenständiges Forschungsgebiet geworden. Da sich die Qualität der Beschreibung direkt auf den Zugang zu Dokumenten im Archiv auswirkt, bedarf die Beschreibung von Tanz in Archiven Verbesserung. Ziel der Forschung ist es zur Entwicklung von Informationsverwaltungs-Tools beizutragen, indem das Vokabular der Beschreibung von Tanz im Archiv mit Vokabular aus der Literatur, extrahiert aus textuellen Datenbanken, verglichen wird. Dabei liegt der Fokus auf der Komplementarität beider Quellen, besonders in Bezug auf die Beschreibung von ästhetischen Erfahrungen. Zunächst werden Tools für die Beschreibung von Tanz in Archiven beschrieben und der Collier Descriptor Thesaurus analysiert. Dabei zeigt sich, dass das Vokabular der Tanz-Beschreibung im Archiv ästhetische Erfahrung generell nicht berücksichtigt. Daraufhin wird das Vokabular der Tanz-Darstellung in der Literatur am Beispiel der Text-Sammlung des franzözischen Dichters Stéphane Mallarmé analysiert. Im Anschluss werden die zwei Wortschätze verglichen, um die Komplementarität beider Quellen zu beschreiben. Die Arbeit kommt zu dem Schluss, dass das Vokabular der Tanz-Beschreibung im Archiv hauptsächlich aus sachbezogenen Begriffen besteht (z.B. der Collier Descriptor Thesaurus), welche um Begriffe zur ästhetischen Erfahrung ergänzt werden können. Die Begriffe für die Tanz-Beschreibung in der Literatur komplementieren bis zu einem gewissen Grad das Vokabular der Tanz-Beschreibung im Archiv. Demzufolge bildet diese Arbeit eine Grundlage für weitere Forschung im Bereich der Wissensextraktion in textuellen Datenbanken im Fachgebiet darstellender Künste wie Tanz.
255

Extraction et sélection de motifs émergents minimaux : application à la chémoinformatique / Extraction and selection of minimal emerging patterns : application to chemoinformatics

Kane, Mouhamadou bamba 06 September 2017 (has links)
La découverte de motifs est une tâche importante en fouille de données. Cemémoire traite de l’extraction des motifs émergents minimaux. Nous proposons une nouvelleméthode efficace qui permet d’extraire les motifs émergents minimaux sans ou avec contraintede support ; contrairement aux méthodes existantes qui extraient généralement les motifs émergentsminimaux les plus supportés, au risque de passer à côté de motifs très intéressants maispeu supportés par les données. De plus, notre méthode prend en compte l’absence d’attributqui apporte une nouvelle connaissance intéressante.En considérant les règles associées aux motifs émergents avec un support élevé comme desrègles prototypes, on a montré expérimentalement que cet ensemble de règles possède unebonne confiance sur les objets couverts mais malheureusement ne couvre pas une bonne partiedes objets ; ce qui constitue un frein pour leur usage en classification. Nous proposons uneméthode de sélection à base de prototypes qui améliore la couverture de l’ensemble des règlesprototypes sans pour autant dégrader leur confiance. Au vu des résultats encourageants obtenus,nous appliquons cette méthode de sélection sur un jeu de données chimique ayant rapport àl’environnement aquatique : Aquatox. Cela permet ainsi aux chimistes, dans un contexte declassification, de mieux expliquer la classification des molécules, qui sans cette méthode desélection serait prédites par l’usage d’une règle par défaut. / Pattern discovery is an important field of Knowledge Discovery in Databases.This work deals with the extraction of minimal emerging patterns. We propose a new efficientmethod which allows to extract the minimal emerging patterns with or without constraint ofsupport ; unlike existing methods that typically extract the most supported minimal emergentpatterns, at the risk of missing interesting but less supported patterns. Moreover, our methodtakes into account the absence of attribute that brings a new interesting knowledge.Considering the rules associated with emerging patterns highly supported as prototype rules,we have experimentally shown that this set of rules has good confidence on the covered objectsbut unfortunately does not cover a significant part of the objects ; which is a disavadntagefor their use in classification. We propose a prototype-based selection method that improvesthe coverage of the set of the prototype rules without a significative loss on their confidence.We apply our prototype-based selection method to a chemical data relating to the aquaticenvironment : Aquatox. In a classification context, it allows chemists to better explain theclassification of molecules, which, without this method of selection, would be predicted by theuse of a default rule.
256

Job dissatisfaction detection through progress note

Wu, Jiechen 11 1900 (has links)
La détection d'insatisfaction basée sur les notes de progression rédigées par des soignants de la santé domestique attire de plus en plus d'attention en tant que méthode de sondage, ce qui aidera à réduire le taux de rotation du personnel soignant. Nous proposons d'étudier la détection d'insatisfaction du soignant comme un problème de classification binaire (le soignant est susceptible de quitter ou pas). Dans ce mémoire, les données réelles de six mois recueillies à partir de deux agences de soins à domicile sont utilisées. Après avoir montré la nature des données et le prétraitement des données, trois tâches de classification avec des granularités d'échantillonnage différentes (par note, par période et par soignant) sont conçues et abordées. Différentes combinaisons d'hyper-paramètres d'étiquetage sont soigneusement testées. Différentes méthodes de découpage sont couvertes pour montrer les limites des performances théoriques des modèles. L'aire sous la courbe ROC est utilisée pour évaluer les limites des approches mises en place que nous aurons mis en place. Les 6 ensembles d'attributs textuels et statistiques sont comparées. Enfin, les caractéristiques importantes des résultats sont analysées manuellement et automatiquement. Nous montrons que les modèles fonctionnent mieux "par note" et "par période" que "par soignant" en termes de classification des notes. L'analyse manuelle montre que les modèles capturent les facteurs d'insatisfaction bien qu'il y en ait assez peu. L'analyse automatique n'exprime cependant aucune information utile. / Dissatisfaction detection based on the home health caregiver's progress note draws more and more attention as a probing method, which will help lower down the turnover rate. We propose to study the detection of dissatisfaction of health caregiver as a binary classification problem (the caregiver is likely to "leave" or "stay"). In this master thesis, the real six-month data collected from two home care agencies are used. After showing the nature of the data and the prepossessing of data, three classification tasks with different sample granularity (note wise, period wise and employee wise) are designed and tackled. Different combinations of labeling hyper-parameters are tested thoroughly. Different split methods are covered to show the theoretical performance boundaries of the models. The under the ROC curve area (AUC) scores are reported to show the description ability of each model. The 6 sets of textual and statistical features' performance are compared. Lastly, the important features from the results are analyzed manually and automatically. We show that models work better on note wise and period wise than employee wise in terms of classifying the notes. The result of manual analysis shows the models capture the dissatisfaction factors, although there are quite few. The result of automatic analysis doesn't show any useful information.
257

Sparsity-sensitive diagonal co-clustering algorithms for the effective handling of text data

Ailem, Melissa 18 November 2016 (has links)
Dans le contexte actuel, il y a un besoin évident de techniques de fouille de textes pour analyser l'énorme quantité de documents textuelles non structurées disponibles sur Internet. Ces données textuelles sont souvent représentées par des matrices creuses (sparses) de grande dimension où les lignes et les colonnes représentent respectivement des documents et des termes. Ainsi, il serait intéressant de regrouper de façon simultanée ces termes et documents en classes homogènes, rendant ainsi cette quantité importante de données plus faciles à manipuler et à interpréter. Les techniques de classification croisée servent justement cet objectif. Bien que plusieurs techniques existantes de co-clustering ont révélé avec succès des blocs homogènes dans plusieurs domaines, ces techniques sont toujours contraintes par la grande dimensionalité et la sparsité caractérisant les matrices documents-termes. En raison de cette sparsité, plusieurs co-clusters sont principalement composés de zéros. Bien que ces derniers soient homogènes, ils ne sont pas pertinents et doivent donc être filtrés en aval pour ne garder que les plus importants. L'objectif de cette thèse est de proposer de nouveaux algorithmes de co-clustering conçus pour tenir compte des problèmes liés à la sparsité mentionnés ci-dessus. Ces algorithmes cherchent une structure diagonale par blocs et permettent directement d'identifier les co-clusters les plus pertinents, ce qui les rend particulièrement efficaces pour le co-clustering de données textuelles. Dans ce contexte, nos contributions peuvent être résumées comme suit: Tout d'abord, nous introduisons et démontrons l'efficacité d'un nouvel algorithme de co-clustering basé sur la maximisation directe de la modularité de graphes. Alors que les algorithmes de co-clustering existants qui se basent sur des critères de graphes utilisent des approximations spectrales, l'algorithme proposé utilise une procédure d'optimisation itérative pour révéler les co-clusters les plus pertinents dans une matrice documents-termes. Par ailleurs, l'optimisation proposée présente l'avantage d'éviter le calcul de vecteurs propres, qui est une tâche rédhibitoire lorsque l'on considère des données de grande dimension. Ceci est une amélioration par rapport aux approches spectrales, où le calcul des vecteurs propres est nécessaire pour effectuer le co-clustering. Dans un second temps, nous utilisons une approche probabiliste pour découvrir des structures en blocs homogènes diagonaux dans des matrices documents-termes. Nous nous appuyons sur des approches de type modèles de mélanges, qui offrent de solides bases théoriques et une grande flexibilité qui permet de découvrir diverses structures de co-clusters. Plus précisément, nous proposons un modèle de blocs latents parcimonieux avec des distributions de Poisson sous contraintes. De façon intéressante, ce modèle comprend la sparsité dans sa formulation, ce qui le rend particulièrement adapté aux données textuelles. En plaçant l'estimation des paramètres de ce modèle dans le cadre du maximum de vraisemblance et du maximum de vraisemblance classifiante, quatre algorithmes de co-clustering ont été proposées, incluant une variante dure, floue, stochastique et une quatrième variante qui tire profit des avantages des variantes floue et stochastique simultanément. Pour finir, nous proposons un nouveau cadre de fouille de textes biomédicaux qui comprend certains algorithmes de co-clustering mentionnés ci-dessus. Ce travail montre la contribution du co-clustering dans une problématique réelle de fouille de textes biomédicaux. Le cadre proposé permet de générer de nouveaux indices sur les résultats retournés par les études d'association pan-génomique (GWAS) en exploitant les abstracts de la base de données PUBMED. (...) / In the current context, there is a clear need for Text Mining techniques to analyse the huge quantity of unstructured text documents available on the Internet. These textual data are often represented by sparse high dimensional matrices where rows and columns represent documents and terms respectively. Thus, it would be worthwhile to simultaneously group these terms and documents into meaningful clusters, making this substantial amount of data easier to handle and interpret. Co-clustering techniques just serve this purpose. Although many existing co-clustering approaches have been successful in revealing homogeneous blocks in several domains, these techniques are still challenged by the high dimensionality and sparsity characteristics exhibited by document-term matrices. Due to this sparsity, several co-clusters are primarily composed of zeros. While homogeneous, these co-clusters are irrelevant and must be filtered out in a post-processing step to keep only the most significant ones. The objective of this thesis is to propose new co-clustering algorithms tailored to take into account these sparsity-related issues. The proposed algorithms seek a block diagonal structure and allow to straightaway identify the most useful co-clusters, which makes them specially effective for the text co-clustering task. Our contributions can be summarized as follows: First, we introduce and demonstrate the effectiveness of a novel co-clustering algorithm based on a direct maximization of graph modularity. While existing graph-based co-clustering algorithms rely on spectral relaxation, the proposed algorithm uses an iterative alternating optimization procedure to reveal the most meaningful co-clusters in a document-term matrix. Moreover, the proposed optimization has the advantage of avoiding the computation of eigenvectors, a task which is prohibitive when considering high dimensional data. This is an improvement over spectral approaches, where the eigenvectors computation is necessary to perform the co-clustering. Second, we use an even more powerful approach to discover block diagonal structures in document-term matrices. We rely on mixture models, which offer strong theoretical foundations and considerable flexibility that makes it possible to uncover various specific cluster structure. More precisely, we propose a rigorous probabilistic model based on the Poisson distribution and the well known Latent Block Model. Interestingly, this model includes the sparsity in its formulation, which makes it particularly effective for text data. Setting the estimate of this model’s parameters under the Maximum Likelihood (ML) and the Classification Maximum Likelihood (CML) approaches, four co-clustering algorithms have been proposed, including a hard, a soft, a stochastic and a fourth algorithm which leverages the benefits of both the soft and stochastic variants, simultaneously. As a last contribution of this thesis, we propose a new biomedical text mining framework that includes some of the above mentioned co-clustering algorithms. This work shows the contribution of co-clustering in a real biomedical text mining problematic. The proposed framework is able to propose new clues about the results of genome wide association studies (GWAS) by mining PUBMED abstracts. This framework has been tested on asthma disease and allowed to assess the strength of associations between asthma genes reported in previous GWAS as well as discover new candidate genes likely associated to asthma. In a nutshell, while several text co-clustering algorithms already exist, their performance can be substantially increased if more appropriate models and algorithms are available. According to the extensive experiments done on several challenging real-world text data sets, we believe that this thesis has served well this objective.
258

Combinaison de l’Internet des objets, du traitement d’évènements complexes et de la classification de séries temporelles pour une gestion proactive de processus métier / Combining the Internet of things, complex event processing, and time series classification for a proactive business process management.

Mousheimish, Raef 27 October 2017 (has links)
L’internet des objets est au coeur desprocessus industriels intelligents grâce à lacapacité de détection d’évènements à partir dedonnées de capteurs. Cependant, beaucoup resteà faire pour tirer le meilleur parti de cettetechnologie récente et la faire passer à l’échelle.Cette thèse vise à combler le gap entre les fluxmassifs de données collectées par les capteurs etleur exploitation effective dans la gestion desprocessus métier. Elle propose une approcheglobale qui combine le traitement de flux dedonnées, l’apprentissage supervisé et/oul’utilisation de règles sur des évènementscomplexes permettant de prédire (et doncéviter) des évènements indésirables, et enfin lagestion des processus métier étendue par cesrègles complexes.Les contributions scientifiques de cette thèse sesituent dans différents domaines : les processusmétiers plus intelligents et dynamiques; letraitement d’évènements complexes automatisépar l’apprentissage de règles; et enfin et surtout,dans le domaine de la fouille de données deséries temporelles multivariéespar la prédiction précoce de risques.L’application cible de cette thèse est le transportinstrumenté d’oeuvres d’art / Internet of things is at the core ofsmart industrial processes thanks to its capacityof event detection from data conveyed bysensors. However, much remains to be done tomake the most out of this recent technologyand make it scale. This thesis aims at filling thegap between the massive data flow collected bysensors and their effective exploitation inbusiness process management. It proposes aglobal approach, which combines stream dataprocessing, supervised learning and/or use ofcomplex event processing rules allowing topredict (and thereby avoid) undesirable events,and finally business process managementextended to these complex rules. The scientificcontributions of this thesis lie in several topics:making the business process more intelligentand more dynamic; automation of complexevent processing by learning the rules; and lastand not least, in datamining for multivariatetime series by early prediction of risks. Thetarget application of this thesis is theinstrumented transportation of artworks.
259

Fouille de Sous-graphes Basée sur la Topologie et la Connaissance du Domaine: Application sur les Structures 3D de Protéines

Dhifli, Wajdi 11 December 2013 (has links) (PDF)
Cette thèse est à l'intersection de deux domaines de recherche en plein expansion, à savoir la fouille de données et la bio-informatique. Avec l'émergence des bases de graphes au cours des dernières années, de nombreux efforts ont été consacrés à la fouille des sous-graphes fréquents. Mais le nombre de sous-graphes fréquents découverts est exponentiel, cela est due principalement à la nature combinatoire des graphes. Beaucoup de sous-graphes fréquents ne sont pas pertinents parce qu'ils sont redondants ou tout simplement inutiles pour l'utilisateur. En outre, leur nombre élevé peut nuire ou même rendre parfois irréalisable toute utilisation ultérieure. La redondance dans les sous-graphes fréquents est principalement due à la similarité structurelle et / ou sémantique, puisque la plupart des sous-graphes découverts diffèrent légèrement dans leur structures et peuvent exprimer des significations similaires ou même identiques. Dans cette thèse, nous proposons deux approches de sélection des sous-graphes représentatifs parmi les fréquents a n d'éliminer la redondance. Chacune des approches proposées s'intéresse à un type spécifique de redondance. La première approche s'adresse à la redondance sémantique où la similarité entre les sous-graphes est mesurée en fonction de la similarité entre les étiquettes de leurs nœuds, en utilisant les connaissances de domaine. La deuxième approche s'adresse à la redondance structurelle où les sous-graphes sont représentés par des descripteurs topologiques définis par l'utilisateur, et la similarité entre les sous-graphes est mesurée en fonction de la distance entre leurs descriptions topologiques respectives. Les principales données d'application de cette thèse sont les structures 3D des protéines. Ce choix repose sur des raisons biologiques et informatiques. D'un point de vue biologique, les protéines jouent un rôle crucial dans presque tous les processus biologiques. Ils sont responsables d'une variété de fonctions physiologiques. D'un point de vue informatique, nous sommes intéressés à la fouille de données complexes. Les protéines sont un exemple parfait de ces données car elles sont faites de structures complexes composées d'acides aminés interconnectés qui sont eux-mêmes composées d'atomes interconnectés. Des grandes quantités de structures protéiques sont actuellement disponibles dans les bases de données en ligne. Les structures 3D des protéines peuvent être transformées en graphes où les acides aminés représentent les nœuds du graphe et leurs connexions représentent les arêtes. Cela permet d'utiliser des techniques de fouille de graphes pour les étudier. L'importance biologique des protéines et leur complexité ont fait d'elles des données d'application appropriées pour cette thèse.
260

Le repérage automatique des entités nommées dans la langue arabe : vers la création d'un système à base de règles

Zaghouani, Wajdi January 2009 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.

Page generated in 0.0529 seconds