31 |
Détection et caractérisation massives de phénomènes sismologiques pour la surveillance d'événements traditionnels et la recherche systématique de phénomènes rares / Large-scale detection and characterization of seismological phenomena for the monitoring of traditional seismic events and systematic data-mining of rare phenomenaLanget, Nadège 09 December 2014 (has links)
La multiplication du nombre de réseaux sismiques fait exploser le nombre de données sismologiques. Manuellement, leur traitement est long et fastidieux, d'où la nécessité d'automatiser la détection, la classification et la localisation des événements pour aider les observatoires qui surveillent continuellement la sismicité, mais aussi, dans un intérêt plus scientifique, rechercher et caractériser les phénomènes. La thèse se décompose en 2 axes majeurs : (1) la détection / localisation des séismes, avec le logiciel Waveloc. On a amélioré les outils pré-existants, ajouté de nouvelles fonctionnalités pour une analyse plus détaillée de la sismicité et validé le code avec les données du Piton de la Fournaise ; (2) la classification des séismes. Après calcul des attributs décrivant au mieux les signaux, on a démontré l'efficacité de 2 méthodes d'apprentissage supervisé (régression logistique et SVM) pour le Piton de la Fournaise et soulevé les difficultés pour un cas plus complexe (le Kawah Ijen). / For some time now the quantity of available seismological data has kept increasing. Manually, their processing is long and tedious. Then, the automation of the detection, location and classification of seismic events has become necessary and aims to help the local observatories and to search and characterize some rarer or not well-known phenomena. The work is divided into 2 main directions : (1) the detection and location of seismic events with the Waveloc software (we improved the pre-existing tools, added some new functions for a more detailed analysis of the seimicity and applied the code to data from the Piton de la Fournaise volcano) ; (2) their classification (after computing the seismic attributes, we proved the efficiency and reliability of 2 supervised learning methods - logistic regression and SVM - for the Piton de la Fournaise volcano, underlined the difficulties for a more complex case - the Kawah Ijen volcano - and tried to apply new strategies).
|
32 |
Modèles de mémoires d'entreprise avec intégration automatique d'informations / Organizational memories models with automatic integration of informationsBascans, Jérémy 06 October 2017 (has links)
Aujourd'hui, les entreprises manipulent de gros volumes d'information qui ne cessent d'augmenter, toujours plus complexes et hétérogènes, autant dans leurs contenus que dans leurs structures. Ces informations, vitales pour le fonctionnement de ces entreprises, représentent aussi un capital de connaissances qui est souvent peu exploité. De ce fait, une attention particulière est portée aux systèmes de Mémoire d'Entreprise (ME). Ces mémoires ont pour objectif de capitaliser les informations produites et échangées par tous les acteurs internes et externes (Système d'Information (SI), employés, clients, fournisseurs, etc...) de l'entreprise dans le but de les représenter, de les partager et d'aider à la prise de décision collaborative. Les informations organisées, partagées et réutilisées, deviennent ainsi des connaissances organisationnelles. L'implantation d'une telle mémoire demande une forte implication de tous les acteurs en impactant directement leurs tâches et en nécessitant des modifications de leur SI. Dans ce contexte, l'objectif de cette thèse est de permettre la capitalisation automatique des informations en organisant, représentant et contextualisant automatiquement au mieux les informations, afin qu'elles puissent être partagées puis exploitées tout en limitant au maximum l'effort des acteurs. En plus d'impliquer les acteurs, les recherches actuelles se limitent souvent à des solutions spécifiques aux types d'entreprises et de mémoires. Afin de contribuer à lever ces limitations, nous proposons une approche de " Mémoire d'Entreprise Adaptative avec Intégration Automatique des Informations ", basée sur un réseau hétérogène étendu. Un premier niveau de cette approche propose un méta-modèle de ME corrélé à un processus d'intégration automatique des informations indépendant du type d'entreprise, du métier et ses acteurs. Afin d'aider tout type d'entreprise à construire sa ME à partir du méta- modèle, nous proposons, à un second niveau, un modèle générique et extensible lié à un algorithme d'intégration automatique des informations, nommé MEIAI pour Mémoire d'Entreprise avec Intégration Automatique des Informations. Ce modèle MEIAI a été implémenté et validé dans sa capacité à intégrer automatiquement de nouvelles informations d'une manière pertinente. Parce que Wikipédia est un important vecteur de connaissance basé sur la création collaborative véhiculant des valeurs de partage très fortes, nous avons choisi d'évaluer la capacité de notre prototype à organiser l'information de la même manière que lui. L'évaluation concerne le processus d'appariement automatique d'informations dont l'objectif est d'associer de manière intelligible, dans un cadre général non déterministe, les informations entre elles dans la mémoire. Pour ce faire, nous avons dans un premier temps évalué et comparé notre approche en liant des documents à des sujets d'intérêts de manière similaire à Wikipédia pour comparer les similarités et dissimilarités entre eux. Dans un second temps, nous avons procédé à une étude détaillée des dissimilarités au travers d'une évaluation par l'homme de l'organisation de l'information au sein de notre ME et de son intégration automatique. / Today, companies manipulate large volumes of information that are constantly increasing, always more complex and heterogeneous, in their content and their structures. This information, necessary for these enterprises' operation, represents a knowledge capital often not exploited. As a result, special attention is given to Organizational Memory (OM) systems. The purpose of these memories is to capitalize the information produced and exchanged by the internal and external actors (Information System (IS), employees, customers, suppliers, etc.) of the company with the aim of representing and sharing them while helping collaborative decision-making. Thereby organized, shared and reused information becomes organizational knowledge. The implementation of this memory requires a strong involvement of all stakeholders by directly impacting their tasks and requiring changes to their IS. In this context, this thesis objective is to enable the automatic capitalization of information by automatically organizing, representing and contextualizing the information so that they can be shared and exploited while minimizing the stakeholders' effort. In addition to involving stakeholders, current research is often limited to solutions specific to the companies and memories types. To help overcome these limitations, we propose an " Adaptive Organizational Memory with Automatic Integration of Information process ", based on an extended heterogeneous network. A first level of this approach proposes a meta-model of OM correlated to a process of automatic integration of information independent of the company type, the job and its stakeholders. In order to help any type of company to build its OM from the meta-model, we propose, at a second level, a generic and extensible model linked to an algorithm of automatic integration of the information, named OMAII for Organizational Memory with Automatic Integration of Information process. This OMAII model has been implemented and validated in its ability to automatically integrate new information in a relevant way. Because Wikipedia is an important vector of knowledge based on the collaborative creation based on very strong values of sharing, we chose to evaluate the capacity of our prototype to organize the information in the same way. The evaluation concerns the automatic information matching process of which the purpose is to intelligibly associate the information with each other in the memory in a non-deterministic general framework. To do this, we first evaluated and compared our approach by linking documents to interest subjects in a similar way to Wikipedia to compare similarities and dissimilarities between them. In a second step, we conducted a detailed study of the dissimilarities through a human evaluation of the information organization within our OM and its automatic integration.
|
33 |
Time series representation for classification : a motif-based approach / Représentation de séries temporelles pour la classification : une approche basée sur la découverte automatique de motifsRenard, Xavier 15 September 2017 (has links)
Nos travaux décrits dans cette thèse portent sur l’apprentissage d’une représentation pour la classification automatique basée sur la découverte de motifs à partir de séries temporelles. L’information pertinente contenue dans une série temporelle peut être encodée temporellement sous forme de tendances, de formes ou de sous-séquences contenant habituellement des distorsions. Des approches ont été développées pour résoudre ces problèmes souvent au prix d’une importante complexité calculatoire. Parmi ces techniques nous pouvons citer les mesures de distance et les représentations de l’information contenue dans les séries temporelles. Nous nous concentrons sur la représentation de l’information contenue dans les séries temporelles. Nous proposons un cadre (framework) pour générer une nouvelle représentation de séries temporelles basée sur la découverte automatique d’ensembles discriminants de sous-séquences. Cette représentation est adaptée à l’utilisation d’algorithmes de classification classiques basés sur des attributs. Le framework proposé transforme un ensemble de séries temporelles en un espace d’attributs (feature space) à partir de sous-séquences énumérées des séries temporelles, de mesures de distance et de fonctions d’agrégation. Un cas particulier de ce framework est la méthode notoire des « shapelets ». L’inconvénient potentiel d’une telle approache est le nombre très important de sous-séquences à énumérer en ce qu’il induit un très grand feature space, accompagné d’une très grande complexité calculatoire. Nous montrons que la plupart des sous-séquences présentes dans un jeu de données composé de séries temporelles sont redondantes. De ce fait, un sous-échantillonnage aléatoire peut être utilisé pour générer un petit sous-ensemble de sous-séquences parmi l’ensemble exhaustif, en préservant l’information nécessaire pour la classification et tout en produisant un feature space de taille compatible avec l’utilisation d’algorithmes d’apprentissage automatique de l’état de l’art avec des temps de calculs raisonnable. On démontre également que le nombre de sous-séquences à tirer n’est pas lié avec le nombre de séries temporelles présent dans l’ensemble d’apprentissage, ce qui garantit le passage à l’échelle de notre approche. La combinaison de cette découverte dans le contexte de notre framework nous permet de profiter de techniques avancées (telles que des méthodes de sélection d’attributs multivariées) pour découvrir une représentation de séries temporelles plus riche, en prenant par exemple en considération les relations entre sous-séquences. Ces résultats théoriques ont été largement testés expérimentalement sur une centaine de jeux de données classiques de la littérature, composés de séries temporelles univariées et multivariées. De plus, nos recherches s’inscrivant dans le cadre d’une convention de recherche industrielle (CIFRE) avec Arcelormittal, nos travaux ont été appliqués à la détection de produits d’acier défectueux à partir des mesures effectuées par les capteurs sur des lignes de production. / Our research described in this thesis is about the learning of a motif-based representation from time series to perform automatic classification. Meaningful information in time series can be encoded across time through trends, shapes or subsequences usually with distortions. Approaches have been developed to overcome these issues often paying the price of high computational complexity. Among these techniques, it is worth pointing out distance measures and time series representations. We focus on the representation of the information contained in the time series. We propose a framework to generate a new time series representation to perform classical feature-based classification based on the discovery of discriminant sets of time series subsequences (motifs). This framework proposes to transform a set of time series into a feature space, using subsequences enumerated from the time series, distance measures and aggregation functions. One particular instance of this framework is the well-known shapelet approach. The potential drawback of such an approach is the large number of subsequences to enumerate, inducing a very large feature space and a very high computational complexity. We show that most subsequences in a time series dataset are redundant. Therefore, a random sampling can be used to generate a very small fraction of the exhaustive set of subsequences, preserving the necessary information for classification and thus generating a much smaller feature space compatible with common machine learning algorithms with tractable computations. We also demonstrate that the number of subsequences to draw is not linked to the number of instances in the training set, which guarantees the scalability of the approach. The combination of the latter in the context of our framework enables us to take advantage of advanced techniques (such as multivariate feature selection techniques) to discover richer motif-based time series representations for classification, for example by taking into account the relationships between the subsequences. These theoretical results have been extensively tested on more than one hundred classical benchmarks of the literature with univariate and multivariate time series. Moreover, since this research has been conducted in the context of an industrial research agreement (CIFRE) with Arcelormittal, our work has been applied to the detection of defective steel products based on production line's sensor measurements.
|
34 |
Les facteurs de risque des désordres temporo-mandibulairesVelly, Ana Míriam 06 1900 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal. / Les désordres temporo-mandibulaires (DTM), un défi pour la médecine dentaire, forment un ensemble de sous-désordres, qui comprennent entre autres la douleur myofasciale (DMF) et le déplacement du disque (DD). Ces désordres peuvent causer de la douleur au niveau des muscles masticatoires ou au niveau de l'articulation temporo-mandibulaire (ATM), un bruit articulaire accompagnant les mouvements de la mâchoire et/ou la limitation des mouvements mandibulaires. Jusqu' à ce jour, plusieurs études ont essayé, mais sans succès, d'identifier les facteurs de risque des DTM. La majorité de ces études soulèvent des doutes quant à la méthodologie de sélection des sujets et aux méthodes d'analyse. L'inconsistance de la classification des DTM, causée par les difficultés associées à leur hétérogénéité et par le chevauchement des signes et symptômes, est une autre explication possible des controverses entourant les facteurs de associés avec l'occurrence des DTM. La présente thèse est centrée sur deux problématiques : l'étiologie des DTM et le processus de classification de ces désordres. Pour la première problématique, cette thèse identifiera les facteurs de risque des DTM et de leurs sous-groupes avec une méthodologie plus appropriée. Pour le deuxième objectif d'améliorer la classification des DTM, cette thèse utilisera une méthode de classification automatique, qui permit l'inclusion d'un bon nombre de variables importantes, qui généralement sont exclues de la classification clinique. La première étude de cette thèse, l'article l, a été élaborée pour identifier les facteurs associés à l'occurrence et à la chronicité des DTM. Pour atteindre cet objectif, les patients atteints de DTM ont été sélectionnés dans deux cliniques dentaires et les témoins dans une seule, par la même dentiste. Les patients atteints de DTM ont été classés en fonction du moment de l'apparition des DTM : cas incidents (un an ou moins) et cas prévalents (plus d'un an), respectivement, pour identifier les facteurs associés à l'occurrence et à la chronicité des DTM. Cette étude a identifié le serrement sans grincement et le serrement combiné au grincement des dents, ainsi que le traumatisme, comme des facteurs associés à l'occurrence des DTM. L'âge et le sexe ont été les facteurs spécifiques de la chronicité. L'identification des facteurs de risque pour la DMF a été l'objectif du deuxième article. L'effet des facteurs psychologiques sur les autres facteurs de risque a été évalué. Le serrement avec ou sans grincement, le traumatisme, l'anxiété et la dépression, jouent un rôle dans l'occurrence de la DMF. La chronicité de ces désordres semble être associée aux femmes. La troisième étude de cette thèse a comme objectif d'identifier les facteurs de risque pour un autre groupe de DTM : le DD. Les résultats de cette étude montrent que le serrement de dents quand il est combiné au grincement des dents, les traitements orthodontiques et l'anxiété, sont associés au DD. Tous ces résultats suggèrent que le serrement, sans grincement ou combiné au grincement des dents, et la dépression entraînent des désordres musculaires plutôt qu'articulaires. J La quatrième étude, dans le but d'améliorer la classification des sujets atteints de DTM, a utilisé la méthode de classification automatique, qui fait appel au coefficient de Gower et à la méthode de Ward, pour discriminer davantage entre les patients qui présentent les DTM. Cette étude, qui utilise comme variables les signes, les symptômes et les interférences avec la vie causés par les DTM pour classer les patients, a identifié quatre sous-groupes de patients atteints de DTM qui se distinguent par la valeur de ces variables. Le groupe l et le groupe 2 ont des désordres plutôt articulaires que musculaires, se différenciant par la généralisation du désordre et de l'interférence causée par la condition. Le groupe 3 semble être atteint, comme le groupe l, d'un désordre plus généralisé, mais plus musculaire qu'articulaire. Le groupe 4 est caractérisé par des désordres articulaires avec une certaine interférence avec la vie, mais sans la douleur. Les effets dans la vie quotidienne, ainsi que l'état de dépression et de tension, sont plus prononcés chez les patients des groupes l et 3. Le serrement des dents combiné au grincement a été associé aux groupes l et3 où il y avait plus de douleur musculaire généralisée. Aussi, les facteurs psychologiques ont été plus associés aux groupes où il y avait une histoire de dépression ou de tension causée par la condition, ainsi qu'aux groupes avec désordres généralisés, sauf dans le cas du groupe 4. Le traitement orthodontique et le sexe féminin ont été associés spécifiquement au groupe 2, atteint de désordre articulaire localisé. La discussion générale de cette thèse inclut les résultats précédents, leur limitation, les forces, leur application thérapeutique. À la fin, elle propose un modèle étiologique alternatif.
|
35 |
Statistical learning applied to cardiology : discriminative clustering and aortic stenosis phenogroupsOhl, Louis 28 June 2024 (has links)
La sténose de la valve aortique (SA) est une maladie chronique progressive dont la prévalence risque de tripler dans les décennies à venir en Amérique du Nord et par conséquent ses impacts en santé et économie. À l'heure actuelle, aucun médicament contre la SA n'est disponible. La nécessité de pharmacothérapies adaptées pousse donc à l'exploration des différentes causes de la progression de la SA chez les patients. Bien qu'il existe déjà certaines sous-catégories de la SA, ces dernières sont difficiles à identifier et par conséquent à cibler par une thérapie. Afin de découvrir et identifier des causes potentielles de la SA, nous formulons la recherche de ces phénogroupes en tant que problème de partitionement. Le partitionnement est un problème issu du domaine d'apprentissage automatique consistant à répartir de multiples observations en groupes nommés clusters selon leurs similarités. Afin d'accompagner ce problème d'apprentissage automatique, nous utilisons l'étude sur le progression des déterminants métaboliques de la SA (étude PROGRESSA). L'étude PROGRESSA comprend trois modalités : clinicopathologique, protéomique et radiomique pour 351 patients avec suivi annuel. La structure de PROGRESSA est complexe : elle est de grande dimension avec des variables de natures différentes. De plus, les différentes modalités ne se recouvrent pas nécessairement. Dans ce contexte, nous formulons le problème de partitionnement à travers un prisme discriminatif, ce qui permet d'intégrer avec facilité des modèles d'apprentissage profond, notamment pour manipuler des données grande dimensions. Ces dernières années ont été marquées par l'arrivée de méthodes de partitionnement profonds, souvent basés sur la maximisation de l'information mutuellee. Cependant, les récents succès de ces méthodes sont souvent spécifique à un type unique de données et ne permettent donc pas d'anticiper leur applicabilité à un problème multi-source. Afin de construire une solution pour le problème de partitionnement multi-source, cette thèse s'orchestre autour du développement d'un ensemble de méthodes de clustering nommé information mutuelle généralisée (GEMINI) à partir du Chapitre 2. Cet ensemble de méthodes permet d'utiliser n'importe quelle architecture de réseau de neurones profonds sur des données de natures variées. Nous montrons également comment cette méthode peut être améliorée pour incorporer des méchanismes de sélections de vaiables afin de faciliter l'interprétation des clusters au Chapitre 3 : Sparse GEMINI. Puis nous complètons le spectre des modèles entraînables par GEMINI avec l'introduction d'arbres non supervisés donnant un clustering avec explication intégrée dans le chapitre 4. Enfin, nous terminons cette thèse avec un pipeline intégrant divers variants de GEMINI pour la découverte de phénogroupes de la SA dans l'étude PROGRESSA au Chapitre 5. Certains de ces phénogroupes montrent une mortalité accentuée et sont caractérisés par des marqueurs spécifiques, par exemple liés aux lipoprotéines, au diabète ou à la bicuspidie des valves aortiques. Ces phénogroupes peuvent ainsi être ciblés par des thérapies spécifiques afin de réduire le risque de progression de la maladie. / Aortic valve stenosis (AS) is a chronic progressive disease whose prevalence is likely to triple in the coming decades in North America, with a consequent impact on health and the economy. However, efficient drug therapies for this disease are not available. The need for appropriate medication is therefore driving the exploration of the various causes of AS progression in patients. There exist a few sub-categories of the disease that could be differently targeted by drugs, but they are hard to define and identify. To alleviate the finding of different possible causes of AS, we formulate the search of phenogroup (i.e. disease subtypes) as a clustering problem. Clustering is a family of approaches from machine learning that consists in gathering multiple observations deemed similar in categories called clusters. To support this machine learning problem instance, we employ the metabolic determinants of the progression of AS study (PROGRESSA study). The PROGRESSA dataset comprises 3 modalities: clinicopathological, proteomics and radiomics data for 351 patients with yearly follow-ups. The structure of the PROGRESSA study is challenging for current clustering algorithms: it is high-dimensional with mixed data types. Moreover, the different modalities of the data do not necessarily overlap, making it to a multi-source clustering problem. In this context, we formulate the clustering problem through the lens of discriminative clustering: a point of view that leverages the easy integration of deep learning models for handling and concatenating high-dimensional data. Within this framework, the last decade witnessed the impressive rise of deep clustering methods that often involves the maximisation of mutual information. However, the recent success of deep clustering models are often over-specified for one type of data and therefore hardly account for multi-modal data. To pave the way for a multi-source discriminative clustering algorithm, we developed a set of discriminative clustering methods called generalised mutual information (GEMINI) in Chapter 2. Thanks to its discriminative construction, this set of methods can be used with any deep neural network architecture on data of various types. We also show how this method can be improved to incorporate variable selection mechanisms to facilitate the interpretation of clusters in Chapter 3: Sparse GEMINI. Then, we complete the spectrum of models trainable by GEMINI in Chapter 4 with the introduction of unsupervised trees giving a clustering with integrated explanation. Finally, we conclude this thesis in Chapter 5 with a pipeline integrating various GEMINI variants for the discovery of AS phenogroups in the PROGRESSA study. Some of these phenogroups show increased mortality and are characterised by specific markers, for example linked to lipoproteins, diabetes or bicuspid aortic valves. These phenogroups can therefore be targeted by specific therapies to reduce the risk of disease progression.
|
36 |
Étude comparative et choix optimal du nombre de classes en classification et réseaux de neurones : application en science des donnéesSanka, Norbert Bertrand January 2021 (has links) (PDF)
No description available.
|
37 |
Etude de la paraphrase sous-phrastique en traitement automatique des langues / A study of sub-sentential paraphrases in Natural Language ProcessingBouamor, Houda 11 June 2012 (has links)
La variabilité en langue est une source majeure de difficultés dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu’une même idée ou un même événement peut être exprimé avec des mots ou des groupes de mots différents ayant la même signification dans leur contexte respectif. Capturer automatiquement des équivalences sémantiques entre des unités de texte est une tâche complexe mais qui s’avère indispensable dans de nombreux contextes. L’acquisition a priori de listes d’équivalences met à disposition des ressources utiles pour, par exemple, améliorer le repérage d’une réponse à une question, autoriser des formulations différentes en évaluation de la traduction automatique, ou encore aider des auteurs à trouver des formulations plus adaptées. Dans cette thèse, nous proposons une étude détaillée de la tâche d’acquisition de paraphrases sous-phrastiques à partir de paires d’énoncés sémantiquement liés. Nous démontrons empiriquement que les corpus parallèles monolingues, bien qu’extrêmement rares, constituent le type de ressource le plus adapté pour ce genre d’étude. Nos expériences mettent en jeu cinq techniques d’acquisition, représentatives de différentes approches et connaissances, en anglais et en français. Afin d’améliorer la performance en acquisition, nous réalisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique à maximum d’entropie bi-classe. Un résultat important de notre étude est l’identification de paraphrases qui défient actuellement les techniques étudiées, lesquelles sont classées et quantifiées en anglais et français. Nous examinons également dans cette thèse l’impact de la langue, du type du corpus et la comparabilité des paires des énoncés utilisés sur la tâche d’acquisition de paraphrases sous- phrastiques. Nous présentons le résultat d’une analyse de la performance des différentes méthodes testées en fonction des difficultés d’alignement des paires de paraphrases d’énoncés. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractéristiques des paraphrases trouvées dans les différents types de corpus étudiés ainsi que celles qui défient les approches actuelles d’identification automatique. / Language variation, or the fact that messages can be conveyed in a great variety of ways by means of linguistic expressions, is one of the most challenging and certainly fascinating features of language for Natural Language Processing, with wide applications in language analysis and generation. The term paraphrase is now commonly used to refer to textual units of equivalent meaning, down to the level of sub-sentential fragments. Although one can envisage to manually build high-coverage lists of synonyms, enumerating meaning equivalences at the level of phrases is too daunting a task for humans. Consequently, acquiring this type of knowledge by automatic means has attracted a lot of attention and significant research efforts have been devoted to this objective. In this thesis we use parallel monolingual corpora for a detailed study of the task of sub-sentential paraphrase acquisition. We argue that the scarcity of this type of resource is compensated by the fact that it is the most suited corpus type for studies on paraphrasing. We propose a large exploration of this task with experiments on two languages with five different acquisition techniques, selected for their complementarity, their combinations, as well as four monolingual corpus types of varying comparability. We report, under all conditions, a significant improvement over all techniques by validating candidate paraphrases using a maximum entropy classifier. An important result of our study is the identification of difficult-to-acquire paraphrase pairs, which are classified and quantified in a bilingual typology.
|
38 |
Apprentissage statistique pour l'extraction de concepts à partir de textes : application au filtrage d'informations textuellesTurenne, Nicolas 24 November 2000 (has links) (PDF)
Cette thèse présente un modèle de construction automatique et approximatif de la représentation du sens d'un texte. On adapte des techniques de documentation automatique à des bases documentaires non indexées. Les techniques classiques reposent sur une indexation vectorielle. Chaque document est représenté par un descripteur, on définit une distance entre ces descripteurs. L'accès aux documents pertinents est basé sur des calculs de proximité entre ces descripteurs. Une structuration du domaine, couvert par des documents, est obtenue par une classification (en anglais « clustering ») faisant apparaître des thèmes sémantiques. Il faut améliorer les techniques en leur permettant de traiter les documents non indexés, en améliorant les résultats par une adaptation de connaissances linguistiques et une analyse des relations que marquent les cooccurrences entre termes. La quantité grandissante d'informations électroniques permet de constituer des échantillons de données variés et significatifs. Les techniques pour décrire les relations entre termes sont issues de méthodes mathématiques usuellement appliquées aux données structurées non textuelles. Le couplage de connaissances propres aux données avec une méthodologie adaptée aux données textuelles devrait apporter une amélioration des résultats. Nous tentons de justifier : d'une part l'utilisation de mécanismes linguistiques réduisant les biais d'une statisque descriptive des occurrences d'un terme, d'autre part l'utilisation d'une méthode basée sur les graphes dont les motifs permettraient de récupérer les relations conceptuelles entre termes. Dans un troisième temps nous facilitons l'interprétation des résultats émanant de traitements automatiques par la qualification consensuelle du thème représenté par une classe. L'interprétation de classes reste difficile, due aux multiples points de vue qu'un lecteur peut se faire des associations entre termes. Des classes de meilleure qualité facilitent l'interprétation, assistée par un théssaurus, que l'on peut attribuer à la structuration conceptuelle des termes d'un domaine. Le développement d'Internet renforce l'échange de documents électroniques entre les acteurs de différents sites. Le développement de systèmes logiciels d'échanges de documents appelés « workflow » dans les intranets d'entreprise augmente la fluidité des documents entre individus et entre services. Un système qui permet d'apprendre automatiquement des profils d'utilisateur et d'exploiter ces connaissances pour distribuer l'information semble incontournable. Nous essayons de caractériser un centre d'intérêt par des classes de termes.
|
39 |
Traçabilité modulée pour la conformité à Sarbanes-OxleyLepage, Yves January 2009 (has links) (PDF)
La traçabilité est un mécanisme qui est indispensable dans la conduite des activités de vérification de la conformité des compagnies à la loi Sarbanes-Oxley. Cette loi rend les administrateurs (PDG, Chef des affaires financières, etc.) responsables des déclarations faites dans les états financiers. Elle a été établie dans la foulée des scandales corporatifs aux États-Unis, comme ceux des compagnies Enron et Worldcom. Les données utilisées pour produire les états financiers, lesquelles sont produites par des systèmes informatiques périphériques, transitent toujours par des bases de données. L'implantation d'un mécanisme de traçabilité des bases de données se heurte à plusieurs problèmes, dont le plus important est la gestion du volume des données de traçabilité, lequel devient rapidement trop important pour rendre les données de traçabilité utiles. Ce mémoire démontre qu'une solution envisageable pour résoudre ce problème consiste à identifier et à définir les comportements typiques de la fraude et d'utiliser ces comportements comme indicateurs de fraude potentielle. Jumelés à des techniques de classification telles que la classification Baysienne qui est utilisée dans le domaine de la détection du pourriel, les indicateurs permettront la classification des transactions potentiellement frauduleuses, dans le but d'appliquer le mécanisme de traçabilité qu'à ces transactions. Ainsi, nous démontrons que l'application de la classification Baysienne sur ces attributs, permet effectivement de détecter et de classifier des transactions frauduleuses comme tel et qu'en conséquence, un traitement de traçage spécifique peut être effectué sur ces transactions. En ne traçant plus spécifiquement que les transactions identifiées comme frauduleuses, le volume de données de traçabilité est alors réduit à son expression la plus utile et simple et du coup le problème de la gestion du volume des données de traçage s'en trouve d'autant diminué. Notre expérimentation démontre le bien-fondé de cette approche pour différencier les transactions honnêtes des transactions frauduleuses. Cette différenciation s'est faite avec un haut taux de succès et avec grande fiabilité, tel que démontré par les taux de détection obtenus pour les transactions frauduleuses. Les résultats détaillés sont documentés dans ce mémoire et prouvent la viabilité de cette approche. Comme les attributs utilisés qui sont basés sur les indicateurs de comportements sont intimement liés au domaine d'application, nous proposons une approche pour raffiner les résultats et ainsi rendre possible la différenciation des différents types de fraude à l'intérieur de ces transactions frauduleuses. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Fraude, Sarbanes-Oxley, Traçabilité, Détection automatique, Classification, Bayes.
|
40 |
Modélisation d'un système de recherche d'information pour les systèmes hypertextes. Application à la recherche d'information sur le World Wide WebCarvalho De Aguiar, Fernando Jorge 28 June 2002 (has links) (PDF)
Dans un hypertexte, un document est souvent composé de plusieurs nœuds et non pas d'un seul. L'information véhiculée par un nœud donné peut difficilement être appréhendée à travers la lecture du seul contenu de ce nœud, le contenu des autres nœuds qui composent un document avec le premier nœud lui apportent un contexte .La connaissance de ce contexte est fondamentale dans la compréhension de l'information véhiculée par le premier nœud. Un système de recherche d'information, ou plus couramment un moteur de recherche, appliqué au système hypertexte que constitue le Web devrait considérer dans son fonctionnement la fragmentation des documents hypertextuels en plusieurs pages : une page ne constitue pas un document à part entière, elle n'en est qu'une partie. Ainsi, pour bien indexer une page le contexte de l'information qu'elle véhicule doit être considéré. Les moteurs de recherche considèrent souvent une page comme un document et l'indexent en analysant uniquement son contenu. Le contexte des pages est ignoré. Dans ce travail nous proposons un modèle de recherche d'information pour un moteur de recherche appliqué à un système hypertexte constitué par un site Web. Ce modèle repose sur la construction d'un index à deux niveaux pour chacune des pages du site : un premier niveau, niveau inférieur, construit à partir du seul contenu de la page, et un deuxième niveau, niveau supérieur, construit à partir du contenu des pages qui apportent un contexte au contenu de la page en train d'être indexée. En améliorant la qualité des index des pages on cherche à améliorer l'efficacité du moteur de recherche. Grâce à l'implémentation d'un prototype de moteur de recherche intégrant le modèle proposé ainsi que l'utilisation de la collection de tests WT10g issue des conférences TREC et adaptée à nos besoins, nous avons pu mener des expérimentations. Les résultats de ces dernières, une amélioration dans la qualité des réponses retournées par le moteur prototype, sont des indicateurs favorables de l'utilité de l'information contextuelle des pages. L'efficacité du moteur prototype a été comparée avec celle d'un moteur de recherche adoptant un modèle traditionnel où un seul niveau d'index, celui issu du seul contenu des pages, est utilisé.
|
Page generated in 0.1201 seconds