Global ETD Search

21	Extraction d'informations synthétiques à partir de données séquentielles : application à l'évaluation de la qualité des rivières / Extraction of synthetic information from sequential data : application to river quality assessment Fabregue, Mickael 26 November 2014 (has links) L'exploration des bases de données temporelles à l'aide de méthodes de fouille de données adaptées a fait l'objet de nombreux travaux de recherche. Cependant le volume d'informations extraites est souvent important et la tâche d'analyse reste alors difficile. Dans cette thèse, nous présentons des méthodes pour synthétiser et filtrer l'information extraite. L'objectif est de restituer des résultats qui soient interprétables. Pour cela, nous avons exploité la notion de séquence partiellement ordonnée et nous proposons (1) un algorithme qui extrait l'ensemble des motifs partiellement ordonnés clos; (2) un post-traitement pour filtrer un ensemble de motifs d'intérêt et(3) une approche qui extrait un consensus comme alternative à l'extraction de motifs. Les méthodes proposées ont été testées sur des données hydrobiologiques issues du projet ANR Fresqueau et elles ont été implantées dans un logiciel de visualisation destiné aux hydrobiologistes pour l'analyse de la qualité des cours d'eau. / Exploring temporal databases with suitable data mining methods have been the subject of several studies. However, it often leads to an excessive volume of extracted information and the analysis is difficult for the user. We addressed this issue and we specically focused on methods that synthesize and filter extracted information. The objective is to provide interpretable results for humans. Thus, we relied on the notion of partially ordered sequence and we proposed (1) an algorithm that extracts the set of closed partially ordered patterns ; (2) a post-processing to filter some interesting patterns for the user and (3) an approach that extracts a partially ordered consensus as an alternative to pattern extraction. The proposed methods were applied for validation on hydrobiological data from the Fresqueau ANR project. In addition, they have been implemented in a visualization tool designed for hydrobiologists for water course quality analysis. Fouille de données séquentielles Motifs séquentiels Motifs partiellement ordonnés Résumé de l'information Hydrobiologie Sequential data mining Sequential patterns Partially ordered patterns Summarized information Hydrobiology 004.2 577.6
22	Contributions de l'inférence grammaticale à la fouille de données séquentielles Jacquemont, Stéphanie 04 December 2008 (has links) (PDF) Dans le cadre de cette thèse, nous avons établi des liens entre les modèles obtenus par des algorithmes d'inférence grammaticale et la connaissance induite par des techniques de fouille de données séquentielles. Partant du constat que le point commun entre ces deux contextes différents de travail est la manipulation de données structurées sous forme de séquences de symboles, nous avons tenté d'exploiter les propriétés des automates probabilistes inférés à partir de ces séquences au profit d'une fouille de données séquentielles plus efficace. <br />Dans ce contexte, nous avons montré que l'exploitation brute, non seulement des séquences d'origine mais aussi des automates probabilistes inférés à partir de celles-ci, ne garantit pas forcément une extraction de connaissance pertinente. Nous avons apporté dans cette thèse plusieurs contributions, sous la forme de bornes minimales et de contraintes statistiques, permettant ainsi d'assurer une exploitation fructueuse des séquences et des automates probabilistes. De plus, grâce à notre modèle nous apportons une solution efficace à certaines applications mettant en jeux des problèmes de préservation de vie privée des individus. Inférence grammaticale fouille de données séquentielles fouille de données probabiliste fouille de données sous contraintes préservation de la vie privée
23	Approches synthétiques vers le mycothiazole-4,19-diol : utilisation du palladium en synthèse organique Batt, Frédéric 17 December 2009 (has links) (PDF) Le mycothiazole-4,19-diol, découvert en 2006, est une molécule naturelle isolée de l'éponge marine cacospongia mycofijiensis, dont il n'existe à ce jour aucune synthèse. La structure originale, combinée à la faible abondance naturelle et à une activité biologique potentielle du mycothiazole-4,19-diol font de cette molécule une cible synthétique attractive pour le chimiste organicien et constitue l'objectif de ces travaux de thèse. Le principal enjeu de cette synthèse est la construction du motif diol-1,2 allylique. Au total, quatre déconnections ont été étudiées. Pour chacune d'entre elles, plusieurs approches ont été effectuées afin de construire de manière efficace et élégante le mycothiazole-4,19-diol. Une étude sur l'utilisation du palladium en synthèse organique a également été effectuée au cours cette thèse. Parmi les nombreux systèmes catalytiques dans lesquels ce métal intervient, nous nous sommes intéressés à l'oxydation aérobique des alcools en leurs dérivés carbonylés. Nous avons élaboré un nouveau système permettant l'oxydation sélective des alcools allyliques. Les résultats obtenus sur la haute chimiosélectivité intramoléculaire font de cette méthode un outil puissant et efficace et a été mis à profit dans le cadre des approches du mycothiazole-4,19-diol. Une étude supplémentaire réalisée sur l'utilisation du palladium en réactions séquentielles a également été menée avec l'élaboration d'un processus oxydation aérobique-formation de liaison C-C par couplage de Heck. L'originalité de la méthodologie développée est que le catalyseur intervient dans deux réactions totalement différentes permettant ainsi la synthèse rapide de molécules relativement complexes à partir de substrats simples. [CHIM:OTHE] Chemical Sciences/Other Mycothiazole-4 19-diol Métathèse croisée Réaction de Julia-Kocienski Allylation de Barbier Diol allylique Palladium Oxydation aérobique d'alcools Réaction de Heck Réactions séquentielles
24	Inférence bayésienne pour la reconstruction d'écoulements complexes - Application au profil NACA0012 Leroux, Romain 16 March 2012 (has links) (PDF) Cette thèse se place dans le cadre de la calibration de modèles réduits d'écoulement à partir de séquences expérimentales acquises par PIV résolue en temps autour d'un profil NACA0012 à différents angles d'incidence et nombres de Reynolds. Un modéle à espace d'état régissant l'évolution des variables d'état du modèle réduit POD-Galerkin et mesurant de manière directe ou indirecte une partie ou l'ensemble de ces variables d'état est alors utilisé. Une première partie est consacrée à l'application d'estimateurs bayésiens issus de l'assimilation séquentielle de données sur le modèle réduit POD-Galerkin linéaire et quadratique dans le cas où l'ensemble des observations est pris en compte. Les estimateurs bayésiens utilisés sont les filtres de Kalman linéaire et d'ensemble EnKF. Ils permettent au modèle réduit de restituer la dynamique de l'écoulement considéré au cours du temps et de reconstruire un pourcentage significatif de l'écoulement. La seconde partie traite de la reconstruction de champs de vitesse manquants après un sous-échantillonnage des données. Les coefficients manquants sont ensuite reconstruits à l'aide de l'algorithme EM. Une dernière partie est consacrée au filtrage stochastique du modèle réduit POD-Galerkin à l'aide du filtre EnKF en fonction d'un signal de tension obtenu par anémométrie à film chaud en aval du profil NACA0012. La PLSR a été mise en place pour définir un opérateur linéaire des observations dans le filtre de Kalman EnKF. Ces méthodes sont ensuite validées expérimentalement pour la reconstruction de champs de vitesse d'écoulements d'une des congurations étudiées. PIV système dynamique POD filtrage de Kalman méthodes séquentielles de Monte-Carlo maximisation de la vraisemblance régression non linéaire
25	Extraction, Exploitation and Evaluation of Document-based Knowledge Doucet, Antoine 30 April 2012 (has links) (PDF) Les travaux présentés dans ce mémoire gravitent autour du document numérique : Extraction de connaissances, utilisation de connaissances et évaluation des connaissances extraites, d'un point de vue théorique aussi bien qu'expérimental. Le fil directeur de mes travaux de recherche est la généricité des méthodes produites, avec une attention particulière apportée à la question du passage à l'échelle. Ceci implique que les algorithmes, principalement appliqués au texte dans ce mémoire, fonctionnent en réalité pour tout type de donnée séquentielle. Sur le matériau textuel, la généricité et la robustesse algorithmique des méthodes permettent d'obtenir des approches endogènes, fonctionnant pour toute langue, pour tout genre et pour tout type de document (et de collection de documents). Le matériau expérimental couvre ainsi des langues utilisant différents alphabets, et des langues appartenant à différentes familles linguistiques. Les traitements peuvent d'ailleurs être appliqués de la même manière au grain phrase, mot, ou même caractère. Les collections traitées vont des dépêches d'agence de presse aux ouvrages numérisés, en passant par les articles scientifiques. Ce mémoire présente mes travaux en fonction des différentes étapes du pipeline de traitement des documents, de leur appréhension à l'évaluation applicative. Le document est ainsi organisé en trois parties décrivant des contributions en : extraction de connaissances (fouille de données séquentielle et veille multilingue) ; exploitation des connaissances acquises, par des applications en recherche d'information, classification et détection de synonymes via un algorithme efficace d'alignement de paraphrases ; méthodologie d'évaluation des systèmes d'information dans un contexte de données massives, notamment l'évaluation des performances des systèmes de recherche d'information sur des bibliothèques numérisées. fouille de données séquentielles unités multi-mots recherche d'information évaluation des systèmes d'information méthodes multilingues passage à l'échelle
26	Prosodie, Syntaxe, et Référence : processus cognitifs et marqueurs linguistiques / Prosody, Syntax, and Reference : cognitive processes and linguistic markers Rousier-Vercruyssen, Lucie 09 June 2017 (has links) La mention de référents (personnes, objets et évènements) est au coeur du discours. Cette thèse porte sur l’étude de la variation d’emploi des marqueurs de référence, en combinant des indices syntaxiques et prosodiques, produits lors de narrations d’images séquentielles. L’objectif est de déterminer l’effet des paramètres situationnels sur la production des marqueurs syntaxiques et prosodiques. Deux autres objectifs sont également développés, l’un visant à mettre en évidence les compétences (socio)cognitives sous-jacentes et l’autre visant à étudier l’impact du vieillissement. Pour répondre à ces objectifs, une tâche de narration d’images séquentielles a été utilisée pour éliciter la production de marqueurs de référence. Les narrations d’images séquentielles ont été réalisées auprès de deux groupes de participants, l’un constitué de 30 jeunes adultes (19-39 ans) et l’autre de 30 séniors (59-79 ans). L’ensemble des participants a été soumis à des tests (socio)cognitifs afin de caractériser leurs profils.Nos résultats montrent que le marquage référentiel est un processus complexe et influencé par de multiples facteurs situationnels. En effet, les marqueurs syntaxiques et prosodiques varient en fonction des étapes de discours et du contexte référentiel. Selon l’accessibilité cognitive du référent – notamment l’accessibilité cognitive moindre, le marquage référentiel sollicite des compétences (socio)cognitives. Les résultats indiquent également des effets du vieillissement sur le marquage référentiel : l’emploi des marqueurs de référence chez les séniors est différent de l’emploi des jeunes adultes. Compte tenu de l’importance du marquage référentiel lors des conversations, nos résultats pourraient avoir des implications cliniques et théoriques. / Referring to people, objects and events is a cental piece of the Speech. This dissertation studies the variation in the use of referential markers, by combining syntactic and prosodic cues, produced during a storytelling task sequential pictures. The goal is to determine the effect of situational parameters on the production of the syntactic and prosodic markers. Two other goals are also pursued: (i) to highlight the underlying (socio)cognitive abilities and (ii) to study the impact of aging. To meet these objectives, a storytelling task with sequential pictures was used to obtain the production of referential markers. 30 younger (age span:19-39) and 30 older participants (age span : 59-79) undertook this storytelling task. All the participants were submitted to (socio)cognitive tests to characterize their profiles. Our results show that referential marking is a complex process influenced by multiple situational factors. Indeed, the syntactic and prosodic markers vary according to discourse stages and the referential context. Depending on the cognitive accessibility of the referent - in particular the lesser cognitive accessibility, referential marking requires (socio)cognitive abilities. The results also indicate effects of aging on referential marking : the use of referential markers is different in seniors and in younger participants. Given the importance of referential marking during conversations, our results may have some clinical implications. Marquage référentiel Narrations d’images séquentielles Compétences (socio)cognitives Vieillissement Syntaxique Prosodique Referential marking Syntactic Prosodic Storytelling task (Socio)cognitive abilities Aging
27	Anomaly detection technique for sequential data / Technique de détection d'anomalies utilisant des données séquentielles Pellissier, Muriel 15 October 2013 (has links) De nos jours, beaucoup de données peuvent être facilement accessibles. Mais toutes ces données ne sont pas utiles si nous ne savons pas les traiter efficacement et si nous ne savons pas extraire facilement les informations pertinentes à partir d'une grande quantité de données. Les techniques de détection d'anomalies sont utilisées par de nombreux domaines afin de traiter automatiquement les données. Les techniques de détection d'anomalies dépendent du domaine d'application, des données utilisées ainsi que du type d'anomalie à détecter.Pour cette étude nous nous intéressons seulement aux données séquentielles. Une séquence est une liste ordonnée d'objets. Pour de nombreux domaines, il est important de pouvoir identifier les irrégularités contenues dans des données séquentielles comme par exemple les séquences ADN, les commandes d'utilisateur, les transactions bancaires etc.Cette thèse présente une nouvelle approche qui identifie et analyse les irrégularités de données séquentielles. Cette technique de détection d'anomalies peut détecter les anomalies de données séquentielles dont l'ordre des objets dans les séquences est important ainsi que la position des objets dans les séquences. Les séquences sont définies comme anormales si une séquence est presque identique à une séquence qui est fréquente (normale). Les séquences anormales sont donc les séquences qui diffèrent légèrement des séquences qui sont fréquentes dans la base de données.Dans cette thèse nous avons appliqué cette technique à la surveillance maritime, mais cette technique peut être utilisée pour tous les domaines utilisant des données séquentielles. Pour notre application, la surveillance maritime, nous avons utilisé cette technique afin d'identifier les conteneurs suspects. En effet, de nos jours 90% du commerce mondial est transporté par conteneurs maritimes mais seulement 1 à 2% des conteneurs peuvent être physiquement contrôlés. Ce faible pourcentage est dû à un coût financier très élevé et au besoin trop important de ressources humaines pour le contrôle physique des conteneurs. De plus, le nombre de conteneurs voyageant par jours dans le monde ne cesse d'augmenter, il est donc nécessaire de développer des outils automatiques afin d'orienter le contrôle fait par les douanes afin d'éviter les activités illégales comme les fraudes, les quotas, les produits illégaux, ainsi que les trafics d'armes et de drogues. Pour identifier les conteneurs suspects nous comparons les trajets des conteneurs de notre base de données avec les trajets des conteneurs dits normaux. Les trajets normaux sont les trajets qui sont fréquents dans notre base de données.Notre technique est divisée en deux parties. La première partie consiste à détecter les séquences qui sont fréquentes dans la base de données. La seconde partie identifie les séquences de la base de données qui diffèrent légèrement des séquences qui sont fréquentes. Afin de définir une séquence comme normale ou anormale, nous calculons une distance entre une séquence qui est fréquente et une séquence aléatoire de la base de données. La distance est calculée avec une méthode qui utilise les différences qualitative et quantitative entre deux séquences. / Nowadays, huge quantities of data can be easily accessible, but all these data are not useful if we do not know how to process them efficiently and how to extract easily relevant information from a large quantity of data. The anomaly detection techniques are used in many domains in order to help to process the data in an automated way. The anomaly detection techniques depend on the application domain, on the type of data, and on the type of anomaly.For this study we are interested only in sequential data. A sequence is an ordered list of items, also called events. Identifying irregularities in sequential data is essential for many application domains like DNA sequences, system calls, user commands, banking transactions etc.This thesis presents a new approach for identifying and analyzing irregularities in sequential data. This anomaly detection technique can detect anomalies in sequential data where the order of the items in the sequences is important. Moreover, our technique does not consider only the order of the events, but also the position of the events within the sequences. The sequences are spotted as anomalous if a sequence is quasi-identical to a usual behavior which means if the sequence is slightly different from a frequent (common) sequence. The differences between two sequences are based on the order of the events and their position in the sequence.In this thesis we applied this technique to the maritime surveillance, but this technique can be used by any other domains that use sequential data. For the maritime surveillance, some automated tools are needed in order to facilitate the targeting of suspicious containers that is performed by the customs. Indeed, nowadays 90% of the world trade is transported by containers and only 1-2% of the containers can be physically checked because of the high financial cost and the high human resources needed to control a container. As the number of containers travelling every day all around the world is really important, it is necessary to control the containers in order to avoid illegal activities like fraud, quota-related, illegal products, hidden activities, drug smuggling or arm smuggling. For the maritime domain, we can use this technique to identify suspicious containers by comparing the container trips from the data set with itineraries that are known to be normal (common). A container trip, also called itinerary, is an ordered list of actions that are done on containers at specific geographical positions. The different actions are: loading, transshipment, and discharging. For each action that is done on a container, we know the container ID and its geographical position (port ID).This technique is divided into two parts. The first part is to detect the common (most frequent) sequences of the data set. The second part is to identify those sequences that are slightly different from the common sequences using a distance-based method in order to classify a given sequence as normal or suspicious. The distance is calculated using a method that combines quantitative and qualitative differences between two sequences. Détection d'anomalies Données séquentielles Expressions régulières Distance Extraction d'informations Sécurité maritime Anomaly detection Sequential data Regular expression Distance Extraction of information Maritime security 004
28	Développements spectroscopiques pour l'étude de la matière organique du sol dans des extraits liquides, avec étude de son impact sur le comportement des métaux : application à un sol agricole amendé par du compost Mouloubou, Olsen 22 July 2015 (has links) L'évolution de la législation en matière de valorisation des déchets organiques incite au développement de filières de valorisation, parmi lesquelles le compostage présente un intérêt d'amendement pour les sols, lié notamment à la présence de substances humiques. La matière organique (MO) est une composante importante du sol en raison de son rôle dans les équilibres physiques, chimiques et biologiques, ainsi que par son implication dans le comportement des métaux et métaux traces (MMT). Les objectifs de cette thèse étaient de développer une approche méthodologique afin de caractériser la MO du sol (MOS) et étudier son évolution spatio-temporelle suite à l’apport d’un compost sur une année et 2 profondeurs, et d'approcher son impact sur le comportement des MMT. Une procédure d’extraction séquentielle en 4 étapes (eau, acide, soude, pyrophosphate) a été réalisée afin de fractionner la MOS. Des analyses quantitatives et qualitatives, ont été effectuées sur les extraits. La procédure de fractionnent chimique a permis de distinguer plusieurs catégories de composés organiques (labiles, fulviques et humiques plus ou moins aromatiques). Les analyses quantitatives et les réponses spectrales sur les extraits ont révélé un effet compost essentiellement les trois premiers mois après l’épandage et en été, avec un impact des paramètres climatiques au cours de l'année, mais pas au-delà de 15 cm. Le compost peut apporter au sol une charge supplémentaire en MMT, notamment potentiellement mobilisables, avec un risque de contamination modéré, mais non négligeable lié aux effets potentiels d’accumulation et de concentration sur le long terme. / The evolution of the legislation regarding the valorization of biowaste (green manure) induces the development of valorization chains, among which amending soils with compost is of particular interest, due to the presence of humic substances. Organic matter (OM) is an important component of the soil due to its physical, chemical and biological participation, and its implication in the behaviour of metals and trace metals (MTM).The aims of this thesis were to develop a methodological approach to characterize OM of soil (SOM) and to study its spatiotemporal evolution over one year at two different depths following the addition of compost, and its impact on the behaviour of MTM. A 4-step sequential extraction procedure (water, acid, sodium hydroxide, pyrophosphate) was used to the SOM fractionation. Quantitative and qualitative analysis were applied on extracts. Solubilization kinetics of MTM was also carried out to refine the study of their mobility.The chemical fractionation procedure allowed distinguishing several classes of organic compounds (labile, fulvic and humic with various aromaticity). Quantitative analyzes and spectral responses of the extracts revealed an effect of the compost (organic carbon, metals, aromaticity and molecular weight compounds) essentially during the first three months after spreading and during the summer period, with a climate parameter effect during the year, but not beyond 15 cm of depth. Compost can bring to the soil an additional load of MTM, including potentially mobilized forms, with a moderate, but not negligible risk of contamination, due to the potential effects of accumulation and concentration over the long term. Carbone organique du sol Analyses spectroscopiques Extractions séquentielles Valorisation de la biomasse Métaux et métaux traces Metals and trace metals
29	Réactions de transfert de nitrènes catalysées par des complexes de fer : de la compréhension des mécanismes au développement de réactions multi-séquentielles / Iron-catalyzed nitrene transfer reactions : from mechanistic understanding to multi-sequential reactions Coin, Guillaume 29 October 2018 (has links) Les amines sont des composés essentiels en biologie, pharmacie et agriculture. La synthèse directe de tels composés constitue un enjeu majeur dans le domaine de la chimie. Le travail présenté dans ce manuscrit porte sur l’étude et le développement de synthèses intégrant le transfert de nitrène par des catalyseurs de fer pour l’obtention de composés aminés. Dans une première partie, nous avons étudié la réaction d’aziridination par plusieurs catalyseurs à base de fer sur différentes oléfines. Nous rapportons ici, comment des études mécanistiques couplées à des investigations des structures électroniques et des profils réactionnels, par des méthodes quantiques de type DFT, peuvent conduire à une complète compréhension du mécanisme, ainsi qu’au développement rationnel de nouveaux catalyseurs de fer pour la réaction d’aziridination. Nous avons pu établir que l’affinité électronique joue un rôle majeur dans ce type de transformation. Dans une seconde partie, nous avons étudié la possibilité d’intégrer la catalyse de transfert de nitrène de fer dans des processus multi-séquentiels. Nous avons pu obtenir des amidines et imidazolidines dans des réactions multicomposants via la réaction entre un substrat, un donneur de nitrène et un nitrile, le tout catalysé par le fer. Les calculs DFT ont pu confirmer le mécanisme proposer expérimentalement. Une seconde étude a pu mettre en lumière les réactions monotopes à travers la synthèse de 2-iminothiazolidines via l’ouverture de cycle d’une aziridine suivie de l’insertion d’un isothiocyanate avec de bons rendements. Ces deux types de réactions ont démontré le fort potentiel du transfert de nitrène dans des réactions multi-séquentielles et ouvrent la porte au développement de nouvelles voies de synthèses efficaces dans une chimie durable. / Amines are essential compounds in biology, pharmacy and agriculture. Therefore, their direct synthesis is a major issue in chemistry. The work presented in this manuscript focuses on the study and development of syntheses integrating nitrene transfer by iron catalysts in order to obtain amines. In a first part, we studied the aziridination reaction with several iron catalysts on different olefins. We report here, how mechanistic studies coupled with investigations of electronic structures and reactivity profiles, by quantum methods of DFT type, can lead to a complete understanding of the mechanism, as well as to the rational development of new iron catalysts for the aziridination reaction. We have been able to establish that electron affinity plays a major role in this type of transformation. In a second part, we studied the possibility to integrate iron-catalyzed nitrene transfer in multi-sequential processes. We have been able to obtain amidines and imidazolidines in multicomponent reactions via the reaction between a substrate, a nitrene donor, a nitrile and an iron catalyst. The DFT calculations were able to confirm the mechanism proposed experimentally. A second study was to highlight telescoping reactions through the synthesis of 2-iminothiazolidines via the ring opening of an aziridine followed by the insertion of an isothiocyanate with good yields. These two types of reactions have shown the strong potential of nitrene transfer in multi-sequential reactions and open the way to the development of new efficient synthesis routes in the context of green chemistry. Catalyse Complexes de fer Transfert de nitrène Etudes mécanistiques Réactions multi-Séquentielles Synthèses d'amines Catalysis Iron complexes Nitrene transfer Mechanistic studies Multi-Sequential reactions Amines synthesis 540
30	On Computational Stylistics : mining Literary Texts for the Extraction of Characterizing Stylistic Patterns / De la stylistique computationnelle : fouille de textes littéraires pour l'extraction de motifs stylistiques caractérisants Boukhaled, Mohamed Amine 13 September 2016 (has links) Notre thèse se situe dans le domaine interdisciplinaire de la stylistique computationnelle, à savoir l'application des méthodes statistiques et computationnelles à l'étude du style littéraire. Historiquement, la plupart des travaux effectués en stylistique computationnelle se sont concentrés sur les aspects lexicaux. Dans notre thèse, l’accent est mis sur l'aspect syntaxique du style qui est beaucoup plus difficile à analyser étant donné sa nature abstraite. Comme contribution principale, dans cette thèse, nous travaillons sur une approche à l'étude stylistique computationnelle de textes classiques de littérature française d'un point de vue herméneutique, où découvrir des traits linguistiques intéressants se fait sans aucune connaissance préalable. Plus concrètement, nous nous concentrons sur le développement et l'extraction des motifs morphosyntaxiques. Suivant la ligne de pensée herméneutique, nous proposons un processus de découverte de connaissances pour la caractérisation stylistique accentué sur la dimension syntaxique du style et permettant d'extraire des motifs pertinents à partir d'un texte donné. Ce processus proposé consiste en deux étapes principales, une étape d'extraction de motifs séquentiels suivi de l'application de certaines mesures d'intérêt. En particulier, l'extraction de tous les motifs syntaxiques possibles d'une longueur donnée est proposée comme un moyen particulièrement utile pour extraire des caractéristiques intéressantes dans un scénario exploratoire. Nous proposons, évaluons et présentons des résultats sur les trois mesures d'intérêt proposées, basée chacune sur un raisonnement théorique linguistique et statistique différent. / The present thesis locates itself in the interdisciplinary field of computational stylistics, namely the application of statistical and computational methods to the study of literary style. Historically, most of the work done in computational stylistics has been focused on lexical aspects especially in the early decades of the discipline. However, in this thesis, our focus is put on the syntactic aspect of style which is quite much harder to capture and to analyze given its abstract nature. As main contribution, we work on an approach to the computational stylistic study of classic French literary texts based on a hermeneutic point of view, in which discovering interesting linguistic patterns is done without any prior knowledge. More concretely, we focus on the development and the extraction of complex yet computationally feasible stylistic features that are linguistically motivated, namely morpho-syntactic patterns. Following the hermeneutic line of thought, we propose a knowledge discovery process for the stylistic characterization with an emphasis on the syntactic dimension of style by extracting relevant patterns from a given text. This knowledge discovery process consists of two main steps, a sequential pattern mining step followed by the application of some interestingness measures. In particular, the extraction of all possible syntactic patterns of a given length is proposed as a particularly useful way to extract interesting features in an exploratory scenario. We propose, carry out an experimental evaluation and report results on three proposed interestingness measures, each of which is based on a different theoretical linguistic and statistical backgrounds. Stylistique computationnelle Fouille de données séquentielles Découverte de connaissances Fouille de textes Motif morphosyntaxique Mesure d'interêt Computational stylistics Sequential data mining Knowledge dicovery 004

Search results