Global ETD Search

161	Prédire et influencer l'apparition des événements dans une séquence complexe / Predicting and influencing the appearance of events in a complex sequence Fahed, Lina 27 October 2016 (has links) Depuis plusieurs années, un nouveau phénomène lié aux données numériques émerge : des données de plus en plus volumineuses, variées et véloces, apparaissent et sont désormais disponibles, elles sont souvent qualifiées de données complexes. Dans cette thèse, nous focalisons sur un type particulier de données complexes : les séquences complexes d’événements, en posant la question suivante : “comment prédire au plus tôt et influencer l’apparition des événements futurs dans une séquence complexe d’événements ?”. Tout d’abord, nous traitons le problème de prédiction au plus tôt des événements. Nous proposons un algorithme de fouille de règles d’épisode DEER qui a l’originalité de maîtriser l’horizon d’apparition des événements futurs à travers d’une distance imposée au sein de règles extraites. Dans un deuxième temps, nous focalisons sur la détection de l’émergence dans un flux d’événements. Nous proposons l’algorithme EER pour la détection au plus tôt de l’émergence de nouvelles règles. Pour augmenter la fiabilité de nouvelles règles lorsque leur support est très faible, EER s’appuie sur la similarité entre ces règles et les règles déjà connues. Enfin, nous étudions l’impact porté par des événements sur d’autres dans une séquence d’événements. Nous proposons l’algorithme IE qui introduit la notion des “événements influenceurs” et étudie l’influence sur le support, la confiance et la distance à travers de trois mesures d’influence proposées. Ces travaux sont évalués et validés par une étude expérimentale menée sur un corpus de données réelles issues de blogs / For several years now, a new phenomenon related to digital data is emerging : data which are increasingly voluminous, varied and rapid, appears and becomes available, they are often referred to as complex data. In this dissertation, we focus on a particular type of data : complex sequence of events, by asking the following question : “how to predict as soon as possible and to influence the appearance of future events within a complex sequence of events?”. First of all, we focus on the problem of predicting events as soon as possible in a sequence of events. We propose DEER : an algorithm for mining episode rules, which has the originality of controlling the horizon of the appearance of future events by imposing a temporal distance within the extracted rules. In a second phase, we address the problem of emergence detection in an events stream. We propose EER : an algorithm for detecting new emergent rules as soon as possible. In order to increase the reliability of new rules, EER relies on the similarity between theses rules and previously extracted rules. At last, we study the impact carried by events on other events within a sequence of events. We propose IE : an algorithm that introduces the concept of “influencer events” and studies the influence on the support, on the confidence and on the distance through three proposed measures. Our work is evaluated and validated through an experimental study carried on a real data set of blogs messages Fouille de données Règles d’épisodes Séquence d’événements Prédiction d’événements Détection de l’émergence Événements influenceurs Data mining Episode rules Events sequence Events prediction Emergent events Influencer events 006.312 519.54 003.2
162	Contribution à l'extraction des règles d'association basée sur des préférences / Contribution to the extraction of association rules based on preferences Bouker, Slim 30 June 2015 (has links) Résumé indisponible. / Résumé indisponible. Fouille de données Extraction des règles d'association Mesures de qualité Préférences des experts Relation de dominance Data mining Extraction of association rules Interestingness measures Experts preferences Dominance relationship
163	Inférence d'un dictionnaire des motifs des plissements corticaux / Inference of a dictionnary of cortical folding Sun, Zhongyi 07 June 2011 (has links) Cette thèse vise à faire émerger de nouvelles descriptions de la variabilité des plissements du cortex humain en s’appuyant sur des techniques de fouilles de données. L’objectif principal est la conception d’algorithmes permettant de découvrir des motifs de plissement spécifiques à une sous-population d’individus. Le but final est de réaliser un dictionnaire de ces motifs et de les associer à des particularités cognitives ou architecturales, voire à des pathologies. Deux stratégies de « clustering » sont proposées pour mettre en évidence de tels motifs. La première repose sur des descripteurs de formes globaux correspondant aux invariants de moment 3D, la seconde repose sur l’estimation d’une matrice de distances entre chaque paire d’individus. Un algorithme de clustering dédié est conçu pour détecter les motifs les plus fréquents de manière robuste. Une technique de réduction de dimension est utilisée pour mettre en évidence les transitions entre motifs au sein de la population. Les méthodes algorithmiques proposées sont utilisées pour étudier la forme du cortex sensori-moteur d’une population de gauchers contrariés. Des résultats originaux sur le lien entre la forme du sillon central et la latéralité manuelle sont mis en évidence. Les méthodes développées sont ensuite utilisées pour construire le premier dictionnaire des motifs observés dans les plissements corticaux issu d’une approche algorithmique. / This thesis aims at proposing new descriptions of the variability of the folding of the human cortex using data mining. The main objective is the design of algorithms detecting folding patterns specific to a sub-population. The long term goal is the constitution of an exhaustive dictionary of all the folding patterns enriched with links to cognitive or architectural specificities, or to pathologies. Two clustering strategies are proposed to detect such patterns. The first one is based on global shape descriptors called the 3D moment invariants, the second one implies the computation of a pairwise distance matrix. A dedicated clustering algorithm is designed for robust detection of the most frequent patterns. A dimension reduction strategy is proposed to study the transition from one pattern to another across the population. The proposed framework is applied to the study of the shape of the sensori-motor cortex of a population of left-handers forced to write with the right hand. Original discoveries relating the shape of the central sulcus to handedness are achieved. The framework is finally used to build the first computerized dictionary of the cortical folding patterns. Fouille de donnée Algorithmes Développement de cerveau Plissements corticaux humaines Analyse d'image Vision assisté Data mining Clustering algorithms Brain development Human cortical folding Image analysis Computer vision
164	Connaissance et optimisation de la prise en charge des patients : la science des réseaux appliquée aux parcours de soins / Understanding and optimization of patient care and services : networks science applied to healthcare pathways Jaffré, Marc-Olivier 26 October 2018 (has links) En France, la nécessaire rationalisation des moyens alloués aux hôpitaux a abouti à une concentration des ressources et une augmentation de la complexité des plateaux techniques. Leur pilotage et leur répartition territoriale s’avèrent d’autant plus difficile, soulevant ainsi la problématique de l’optimisation des systèmes de soins. L’utilisation des données massives produites pas ces systèmes pourrait constituer une nouvelle approche en matière d’analyse et d’aide à la décision. Méthode : A partir d’une réflexion sur la notion de performance, différentes approches d’optimisation préexistantes sont d’abord mis en évidence. Le bloc opératoire a été choisi en tant que terrain expérimental. Suit une analyse sur une fusion d’établissements en tant qu’exemple d’une approche d’optimisation par massification.Ces deux étapes permettent de défendre une approche alternative qui associe l’usage de données massives, la science des réseaux et la visualisation des données sous forme cartographique. Deux sets de séjours en chirurgie orthopédique sur la région ex-Midi-Pyrénées sont utilisés. L’enchainement des séjours de soins est considéré en tant en réseau de données. L’ensemble est projeté dans un environnement visuel développé en JavaScript et permettant une fouille dynamique du graphe. Résultats : La possibilité de visualiser des parcours de santé sous forme de graphes NŒUDS-LIENS est démontrée. Les graphes apportent une perception supplémentaire sur les enchainements de séjours et les redondances des parcours. Le caractère dynamique des graphes permet en outre leur fouille. L’approche visuelle subjective est complétée par une série de mesures objectives issues de la science des réseaux. Les plateaux techniques de soins produisent des données massives utiles à leur analyse et potentiellement à leur optimisation. La visualisation graphique de ces données associées à un cadre d’analyse tel que la science des réseaux donne des premiers indicateurs positifs avec notamment la mise en évidence de motifs redondants. La poursuite d’expérimentations à plus large échelle est requise pour valider, renforcer et diffuser ces observations et cette méthode. / In France, the streamlining of means assigned hospitals result in concentration of resources ana growing complexily of heallhcare facilities. Piloting and planning (them turn out to be all the more difficult, thus leading of optimjzation problems. The use of massive data produced by these systems in association with network science an alternative approach for analyzing and improving decision-making support jn healthcare. Method : Various preexisting optimisation are first highblighted based on observations in operating theaters chosen as experirnentai sites. An analysis of merger of two hospitlas also follows as an example of an optimization method by massification. These two steps make it possible to defend an alternative approach that combines the use of big data science of networks data visualization techniques. Two sets of patient data in orthopedic surgery in the ex-Midi-Pyrénées region in France are used to create a network of all sequences of care. The whole is displayed in a visual environment developed in JavaScript allowing a dynamic mining of the graph. Results: Visualizing healthcare sequences in the form of nodes and links graphs has been sel out. The graphs provide an additional perception of' the redundancies of he healthcare pathways. The dynamic character of the graphs also allows their direct rnining. The initial visual approach is supplernented by a series of objcctive measures from the science of networks. Conciusion: Healthcare facilities produce massive data valuable for their analysis and optimization. Data visualizalion together with a framework such as network science gives prelimiaary encouraging indicators uncovering redondant healthcare pathway patterns. Furthev experimentations with various and larger sets of data is required to validate and strengthen these observations and methods. Big data Visualisation des données Science des réseaux Fouille de graphes Patients Healthcare pathways Operating theater Optimization Massive data Network science Data visualization Graph mining Patients
165	Nouvelles approches bioinformatiques pour l'étude à grande échelle de l'évolution des activités enzymatiques / New bioinformatic approaches for the large-scale study of the evolution of the enzymatic activities Pereira, Cécile 11 May 2015 (has links) Cette thèse a pour objectif de proposer de nouvelles méthodes permettant l'étude de l'évolution du métabolisme. Pour cela, nous avons choisi de nous pencher sur le problème de comparaison du métabolisme de centaines de micro-organismes.Afin de comparer le métabolisme de différentes espèces, il faut dans un premier temps connaître le métabolisme de chacune de ces espèces.Les protéomes des micro-organismes avec lesquels nous souhaitons travailler proviennent de différentes bases de données et ont été séquencés et annotés par différentes équipes, via différentes méthodes. L'annotation fonctionnelle peut donc être de qualité hétérogène. C'est pourquoi il est nécessaire d'effectuer une ré-annotation fonctionnelle standardisée des protéomes des organismes que nous souhaitons comparer.L'annotation de séquences protéiques peut être réalisée par le transfert d'annotations entre séquences orthologues. Il existe plus de 39 bases de données répertoriant des orthologues prédits par différentes méthodes. Il est connu que ces méthodes mènent à des prédictions en partie différentes. Afin de tenir compte des prédictions actuelles tout en ajoutant de l'information pertinente, nous avons développé la méta-approche MARIO. Celle-ci combine les intersections des résultats de plusieurs méthodes de détections de groupes d'orthologues et les enrichit grâce à l'utilisation de profils HMM. Nous montrons que notre méta-approche permet de prédire un plus grand nombre d'orthologues tout en améliorant la similarité de fonction des paires d'orthologues prédites. Cela nous a permis de prédire le répertoire enzymatique de 178 protéomes de micro-organismes (dont 174 champignons).Dans un second temps, nous analysons ces répertoires enzymatiques afin d'en apprendre plus sur l'évolution du métabolisme. Dans ce but, nous cherchons des combinaisons de présence/absence d'activités enzymatiques permettant de caractériser un groupe taxonomique donné. Ainsi, il devient possible de déduire si la création d'un groupe taxonomique particulier peut s'expliquer par (ou a induit) l'apparition de certaines spécificités au niveau de son métabolisme.Pour cela, nous avons appliqué des méthodes d'apprentissage supervisé interprétables (règles et arbres de décision) sur les profils enzymatiques. Nous utilisons comme attributs les activités enzymatiques, comme classe les groupes taxonomiques et comme exemples les champignons. Les résultats obtenus, cohérents avec nos connaissances actuelles sur ces organismes, montrent que l'application de méthodes d'apprentissage supervisé est efficace pour extraire de l'information des profils phylogénétiques. Le métabolisme conserve donc des traces de l'évolution des espèces.De plus, cette approche, dans le cas de prédiction de classifieurs présentant un faible nombre d'erreurs, peut permettre de mettre en évidence l'existence de probables transferts horizontaux. C'est le cas par exemple du transfert du gène codant pour l'EC:3.1.6.6 d'un ancêtre des pezizomycotina vers un ancêtre d'Ustilago maydis. / This thesis has for objective to propose new methods allowing the study of the evolution of the metabolism. For that purpose, we chose to deal with the problem of comparison of the metabolism of hundred microorganisms.To compare the metabolism of various species, it is necessary to know at first the metabolism of each of these species.We work with proteomes of the microorganisms coming from various databases and sequenced and annotated by various teams, via various methods. The functional annotation can thus be of heterogeneous quality. That is why it is necessary to make a standardized functional annotation of this proteomes.The annotation of protein sequences can be realized by the transfer of annotations between orthologs sequences. There are more than 39 databases listing orthologues predicted by various methods. It is known that these methods lead to partially different predictions. To take into account current predictions and also adding relevant information, we developed the meta approach MARIO. This one combines the intersections of the results of several methods of detection of groups of orthologs and add sequences to this groups by using HMM profiles. We show that our meta approach allows to predict a largest number of orthologs while improving the similarity of function of the pairs of predicted orthologs. It allowed us to predict the enzymatic directory of 178 proteomes of microorganisms (among which 174 fungi).Secondly, we analyze these enzymatic directories in order to analyse the evolution of the metabolism. In this purpose, we look for combinations of presence / absence of enzymatic activities allowing to characterize a taxonomic group. So, it becomes possible to deduct if the creation of a particular taxonomic group can give some explanation by (or led to) the appearance of specificities at the level of its metabolism.For that purpose, we applied interpretable machine learning methods (rulers and decision trees) to the enzymatic profiles. We use as attributes the enzymatic activities, as classes the taxonomic groups and as examples the fungi. The results, coherent with our current knowledge on these species, show that the application of methods of machine learning is effective to extract informations of the phylogenetic profiles. The metabolism thus keeps tracks of the evolution of the species.Furthermore, this approach, in the case of prediction of classifiers presenting a low number of errors, can allow to highlight the existence of likely horizontal transfers. It is the case for example of the transfer of the gene coding for the EC:3.1.6.6 of an ancestor of pezizomycotina towards an ancestor of Ustilago maydis. Métabolisme Évolutions Orthologues Bioinformatique Fouille de donnée Champignons Profils phylogénétiques Profils enzymatiques Enzymes Activité enzymatique Metabolism Evolution Ortholog Bioinformatic Machine learning Fungi Phylogenetic profils Enzymatic profiles Enzymes Enzymatic activities
166	Extraction de relations spatio-temporelles à partir des données environnementales et de la santé / Spatio-temporal data mining from health and environment data Alatrista-Salas, Hugo 04 October 2013 (has links) Face à l'explosion des nouvelles technologies (mobiles, capteurs, etc.), de grandes quantités de données localisées dans l'espace et dans le temps sont désormais disponibles. Les bases de données associées peuvent être qualifiées de bases de données spatio-temporelles car chaque donnée est décrite par une information spatiale (e.g. une ville, un quartier, une rivière, etc.) et temporelle (p. ex. la date d'un événement). Cette masse de données souvent hétérogènes et complexes génère ainsi de nouveaux besoins auxquels les méthodes d'extraction de connaissances doivent pouvoir répondre (e.g. suivre des phénomènes dans le temps et l'espace). De nombreux phénomènes avec des dynamiques complexes sont ainsi associés à des données spatio-temporelles. Par exemple, la dynamique d'une maladie infectieuse peut être décrite par les interactions entre les humains et le vecteur de transmission associé ainsi que par certains mécanismes spatio-temporels qui participent à son évolution. La modification de l'un des composants de ce système peut déclencher des variations dans les interactions entre les composants et finalement, faire évoluer le comportement global du système.Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d'exploiter au mieux l'ensemble des données disponibles. Tel est l'objectif de la fouille de données spatio-temporelles qui correspond à l'ensemble de techniques et méthodes qui permettent d'obtenir des connaissances utiles à partir de gros volumes de données spatio-temporelles. Cette thèse s'inscrit dans le cadre général de la fouille de données spatio-temporelles et l'extraction de motifs séquentiels. Plus précisément, deux méthodes génériques d'extraction de motifs sont proposées. La première permet d'extraire des motifs séquentiels incluant des caractéristiques spatiales. Dans la deuxième, nous proposons un nouveau type de motifs appelé "motifs spatio-séquentiels". Ce type de motifs permet d'étudier l'évolution d'un ensemble d'événements décrivant une zone et son entourage proche. Ces deux approches ont été testées sur deux jeux de données associées à des phénomènes spatio-temporels : la pollution des rivières en France et le suivi épidémiologique de la dengue en Nouvelle Calédonie. Par ailleurs, deux mesures de qualité ainsi qu'un prototype de visualisation de motifs sont été également proposés pour accompagner les experts dans la sélection des motifs d'intérêts. / Thanks to the new technologies (smartphones, sensors, etc.), large amounts of spatiotemporal data are now available. The associated database can be called spatiotemporal databases because each row is described by a spatial information (e.g. a city, a neighborhood, a river, etc.) and temporal information (e.g. the date of an event). This huge data is often complex and heterogeneous and generates new needs in knowledge extraction methods to deal with these constraints (e.g. follow phenomena in time and space).Many phenomena with complex dynamics are thus associated with spatiotemporal data. For instance, the dynamics of an infectious disease can be described as the interactions between humans and the transmission vector as well as some spatiotemporal mechanisms involved in its development. The modification of one of these components can trigger changes in the interactions between the components and finally develop the overall system behavior.To deal with these new challenges, new processes and methods must be developed to manage all available data. In this context, the spatiotemporal data mining is define as a set of techniques and methods used to obtain useful information from large volumes of spatiotemporal data. This thesis follows the general framework of spatiotemporal data mining and sequential pattern mining. More specifically, two generic methods of pattern mining are proposed. The first one allows us to extract sequential patterns including spatial characteristics of data. In the second one, we propose a new type of patterns called spatio-sequential patterns. This kind of patterns is used to study the evolution of a set of events describing an area and its near environment.Both approaches were tested on real datasets associated to two spatiotemporal phenomena: the pollution of rivers in France and the epidemiological monitoring of dengue in New Caledonia. In addition, two measures of quality and a patterns visualization prototype are also available to assist the experts in the selection of interesting patters. Fouille de données spatio-temporelles Information Géographique Recherche de corrélations Exploration de données Système de détection épidémiologique Spatio-temporal data mining Geographic information Research of correlations Data exploration Epidemiology detection system
167	Extraction d'informations synthétiques à partir de données séquentielles : application à l'évaluation de la qualité des rivières / Extraction of synthetic information from sequential data : application to river quality assessment Fabregue, Mickael 26 November 2014 (has links) L'exploration des bases de données temporelles à l'aide de méthodes de fouille de données adaptées a fait l'objet de nombreux travaux de recherche. Cependant le volume d'informations extraites est souvent important et la tâche d'analyse reste alors difficile. Dans cette thèse, nous présentons des méthodes pour synthétiser et filtrer l'information extraite. L'objectif est de restituer des résultats qui soient interprétables. Pour cela, nous avons exploité la notion de séquence partiellement ordonnée et nous proposons (1) un algorithme qui extrait l'ensemble des motifs partiellement ordonnés clos; (2) un post-traitement pour filtrer un ensemble de motifs d'intérêt et(3) une approche qui extrait un consensus comme alternative à l'extraction de motifs. Les méthodes proposées ont été testées sur des données hydrobiologiques issues du projet ANR Fresqueau et elles ont été implantées dans un logiciel de visualisation destiné aux hydrobiologistes pour l'analyse de la qualité des cours d'eau. / Exploring temporal databases with suitable data mining methods have been the subject of several studies. However, it often leads to an excessive volume of extracted information and the analysis is difficult for the user. We addressed this issue and we specically focused on methods that synthesize and filter extracted information. The objective is to provide interpretable results for humans. Thus, we relied on the notion of partially ordered sequence and we proposed (1) an algorithm that extracts the set of closed partially ordered patterns ; (2) a post-processing to filter some interesting patterns for the user and (3) an approach that extracts a partially ordered consensus as an alternative to pattern extraction. The proposed methods were applied for validation on hydrobiological data from the Fresqueau ANR project. In addition, they have been implemented in a visualization tool designed for hydrobiologists for water course quality analysis. Fouille de données séquentielles Motifs séquentiels Motifs partiellement ordonnés Résumé de l'information Hydrobiologie Sequential data mining Sequential patterns Partially ordered patterns Summarized information Hydrobiology 004.2 577.6
168	Les fouilles françaises de Médamoud : synthèse historique et archéologique d’un temple thébain / The French excavations in Medamud : historical and archaeological study Relats Montserrat, Félix 21 November 2016 (has links) Les fouilles françaises de Médamoud se sont déroulées entre 1924 et 1939 sous la direction de F. Bisson de la Roque (entre 1924 et 1932) et de Cl. Robichon (entre 1933 et 1939). Elles ont mis au jour de nombreux monuments s’échelonnant de la XIe dynastie jusqu’à l’époque byzantine, mais aucune synthèse n’avait encore offert une étude globale de l’histoire du site. L’ensemble de cette documentation constitue un corpus riche mais hétérogène dont il a fallu restituer le contexte de découverte. En effet, les deux étapes des fouilles sont inégalement publiées et l’étude des archives nous a permis de reconstituer le déroulement, les modalités et les résultats des actions sur le terrain. Après avoir restitué l’histoire des fouilles et proposé une nouvelle datation des vestiges mis au jour, nous avons analysé l’état du temple depuis sa fondation. L’existence du temple primitif a ainsi été prouvée, même si nous avons modifié son plan et très largement nuancé les théories d’A. Varille quant à son usage cultuel. Ensuite, Sésostris III a refondé le temple, qui a ensuite été modifié par Thoutmosis III. Une nouvelle étude des maçonneries a permis de réfuter la présentation traditionnelle qui supposait des destructions successives du bâtiment et nous avons proposé, au contraire, qu’une partie du temple du Moyen Empire et du Nouvel Empire furent inclus par les Ptolémées dans leur propre programme architectural. Le dieu de Médamoud, Montou, a également été étudié à travers la documentation du site qui le présente comme le dieu thébain par excellence. L’essentiel du programme iconographique n’était pas consacré à l’exaltation guerrière de la divinité mais plutôt à la légitimation royale et au culte des ancêtres, parmi lesquels Sésostris III occupait une place de choix. / Medamud’s French excavations took place between 1924 and 1939 under the supervision of F. Bisson de la Roque (between 1924 and 1932) and of CL. Robichon (between 1933 and 1939). They excavated numerous monuments which spread from the XIe dynasty to the Byzantine period although there is no global overview of the history of the site. It was necessary to re-establish the discovery’s context of all of this information as the corpus of documents was extensive but heterogeneous. As the two excavation stages were unequally published, studying the archives allowed us to establish how the field actions took place, its methods and results. After having summarized the excavations’ history and offered the uncovered vestiges a new dating, we analysed the temple’s condition since its founding. In this way, the existence of the « temple primitif » has been proven even though we modified its plan and widely qualified A. Varille’s theories regarding its cult uses. Senwosret III rebuilt the temple, which was modified by Thutmose III afterwards. Thanks to a new study of the masonry, we re-examined the traditional assumption, which supposed successive destruction of the building. Instead, we believe that parts of the Middle Kingdom’s temple and of the New Kingdom’s were included by the Ptolemies in their own architectural plans. Regarding Montu the god of Medamud, he is presented as the ultimate Theban god through the site’s documentation. Most of the iconography wasn’t dedicated to the war glorification of the deity but rather to royal legitimisation and ancestor worship among which Senwosret III occupies a prominent place. Médamoud Montou Temple Primitif Sésostris III Nouvel Empire Moyen Empire Égyptologie Histoire de la fouille Medamud Montou Temple Primitif Senwosret III New Kingdom Middle Kingdom Egyptology History of excavation
169	Etude terminologique de la chimie en arabe dans une approche de fouille de textes / . Albeiriss, Baian 07 July 2018 (has links) Malgré l’importance d'une nomenclature internationale, le domaine de la chimie souffre encore de quelques problèmes linguistiques, liés notamment à ses unités terminologiques simples et complexes, pouvant gêner la communication scientifique. L’arabe ne fait pas exception, d’autant plus que sa graphie agglutinante et, en général, non-voyellée, pose d’énormesproblèmes d’ambiguïté. A cela s’ajoute l’emploi récurrent d’emprunts. La question est de savoir comment représenter les unités terminologiques simples et complexes de cette langue spécialisée. En d’autres termes, formaliser les caractéristiques terminologiques en étudiant les mécanismes de la construction morphosyntaxique des termes de la chimie en arabe. Cette étude devrait aboutir à la mise en place d’un outil de désambigüisation sémantique qui vise à constituer un outil d’extraction des termes de la chimie en arabe et de leurs relations. Une recherche pertinente en arabe passant obligatoirement par un système automatisé du traitement de la langue ; le traitement automatiquement des corpus écrits en arabe ne pouvant se faire sansanalyse linguistique ; cette analyse linguistique, plus précisément, cette étude terminologique, est la base pour la construction des règles d’une grammaire d’identification afin de déterminer les termes de la chimie en arabe. La construction de cette grammaire d’identification nécessite la modélisation des patrons morphosyntaxiques à partir de leur observation en corpus etdébouche sur la définition de règles de grammaire et de contraintes. / Despite the importance of an international nomenclature, the field of chemistry still suffers from some linguistic problems, linked in particular to its simple and complex terminological units, which can hinder scientific communication. Arabic is no exception, especially since its agglutinating spelling and, in general, not vowelized, may lead to enormous ambiguity's problems. This is in addition to the recurring use of borrowings. The problematic is how to represent the simple and complex terminological units of this specialized language. In other words, formalize the terminological characteristics by studying the mechanisms of themorphosyntactic construction of the chemistry' terms in Arabic. This study should lead to the establishment of a semantic-disambiguation tool that aims to create a tool for extracting the terms of Arabic chemistry and their relationships. A relevant search in Arabic cannot be done without an automated system of language processing; this automatic processing of corpuswritten in Arabic cannot be done without a language analysis; this linguistic analysis, more exactly, this terminology study, is the basis to build the rules of an identification grammar in order to identify the chemistry's terms in Arabic. The construction of this identification grammar requires modelling of morphosyntactic patterns from their observation in corpus and leads to the definition of rules of grammar and constraints. Terminologie textuelle Unités terminologiques Langue de spécialité Chimie Arabe Extraction d’information Fouille de textes Ontologie Textual terminology Terminology units Specialty language Chemistry Arabic Information retrieval Text mining Ontology 401.4
170	Discours de presse et veille stratégique d'évènements. Approche textométrique et extraction d'informations pour la fouille de textes / News Discourse and Strategic Monitoring of Events. Textometry and Information Extraction for Text Mining MacMurray, Erin 02 July 2012 (has links) Ce travail a pour objet l’étude de deux méthodes de fouille automatique de textes, l’extraction d’informations et la textométrie, toutes deux mises au service de la veille stratégique des événements économiques. Pour l’extraction d’informations, il s’agit d’identifier et d’étiqueter des unités de connaissances, entités nommées — sociétés, lieux, personnes, qui servent de points d’entrée pour les analyses d’activités ou d’événements économiques — fusions, faillites, partenariats, impliquant ces différents acteurs. La méthode textométrique, en revanche, met en œuvre un ensemble de modèles statistiques permettant l’analyse des distributions de mots dans de vastes corpus, afin faire émerger les caractéristiques significatives des données textuelles. Dans cette recherche, la textométrie, traditionnellement considérée comme étant incompatible avec la fouille par l’extraction, est substituée à cette dernière pour obtenir des informations sur des événements économiques dans le discours. Plusieurs analyses textométriques (spécificités et cooccurrences) sont donc menées sur un corpus de flux de presse numérisé. On étudie ensuite les résultats obtenus grâce à la textométrie en vue de les comparer aux connaissances mises en évidence au moyen d’une procédure d’extraction d’informations. On constate que chacune des approches contribuent différemment au traitement des données textuelles, produisant toutes deux des analyses complémentaires. À l’issue de la comparaison est exposé l’apport des deux méthodes de fouille pour la veille d’événements. / This research demonstrates two methods of text mining for strategic monitoring purposes: information extraction and Textometry. In strategic monitoring, text mining is used to automatically obtain information on the activities of corporations. For this objective, information extraction identifies and labels units of information, named entities (companies, places, people), which then constitute entry points for the analysis of economic activities or events. These include mergers, bankruptcies, partnerships, etc., involving corresponding corporations. A Textometric method, however, uses several statistical models to study the distribution of words in large corpora, with the goal of shedding light on significant characteristics of the textual data. In this research, Textometry, an approach traditionally considered incompatible with information extraction methods, is applied to the same corpus as an information extraction procedure in order to obtain information on economic events. Several textometric analyses (characteristic elements, co-occurrences) are examined on a corpus of online news feeds. The results are then compared to those produced by the information extraction procedure. Both approaches contribute differently to processing textual data, producing complementary analyses of the corpus. Following the comparison, this research presents the advantages for these two text mining methods in strategic monitoring of current events. Textométrie Extraction d’informations Fouille de textes Veille stratégique Evénements Cooccurrences Discours de presse Spécificités Textometry Information extraction Text mining Business intelligence Events Co-occurrences News discourse Characteristic elements 402.85

Search results