Global ETD Search

1	Une approche CBR textuel de réponse au courrier électronique Lamontagne, Luc January 2004 (has links) Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal. Raisonnement à base de cas Réponse au courrier électronique Cooccurrences de mots Modèle de traduction Traitement de la langue naturelle
2	Dynamique d'évolution de graphes de cooccurrences lexicales : application à l'analyse de comptes rendus en prévention spécialisée entre 1972 et 2010 / Dynamic changes of lexical coocurrences graphs : application to the analysis of reports in specialized prevention between 1972 and 2010 Dion, Dominique 19 December 2012 (has links) Ces dix dernières années, l'étude des réseaux petits-mondes a montré une grande stabilité de certaines métriques issues de la théorie des graphes formels. Elle porte sur l'analyse de réseaux traduisant des activités de l'homme : réseaux d'échanges téléphoniques, de connexions aériennes, de navigation sur le Web, de structure des lexiques linguistiques, mais également de réseaux de diffusion des épidémies ou de réseaux de relations sociales. En revanche, peu d'études ont porté sur l'analyse de la dynamique de ces graphes et leur évolution au cours du temps. C'est cette approche que nous développons dans ce document. Nous nous intéressons ici à des graphes obtenus à partir de comptes rendus professionnels de travailleurs sociaux. Ces graphes modélisent les cooccurrences des mots au sein des phrases. Notre analyse porte sur un lexique professionnel et sur l'évolution de son usage sur une période de près de 40 ans. Après avoir constitué notre matériel à partir des textes écrits (environ 1500 pages dactylographiées), ce corpus d'étude a été quantifié, vérifié, homogénéisé et traité orthographiquement sur un mode semi-automatique. Puis ce corpus normalisé a donné lieu à la constitution d'un graphe global pour la période complète, et d'une quarantaine de graphes pour chacune des sous-périodes étudiées. C'est sur ceux-ci que porte l'analyse de la dynamique d'évolution de graphe issu d'un lexique professionnel. Au final, notre travail permet de pointer le paradoxe existant, entre d'une part la contrainte d'écriture liée à un objet qui ne change que très peu dans la nature de sa mission (le travail d'un éducateur de rue) et d'autre part la permissivité du langage oral qui ne cesse d'évoluer (le langage professionnel). Par ailleurs notre approche propose une certaine automatisation pour dégager l'essentiel d'un "dire professionnel" dans un corpus de comptes rendus. / These last ten years, the study of small-world networks indicated a great stability of certain metrics from the theory of informal graphs. It is about the analysis of networks illustrating man's activities : networks of phone conversations, air connections, web browsing, linguistic vocabularies structure, but also epidemics' spreading or social relations networks. However, few studies focused on the analysis of these graphs' dynamics and their evolution over time. It is this approach that we develop in this document. We will take an interest in graphs obtained from professional reports of social workers. These graphs model the cooccurrences of words within sentences. Our analysis focuses on a professional vocabulary and on the evolution of its use in a period of time of almost 40 years. After our material was produced out of written texts (around 1500 typewritten pages), this corpus of studies has been quantified, checked, homogenized and orthographically dealt with on a semi-automatic mode. Then, this normalized corpus led to the formation of a global graph for the entire period, and of around forty graphs for each of the subperiod under study. Thus the analysis of graphs dynamics changes focuses on a professional vocabulary. Finally, our work enables us to highlight the existing paradox, on one hand, between the writing obligation linked to an object which only changes a tiny bit in the nature of its mission (the work of a street educator), and on the other hand, the permissiveness of oral language that keeps evolving/changing (the professional language). Besides, our approach suggests a certain automation to release the crux of a “ professional saying” in a report's corpus. Graphes lexicaux Réseaux petit-monde Comptes rendus de travail social Éducation spécialisée Cooccurrences séquentielles Evolution d'un vocabulaire professionnel Lexical graphs Small-world networks Social work reports Specialized education Sequential cooccurrences Professional vocabulary evolution
3	Méthodes de veille textométrique multilingue appliquées à des corpus de l’environnement et de l’énergie : « Restitution, prévision et anticipation d’événements par poly-résonances croisées » / Textometric Multilingual Information Monitoring Methods Applied to Energy & Environment Corpora : "Restitution, Forecasting and Anticipation of Events by Cross Poly-resonance" Shen, Lionel 21 October 2016 (has links) Cette thèse propose une série de méthodes de veille textométrique multilingue appliquées à des corpus thématiques. Pour constituer ce travail, deux types de corpus sont mobilisés : un corpus comparable et un corpus parallèle, composés de données textuelles extraites des discours de presse, ainsi que ceux des ONG. Les informations récupérées proviennent de trois mondes en trois langues différentes : français, anglais et chinois. La construction de ces deux corpus s’effectue autour de deux thèmes d’actualité ayant pour objet, l’environnement et l’énergie, avec une attention particulière sur trois notions : les énergies, le nucléaire et l’EPR. Après un bref rappel de l’état de l’art en intelligence économique, veille et textométrie, nous avons exposé les deux sujets retenus, les technicités morphosyntaxiques des trois langues dans les contextes nationaux et internationaux. Successivement, les caractéristiques globales, les convergences et les particularités de ces corpus ont été mises en évidence. Les dépouillements et les analyses qualitatives et quantitatives des résultats obtenus sont réalisés à l’aide des outils de la textométrie, notamment grâce aux analyses factorielles des correspondances, réseaux cooccurrentiels et poly-cooccurrentiels, spécificités du modèle hypergéométrique, segments répétés ou encore à la carte des sections. Ensuite, la veille bi-textuelle bilingue a été appliquée sur les trois mêmes concepts dans l’objectif de mettre en évidence les modes selon lesquels les corpus multilingues à caractère comparé et parallèle se complètent dans un processus de veille plurilingue, de restitution, de prévision et d’anticipation. Nous concluons notre recherche en proposant une méthode analytique par Objets-Traits-Entrées (OTE). / This thesis proposes a series of textometric multilingual information monitoring methods applied to thematic corpora (textometry is also called textual statistics or text data analysis). Two types of corpora are mobilized to create this work: a comparable corpus and a parallel corpus in which the textual data are extracted from the press and discourse of NGOs. The information source was retrieved from three countries in three different languages: English, French and Chinese. The two corpora were constructed on two topical issues concerning the environment and energy, with a focus on three concepts: energy, nuclear power and the EPR (European Pressurized Reactor or Evolutionary Power Reactor). After a brief review of the state of the art on business intelligence, information monitoring and textometry, we first set out the two chosen subjects – the environment and energy – and then the morphosyntactic features of the three languages in national and international contexts. The overall characteristics, similarities and peculiarities of these corpora are highlighted successively. The recounts and qualitative and quantitative analyses of the results were carried out using textometric tools, including factor analysis of correspondences, co-occurrences and polyco-occurrential networks, specificities of the hypergeometric model and repeated segments or map sections. Thereafter, bilingual bitextual information monitoring was applied to the same three concepts with the aim of elucidating how the comparable corpus and the parallel corpus can mutually help each other in a process of multilingual information monitoring, by restitution, forecasting and anticipation. We conclude our research by offering an analytical method called Objects-Features-Opening (OFO). Textométrie Veille multilingue Opinions Corpus comparable Corpus parallèle Discours de presse Discours des ONG Fouille textuelle Cooccurrences Poly-Cooccurrences Nucléaire Epr Énergies Environnement Textometry Multilingual information monitoring Opinions Comparable corpus Parallel corpus Media discourse Discourse of NGOs Text mining Co-Occurrences Poly-Cooccurrences Nuclear Epr Energy Environment
4	Discours de presse et veille stratégique d'évènements. Approche textométrique et extraction d'informations pour la fouille de textes / News Discourse and Strategic Monitoring of Events. Textometry and Information Extraction for Text Mining MacMurray, Erin 02 July 2012 (has links) Ce travail a pour objet l’étude de deux méthodes de fouille automatique de textes, l’extraction d’informations et la textométrie, toutes deux mises au service de la veille stratégique des événements économiques. Pour l’extraction d’informations, il s’agit d’identifier et d’étiqueter des unités de connaissances, entités nommées — sociétés, lieux, personnes, qui servent de points d’entrée pour les analyses d’activités ou d’événements économiques — fusions, faillites, partenariats, impliquant ces différents acteurs. La méthode textométrique, en revanche, met en œuvre un ensemble de modèles statistiques permettant l’analyse des distributions de mots dans de vastes corpus, afin faire émerger les caractéristiques significatives des données textuelles. Dans cette recherche, la textométrie, traditionnellement considérée comme étant incompatible avec la fouille par l’extraction, est substituée à cette dernière pour obtenir des informations sur des événements économiques dans le discours. Plusieurs analyses textométriques (spécificités et cooccurrences) sont donc menées sur un corpus de flux de presse numérisé. On étudie ensuite les résultats obtenus grâce à la textométrie en vue de les comparer aux connaissances mises en évidence au moyen d’une procédure d’extraction d’informations. On constate que chacune des approches contribuent différemment au traitement des données textuelles, produisant toutes deux des analyses complémentaires. À l’issue de la comparaison est exposé l’apport des deux méthodes de fouille pour la veille d’événements. / This research demonstrates two methods of text mining for strategic monitoring purposes: information extraction and Textometry. In strategic monitoring, text mining is used to automatically obtain information on the activities of corporations. For this objective, information extraction identifies and labels units of information, named entities (companies, places, people), which then constitute entry points for the analysis of economic activities or events. These include mergers, bankruptcies, partnerships, etc., involving corresponding corporations. A Textometric method, however, uses several statistical models to study the distribution of words in large corpora, with the goal of shedding light on significant characteristics of the textual data. In this research, Textometry, an approach traditionally considered incompatible with information extraction methods, is applied to the same corpus as an information extraction procedure in order to obtain information on economic events. Several textometric analyses (characteristic elements, co-occurrences) are examined on a corpus of online news feeds. The results are then compared to those produced by the information extraction procedure. Both approaches contribute differently to processing textual data, producing complementary analyses of the corpus. Following the comparison, this research presents the advantages for these two text mining methods in strategic monitoring of current events. Textométrie Extraction d’informations Fouille de textes Veille stratégique Evénements Cooccurrences Discours de presse Spécificités Textometry Information extraction Text mining Business intelligence Events Co-occurrences News discourse Characteristic elements 402.85
5	Outils d'exploration de corpus et désambiguïsation lexicale automatique AUDIBERT, Laurent 15 December 2003 (has links) (PDF) Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de méthodes d'apprentissage supervisé. Dans une première partie, nous proposons un ensemble de puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous avons développé une bibliothèque C++ qui implémente un langage élaboré et expressif d'interrogation de corpus, basé sur des méta-expressions régulières. Dans une seconde partie, nous comparons divers algorithmes d'apprentissage supervisé, que nous utilisons ensuite pour mener à bien une étude systématique et approfondie de différents critères de désambiguïsation, basés sur la cooccurrence de mots et plus généralement de n-grammes. Nos résultats vont parfois à l'encontre de certaines pratiques dans le domaine. Par exemple, nous montrons que la suppression des mots grammaticaux dégrade les performances et que les bigrammes permettent d'obtenir de meilleurs résultats que les unigrammes. [INFO:INFO_OH] Computer Science/Other Désambiguïsation lexicale automatique traitement automatique des langues concordancier analyseur expression régulière corpus lexicalement étiqueté apprentissage supervisé cooccurrences n-grammes
6	Texture analysis in the Logarithmic Image Processing (LIP) framework / L’analyse des textures dans la cadre LIP (Logarithmic Image Processing) Inam Ul Haq, Muhammad 27 June 2013 (has links) En fait, le concept de texture n’est pas facile à définir, mais il est clair qu’il est fortement lié au Système Visuel Humain. Sachant que le Modèle LIP est compatible avec la vision humaine, il nous a semblé intéressant de créer des outils logarithmiques dédiés à l’évaluation de la texture. Nous nous sommes concentrés sur la notion de covariogramme, qui peut être pilotée par diverses métriques logarithmiques. Ces métriques jouent le rôle d’outils de “corrélation”, avec l’avantage de prendre en compte la vision humaine. De plus, les outils LIP sont peu dépendants des conditions d’éclairement et fournissent donc des résultats robustes si celles-ci varient. Les deux derniers Chapitres proposent une nouvelle approche consistant à considérer les niveaux de gris d’une image comme les phases d’un milieu. Chaque phase permet de simuler la percolation d’un liquide dans le milieu, définissant ainsi des trajectoires de percolation. Chaque propagation d’un pixel à un autre est considérée comme facile ou non, en fonction des niveaux de gris traversés. Une « fonction de coût » est créée, qui modifie le « temps » de propagation d’un point à l’autre. De plus, la fonction de coût peut être calculée dans le contexte LIP, pour prendre en compte la vision humaine / This thesis looks at the evaluation of textures in two different perspectives using logarithmic image processing (LIP) framework. The first case after introducing the concept of textures and giving some classical approaches of textures evaluation, it gives an original approach of textures evaluation called covariogram which is derived from similarity metrics like distances or correlations etc. The classical covariogram which is derived from the classical similarity metrics and LIP covariogram are then applied over several images and the efficiency of the LIP one is clearly shown for darkened images. The last two chapters offer a new approach by considering the gray levels of an image as the phases of a medium. Each phase simulates like a percolation of a liquid in a medium defining the percolation trajectories. The propagation from one pixel to another is taken as easy or difficult determined by the difference of the gray level intensities. Finally different parameters like fractality from fractal dimensions, mean histogram etc associated to these trajectories are derived, based on which the primary experiment for the classification of random texture is carried out determining the relevance of this idea. Obviously, our study is only first approach and requires additional workout to obtain a reliable method of classification Textures pseudo-périodiques SVH LIP Matrices de cooccurrences Covariogramme Fractales Paramètres de Haralick Percolation Pseudo-periodic textures HVS LIP Cooccurrence matrices Covariogram Fractals Haralick parameters Percolation
7	Discours de presse et veille stratégique d'événements Approche textométrique et extraction d'informations pour la fouille de textes Erin, Macmurray 02 July 2012 (has links) (PDF) Ce travail a pour objet l'étude de deux méthodes de fouille automatique de textes, l'extraction d'informations et la textométrie, toutes deux mises au service de la veille stratégique des événements économiques. Pour l'extraction d'informations, il s'agit d'identifier et d'étiqueter des unités de connaissances, entités nommées -- sociétés, lieux, personnes, qui servent de points d'entrée pour les analyses d'activités ou d'événements économiques -- fusions, faillites, partenariats, impliquant ces différents acteurs. La méthode textométrique, en revanche, met en oeuvre un ensemble de modèles statistiques permettant l'analyse des distributions de mots dans de vastes corpus, afin faire émerger les caractéristiques significatives des données textuelles. Dans cette recherche, la textométrie, traditionnellement considérée comme étant incompatible avec la fouille par l'extraction, est substituée à cette dernière pour obtenir des informations sur des événements économiques dans le discours. Plusieurs analyses textométriques (spécificités et cooccurrences) sont donc menées sur un corpus de flux de presse numérisé. On étudie ensuite les résultats obtenus grâce à la textométrie en vue de les comparer aux connaissances mises en évidence au moyen d'une procédure d'extraction d'informations. On constate que chacune des approches contribuent différemment au traitement des données textuelles, produisant toutes deux des analyses complémentaires. À l'issue de la comparaison est exposé l'apport des deux méthodes de fouille pour la veille d'événements. [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie textométrie extraction d'informations événements veille stratégique fouille de textes discours de presse spécifictés cooccurrences
8	Outils d'exploration de corpus et désambiguïsation lexicale automatique Audibert, Laurent 15 December 2003 (has links) (PDF) Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de<br />méthodes d'apprentissage supervisé. Dans une première partie, nous proposons un ensemble de<br />puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous<br />avons développé une bibliothèque \texttt{C\fup{++}} qui implémente un langage élaboré et expressif<br />d'interrogation de corpus, basé sur des \emph{méta-expressions régulières}. Dans une seconde<br />partie, nous comparons divers algorithmes d'apprentissage supervisé, que nous utilisons ensuite<br />pour mener à bien une étude systématique et approfondie de différents critères de désambiguïsation,<br />basés sur la cooccurrence de mots et plus généralement de n-grammes. Nos résultats vont parfois à<br />l'encontre de certaines pratiques dans le domaine. Par exemple, nous montrons que la suppression<br />des mots grammaticaux dégrade les performances et que les bigrammes permettent d'obtenir de<br />meilleurs résultats que les unigrammes. Désambiguïsation lexicale automatique traitement automatique des langues con\-cordancier <br />analyseur expression régulière corpus lexicalement étiqueté apprentissage supervisé <br />cooccurrences n-grammes

Search results