• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 10
  • 9
  • 1
  • Tagged with
  • 24
  • 24
  • 24
  • 18
  • 16
  • 16
  • 10
  • 8
  • 8
  • 7
  • 7
  • 7
  • 7
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Extraction et recherche d'information en langage naturel dans les documents semi-structurés

Tannier, Xavier 27 September 2006 (has links) (PDF)
La recherche d'information (RI) dans des documents semi-structurés<br />(écrits en XML en pratique) combine des aspects de la RI<br />traditionnelle et ceux de l'interrogation de bases de données. La<br />structure a une importance primordiale, mais le besoin d'information<br />reste vague. L'unité de recherche est variable (un paragraphe, une<br />figure, un article complet\dots). Par ailleurs, la flexibilité du<br />langage XML autorise des manipulations du contenu qui provoquent<br />parfois des ruptures arbitraires dans le flot naturel du texte.<br /><br />Les problèmes posés par ces caractéristiques sont nombreux, que ce<br />soit au niveau du pré-traitement des documents ou de leur<br />interrogation. Face à ces problèmes, nous avons étudié les solutions<br />spécifiques que pouvait apporter le traitement automatique de la<br />langue (TAL). Nous avons ainsi proposé un cadre théorique et une<br />approche pratique pour permettre l'utilisation des techniques<br />d'analyse textuelle en faisant abstraction de la structure. Nous avons<br />également conçu une interface d'interrogation en langage naturel pour<br />la RI dans les documents XML, et proposé des méthodes tirant profit de<br />la structure pour améliorer la recherche des éléments pertinents.
2

Analyse automatique de structures thématiques discursives - Application à la recherche d'information

Bilhaut, Frédérik 14 June 2006 (has links) (PDF)
Cette thèse s'inscrit dans le domaine du traitement automatique des langues, et concerne l'analyse sémantique de la structure du discours. Nous nous attachons plus particulièrement au problème de l'analyse thématique, qui vise l'étude de la structure des textes selon des critères relatifs à la répartition de leur contenu informationnel. Cette tâche revêt une importance capitale dans la perspective de l'accès assisté à l'information, qui constitue notre principale visée applicative. Le concept même de "thème" étant à la fois complexe et assez rarement considéré en tant qu'objet d'étude dans le domaine de la recherche d'information, la première partie du mémoire est consacrée à une vaste étude bibliographique autour des notions de thème, de topique, de sujet ou encore d'à propos, tant en linguistique qu'en sciences de l'information ou en traitement des langues. Nous en dégageons les lignes de force qui fondent notre approche du thème comme objet discursif, sémantique et structuré. Nous proposons sur cette base différents modèles et procédés s'attachant d'abord au traitement sémantique des documents géographiques, puis à l'analyse automatique des cadres de discours spatio-temporels au sens de Michel Charolles. Nous généralisons ces travaux en introduisant les notions de thème discursif composite et d'axe sémantique. Nous terminons en présentant LinguaStream, environnement d'expérimentation intégré que nous avons conçu pour faciliter l'élaboration de modèles linguistiques opérationnels, et qui nous conduit à proposer des principes méthodologiques originaux.
3

Impact des variations morphologiques sur la recherche d'information sur le Web

Eddamoun, Said January 2009 (has links) (PDF)
Notre travail de recherche est de type exploratoire. Il traite de l'apport des connaissances linguistiques à la recherche d'information sur le Web. Plus spécifiquement, nous avons étudié l'impact des variations morphologiques, notamment les variantes dérivées, en termes de fréquence, sur la pertinence des documents rapportés. À ce sujet, nous avons vérifié s'il y a une corrélation entre la fréquence des termes et des variantes morphologiques extraits des documents rapportés et la pertinence de ces mêmes documents. Les résultats obtenus n'ont pas permis de confirmer, d'une façon évidente, cette corrélation. En d'autres termes, si les données brutes laissent croire que, globalement, il y a une corrélation entre la fréquence des variables et la pertinence des documents, ce n'est pas le cas après l'examen des requêtes d'une façon individuelle, et, aussi, après l'application du test statistique de Jonckheere-Terpstra. En somme, la présence ou non d'une telle corrélation dépend, en partie, de la requête, des mots de la requête, de la nature et de la qualité des variantes. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Recherche d'information, Connaissances linguistiques, Variations morphologiques, Reformulation de requêtes, Traitement automatique des langues, Web.
4

Contribution à la maintenance des ontologies à partir d'analyses textuelles : extraction de termes et de relations entre termes

Gargouri, Yassine January 2009 (has links) (PDF)
Les ontologies sont des nouvelles formes de contrôle intelligent de l'information. Elles présentent un savoir préalable requis pour un traitement systématique de l'information à des fins de navigation, de rappel, de précision, etc. Toutefois, les ontologies sont confrontées de façon continue à un problème d'évolution. Étant donné la complexité des changements à apporter, un processus de maintenance, du moins semi-automatique, s'impose de plus en plus pour faciliter cette tâche et assurer sa fiabilité. L'approche proposée trouve son fondement dans un modèle cognitif décrivant un processus d'extraction de connaissances à partir de textes et de thésaurus. Nous mettons ainsi, les textes au centre du processus d'ingénierie des connaissances et présentons une approche se démarquant des techniques formelles classiques en représentation de connaissances par son indépendance de la langue. Les traitements textuels sont fondés principalement sur un processus de classification supporté par un réseau de neurones (ART 1) et sur l'Indexation Sémantique Latente appliquée sur des classes de termes. Partant de l'hypothèse que l'extraction -de connaissances à partir de textes ne peut se contenter d'un traitement statistique (ni même linguistique) de données textuelles pour accaparer toute leur richesse sémantique, un processus d'extraction de connaissances à partir d'un thésaurus a été conçu afin d'intégrer, le mieux possible, les connaissances du domaine au sein de l'ontologie. Ce processus est fondé principalement sur un calcul d'associations sémantiques entre des Vecteurs Conceptuels. Le modèle proposé représente une chaîne de traitement (ONTOLOGICO) au sein de la plateforme SATIM. Ce modèle vise à assister les experts de domaine dans leur tâche de conceptualisation et de maintenance des ontologies en se basant sur un processus itératif supporté par un ensemble de modules, en particulier, un extracteur de termes, un lemmatiseur, un segmenteur, un classifieur, un module de raffinement sémantique basé sur l'Indexation Sémantique Latente et un identificateur de termes reliés basé sur le calcul de similarité sémantique entre les couples de vecteurs conceptuels. La découverte de relations entre termes pour les besoins d'une conceptualisation de domaine s'avère être le résultat d'une complémentarité de traitements appliqués tant sur des textes de domaine que sur un thésaurus. D'une part, les analyses textuelles fondées principalement sur l'application de l'Indexation Sémantique Latente sur des classes de termes génèrent des relations sémantiques précises. D'autre part, l'extraction de relations sémantiques à partir d'un thésaurus, en se basant sur une représentation par des Vecteurs conceptuels, constitue un choix théorique judicieux et performant. Ce processus joue en effet, un rôle important dans la complétude des relations. Ce projet de recherche se place au coeur des échanges entre terminologie et acquisition de connaissances. Il amène une réflexion sur les divers paliers à envisager dans une telle démarche de modélisation de connaissances textuelles pour des objectifs de maintenance d'une ontologie de domaine. La méthodologie proposée constitue une aide précieuse dans le domaine de la maintenance des ontologies. Elle assiste les terminologues chargés de naviguer à travers de vastes données textuelles pour extraire et normaliser la terminologie et facilite la tâche des ingénieurs en connaissances, chargés de modéliser des domaines. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Maintenance d'ontologie, Traitement Automatique du Langage Naturel (TALN), Indexation Sémantique Latente, Vecteurs Conceptuels, Classification automatique, Réseaux de Neurones.
5

L’analyse des commentaires de client : Comment obtenir les informations utiles pour l’innovation et l’amélioration de produit / Online review analysis : How to get useful information for innovating and improving products?

Hou, Tianjun 04 December 2018 (has links)
Avec le développement du commerceélectronique, les clients ont publié de nombreuxcommentaires de produit sur Internet. Ces donnéessont précieuses pour les concepteurs de produit, carles informations concernant les besoins de client sontidentifiables. L'objectif de cette étude est dedévelopper une approche d'analyse automatique descommentaires utilisateurs permettant d'obtenir desinformations utiles au concepteur pour guiderl'amélioration et l'innovation des produits.L’approche proposée contient deux étapes :structuration des données et analyse des données.Dans la structuration des données, l’auteur proposed’abord une ontologie pour organiser les mots et lesexpressions concernant les besoins de client décrientdans les commentaires. Ensuite, une méthode detraitement du langage naturelle basée des règleslinguistiques est proposé pour structurerautomatiquement les textes de commentaires dansl’ontologie proposée.Dans l’analyse des données, deux méthodes sontproposées pour obtenir des idées d’innovation et desvisions sur le changement de préférence d’utilisateuravec le temps. Dans ces deux méthodes, les modèleset les méthodes traditionnelles comme affordancebasedesign, l’analyse conjointe, et le Kano modelsont étudié et appliqué d’une façon innovante.Pour évaluer la praticabilité de l’approche proposéedans la réalité, les commentaires de client de liseusenumérique Kindle sont analysés. Des pistesd’innovation et des stratégies pour améliorer leproduit sont identifiés et construites. / With the development of e-commerce,consumers have posted large number of onlinereviews on the internet. These user-generated dataare valuable for product designers, as informationconcerning user requirements and preference can beidentified.The objective of this study is to develop an approachto guide product design by analyzing automaticallyonline reviews. The proposed approach consists oftwo steps: data structuration and data analytics.In data structuration, the author firstly proposes anontological model to organize the words andexpressions concerning user requirements in reviewtext. Then, a rule-based natural language processingmethod is proposed to automatically structure reviewtext into the propose ontology.In data analytics, two methods are proposed based onthe structured review data to provide designers ideason innovation and to draw insights on the changes ofuser preference over time. In these two methods,traditional affordance-based design, conjointanalysis, the Kano model are studied andinnovatively applied in the context of big data.To evaluate the practicability of the proposedapproach, the online reviews of Kindle e-readers aredownloaded and analyzed, based on which theinnovation path and the strategies for productimprovement are identified and constructed.
6

Rôle de l'inférence temporelle dans la reconnaissance de l'inférence textuelle

Bouneffouf, Djallel 18 June 2008 (has links) (PDF)
Ce projet s‟insère dans le cadre du traitement du langage nature. Il a pour objectif le développement d‟un système de reconnaissance d‟inférence textuelle, nommé TIMINF. Ce type de système permet de détecter, étant donné deux portions de textes, si un des textes est sémantiquement déduit de l‟autre. Nous nous sommes focalisés sur l‟apport de l‟inférence temporelle dans ce type de système. Pour cela, nous avons constitué et analysé un corpus construit à partir de questions collectées à travers le web. Cette étude, nous a permis de classer différents types d‟inférences temporelles et de concevoir l‟architecture informatique de TIMINF qui a pour but l‟intégration d‟un module d‟inférence temporelle dans un système de détection d‟inférence textuelle. Nous proposons, également d‟évaluer les performances des sorties du système TIMINF sur un corpus de test avec la même stratégie adopté dans le challenge RTE.
7

La représentation des documents par réseaux de neurones pour la compréhension de documents parlés / Neural network representations for spoken documents understanding

Janod, Killian 27 November 2017 (has links)
Les méthodes de compréhension de la parole visent à extraire des éléments de sens pertinents du signal parlé. On distingue principalement deux catégories dans la compréhension du signal parlé : la compréhension de dialogues homme/machine et la compréhension de dialogues homme/homme. En fonction du type de conversation, la structure des dialogues et les objectifs de compréhension varient. Cependant, dans les deux cas, les systèmes automatiques reposent le plus souvent sur une étape de reconnaissance automatique de la parole pour réaliser une transcription textuelle du signal parlé. Les systèmes de reconnaissance automatique de la parole, même les plus avancés, produisent dans des contextes acoustiques complexes des transcriptions erronées ou partiellement erronées. Ces erreurs s'expliquent par la présence d'informations de natures et de fonction variées, telles que celles liées aux spécificités du locuteur ou encore l'environnement sonore. Celles-ci peuvent avoir un impact négatif important pour la compréhension. Dans un premier temps, les travaux de cette thèse montrent que l'utilisation d'autoencodeur profond permet de produire une représentation latente des transcriptions d'un plus haut niveau d'abstraction. Cette représentation permet au système de compréhension de la parole d'être plus robuste aux erreurs de transcriptions automatiques. Dans un second temps, nous proposons deux approches pour générer des représentations robustes en combinant plusieurs vues d'un même dialogue dans le but d'améliorer les performances du système la compréhension. La première approche montre que plusieurs espaces thématiques différents peuvent être combinés simplement à l'aide d'autoencodeur ou dans un espace thématique latent pour produire une représentation qui augmente l'efficacité et la robustesse du système de compréhension de la parole. La seconde approche propose d'introduire une forme d'information de supervision dans les processus de débruitages par autoencodeur. Ces travaux montrent que l'introduction de supervision de transcription dans un autoencodeur débruitant dégrade les représentations latentes, alors que les architectures proposées permettent de rendre comparables les performances d'un système de compréhension reposant sur une transcription automatique et un système de compréhension reposant sur des transcriptions manuelles. / Application of spoken language understanding aim to extract relevant items of meaning from spoken signal. There is two distinct types of spoken language understanding : understanding of human/human dialogue and understanding in human/machine dialogue. Given a type of conversation, the structure of dialogues and the goal of the understanding process varies. However, in both cases, most of the time, automatic systems have a step of speech recognition to generate the textual transcript of the spoken signal. Speech recognition systems in adverse conditions, even the most advanced one, produce erroneous or partly erroneous transcript of speech. Those errors can be explained by the presence of information of various natures and functions such as speaker and ambience specificities. They can have an important adverse impact on the performance of the understanding process. The first part of the contribution in this thesis shows that using deep autoencoders produce a more abstract latent representation of the transcript. This latent representation allow spoken language understanding system to be more robust to automatic transcription mistakes. In the other part, we propose two different approaches to generate more robust representation by combining multiple views of a given dialogue in order to improve the results of the spoken language understanding system. The first approach combine multiple thematic spaces to produce a better representation. The second one introduce new autoencoders architectures that use supervision in the denoising autoencoders. These contributions show that these architectures reduce the difference in performance between a spoken language understanding using automatic transcript and one using manual transcript.
8

Gestion de l’incertitude et de l’imprécision dans un processus d’extraction de connaissances à partir des textes / Uncertainty and imprecision management in a knowledge extraction process from unstructured texts

Jean, Pierre-Antoine 23 November 2017 (has links)
Les concepts de découverte et d’extraction de connaissances ainsi que d’inférencesont abordés sous différents angles au sein de la littérature scientifique. En effet, de nombreux domaines s’y intéressent allant de la recherche d’information, à l’implication textuelle en passant par les modèles d’enrichissement automatique des bases de connaissances. Ces concepts suscitent de plus en plus d’intérêt à la fois dans le monde académique et industriel favorisant le développement de nouvelles méthodes.Cette thèse propose une approche automatisée pour l’inférence et l’évaluation de connaissances basée sur l’analyse de relations extraites automatiquement à partir de textes. L’originalité de cette approche repose sur la définition d’un cadre tenant compte (i) de l’incertitude linguistique et de sa détection dans le langage naturel réalisée au travers d’une méthode d’apprentissage tenant compte d’une représentation vectorielle spécifique des phrases, (ii) d’une structuration des objets étudiés (e.g. syntagmes nominaux) sous la forme d’un ordre partiel tenant compte à la fois des implications syntaxiques et d’une connaissance a priori formalisée dans un modèle de connaissances de type taxonomique (iii) d’une évaluation des relations extraites et inférées grâce à des modèles de sélection exploitant une organisation hiérarchique des relations considérées. Cette organisation hiérarchique permet de distinguer différents critères en mettant en œuvre des règles de propagation de l’information permettant ainsi d’évaluer la croyance qu’on peut accorder à une relation en tenant compte de l’incertitude linguistique véhiculée. Bien qu’a portée plus large, notre approche est ici illustrée et évaluée au travers de la définition d’un système de réponse à un questionnaire, généré de manière automatique, exploitant des textes issus du Web. Nous montrons notamment le gain informationnel apporté par la connaissance a priori, l’impact des modèles de sélection établis et le rôle joué par l’incertitude linguistique au sein d’une telle chaîne de traitement. Les travaux sur la détection de l’incertitude linguistique et la mise en place de la chaîne de traitement ont été validés par plusieurs publications et communications nationales et internationales. Les travaux développés sur la détection de l’incertitude et la mise en place de la chaîne de traitement sont disponibles au téléchargement à l’adresse suivante : https ://github.com/PAJEAN/. / Knowledge discovery and inference are concepts tackled in different ways in the scientific literature. Indeed, a large number of domains are interested such as : information retrieval, textual inference or knowledge base population. Theses concepts are arousing increasing interest in both academic and industrial fields, promoting development of new methods.This manuscript proposes an automated approach to infer and evaluate knowledge from extracted relations in non-structured texts. Its originality is based on a novel framework making possible to exploit (i) the linguistic uncertainty thanks to an uncertainty detection method described in this manuscript (ii) a generated partial ordering of studied objects (e.g. noun phrases) taking into account of syntactic implications and a prior knowledge defined into taxonomies, and (iii) an evaluation step of extracted and inferred relations by selection models exploiting a specific partial ordering of relations. This partial ordering allows to compute some criteria in using information propagation rules in order to evaluate the belief associated to a relation in taking into account of the linguistic uncertainty. The proposed approach is illustrated and evaluated through the definition of a system performing question answering by analysing texts available on the Web. This case study shows the benefits of structuring processed information (e.g. using prior knowledge), the impact of selection models and the role of the linguistic uncertainty for inferring and discovering new knowledge. These contributions have been validated by several international and national publications and our pipeline can be downloaded at https ://github.com/PAJEAN/.
9

Modélisation du langage à l'aide de pénalités structurées / Modeling language with structured penalties

Nelakanti, Anil Kumar 11 February 2014 (has links)
La modélisation de la langue naturelle est l¿un des défis fondamentaux de l¿intelligence artificielle et de la conception de systèmes interactifs, avec applications dans les systèmes de dialogue, la génération de texte et la traduction automatique. Nous proposons un modèle log-linéaire discriminatif donnant la distribution des mots qui suivent un contexte donné. En raison de la parcimonie des données, nous proposons un terme de pénalité qui code correctement la structure de l¿espace fonctionnel pour éviter le sur-apprentissage et d¿améliorer la généralisation, tout en capturant de manière appropriée les dépendances à long terme. Le résultat est un modèle efficace qui capte suffisamment les dépendances longues sans occasionner une forte augmentation des ressources en espace ou en temps. Dans un modèle log-linéaire, les phases d¿apprentissage et de tests deviennent de plus en plus chères avec un nombre croissant de classes. Le nombre de classes dans un modèle de langue est la taille du vocabulaire, qui est généralement très importante. Une astuce courante consiste à appliquer le modèle en deux étapes: la première étape identifie le cluster le plus probable et la seconde prend le mot le plus probable du cluster choisi. Cette idée peut être généralisée à une hiérarchie de plus grande profondeur avec plusieurs niveaux de regroupement. Cependant, la performance du système de classification hiérarchique qui en résulte dépend du domaine d¿application et de la construction d¿une bonne hiérarchie. Nous étudions différentes stratégies pour construire la hiérarchie des catégories de leurs observations. / Modeling natural language is among fundamental challenges of artificial intelligence and the design of interactive machines, with applications spanning across various domains, such as dialogue systems, text generation and machine translation. We propose a discriminatively trained log-linear model to learn the distribution of words following a given context. Due to data sparsity, it is necessary to appropriately regularize the model using a penalty term. We design a penalty term that properly encodes the structure of the feature space to avoid overfitting and improve generalization while appropriately capturing long range dependencies. Some nice properties of specific structured penalties can be used to reduce the number of parameters required to encode the model. The outcome is an efficient model that suitably captures long dependencies in language without a significant increase in time or space requirements. In a log-linear model, both training and testing become increasingly expensive with growing number of classes. The number of classes in a language model is the size of the vocabulary which is typically very large. A common trick is to cluster classes and apply the model in two-steps; the first step picks the most probable cluster and the second picks the most probable word from the chosen cluster. This idea can be generalized to a hierarchy of larger depth with multiple levels of clustering. However, the performance of the resulting hierarchical classifier depends on the suitability of the clustering to the problem. We study different strategies to build the hierarchy of categories from their observations.
10

Cold-start recommendation : from Algorithm Portfolios to Job Applicant Matching / Démarrage à froid en recommandation : des portfolios d'algorithmes à l'appariement automatique d'offres et de chercheurs d'emploi

Gonard, François 31 May 2018 (has links)
La quantité d'informations, de produits et de relations potentielles dans les réseaux sociaux a rendu indispensable la mise à disposition de recommandations personnalisées. L'activité d'un utilisateur est enregistrée et utilisée par des systèmes de recommandation pour apprendre ses centres d'intérêt. Les recommandations sont également utiles lorsqu'estimer la pertinence d'un objet est complexe et repose sur l'expérience. L'apprentissage automatique offre d'excellents moyens de simuler l'expérience par l'emploi de grandes quantités de données.Cette thèse examine le démarrage à froid en recommandation, situation dans laquelle soit un tout nouvel utilisateur désire des recommandations, soit un tout nouvel objet est proposé à la recommandation. En l'absence de données d'intéraction, les recommandations reposent sur des descriptions externes. Deux problèmes de recommandation de ce type sont étudiés ici, pour lesquels des systèmes de recommandation spécialisés pour le démarrage à froid sont présentés.En optimisation, il est possible d'aborder le choix d'algorithme dans un portfolio d'algorithmes comme un problème de recommandation. Notre première contribution concerne un système à deux composants, un sélecteur et un ordonnanceur d'algorithmes, qui vise à réduire le coût de l'optimisation d'une nouvelle instance d'optimisation tout en limitant le risque d'un échec de l'optimisation. Les deux composants sont entrainés sur les données du passé afin de simuler l'expérience, et sont alternativement optimisés afin de les faire coopérer. Ce système a remporté l'Open Algorithm Selection Challenge 2017.L'appariement automatique de chercheurs d'emploi et d'offres est un problème de recommandation très suivi par les plateformes de recrutement en ligne. Une seconde contribution concerne le développement de techniques spécifiques pour la modélisation du langage naturel et leur combinaison avec des techniques de recommandation classiques afin de tirer profit à la fois des intéractions passées des utilisateurs et des descriptions textuelles des annonces. Le problème d'appariement d'offres et de chercheurs d'emploi est étudié à travers le prisme du langage naturel et de la recommandation sur deux jeux de données tirés de contextes réels. Une discussion sur la pertinence des différents systèmes de recommandations pour des applications similaires est proposée. / The need for personalized recommendations is motivated by the overabundance of online information, products, social connections. This typically tackled by recommender systems (RS) that learn users interests from past recorded activities. Another context where recommendation is desirable is when estimating the relevance of an item requires complex reasoning based on experience. Machine learning techniques are good candidates to simulate experience with large amounts of data.The present thesis focuses on the cold-start context in recommendation, i.e. the situation where either a new user desires recommendations or a brand-new item is to be recommended. Since no past interaction is available, RSs have to base their reasoning on side descriptions to form recommendations. Two of such recommendation problems are investigated in this work. Recommender systems designed for the cold-start context are designed.The problem of choosing an optimization algorithm in a portfolio can be cast as a recommendation problem. We propose a two components system combining a per-instance algorithm selector and a sequential scheduler to reduce the optimization cost of a brand-new problem instance and mitigate the risk of optimization failure. Both components are trained with past data to simulate experience, and alternatively optimized to enforce their cooperation. The final system won the Open Algorithm Challenge 2017.Automatic job-applicant matching (JAM) has recently received considerable attention in the recommendation community for applications in online recruitment platforms. We develop specific natural language (NL) modeling techniques and combine them with standard recommendation procedures to leverage past user interactions and the textual descriptions of job positions. The NL and recommendation aspects of the JAM problem are studied on two real-world datasets. The appropriateness of various RSs on applications similar to the JAM problem are discussed.

Page generated in 0.1608 seconds