Spelling suggestions: "subject:"text aprocessing"" "subject:"text eprocessing""
161 |
Formalisation de connaissances à partir de corpus : modélisation linguistique du contexte pour l'extraction automatique de relations sémantiquesEl Maarouf, Ismaïl 06 December 2011 (has links) (PDF)
Les corpus, collections de textes sélectionnés dans un objectif spécifique, occupent une place de plus en plus déterminante en Linguistique comme en Traitement Automatique des Langues (TAL). Considérés à la fois comme source de connaissances sur l'usage authentique des langues, ou sur les entités que désignent des expressions linguistiques, ils sont notamment employés pour évaluer la performance d'applications de TAL. Les critères qui prévalent à leur constitution ont un impact évident, mais encore délicat à caractériser, sur (i) les structures linguistiques majeures qu'ils renferment, (ii) les connaissances qui y sont véhiculées, et, (iii) la capacité de systèmes informatiques à accomplir une tâche donnée. Ce mémoire étudie des méthodologies d'extraction automatique de relations sémantiques dans des corpus de textes écrits. Un tel sujet invite à examiner en détail le contexte dans lequel une expression linguistique s'applique, à identifier les informations qui déterminent son sens, afin d'espérer relier des unités sémantiques. Généralement, la modélisation du contexte est établie à partir de l'analyse de co-occurrence d'informations linguistiques issues de ressources ou obtenues par des systèmes de TAL. Les intérêts et limites de ces informations sont évalués dans le cadre de la tâche d'extraction de relations sur des corpus de genre différent (article de presse, conte, biographie). Les résultats obtenus permettent d'observer que pour atteindre une représentation sémantique satisfaisante ainsi que pour concevoir des systèmes robustes, ces informations ne suffisent pas. Deux problèmes sont particulièrement étudiés. D'une part, il semble indispensable d'ajouter des informations qui concernent le genre du texte. Pour caractériser l'impact du genre sur les relations sémantiques, une méthode de classification automatique, reposant sur les restrictions sémantiques qui s'exercent dans le cadre de relations verbo-nominales, est proposée. La méthode est expérimentée sur un corpus de conte et un corpus de presse. D'autre part, la modélisation du contexte pose des problèmes qui relèvent de la variation discursive de surface. Un texte ne met pas toujours bout à bout des expressions linguistiques en relation et il est parfois nécessaire de recourir à des algorithmes complexes pour détecter des relations à longue portée. Pour répondre à ce problème de façon cohérente, une méthode de segmentation discursive, qui s'appuie sur des indices de structuration de surface apparaissant dans des corpus écrits, est proposée. Elle ouvre le champ à la conception de grammaires qui permettent de raisonner sur des catégories d'ordre macro-syntaxique afin de structurer la représentation discursive d'une phrase. Cette méthode est appliquée en amont d'une analyse syntaxique et l'amélioration des performances est évaluée. Les solutions proposées à ces deux problèmes nous permettent d'aborder l'extraction d'information sous un angle particulier : le système implémenté est évalué sur une tâche de correction d'Entités Nommées dans le contexte d'application des Systèmes de Question-Réponse. Ce besoin spécifique entraîne l'alignement de la définition d'une catégorie sur le type de réponse attendue par une question.
|
162 |
Fouille de Textes : de l'extraction des descripteurs linguistiques à leur inductionRoche, Mathieu 09 December 2011 (has links) (PDF)
Les masses de données textuelles aujourd'hui disponibles engendrent un problème difficile lié à leur traitement automatique. Dans ce cadre, des méthodes de Fouille de Textes (FT) et de Traitement Automatique du Langage (TAL) peuvent, en partie, répondre à une telle problématique. Elles consistent à modéliser puis mettre en œuvre des méthodologies appliquées aux données textuelles afin d'en déterminer le sens et/ou découvrir des connaissances nouvelles. Dans ce processus, le descripteur linguistique constitue un élément pivot. Après une présentation des méthodes de traitement des descripteurs en eux-mêmes, ces derniers seront étudiés en contexte, c'est-à-dire en corpus. L'identification des descripteurs est souvent difficile à partir de corpus bruités et à faible contenu textuel sur lesquels nous concentrons nos efforts (par exemple, corpus issus du Web 2.0 ou du traitement OCR). Outre les mots considérés comme des descripteurs linguistiques pertinents en FT, nous nous sommes également intéressés à l'étude des syntagmes complexes à partir de corpus classiques puis d'une terminologie classique à partir de corpus complexes (par exemple, données logs ou corpus en français médiéval). Dans la suite, les syntagmes étudiés ne se situent plus à proprement parler dans les textes mais ils seront induits à partir des mots issus des corpus. Les méthodes proposées permettent de mettre en relief des syntagmes originaux tout à fait utiles pour l'identification d'Entités Nommées, le titrage automatique ou la construction de classes conceptuelles. Contrairement au raisonnement déductif, le raisonnement inductif est dit hypothétique. Dans ce cadre, l'utilisation de méthodes de validation automatique des relations induites par le biais d'approches de Fouille du Web se révèle déterminant. Les perspectives à ce travail se concentreront sur l'extraction de nouveaux descripteurs. Ces derniers seront associés à de nouvelles représentations sous forme d'entrepôts de données textuelles. Enfin, les travaux que nous souhaitons développer se focaliseront sur l'analyse des textes dans un contexte plus vaste lié au multimédia que le paradigme du Web 2.0 a mis en exergue ces dernières années.
|
163 |
Les ontologies comme support à l'interaction et à la personnalisation dans un processus décisionnel. Exploitation de la sémantique pour favoriser l'automatisation cognitiveRanwez, Sylvie 11 July 2013 (has links) (PDF)
Impliqué dans un processus décisionnel, l'opérateur humain est souvent confronté à un trop grand nombre d'informations, qu'il doit analyser, synthétiser et exploiter parfois dans un contexte de crise où le facteur temps est décisif. Il est alors nécessaire d'automatiser certaines tâches à haute valeur cognitive ajoutée pour optimiser ce processus décisionnel. Les ontologies de domaine peuvent être utilisées lors de différentes phases de celui-ci. Les travaux de recherche décrits dans ce mémoire concernent l'instrumentation de l'automatisation cognitive lors de différents traitements de l'information, en exploitant des ontologies. Ces recherches ont été menées au sein de l'équipe KID (Knowledge and Image analysis for Decision making) du centre de recherche LGI2P de l'école des mines d'Alès (EMA), de 2001 à 2013. Une première partie détaille mes différentes activités sous la forme d'un curriculum vitae étendu. La deuxième partie constitue le cœur de ce mémoire et détaille mes contributions en matière d'indexation, de recherche d'information conceptuelle et de visualisation de cartes de connaissances. Le premier chapitre pose les définitions des ontologies, leur application en particulier pour la recherche d'information et argumente notre positionnement. Le deuxième chapitre détaille notre vision de l'indexation, des qualités que l'on peut en attendre et de la pertinence des applications qui l'utilisent. Plusieurs stratégies d'indexation sont évoquées, dont une, l'indexation par propagation, constitue notre principale contribution et la piste privilégiés de nos perspectives à court terme. Le troisième chapitre présente nos contributions en recherche d'information (RI) conceptuelle. Disposant d'un ensemble de ressources indexées à l'aide de concepts issus d'une ontologie de domaine, des techniques de requêtage performantes en termes de rappel et de précision, peuvent être mises en place. Nos travaux s'intègrent dans un processus décisionnel : il faut non seulement fournir un résultat pertinent par rapport à une requête d'un utilisateur, mais également être à même de lui justifier ce résultat. Pour cela nous avons choisi d'utiliser des opérateurs d'agrégation issus du domaine de l'aide à la décision pour déterminer la pertinence d'un document. La reformulation de requête, quant à elle, est envisagée dans ces travaux comme l'optimisation d'une fonction objectif dans un processus de RI itératif. Nos perspectives dans ce domaine concernent la RI complémentaire, où les ressources sélectionnées doivent non seulement être pertinentes par rapport à la requête, mais encore se compléter les unes les autres vis-à-vis de cette requête. La RI nécessitant des méthodes de calcul de similarité sémantique, une partie de nos contributions concerne ces mesures. Un cadre abstrait unificateur a été proposé et une librairie dédiée développée. Pour favoriser l'automatisation cognitive, les techniques de visualisation et d'interaction jouent un rôle majeur. Le quatrième chapitre synthétise nos contributions dans le domaine, en particulier concernant les cartes de connaissances interactives, où les ontologies de domaine sont utilisées pour structurer la carte. Ainsi, la proximité physique des entités représentées tient compte de leur proximité sémantique. Différentes techniques peuvent être employées pour mettre en relief certaines caractéristiques de ces entités, différentes vues pouvant être proposées en fonction du contexte d'utilisation (indexation, navigation, recherche d'information, etc.) Un dernier chapitre conclut ce manuscrit en synthétisant nos contributions et en présentant nos perspectives concernant les différentes thématiques abordées dans ce manuscrit. Un positionnement de ce travail par rapport à l'EMA et plus globalement au sein de l'Institut Mines-Télécom est également proposé, ainsi que mes perspectives en matière d'enseignement.
|
164 |
Relaxation de contraintes globales : Mise en oeuvre et ApplicationMetivier, Jean-Philippe 09 April 2010 (has links) (PDF)
Dans le cadre de la Programmation par Contraintes, les contraintes globales ont amené une évolution majeure tant du point de vue modélisation (en synthétisant des ensembles de contraintes) que du point de vue résolution (grâce à des techniques de filtrage héritées d'autres domaines, comme la Recherche Opérationnelle ou l'Intelligence Artificielle). Par ailleurs, beaucoup de problèmes réels sont sur-contraints (ils ne possèdent pas de solution). Dans ce cas, il est nécessaire de relaxer certaines contraintes. De nombreuses études ont été menées pour traiter le cas des contraintes unaires et binaires, mais très peu pour le cas des contraintes globales. Dans cette thèse, nous étudions la relaxation des contraintes globales dans un cadre permettant l'expression de préférences. Pour plusieurs contraintes globales parmi les plus utilisées (c'est-à-dire AllDifferent, Gcc et Regular), nous proposons différentes sémantiques de violation ainsi que des algorithmes permettant de tester l'existence d'une solution et d'éliminer les valeurs incohérentes (filtrage). Les résultats de cette thèse ont été appliqués avec succès à des problèmes de création d'emplois du temps pour des infirmières, qui sont des problèmes sur-contraints difficiles à modéliser et surtout à résoudre. Mots-clefs : programmation par contraintes, contrainte globale, problème sur-contraints, relaxation de contraintes, contrainte globale relaxée, problème de création d'emplois du temps pour des infirmières.
|
165 |
Vers des moteurs de recherche "intelligents" : un outil de détection automatique de thèmes. Méthode basée sur l'identification automatique des chaînes de référenceLongo, Laurence 12 December 2013 (has links) (PDF)
Cette thèse se situe dans le domaine du Traitement Automatique des Langues et vise à optimiser la classification des documents dans les moteurs de recherche. Les travaux se concentrent sur le développement d'un outil de détection automatique des thèmes des documents (ATDS-fr). Utilisant peu de connaissances, la méthode hybride adoptée allie des techniques statistiques de segmentation thématique à des méthodes linguistiques identifiant des marqueurs de cohésion. Parmi eux, les chaînes de référence - séquence d'expressions référentielles se rapportant à la même entité du discours (e.g. Paul...il...cet homme) - ont fait l'objet d'une attention particulière, car elles constituent un indice textuel important dans la détection des thèmes (i.e. ce sont des marqueurs d'introduction, de maintien et de changement thématique). Ainsi, à partir d'une étude des chaînes de référence menée dans un corpus issu de genres textuels variés (analyses politiques, rapports publics, lois européennes, éditoriaux, roman), nous avons développé un module d'identification automatique des chaînes de référence RefGen qui a été évalué suivant les métriques actuelles de la coréférence.
|
166 |
Analyse syntaxique robuste du français : concilier méthodes statistiques et connaissances linguistiques dans l'outil TalismaneUrieli, Assaf 17 December 2013 (has links) (PDF)
Dans cette thèse, nous explorons l'analyse syntaxique robuste statistique du français. Notre principal souci est de trouver des méthodes qui permettent au linguiste d'injecter des connaissances et/ou des ressources linguistiques dans un moteur statistique afin d'améliorer les résultats pour certains phénomènes spécifiques. D'abord, nous décrivons la schéma d'annotation en dépendances du français, et les algorithmes capables de produire cette annotation, en particulier le parsing par transitions. Après avoir exploré les algorithmes d'apprentissage automatique supervisé pour les problèmes de classification en TAL, nous présentons l'analyseur syntaxique Talismane, développé dans le cadre de cette thèse, et comprennant quatre modules statistiques - le découpage en phrases, la ségmentation en mots, l'étiquettage morpho-syntaxique et le parsing - ainsi que le diverses ressources linguistiques utilisées par le modèle de base. Nos premières expériences tentent d'identifier la meilleure configuration de base parmi des nombreux configurations possibles. Ensuite, nous explorons les améliorations apportées par la recherche par faisceau et la propagation du faisceau. Finalement, nous présentons une série d'expériences dont le but est de corriger des erreurs linguistiques spécifiques au moyen des traits ciblés. Une de nos innovations est l'introduction des règles qui imposent ou interdisent certaines décisions locale, permettant ainsi de contourner le modèle statistique. Nous explorons l'utilisation de règles pour les erreurs que les traits n'ont pu corriger. Finalement, nous présentons une expérience semi-supervisée avec une ressource de sémantique distributionnelle.
|
167 |
Segmentation Strategies for Scene Word ImagesAnil Prasad, M N January 2014 (has links) (PDF)
No description available.
|
168 |
Development of isiXhosa text-to-speech modules to support e-Services in marginalized rural areasMhlana, Siphe January 2011 (has links)
Information and Communication Technology (ICT) projects are being initiated and deployed in marginalized areas to help improve the standard of living for community members. This has lead to a new field, which is responsible for information processing and knowledge development in rural areas, called Information and Communication Technology for Development (ICT4D). An ICT4D projects has been implemented in a marginalized area called Dwesa; this is a rural area situated in the wild coast of the former homelandof Transkei, in the Eastern Cape Province of South Africa. In this rural community there are e-Service projects which have been developed and deployed to support the already existent ICT infrastructure. Some of these projects include the e-Commerce platform, e-Judiciary service, e-Health and e-Government portal. Although these projects are deployed in this area, community members face a language and literacy barrier because these services are typically accessed through English textual interfaces. This becomes a challenge because their language of communication is isiXhosa and some of the community members are illiterate. Most of the rural areas consist of illiterate people who cannot read and write isiXhosa but can only speak the language. This problem of illiteracy in rural areas affects both the youth and the elderly. This research seeks to design, develop and implement software modules that can be used to convert isiXhosa text into natural sounding isiXhosa speech. Such an application is called a Text-to-Speech (TTS) system. The main objective of this research is to improve ICT4D eServices’ usability through the development of an isiXhosa Text-to-Speech system. This research is undertaken within the context of Siyakhula Living Lab (SLL), an ICT4D intervention towards improving the lives of rural communities of South Africa in an attempt to bridge the digital divide. Thedeveloped TTS modules were subsequently tested to determine their applicability to improve eServices usability. The results show acceptable levels of usability as having produced audio utterances for the isiXhosa Text-To-Speech system for marginalized areas.
|
169 |
An exploratory study using the predicate-argument structure to develop methodology for measuring semantic similarity of radiology sentencesNewsom, Eric Tyner 12 November 2013 (has links)
Indiana University-Purdue University Indianapolis (IUPUI) / The amount of information produced in the form of electronic free text in healthcare is increasing to levels incapable of being processed by humans for advancement of his/her professional practice. Information extraction (IE) is a sub-field of natural language processing with the goal of data reduction of unstructured free text. Pertinent to IE is an annotated corpus that frames how IE methods should create a logical expression necessary for processing meaning of text. Most annotation approaches seek to maximize meaning and knowledge by chunking sentences into phrases and mapping these phrases to a knowledge source to create a logical expression. However, these studies consistently have problems addressing semantics and none have addressed the issue of semantic similarity (or synonymy) to achieve data reduction. To achieve data reduction, a successful methodology for data reduction is dependent on a framework that can represent currently popular phrasal methods of IE but also fully represent the sentence. This study explores and reports on the benefits, problems, and requirements to using the predicate-argument statement (PAS) as the framework. A convenient sample from a prior study with ten synsets of 100 unique sentences from radiology reports deemed by domain experts to mean the same thing will be the text from which PAS structures are formed.
|
170 |
Analyse conjointe texte et image pour la caractérisation de films d'animationGrégory, Païs 06 April 2010 (has links) (PDF)
Le développement rapide des nouvelles technologies de l'information a provoqué ces dernières années une augmentation considérable de la masse de données à disposition de l'utilisateur. Afin d'exploiter de manière rationnelle et efficace l'ensemble de ces données la solution passe par l'indexation de ces documents multimédia. C'est dans ce contexte que ce situe cette thèse et plus spécifiquement dans celui de l'indexation d'une base numérique de films d'animation, telle que celle mise en place par la CITIA (Cité de l'image en mouvement). L'objectif principal de cette thèse est de proposer une méthodologie permettant de prendre en compte des informations issues de l'analyse de l'image et celles issues des péri-textes (synopsis, critiques, analyses, etc.). Ces deux sources d'information sont de niveau sémantique très différent et leur utilisation conjointe permet une caractérisation riche et sémantique des séquences vidéo. L'extraction automatique de descripteurs images est abordée dans ces travaux à travers la caractérisation des couleurs et de l'activité du film. L'analyse automatique des synopsis permet quant à elle de caractériser la thématique du film et permet, grâce au scénario actanciel, la caractérisation de l'action de la séquence. Finalement ces informations sont utilisées conjointement pour retrouver et décrire localement les passages d'action et permettent d'obtenir l'atmosphère du film grâce à leur fusion floue.
|
Page generated in 0.0659 seconds