Global ETD Search

41	Antelope, une plate-forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantique Chaumartin, François-Régis 25 September 2012 (has links) (PDF) Créer rapidement un analyseur sémantique dédié à une tâche particulière n'est pas une tâche aisée. En effet, composants d'analyse et ressources linguistiques sont souvent définis avec des formats incompatibles entre eux, ce qui en rend l'assemblage complexe. Nous souhaitons apporter une réponse opérationnelle à ce problème avec la plate-forme de traitement linguistique Antelope, dont cette thèse décrit les principes de conception et de réalisation. En partie basée sur la Théorie Sens-Texte (TST), Antelope permet une analyse syntaxique et sémantique de corpus de volume important ; son objectif est de " rendre calculable " du texte tout-venant : avis de consommateurs, textes encyclopédiques, documents RH, articles de presse... Pour cela, Antelope intègre (i) plusieurs composants prêts à l'emploi, couvrant les principales tâches de TAL, qui interagissent au sein d'un modèle de données linguistiques unifié ; (ii) un lexique sémantique multilingue à large couverture constitué à partir de différentes sources. Un effort d'intégration permet d'offrir une plate-forme robuste et homogène ; l'ensemble constitue une interface syntaxe-sémantique opérationnelle. La thèse présente la plate-forme et la compare à d'autres projets de référence ; elle souligne les bonnes pratiques à prendre en termes d'architecture logicielle pour qu'un tel ensemble complexe reste maintenable ; elle introduit aussi une démarche semi-supervisée d'acquisition de connaissances à large échelle. traitement de corpus analyse syntaxique et sémantique lexique sémantique désambiguïsation extraction d'information Théorie Sens-Texte
42	Représentation OWL de la ressource lexicale LVF et son utilisation dans le traitement automatique de la langue Abdi, Radia 09 1900 (has links) Le dictionnaire LVF (Les Verbes Français) de J. Dubois et F. Dubois-Charlier représente une des ressources lexicales les plus importantes dans la langue française qui est caractérisée par une description sémantique et syntaxique très pertinente. Le LVF a été mis disponible sous un format XML pour rendre l’accès aux informations plus commode pour les applications informatiques telles que les applications de traitement automatique de la langue française. Avec l’émergence du web sémantique et la diffusion rapide de ses technologies et standards tels que XML, RDF/RDFS et OWL, il serait intéressant de représenter LVF en un langage plus formalisé afin de mieux l’exploiter par les applications du traitement automatique de la langue ou du web sémantique. Nous en présentons dans ce mémoire une version ontologique OWL en détaillant le processus de transformation de la version XML à OWL et nous en démontrons son utilisation dans le domaine du traitement automatique de la langue avec une application d’annotation sémantique développée dans GATE. / The LVF dictionary (Les Verbes Français) by J. Dubois and F. Dubois-Charlier is one of the most important lexical resources in the French language, which is characterized by a highly relevant semantic and syntactic description. The LVF has been available in an XML format to make access to information more convenient for computer applications such as NLP applications for French language. With the emergence of the Semantic Web and the rapid diffusion of its technologies and standards such as XML, RDF/RDFS and OWL, it would be interesting to represent LVF in a more formalized format for a better and more sophisticated usage by natural language processing and semantic web applications. We present in this paper an OWL ontology version of LVF by demonstrating the mapping process between the data model elements of the XML version and OWL. We give account about its use in the field of natural language processing by presenting an application of semantic annotation developed in GATE. LVF Les Verbes Français Peuplement d’ontologies Ressource lexicale Web sémantique Extraction d'information OWL XML Transformation XSLT Ontology population Lexical resource Semantic web Information extraction XSLT transformation French verbs
43	Accès à l'information : vers une hybridation fouille de données et traitement automatique des langues Charnois, Thierry 01 December 2011 (has links) (PDF) Ce mémoire porte sur mes travaux de recherche en traitement automatique des langues (TAL) et en fouille de données textuelles. Il présente comment ces travaux s'organisent autour de la problématique de l'accès à l'information dans les textes. Notre démarche s'appuie sur la prise en compte de l'aspect sémantique de la langue sous forme de modélisation linguistique et de ressources linguistiques pour le développement d'applications. La méthodologie de l'accès à l'information est donc ici vue comme un accès au sens à partir d'une modélisation linguistique relative à l'application visée plutôt qu'un accès aux formes de surface comme l'utilisent par exemple actuellement les méthodes prédominantes des moteurs de recherche. En retour, la formalisation du modèle linguistique et son expérimentation sur corpus visent à améliorer notre connaissance des phénomènes traités et permettre un retour qualitatif, c'est-à-dire explicatif, sur le modèle. L'intérêt pour les méthodes de fouille fondées sur les motifs et la volonté de les intégrer au TAL -- par exemple, pour acquérir automatiquement des ressources linguistiques et alimenter à moindre coût les systèmes de TAL -- procède de la même démarche. Une telle combinaison vise d'une part à repenser la manière dont les processus de TAL peuvent tirer bénéfice de méthodes de fouille spécifiquement adaptées au texte, et d'autre part à renforcer les processus de fouille, en fonction des spécificités de la donnée textuelle, par une prise en compte d'informations de nature linguistique visant notamment à sélectionner l'information la plus pertinente. Traitement Automatique des Langues extraction d'information modélisation linguistique Fouille de données Fouille de textes
44	User-centered and group-based approach for social data filtering and sharing / Approche centrée utilisateur et basée groupe d'intérêt pour filtrer et partager des données sociales Vu, Xuan Truong 01 April 2015 (has links) Les médias sociaux occupent un rôle grandissant dans de nombreux domaines de notre vie quotidienne. Parmi d'autres, les réseaux sociaux tels que Facebook, Twitter, LinkedIn et Google+ dont la popularité a explosé ces dernières années, attirent des millions d'utilisateurs qui se communiquent, publient et partagent des informations et contenus à un rythme sans précédent. Outre les avantages reconnus, les réseaux sociaux ont également soulevé des problèmes divers. Nous sommes particulièrement intéressés par deux problèmes spécifiques : surcharge d'information et cloisonnement de données. Ces deux problèmes empêchent les utilisateurs d'exploiter pleinement et efficacement la richesse des informations poussées sur les réseaux sociaux. Les utilisateurs ont des difficultés pour filtrer tous les contenus reus, pour découvrir de nouveaux contenus au-delà de leurs réseaux personnels, et surtout pour partager les contenus intéressants avec leurs différents groupes d'intérêt. Pour aider les utilisateurs à surmonter ces difficultés, nous proposons une Approche centrée sur utilisateur et basée groupe pour filtrer et partager des données sociales. Cette nouvelle approche a un double objectif : (1) permettre aux utilisateurs d'agréger leurs données sociales en provenance de différents réseaux sociaux, d'en extraire des contenus de leur intérêt et (2) organiser et partager les contenus au sein de différents groupes. Les membres d'un groupe sont en outre en mesure de choisir quelle partie de leurs données à partager avec le groupe et définir collectivement les sujets d’intérêt de ce dernier. Pour implémenter l'approche proposée, nous spécifions une architecture de système comprenant plusieurs modules extensibles, et nous développons un prototype fonctionnel basé Web, appelé SoCoSys. Les résultats expérimentaux, obtenus des deux tests différents, valident les valeurs ajoutées de notre approche. / The social media have played an increasingly important role in many areas of our every day life. Among others, social network sites such as Facebook, LinkedIn, Twitter and Google+ have recently exploded in popularity by attracting millions of users, who communicate with each other, share and publish information and contents at an unprecedented rate. Besides the recognized advantages, social network sites have also raised various issues and challenges. We are particularly interested in two of them, information overload and "walled gardens". These two problems prevent the users from fully and efficiently exploiting thewealth of information available on social network sites. The users have difficulties to filter all incoming contents, to discover additional contents from outside of their friend circles, and importantly to share interesting contents with their different groups of interest. For helping the users to overcome such difficulties, we propose a User-centered and group- based approach for social data filtering and sharing. This novel approach has a twofold purpose : (1) allow the users to aggregate their social data from different social network sites, and to extract from those data the contents of their interest, and (2) organize and share the contents within different groups. The members of a group are moreover able to choose which part of their social data to share with the group, and collectively define its topics of interest. To achieve the proposed approach, we define a modular system architecture including a number of extensible modules, and accordingly build a working Web-based prototype, called SoCoSys. The experimental results, obtained from the two different tests, confirm the added values of our approach. Agrégation de données sociales Réseaux sociaux en ligne Extraction d'information Groupes d'intérêt Système collaboratif Communauté virtuelle Social media Social network sites Social data aggregation Information filtering Groups of interest Collaborative system 620
45	Le repérage automatique des entités nommées dans la langue arabe : vers la création d'un système à base de règles Zaghouani, Wajdi January 2009 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal. Extraction d'information Fouille de textes Extraction des entités nommées Noms propres Langue arabe Traitement automatique de la langue Système à base de règles Constitution de corpus Évaluation Information extraction Text mining Named entity extraction Proper names Arabic language Natural Language Processing (NLP) Rule-based system Corpus development Evaluation
46	Construction et interrogation de la structure informationnelle d'une base documentaire en français Jacquemin, Bernard 08 December 2003 (has links) (PDF) Cette thèse présente une méthode originale pour identifier et structurer l'information de documents et pour l'interroger. Comme les méthodes linguistiques améliorent les résultats des systèmes actuels, cette approche se base sur des analyses linguistiques et des ressources lexicales. Une analyse grammaticale de haut niveau (morphologique, syntaxique et sémantique) identifie d'abord les éléments d'information et les lie entre eux. Puisque le contexte des requêtes est faible, les textes sont analysés. Puis le contenu des ressources confère aux informations de nombreuses actualisations grâce à des transformations contextuelles : synonymie simple et complexe, dérivations avec adaptation du contexte syntaxique, adjonction de traits sémantiques... Enfin, l'interrogation des textes est testée. Une analyse morpho-syntaxique de la question en identifie les éléments d'information et choisit le type de la réponse attendue. Le fragment de texte contenant ces données constitue la réponse à la question.
47	Le repérage automatique des entités nommées dans la langue arabe : vers la création d'un système à base de règles Zaghouani, Wajdi January 2009 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal Extraction d'information Fouille de textes Extraction des entités nommées Noms propres Langue arabe Traitement automatique de la langue Système à base de règles Constitution de corpus Évaluation Information extraction Text mining Named entity extraction Proper names Arabic language Natural Language Processing (NLP) Rule-based system Corpus development Evaluation
48	Formalisation de connaissances à partir de corpus : modélisation linguistique du contexte pour l'extraction automatique de relations sémantiques El Maarouf, Ismaïl 06 December 2011 (has links) (PDF) Les corpus, collections de textes sélectionnés dans un objectif spécifique, occupent une place de plus en plus déterminante en Linguistique comme en Traitement Automatique des Langues (TAL). Considérés à la fois comme source de connaissances sur l'usage authentique des langues, ou sur les entités que désignent des expressions linguistiques, ils sont notamment employés pour évaluer la performance d'applications de TAL. Les critères qui prévalent à leur constitution ont un impact évident, mais encore délicat à caractériser, sur (i) les structures linguistiques majeures qu'ils renferment, (ii) les connaissances qui y sont véhiculées, et, (iii) la capacité de systèmes informatiques à accomplir une tâche donnée. Ce mémoire étudie des méthodologies d'extraction automatique de relations sémantiques dans des corpus de textes écrits. Un tel sujet invite à examiner en détail le contexte dans lequel une expression linguistique s'applique, à identifier les informations qui déterminent son sens, afin d'espérer relier des unités sémantiques. Généralement, la modélisation du contexte est établie à partir de l'analyse de co-occurrence d'informations linguistiques issues de ressources ou obtenues par des systèmes de TAL. Les intérêts et limites de ces informations sont évalués dans le cadre de la tâche d'extraction de relations sur des corpus de genre différent (article de presse, conte, biographie). Les résultats obtenus permettent d'observer que pour atteindre une représentation sémantique satisfaisante ainsi que pour concevoir des systèmes robustes, ces informations ne suffisent pas. Deux problèmes sont particulièrement étudiés. D'une part, il semble indispensable d'ajouter des informations qui concernent le genre du texte. Pour caractériser l'impact du genre sur les relations sémantiques, une méthode de classification automatique, reposant sur les restrictions sémantiques qui s'exercent dans le cadre de relations verbo-nominales, est proposée. La méthode est expérimentée sur un corpus de conte et un corpus de presse. D'autre part, la modélisation du contexte pose des problèmes qui relèvent de la variation discursive de surface. Un texte ne met pas toujours bout à bout des expressions linguistiques en relation et il est parfois nécessaire de recourir à des algorithmes complexes pour détecter des relations à longue portée. Pour répondre à ce problème de façon cohérente, une méthode de segmentation discursive, qui s'appuie sur des indices de structuration de surface apparaissant dans des corpus écrits, est proposée. Elle ouvre le champ à la conception de grammaires qui permettent de raisonner sur des catégories d'ordre macro-syntaxique afin de structurer la représentation discursive d'une phrase. Cette méthode est appliquée en amont d'une analyse syntaxique et l'amélioration des performances est évaluée. Les solutions proposées à ces deux problèmes nous permettent d'aborder l'extraction d'information sous un angle particulier : le système implémenté est évalué sur une tâche de correction d'Entités Nommées dans le contexte d'application des Systèmes de Question-Réponse. Ce besoin spécifique entraîne l'alignement de la définition d'une catégorie sur le type de réponse attendue par une question. traitement automatique des langues linguistique linguistique de corpus corpus sémantique relation sémantique extraction d'information entités nommées genre textuel segmentation discursive désambiguïsation extraction de patron adaptation de systèmes
49	Analyse conjointe texte et image pour la caractérisation de films d'animation Grégory, Païs 06 April 2010 (has links) (PDF) Le développement rapide des nouvelles technologies de l'information a provoqué ces dernières années une augmentation considérable de la masse de données à disposition de l'utilisateur. Afin d'exploiter de manière rationnelle et efficace l'ensemble de ces données la solution passe par l'indexation de ces documents multimédia. C'est dans ce contexte que ce situe cette thèse et plus spécifiquement dans celui de l'indexation d'une base numérique de films d'animation, telle que celle mise en place par la CITIA (Cité de l'image en mouvement). L'objectif principal de cette thèse est de proposer une méthodologie permettant de prendre en compte des informations issues de l'analyse de l'image et celles issues des péri-textes (synopsis, critiques, analyses, etc.). Ces deux sources d'information sont de niveau sémantique très différent et leur utilisation conjointe permet une caractérisation riche et sémantique des séquences vidéo. L'extraction automatique de descripteurs images est abordée dans ces travaux à travers la caractérisation des couleurs et de l'activité du film. L'analyse automatique des synopsis permet quant à elle de caractériser la thématique du film et permet, grâce au scénario actanciel, la caractérisation de l'action de la séquence. Finalement ces informations sont utilisées conjointement pour retrouver et décrire localement les passages d'action et permettent d'obtenir l'atmosphère du film grâce à leur fusion floue. Caractérisation de films cinéma d'animation analyse d'images analyse de textes Extraction d'information scénario actanciel fusion d'information système de fusion flou indexation multimedia

Search results