Spelling suggestions: "subject:"extraction d'information"" "subject:"axtraction d'information""
1 |
Apprentissage interactif de règles d'extraction d'information textuelle / Iteractive learning of textual information extraction rulesBannour, Sondes 16 June 2015 (has links)
L’Extraction d’Information est une discipline qui a émergé du Traitement Automatique des Langues afin de proposer des analyses fines d’un texte écrit en langage naturel et d’améliorer la recherche d’informations spécifiques. Les techniques d’extraction d’information ont énormément évolué durant les deux dernières décennies.Les premiers systèmes d’extraction d’information étaient des systèmes à base de règles écrites manuellement. L’écriture manuelle des règles étant devenue une tâche fastidieuse, des algorithmes d’apprentissage automatique de règles ont été développés.Ces algorithmes nécessitent cependant la rédaction d’un guide d’annotation détaillé, puis l’annotation manuelle d’une grande quantité d’exemples d’entraînement. Pour minimiser l’effort humain requis dans les deux familles d’approches de mise au point de règles, nous avons proposé, dans ce travail de thèse, une approche hybride qui combine les deux en un seul système interactif qui procède en plusieurs itérations.Ce système que nous avons nommé IRIES permet à l’utilisateur de travailler de manière duale sur les règles d’extraction d’information et les exemples d’apprentissage.Pour mettre en place l’approche proposée, nous avons proposé une chaîne d’annotation linguistique du texte et l’utilisation d’un langage de règles expressif pour la compréhensibilité et la généricité des règles écrites ou inférées, une stratégie d’apprentissage sur un corpus réduit pour ne pas discriminer les exemples positifs non encore annotés à une itération donnée, la mise en place d’un concordancier pour l’écriture de règles prospectives et la mise en place d’un module d’apprentissage actif(IAL4Sets) pour une sélection intelligente d’exemples.Ces propositions ont été mises en place et évaluées sur deux corpus : le corpus de BioNLP-ST 2013 et le corpus SyntSem. Une étude de différentes combinaisons de traits linguistiques utilisés dans les expressions des règles a permis de voir l’impactde ces traits sur les performances des règles. L’apprentissage sur un corpus réduit a permis un gain considérable en temps d’apprentissage sans dégradationde performances. Enfin, le module d’apprentissage actif proposé (IAL4Sets) a permis d’améliorer les performances de l’apprentissage actif de base de l’algorithme WHISK grâce à l’introduction de la notion de distance ou de similarité distributionnelle qui permet de proposer à l’utilisateur des exemples sémantiquement proches des exemples positifs déjà couverts. / Non communiqué
|
2 |
Repérage et typage d'expressions temporelles pour l'annotation sémantique automatique de pages web : application au e-tourismeWeiser, Stéphanie 30 June 2010 (has links)
Cette thèse présente Adetoa, système dédié au repérage et à l'annotation sémantique automatique d'expressions temporelles dans des pages Web pour une application de e-tourisme. Une étude linguistique détaillée a permis de mettre en avant les caractéristiques et la complexité de l'expression de la temporalité dans les pages Web touristiques. Une étude sémiotique de ce type de pages a montré que les données y étaient organisées de manière fort variée, ne présentant aucune régularité, ce qui rend difficile voire parfois impossible l'automatisation de leur analyse.Ces analyses ont mené à l'élaboration d'un ensemble important de transducteurs (avec Unitex) pour les tâches de repérage et d'annotation des expressions temporelles, ce qui constitue une ressource pouvant être généralisée. De plus, d'autres informations du domaine touristique sont repérées : les objets du tourisme et les adresses. Des transducteurs de liage permettent de grouper toutes les informations concernant une même offre touristique.Pour l'annotation et l'intégration d'Adetoa à la chaîne de traitement du projet Eiffel, un schéma d'annotation et des règles de transformations ont été mis au point. Sans en être un calque direct, le schéma d'annotation suit une ontologie du tourisme. Il permet ainsi de rester au plus près des expressions linguistiques de manière à les caractériser finement. L'ontologie a ensuite pu être adaptée en conséquence, pour un meilleur stockage des données dans la base de connaissance qui lui correspond.L'évaluation d'Adetoa, présentée dans cette thèse, a montré des résultats satisfaisants aussi bien d'un point de vue théorique que pour cette application industrielle. / This thesis presents Adetoa, a system designed to automatically locate temporal expressions in Web pages and tag them with semantic annotations, in the field of e-tourism. A detailed linguistic study has revealed that the expression of temporal information in Web tourism pages is complex and has specific properties. A semiotic study of these pages has pointed out that data are organised in various ways, without any regularity. An automatic analysis of their structure is therefore difficult or even sometimes impossible.These analyses have led to the development of a large number of transducers (under Unitex) for the extraction and mark-up tasks. They can be regarded as a generally applicable resource. Other tourist information is also extracted, such as tourist objects and addresses. Linking transducers have been developed to group all the information concerning one tourist destination.An annotation scheme and transformation rules have been developed in order to mark the annotations and to integrate Adetoa in the processing chain of the Eiffel project. The annotation scheme is based on a tourism ontology but is not a direct replica, thus enabling the expressions to be accurately characterized on a linguistic level. The ontology has then been adapted accordingly, so that the information can more easily be included in the corresponding knowledge base.The evaluation of Adetoa, which is detailed in the last chapter, showed satisfying results, both on a theoretical level and for industrial purposes.
|
3 |
Extraction d information adaptative de pages web par induction supervisée d extracteursJosé de Lima, Rinaldo 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:53:44Z (GMT). No. of bitstreams: 2
arquivo1927_1.pdf: 1553346 bytes, checksum: 9cb96fb0a0fd3a50810d1ec103dedc95 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / A Extração de Informação (EI) compreende técnicas e algoritmos que realisam
duas tarefas importantes: a identificação de informações desejadas a partir de
documentos estruturados e não-estruturados, e o armazenamento dessas
informações em um formato apropriado para uso futuro. Este trabalho concentrase
nos sistemas d'EI adaptativos que podem ser customizados para novos
domínios através de um processo de treinamento (Machine Learning) usando
coleções de documentos anotados como entrada. Particularmente, técnicas de
induçao automática de wrappers são estudadas para extração de informação que
se baseiam na exploração de regularidades estruturais encontradas em documentos
Web. Wrappers são procedimentos para extrair dados de documentos. A indução
de wrappers é definida como uma técnica de extração de informação que usa
algoritmos de aprendizado de máquina para automaticamente construir wrappers a
partir de um corpus previamente anotado e que tem mostrado bons resultados
quando aplicada em textos estruturados, semi-estruturados e livres (em linguagem
natural). Este trabalho propõe um sistema d'EI baseado em Boosted Wrapper
Induction (BWI), um algoritmo de indução de wrappers supervisionado no qual
um outro algoritmo, o AdaBoost, é usado para gerar um procedimento genérico de
extração que combina, no final do processo, um conjunto de wrapers específicos
por voto ponderado. Alguns autores tem estudado como as técnicas de boosting
contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando
a direção desafiadora de usá-lo como um método de extração de informação para
documentos não-estruturados em linguaguem natural. Este fato foi a principal
motivação para se incluir Parts-of-Speech (POS) tagging na fase de préprocessamento
do sistema d'EI ora proposto. Afim de se avaliar o desempenho do
sistema, vários experimentos foram executados usando-se três corpora como
testbed para a tarefa de extração de informação no preenchimento de esquemas de
extração (template filling task). Outros experimentos foram também conduzidos
usando-se diversas combinações de atributos para sistematicamente avaliar os
efeitos que esses últimos têm no desempenho do algoritmo de aprendizado. Os
resultados obtidos experimentalmente mostraram que o desempenho geral do
sistema proposto é comparável a outros sistemas de EI do estado da arte
|
4 |
Extraction d'information à partir de transcription de conversations téléphoniques spécialiséesBoufaden, Narjès January 2004 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
5 |
Domain-specific question answering system : an application to the construction sectorZhang, Zhuo January 2003 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
6 |
Extraction d'Information et modélisation de connaissances à partir de Notes de Communication OraleEven, Fabrice 03 October 2005 (has links) (PDF)
Malgré l'essor de l'Extraction d'Information et le développement de nombreuses applications dédiées lors de ces vingt dernières années, cette tâche rencontre des problèmes lorsqu'elle est réalisée sur des textes atypiques comme des Notes de Communication Orale.<br />Les Notes de Communication Orale sont des textes issus de prises de notes réalisées lors d'une communication orale (entretien, réunion, exposé, etc.) et dont le but est de synthétiser le contenu informatif de la communication. Leurs contraintes de rédaction (rapidité et limitation de la quantité d'écrits) sont à l'origine de particularités linguistiques auxquelles sont mal adaptées les méthodes classiques de Traitement Automatique des Langues et d'Extraction d'Information. Aussi, bien qu'elles soient riches en informations, elles ne sont pas exploitées par les systèmes extrayant des informations à partir de textes.<br />Dans cette thèse, nous proposons une méthode d'extraction adaptée aux Notes de Communication Orale. Cette méthode, nommée MEGET, est fondée sur une ontologie modélisant les connaissances contenues dans les textes et intéressantes du point de vue des informations recherchées (« ontologie d'extraction »). Cette ontologie est construite en unifiant une « ontologie des besoins », décrivant les informations à extraire, avec une « ontologie des termes », conceptualisant les termes du corpus à traiter liés avec ces informations. L'ontologie des termes est élaborée à partir d'une terminologie extraite des textes et enrichie par des termes issus de documents spécialisés. L'ontologie d'extraction est représentée par un ensemble de règles formelles qui sont fournies comme base de connaissance au système d'extraction SYGET. Ce système procède d'abord à un étiquetage des instances des éléments de l'ontologie d'extraction présentes dans les textes, puis extrait les informations recherchées. Cette approche est validée sur plusieurs corpus.
|
7 |
Génération de phrases multilingues par apprentissage automatique de modèles de phrasesCharton, Eric 12 November 2010 (has links) (PDF)
La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d'attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d'exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l'implémentation d'un système de GAT en plusieurs langues et améliore les capacités d'adaptations d'un système de génération à un domaine sémantique particulier. La production, d'après un corpus d'apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l'extraction d'information et de la classification. Nous décrivons le système d'étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d'information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l'intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d'investigations prometteuses sur la nature du processus de formation de phrases
|
8 |
Extraction d'information et compression conjointes de Séries Temporelles d'Images SatellitairesGueguen, Lionel 30 October 2007 (has links) (PDF)
Ces derniers temps, de nouvelles données riches en information ont été produites : les Séries Temporelles d'Images Satellitaires qui permettent d'observer les évolutions de la surface de la Terre. Ces séries constituent un grand volume de données et elles contiennent des informations complexes et d'intérêt. Par exemple, de nombreux événements spatio-temporels, tels que les récoltes, la maturation de cultures ou l'évolution de zones urbaines, peuvent y être obsérvés et sont utiles pour des problèmatiques de télé-surveillance. Dans ce contexte, cette thèse se propose d'extraire l'information automatiquement pour aider à la compréhension des événements spatio-temporels et de compresser pour limiter l'espace de stockage. Aussi l'objectif majeur de ces travaux consiste en la conception d'une méthodologie incorporant conjointement l'extraction d'information et la compression. Ce traitement conjoint nous permet d'obtenir une représentation compacte des Séries Temporelles d'Images Satellitaires qui contienne un index du contenu informationnel. Plus précisément, ces travaux décrivent dans un premier temps le concept d'extraction et de compression conjointes où l'extraction est vue comme une compression avec pertes de l'information. Dans un second temps, deux méthodologies élaborées à partir du concept précédent sont présentées. La première permet de construire un index du contenu informationnel en se fondant sur le principe d'Information Bottleneck. La seconde permet de construire un code ou une représentation compacte qui intègre un index du contenu informationnel. Finalement, ces deux méthodes sont validées et comparées sur des données synthétiques et sont par la suite appliquées avec succès aux Séries Temporelles d'Images Satellitaires.
|
9 |
Repérage et typage d'expressions temporelles pour l'annotation sémantique automatique de pages Web - Application au e-tourismeWeiser, Stéphanie, Weiser, Stéphanie 30 June 2010 (has links) (PDF)
Cette thèse présente Adetoa, système dédié au repérage et à l'annotation sémantique automatique d'expressions temporelles dans des pages Web pour une application de e-tourisme. Une étude linguistique détaillée a permis de mettre en avant les caractéristiques et la complexité de l'expression de la temporalité dans les pages Web touristiques. Une étude sémiotique de ce type de pages a montré que les données y étaient organisées de manière fort variée, ne présentant aucune régularité, ce qui rend difficile voire parfois impossible l'automatisation de leur analyse. Ces analyses ont mené à l'élaboration d'un ensemble important de transducteurs (avec Unitex) pour les tâches de repérage et d'annotation des expressions temporelles, ce qui constitue une ressource pouvant être généralisée. De plus, d'autres informations du domaine touristique sont repérées : les objets du tourisme et les adresses. Des transducteurs de liage permettent de grouper toutes les informations concernant une même offre touristique. Pour l'annotation et l'intégration d'Adetoa à la chaîne de traitement du projet Eiffel, un schéma d'annotation et des règles de transformations ont été mis au point. Sans en être un calque direct, le schéma d'annotation suit une ontologie du tourisme. Il permet ainsi de rester au plus près des expressions linguistiques de manière à les caractériser finement. L'ontologie a ensuite pu être adaptée en conséquence, pour un meilleur stockage des données dans la base de connaissance qui lui correspond. L'évaluation d'Adetoa, présentée dans cette thèse, a montré des résultats satisfaisants aussi bien d'un point de vue théorique que pour cette application industrielle.
|
10 |
Dispositifs de recherche et de traitement de l'information en vue d'une aide à la constitution de réseaux d'entreprisesHajlaoui, Kafil 08 December 2009 (has links) (PDF)
Le contexte industriel indissociable de l'évolution des Technologies de l'Information et de la Communication donne naissance aujourd'hui à de nouvelles formes d'organisations fortement basées sur les collaborations inter-entreprises. Dans ce contexte de réseaux collaboratifs, la qualité de l'émergence de nouveaux partenariats dépend largement des dispositifs de traitement et de partage de l'information. La recherche d'information pertinentes caractérisant les entreprises devient un outil indispensable aux managers et aux divers acteurs économiques, en vue de détecter des liens de collaboration potentiels. Dans le cadre de ces travaux de thèse, nous avons ciblé la complémentarité des activités et la similarité des compétences comme informations clés destinées à analyser les opportunités d'émergences de collaborations inter-entreprises. Ce travail de recherche s'inscrit dans le cadre de la mise en oeuvre de systèmes de recherche et d'extraction automatique d'information à partir du web (site web des entreprises). L'objectif est de répondre aux besoins d'un environnement informationnel ouvert, concernant les entreprises. La thèse vise à développer des mécanismes ciblés d'extraction d'information, dont l'utilisation sera préalable à l'application d'outil d'aide à la décision dans le domaine des collaborations inter-entreprises. La contribution est basée sur une représentation sémantique de l'information en se basant sur les ontologies, les liens sémantiques et un traitement linguistique articulé sur l'utilisation des patrons syntaxiques. Deux mécanismes d'extraction d'information sont mis en place, l'un orienté sur l'identification des secteurs d'activités des entreprises et l'autre sur le repérage de leurs compétences.
|
Page generated in 0.1222 seconds