Spelling suggestions: "subject:"documents semistructurés"" "subject:"documents semiestructuras""
1 |
Extraction et recherche d'information en langage naturel dans les documents semi-structurésTannier, Xavier 27 September 2006 (has links) (PDF)
La recherche d'information (RI) dans des documents semi-structurés<br />(écrits en XML en pratique) combine des aspects de la RI<br />traditionnelle et ceux de l'interrogation de bases de données. La<br />structure a une importance primordiale, mais le besoin d'information<br />reste vague. L'unité de recherche est variable (un paragraphe, une<br />figure, un article complet\dots). Par ailleurs, la flexibilité du<br />langage XML autorise des manipulations du contenu qui provoquent<br />parfois des ruptures arbitraires dans le flot naturel du texte.<br /><br />Les problèmes posés par ces caractéristiques sont nombreux, que ce<br />soit au niveau du pré-traitement des documents ou de leur<br />interrogation. Face à ces problèmes, nous avons étudié les solutions<br />spécifiques que pouvait apporter le traitement automatique de la<br />langue (TAL). Nous avons ainsi proposé un cadre théorique et une<br />approche pratique pour permettre l'utilisation des techniques<br />d'analyse textuelle en faisant abstraction de la structure. Nous avons<br />également conçu une interface d'interrogation en langage naturel pour<br />la RI dans les documents XML, et proposé des méthodes tirant profit de<br />la structure pour améliorer la recherche des éléments pertinents.
|
2 |
Mod`ele flexible pour la Recherche<br />d'Information dans des corpus de<br />documents semi-structur´esSauvagnat, Karen 30 June 2005 (has links) (PDF)
La nature de sources d'information évolue, et les documents numériques<br />traditionnels ” plats ” ne contenant que du texte s'enrichissent d'information<br />structurelle et multimédia. Cette ´évolution est accélérée par l'expansion du<br />Web, et les documents semi-structurés de type XML (eXtensible Markup Language)<br />tendent à former la majorité des documents numériques mis à disposition<br />des utilisateurs. Le développement d'outils automatisés permettant un<br />accès efficace à ce nouveau type d'information numérique apparaît comme une<br />nécessité. Afin de valoriser au mieux l'ensemble des informations disponibles,<br />les méthodes existantes de Recherche d'Information (RI) doivent être adaptées.<br />L'information structurelle des documents peut en effet servir à affiner le concept<br />de granule documentaire. Le but pour les Systèmes de Recherche d'Information<br />(SRI) est alors de retrouver des unités d'information (et non plus de documents)<br />pertinentes à des requêtes utilisateur. Afin de répondre à cette problématique<br />fondamentale, de nouveaux modèles prenant en compte l'information structurelle<br />des documents, tant au niveau de l'indexation, de l'interrogation que de<br />la recherche doivent être construits.<br />L'objectif de nos travaux est de proposer un modèle permettant d'effectuer des<br />recherches flexibles dans des corpus de document semi-structurés. Ceci nous<br />a conduit à proposer le mod`ele XFIRM (XML Flexible Information Retrieval<br />Model ) reposant sur : (i) Un modèle de représentation des donn´ees générique,<br />permettant de modéliser des documents possédant des structures différentes ;<br />(ii) Un langage de requête flexible, permettant à l'utilisateur d'exprimer son<br />besoin selon divers degrés de précision, en exprimant ou non des conditions<br />sur la structure des documents ; (iii) Un modèle de recherche bas´ee sur une<br />m´ethode de propagation de la pertinence. Ce modèle a pour but de trouver les<br />unités d'information les plus exhaustives et spécifiques répondant à une requête<br />utilisateur, que celle-ci contienne ou non des conditions de structure. Les documents<br />semi-structurés peuvent être représentés sous forme arborescente, et<br />le but est alors de trouver les sous-arbres de taille minimale répondant à la<br />requête. Les recherches sur le contenu seul des documents sont effectuées en<br />prenant en compte les importances diverses des feuilles des sous-arbres, et en<br />plaçant ces derniers dans leur contexte, c'est à dire, en tenant compte de la<br />pertinence du document. Les recherches portant à la fois sur le contenu et la<br />structure des documents sont effectuées grâce à plusieurs propagations de pertinence<br />dans l'arbre du document, et ce afin d'effectuer une correspondance<br />vague entre l'arbre du document et l'arbre de la requête.<br />L'´evaluation de notre modèle, grâce au prototype que nous avons d´eveloppé,<br />montre l'intérêt de nos propositions, que ce soit pour effectuer des recherches<br />sur le contenu seul des documents que sur le contenu et la structure.
|
3 |
Edition collaborative des documents semi-structurésMartin, Stéphane 08 September 2011 (has links) (PDF)
Les éditeurs collaboratifs permettent à des utilisateurs éloignés de collaborer à une tâche commune qui va de l'utilisation d'un agenda partagé à la réalisation de logiciels. Ce concept est né avec SCCS en 1972 et connait un engouement récent (ex: Wikipedia). L'absence de centralisation et l'asynchronisme sont des aspects essentiels de cette approche qui relève d'un modèle pair-à-pair (P2P). D'un autre côté, le format XML est devenu une référence pour la manipulation et l'échange de documents. Notre travail vise à la réalisation d'un éditeur collaboratif P2P pour l'édition de documents semi-structurés qui sont une abstraction du format XML. Le problème est difficile et de nombreuses propositions se sont révélées erronées ou ne passant pas à l'échelle. Nous rappelons les concepts et l'état de l'art sur l'édition collaborative, les modèles centralisés et le P2P. Ensuite, nous explorons deux approches différentes : les transformées opérationnelles et le CRDT (Commutative Replicated Data Type) avec différentes structures de données arborescentes. L'objectif est de réaliser les opérations de base (ajout, suppression et ré-étiquetage) tout en garantissant la convergence du processus d'édition. Nous proposons un algorithme générique pour l'approche CRDT basée sur une notion d'indépendance dans la structure de données. Nous avons étendu nos travaux afin de réaliser l'opération de déplacement d'un sous-arbre et de prendre en compte le typage XML. Peu de travaux abordent ces deux points qui sont très utiles pour l'édition de documents. Finalement, nous donnons les résultats expérimentaux obtenus avec un prototype permettant de valider notre approche.
|
4 |
Edition collaborative des documents semi-structurésMartin, Stéphane 08 September 2011 (has links)
Les éditeurs collaboratifs permettent à des utilisateurs éloignés de collaborer à une tâche commune qui va de l'utilisation d'un agenda partagé à la réalisation de logiciels. Ce concept est né avec SCCS en1972 et connait un engouement récent (ex: Wikipedia). L'absence de centralisation et l'asynchronisme sont des aspects essentiels de cette approche qui relève d'un modèle pair-à-pair (P2P). D'un autre côté,le format XML est devenu une référence pour la manipulation et l'échange de documents. Notre travail vise à la réalisation d'un éditeur collaboratif P2P pour l'édition de documents semi-structurés qui sont une abstraction du format XML. Le problème est difficile et de nombreuses propositions se sont révélées erronées ou ne passant pas à l'échelle. Nous rappelons les concepts et l'état de l'art sur l'édition collaborative, les modèles centralisés et le P2P. Ensuite, nous explorons deux approches différentes : les transformées opérationnelles et le CRDT (Commutative Replicated Data Type) avec différentes structures de données arborescentes. L'objectif est de réaliser les opérations de base (ajout, suppression et ré-étiquetage) tout en garantissant la convergence du processus d'édition. Nous proposons un algorithme générique pour l'approche CRDT basée sur une notion d'indépendance dans la structure de données. Nous avons étendu nos travaux afin de réaliser l'opération de déplacement d'un sous-arbre et de prendre en compte le typage XML. Peu de travaux abordent ces deux points qui sont très utiles pour l'édition de documents. Finalement, nous donnons les résultats expérimentaux obtenus avec un prototype permettant de valider notre approche. / Collaborative editors allow different users to work together on a common task. Such tasks range from using a shared calendar to realizing software programmed by users located at distant sites. This concept was invented in 1972 with SCCS. In the last years, this paradigm became popular (ex. Wikipedia). Decentralization and asynchronicity are essential in this approach, leading to peer-to-peer (P2P) models. Meanwhile, the XML format has arrived as the de facto standard for editing and exchanging documents. Our work aims at defining a collaborative editor for semi-structured documents, which provide an abstraction of the XML format. The problem is difficult since many previous approaches are flawed or not scalable. Firstly,we describe the basic concepts on collaborative edition and network models and we give the state of the art of this topic. Then, we investigate two different approaches : the operational transformation(OT) approach and the Commutative Replicated Data Type (CRDT) approach for different (tree-like) data structures. Our goal is to ensure the convergence of the editing process with the basic operations (Add, Deland rename a node. We have proposed a new generic algorithm based on semantic independence in data structure for CRDT approach. We have extended our results by dealing with the operation that moves a subtree and with XML schema compliance. Few works have been devoted to these extensions which are useful in collaborative edition. Finally, we provide experimental results obtained from our implementation that validate our approach.
|
Page generated in 0.0904 seconds