• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 150
  • 47
  • 36
  • Tagged with
  • 235
  • 235
  • 122
  • 120
  • 108
  • 92
  • 55
  • 36
  • 32
  • 31
  • 30
  • 30
  • 29
  • 29
  • 28
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information

Cleuziou, Guillaume 08 December 2004 (has links) (PDF)
Le regroupement d'objets, dans un cadre non-supervisé, est une tâche importante et difficile en apprentissage. Ce processus intervient dans des contextes variés tels que la découverte de connaissances, la simplification dans le représentation ou la description d'un ensemble de données.<br /><br />Nous proposons, dans cette étude, l'algorithme de clustering PoBOC permettant de structurer un ensemble d'objets en classes non-disjointes. Nous utilisons cette méthode de clustering comme outil de traitement dans deux applications très différentes.<br /><br />- En apprentissage supervisé, l'organisation préalable des instances apporte une connaissance utile pour la tâche d'induction de règles propositionnelles et logiques.<br /><br />- En Recherche d'Information, les ambiguïtés et subtilités de la langue naturelle induisent naturellement des recouvrements entre thématiques.<br /><br />Dans ces deux domaines de recherche, l'intérêt d'organiser les objets en classes non-disjointes est confirmé par les études expérimentales adaptées.
22

Utilisation de connaissances sémantiques pour l'analyse de justifications de réponses à des questions

Barbier, Vincent 22 January 2009 (has links) (PDF)
Notre travail se positionne dans la thématique du traitement automatique du langage et plus précisément des systèmes de question-réponse. Il se fonde sur la notion de justification, qu'il formalise dans un modèle faisant intervenir trois types de phénomène linguistiques : les variations paradigmatiques locales d'un terme (sémantiques, morphologiques, inférences), les liens syntagmatiques entre les constituants d'une phrase, et une composante de sémantique énonciative reliant des éléments distants (anaphores, coréférences, thématisation), dans un contexte multiphrase, aussi bien mono- que multi-documents. Nous fondons notre formalisation de la structure des justifications sur un corpus de couples question-réponse extrait de façon semi-automatique. Ensuite, nous décrivons et évaluons un programme extrayant d'articles de journaux justifications structurées. Notre programme vise à conserver au système la capacité de produire une justification structurée, tout en rendant possible l'intégration modulaire d'une grande hétérogénéité de traitements linguistiques, de nature, de niveau de granularité et de fiabilité variés.
23

Recherche et filtrage d'information multimédia (texte, structure et séquence) dans des collections de documents XML hétérogènes

Popovici, Eugen 10 January 2008 (has links) (PDF)
Les documents numériques sont aujourd'hui des données complexes qui intègrent d'une manière hétérogène des informations textuelles, structurelles, multimédia ainsi que des méta-données. Le langage de balisage générique XML s'est progressivement imposé comme support privilégié non seulement pour l'échange des données mais aussi pour leur stockage. La gestion des documents stockés sous les formats XML nécessite le développement de méthodes et d'outils spécifiques pour l'indexation, la recherche, le filtrage et la fouille des données. En particulier, les fonctions de recherche et de filtrage doivent prendre en compte des requêtes disposant de connaissances incomplètes, imprécises, parfois même erronées sur la structure ou le contenu des documents XML. Ces fonctions doivent par ailleurs maintenir une complexité algorithmique compatible avec la complexité des données et surtout avec leur volume toujours en forte croissance, ceci pour assurer le passage à l'échelle des solutions informatiques. Dans cette thèse, nous étudions des méthodes et développons des outils pour indexer et rechercher des informations multimédia hétérogènes stockées dans des banques de documents XML. Plus précisément, nous abordons la question de la recherche par similarité sur des données composites décrites par des éléments structurels, textuels et séquentiels. En s'appuyant sur la partie structurelle des documents XML, nous avons défini un modèle de représentation, d'indexation et d'interrogation flexible pour des types hétérogènes de données séquentielles. Les principes que nous développons mettent en oeuvre des mécanismes de recherche qui exploitent simultanément les éléments des structures documentaires indexées et les contenus documentaires non structurés. Nous évaluons également l'impact sur la pertinence des résultats retournés par l'introduction de mécanismes d'alignement approximatif des éléments structurels. Nous proposons des algorithmes capables de détecter et de suggérer les « meilleurs points d'entrée » pour accéder directement à l'information recherchée dans un document XML. Finalement, nous étudions l'exploitation d'une architecture matérielle dédiée pour accélérer les traitements les plus coûteux du point de vue de la complexité de notre application de recherche d'information structurée. v
24

L'annotation pour la recherche d'information dans le contexte d'intelligence économique

Robert, Charles 16 February 2007 (has links) (PDF)
Nous pensons que l'annotation devrait contribuer à la transformation de l'information collectée en des informations à valeur ajoutée qui seront plus adaptées pour la prise de décision.<br />Nous considérerons l'annotation dans le processus d'intelligence économique en fonction de la période de l'annotation, des utilisateurs et des documents. Les annotations sur un ou plusieurs documents, par un ou plusieurs utilisateurs, peuvent être utilisées pour évaluer l'orientation et l'intérêt des individus lorsqu'ils tentent de résoudre un problème décisionnel. <br />L'ensemble des annotations peut être représenté comme {Ai, l'ensemble des annotations; Ui, l'ensemble des utilisateurs; Tj, périodes des annotations; et Dk l'ensemble des documents} et nous l'avons appelé AMIE.<br />Les paramètres Ui, Tj, Dk peuvent être fixes ou variés afin d'obtenir les annotations pour la prise de décision.<br />Nous avons développé et expérimenté le modèle par une application au domaine d'accès aux ressources d'information sur Internet
25

Filtering parallel texts to improve translation model and cross-language information retrieval

Cai, Jian January 2001 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
26

Un modèle de recherche d'information basé sur les graphes et les similarités structurelles pour l'amélioration du processus de recherche d'information

Champclaux, Yaël 04 December 2009 (has links) (PDF)
Cette thèse d'informatique s'inscrit dans le domaine de la recherche d'information (RI). Elle a pour objet la création d'un modèle de recherche utilisant les graphes pour en exploiter la structure pour la détection de similarités entre les documents textuels d'une collection donnée et une requête utilisateur en vue d'améliorer le processus de recherche d'information. Ces similarités sont dites « structurelles » et nous montrons qu'elles apportent un gain d'information bénéfique par rapport aux seules similarités directes. Le rapport de thèse est structuré en cinq chapitres. Le premier chapitre présente un état de l'art sur la comparaison et les notions connexes que sont la distance et la similarité. Le deuxième chapitre présente les concepts clés de la RI, notamment l'indexation des documents, leur comparaison, et l'évaluation des classements retournés. Le troisième chapitre est consacré à la théorie des graphes et introduit les notations et notions liées à la représentation par graphe. Le quatrième chapitre présente pas à pas la construction de notre modèle pour la RI, puis, le cinquième chapitre décrit son application dans différents cas de figure, ainsi que son évaluation sur différentes collections et sa comparaison à d'autres approches.
27

Méthodes de sélection de collections dans un environnement de recherche d'informations distribuée

Abbaci, Faïza 20 June 2003 (has links) (PDF)
Le thème de cette thèse concerne le domaine de la recherche d'information distribuée (RID). Un système de RID (SRID) de recherche d'information distribuée gère la recherche sur un ensemble de collections de documents distribuées soit sur un réseau local, soit sur un ensemble plus étendu. Un SRID se compose, en général, d'un courtier et d'un ensemble de serveurs. Chaque serveur détient une collection de documents et un système de recherche d'information qui assure la recherche dans cette collection. Le courtier représente la composante avec laquelle l'utilisateur communique. A la réception d'une requête, le courtier choisit un sous-ensemble de serveurs parmi ceux qu'il connaît, auxquels il achemine la requête. Cette opération est appelée sélection de serveurs. Nous proposons dans cette thèse trois méthodes de sélection de serveurs. Ces méthodes ne nécessitent aucune coopération des serveurs interrogés, et aucune mise à jour de données au niveau du courtier.
28

Mesurer et améliorer la qualité des corpus comparables

Bo, Li 26 June 2012 (has links) (PDF)
Les corpus bilingues sont des ressources essentielles pour s'affranchir de la barrière de la langue en traitement automatique des langues (TAL) dans un contexte multilingue. La plupart des travaux actuels utilisent des corpus parallèles qui sont surtout disponibles pour des langues majeurs et pour des domaines spécifiques. Les corpus comparables, qui rassemblent des textes comportant des informations corrélées, sont cependant moins coûteux à obtenir en grande quantité. Plusieurs travaux antérieurs ont montré que l'utilisation des corpus comparables est bénéfique à différentes taches en TAL. En parallèle à ces travaux, nous proposons dans cette thèse d'améliorer la qualité des corpus comparables dans le but d'améliorer les performances des applications qui les exploitent. L'idée est avantageuse puisqu'elle peut être utilisée avec n'importe quelle méthode existante reposant sur des corpus comparables. Nous discuterons en premier la notion de comparabilité inspirée des expériences d'utilisation des corpus bilingues. Cette notion motive plusieurs implémentations de la mesure de comparabilité dans un cadre probabiliste, ainsi qu'une méthodologie pour évaluer la capacité des mesures de comparabilité à capturer un haut niveau de comparabilité. Les mesures de comparabilité sont aussi examinées en termes de robustesse aux changements des entrées du dictionnaire. Les expériences montrent qu'une mesure symétrique s'appuyant sur l'entrelacement du vocabulaire peut être corrélée avec un haut niveau de comparabilité et est robuste aux changements des entrées du dictionnaire. En s'appuyant sur cette mesure de comparabilité, deux méthodes nommées: greedy approach et clustering approach, sont alors développées afin d'améliorer la qualité d'un corpus comparable donnée. L'idée générale de ces deux méthodes est de choisir une sous partie du corpus original qui soit de haute qualité, et d'enrichir la sous-partie de qualité moindre avec des ressources externes. Les expériences montrent que l'on peut améliorer avec ces deux méthodes la qualité en termes de score de comparabilité d'un corpus comparable donnée, avec la méthode clustering approach qui est plus efficace que la method greedy approach. Le corpus comparable ainsi obtenu, permet d'augmenter la qualité des lexiques bilingues en utilisant l'algorithme d'extraction standard. Enfin, nous nous penchons sur la tâche d'extraction d'information interlingue (Cross-Language Information Retrieval, CLIR) et l'application des corpus comparables à cette tâche. Nous développons de nouveaux modèles CLIR en étendant les récents modèles proposés en recherche d'information monolingue. Le modèle CLIR montre de meilleurs performances globales. Les lexiques bilingues extraits à partir des corpus comparables sont alors combinés avec le dictionnaire bilingue existant, est utilisé dans les expériences CLIR, ce qui induit une amélioration significative des systèmes CLIR.
29

Modélisation de la Recherche d'Information par la Logique et les Treillis. Application à la Recherche d'Information Conceptuelle

Abdulahhad, Karam 05 May 2014 (has links) (PDF)
Cette thèse se situe dans le contexte des modèles logique de Recherche d'Information (RI). Le travail présenté dans la thèse est principalement motivé par l'inexactitude de l'hypothèse sur l'indépendance de termes. En effet, cette hypothèse communément acceptée en RI stipule que les termes d'indexation sont indépendant les un des autres. Cette hypothèse est fausse en pratique mais permet toit de même aux systèmes de RI de donner de bon résultats. La proposition contenue dans cette thèse met également l'emphase sur la nature déductive du processus de jugement de pertinence. Les logiques formelles sont bien adaptées pour la représentation des connaissances. Elles permettent ainsi de représenter les relations entre les termes. Les logiques formelles sont également des systèmes d'inférence, ainsi la RI à base de logique constitue une piste de travail pour construire des systèmes efficaces de RI. Cependant, en étudiant les modèles actuels de RI basés sur la logique, nous montrons que ces modèles ont généralement des lacunes. Premièrement, les modèles de RI logiques proposent normalement des représentations complexes de document et des requête et difficile à obtenir automatiquement. Deuxièmement, la décision de pertinence d-->q, qui représente la correspondance entre un document d et une requête q, pourrait être difficile à vérifier. Enfin, la mesure de l'incertitude U(d-->q) est soit ad-hoc ou difficile à mettre en oeuvre. Dans cette thèse, nous proposons un nouveau modèle de RI logique afin de surmonter la plupart des limites mentionnées ci-dessus. Nous utilisons la logique propositionnelle (PL). Nous représentons les documents et les requêtes comme des phrases logiques écrites en Forme Normale Disjonctive. Nous argumentons également que la décision de pertinence d-->q pourrait être remplacée par la validité de l'implication matérielle |= d-->q. Pour vérifier si d-->q est valide ou non, nous exploitons la relation potentielle entre PL et la théorie des treillis. Nous proposons d'abord une représentation intermédiaire des phrases logiques, où elles deviennent des noeuds dans un treillis ayant une relation d'ordre partiel équivalent à la validité de l'implication matérielle. En conséquence, nous transformons la vérification de |= d-->q, ce qui est un calcul intensif, en une série de vérifications simples d'inclusion d'ensembles. Afin de mesurer l'incertitude de la décision de pertinence U(d-->q), nous utilisons la fonction du degré d'inclusion Z, qui est capable de quantifier les relations d'ordre partielles définies sur des treillis. Enfin, notre modèle est capable de travailler efficacement sur toutes les phrases logiques sans aucune restriction, et est applicable aux données à grande échelle. Notre modèle apporte également quelques conclusions théoriques comme: la formalisation de l'hypothèse de van Rijsbergen sur l'estimation de l'incertitude logique U(d-->q) en utilisant la probabilité conditionnelle P(q|d), la redéfinition des deux notions Exhaustivity & Specificity, et finalement ce modèle a également la possibilité de reproduire les modèles les plus classiques de RI. De manière pratique, nous construisons trois instances opérationnelles de notre modèle. Une instance pour étudier l'importance de Exhaustivity et Specificity, et deux autres pour montrer l'insuffisance de l'hypothèse sur l'indépendance des termes. Nos résultats expérimentaux montrent un gain de performance lors de l'intégration Exhaustivity et Specificity. Cependant, les résultats de l'utilisation de relations sémantiques entre les termes ne sont pas suffisants pour tirer des conclusions claires. Le travail présenté dans cette thèse doit être poursuivit par plus d'expérimentations, en particulier sur l'utilisation de relations, et par des études théoriques en profondeur, en particulier sur les propriétés de la fonction Z.
30

Modélisation du problème informationnel du veilleur dans la démarche d'Intelligence Économique

Kislin, Philippe 05 November 2007 (has links) (PDF)
Qu'est-ce qu'un problème informationnel ? Comment et par qui est-il défini ? Celui-ci n'existerait jamais seul... Il s'enchâsserait dans une dynamique décisionnelle à laquelle il emprunterait une histoire, une culture et une mémoire. Ainsi, pour être en mesure de le cerner, il faudrait alors se référer à son origine, c'est-à-dire au problème décisionnel, dont il ne serait qu'une traduction partielle, et à son géniteur, le décideur, qui est aussi son interprète. <br />Dans le contexte de cette étude, nous porterons notre attention sur l'intelligence économique que nous définirons comme étant une démarche collaborative de compréhension et de résolution de problèmes décisionnels et informationnels. Tout en considérant cette démarche, à la fois sur ses aspects informationnels et médiationnels, nous circonscrirons l'intelligence économique à travers une méthodologie collective de résolution, composée de huit étapes s'étendant de l'identification d'un problème décisionnel à la prise de décision. Nous verrons que cette démarche s'appuie, au niveau de l'entreprise, sur une harmonisation de processus et de médiations, structurée autour de deux acteurs et d'une composante : le décideur, le veilleur et l'information. Cette représentation triangulaire des différentes relations entre acteurs et composante, prises deux à deux, constituera l'originalité de notre approche. En nous plaçant du point de vue du veilleur, acteur pivot de ce trinôme décisionnel, notre réflexion se portera sur la modélisation des activités de recherche d'information engendrées par la demande et plus particulièrement sur la deuxième étape de cette démarche : la traduction du problème décisionnel en problème informationnel. Cette thèse a été structurée de manière à présenter la dualité de ces relations entre ces trois protagonistes.<br />Dans ce contexte décisio-informationnel, cette problématique de traduction serait alors bien plus qu'un rapport de langue à langue : elle serait une concordance de problème à problème. Elle demanderait de créer une congruence entre les systèmes de préférences et de pertinence de nos deux acteurs, l'interprétation de la demande informationnelle se devant être dans cette situation, affaire de consensus et de compromis. Pour ce faire, le veilleur aura pour tâche de représenter le plus fidèlement possible les relations entre les données de l'environnement et les enjeux du problème décisionnel afin de les traduire en indicateurs informationnels, c'est-à-dire de trouver une illustration adaptée permettant de les rendre sensibles au cœur et familiers à la raison du décideur. Ainsi, pour répondre dans les meilleures conditions de délais, qualité et coûts à cette demande, nous prendrons pour hypothèse qu'il faut agir sur trois processus à travers les info-, inter- et cogito- médiations des relations entre le décideur, le veilleur et l'information.<br />Notre état de la littérature présentera tout au long des quatre premiers chapitres les processus décider, rechercher et coopérer que nous projetterons dans chacun des espaces des problèmes décisionnel et informationnel. Nous étayerons chacun de ces chapitres de propositions, tantôt pour caractériser les processus, les médiations, les acteurs et composantes, tantôt pour définir des protocoles pour asseoir la collaboration des acteurs ou pour la réutilisation des informations et des connaissances. Les deux derniers chapitres seront, quant à eux, consacrés à la description du modèle WISP et du prototype METIORE qui l'instancie. Ils constitueront, avec les propositions des précédents chapitres, l'apport de nos travaux dans les domaines de la recherche d'information et de l'intelligence économique. Ils ont été conçus tout deux pour servir d'appui cognitif pour la résolution du problème informationnel du veilleur et pour être une interface de communication entre ce dernier et le décideur afin de développer les échanges au sein de la collaboration de résolution de ce, ou de ces problèmes...

Page generated in 0.1322 seconds