21 |
Modèle d'accès personnalisé à l'information basé sur les Diagrammes d'Influence intégrant un profil utilisateur évolutifZemirli, Nesrine 12 June 2008 (has links) (PDF)
La RI personnalisée est une direction de recherche qui permet la mise en oeuvre de systèmes d'accès à l'information centrés utilisateurs, non dans le sens d'un utilisateur générique mais d'un utilisateur spécifique et ce, en vue d'adapter son fonctionnement à son contexte précis. L'objet de cette thèse est de proposer un modèle formel capable d'intégrer l'utilisateur dans le processus d'accès à l'information. Nous avons orienté nos travaux vers l'utilisation des diagrammes d'influence comme support théorique nous permettant de formaliser l'utilité des décisions associées à la pertinence des documents compte tenu de la requête et du pro- fil de l'utilisateur. L'idée de base est de substituer à la fonction de pertinence classique qui mesure le degré d'appariement requête-document une fonction intégrant l'utilisateur. Dans notre approche, le profil utilisateur comprend ses centres d'intérêt à court terme et long terme. Le profil repose sur une représentation à deux dimensions corrélées : historique des interactions et centres d'intérêts. Le processus de définition du profil est fondé sur l'interaction des phases de construction et d'évolution. Plus précisément, le profil est construit et évolue à partir des informations collectées sur les documents jugés implicitement ou explicitement pertinents lors des interactions de l'utilisateur avec un SRI. Nous utilisons pour cela un opérateur d'agrégation d'informations ainsi qu'une méthode statistique qui permet de scruter le changement dans les centres d'intérêt de l'utilisateur, au cours du temps. N'ayant pas de cadre standard d'évaluation, nous proposons un cadre d'évaluation adapté à l'accès personnalisé à l'information en augmentant les collections de la campagne TREC par des profils utilisateurs simulés. Nous validons notre contribution par comparaison au modèle de recherche Bayésien classique.
|
22 |
Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'informationCleuziou, Guillaume 08 December 2004 (has links) (PDF)
Le regroupement d'objets, dans un cadre non-supervisé, est une tâche importante et difficile en apprentissage. Ce processus intervient dans des contextes variés tels que la découverte de connaissances, la simplification dans le représentation ou la description d'un ensemble de données.<br /><br />Nous proposons, dans cette étude, l'algorithme de clustering PoBOC permettant de structurer un ensemble d'objets en classes non-disjointes. Nous utilisons cette méthode de clustering comme outil de traitement dans deux applications très différentes.<br /><br />- En apprentissage supervisé, l'organisation préalable des instances apporte une connaissance utile pour la tâche d'induction de règles propositionnelles et logiques.<br /><br />- En Recherche d'Information, les ambiguïtés et subtilités de la langue naturelle induisent naturellement des recouvrements entre thématiques.<br /><br />Dans ces deux domaines de recherche, l'intérêt d'organiser les objets en classes non-disjointes est confirmé par les études expérimentales adaptées.
|
23 |
Utilisation de connaissances sémantiques pour l'analyse de justifications de réponses à des questionsBarbier, Vincent 22 January 2009 (has links) (PDF)
Notre travail se positionne dans la thématique du traitement automatique du langage et plus précisément des systèmes de question-réponse. Il se fonde sur la notion de justification, qu'il formalise dans un modèle faisant intervenir trois types de phénomène linguistiques : les variations paradigmatiques locales d'un terme (sémantiques, morphologiques, inférences), les liens syntagmatiques entre les constituants d'une phrase, et une composante de sémantique énonciative reliant des éléments distants (anaphores, coréférences, thématisation), dans un contexte multiphrase, aussi bien mono- que multi-documents. Nous fondons notre formalisation de la structure des justifications sur un corpus de couples question-réponse extrait de façon semi-automatique. Ensuite, nous décrivons et évaluons un programme extrayant d'articles de journaux justifications structurées. Notre programme vise à conserver au système la capacité de produire une justification structurée, tout en rendant possible l'intégration modulaire d'une grande hétérogénéité de traitements linguistiques, de nature, de niveau de granularité et de fiabilité variés.
|
24 |
Recherche et filtrage d'information multimédia (texte, structure et séquence) dans des collections de documents XML hétérogènesPopovici, Eugen 10 January 2008 (has links) (PDF)
Les documents numériques sont aujourd'hui des données complexes qui intègrent d'une manière hétérogène des informations textuelles, structurelles, multimédia ainsi que des méta-données. Le langage de balisage générique XML s'est progressivement imposé comme support privilégié non seulement pour l'échange des données mais aussi pour leur stockage. La gestion des documents stockés sous les formats XML nécessite le développement de méthodes et d'outils spécifiques pour l'indexation, la recherche, le filtrage et la fouille des données. En particulier, les fonctions de recherche et de filtrage doivent prendre en compte des requêtes disposant de connaissances incomplètes, imprécises, parfois même erronées sur la structure ou le contenu des documents XML. Ces fonctions doivent par ailleurs maintenir une complexité algorithmique compatible avec la complexité des données et surtout avec leur volume toujours en forte croissance, ceci pour assurer le passage à l'échelle des solutions informatiques. Dans cette thèse, nous étudions des méthodes et développons des outils pour indexer et rechercher des informations multimédia hétérogènes stockées dans des banques de documents XML. Plus précisément, nous abordons la question de la recherche par similarité sur des données composites décrites par des éléments structurels, textuels et séquentiels. En s'appuyant sur la partie structurelle des documents XML, nous avons défini un modèle de représentation, d'indexation et d'interrogation flexible pour des types hétérogènes de données séquentielles. Les principes que nous développons mettent en oeuvre des mécanismes de recherche qui exploitent simultanément les éléments des structures documentaires indexées et les contenus documentaires non structurés. Nous évaluons également l'impact sur la pertinence des résultats retournés par l'introduction de mécanismes d'alignement approximatif des éléments structurels. Nous proposons des algorithmes capables de détecter et de suggérer les « meilleurs points d'entrée » pour accéder directement à l'information recherchée dans un document XML. Finalement, nous étudions l'exploitation d'une architecture matérielle dédiée pour accélérer les traitements les plus coûteux du point de vue de la complexité de notre application de recherche d'information structurée. v
|
25 |
L'annotation pour la recherche d'information dans le contexte d'intelligence économiqueRobert, Charles 16 February 2007 (has links) (PDF)
Nous pensons que l'annotation devrait contribuer à la transformation de l'information collectée en des informations à valeur ajoutée qui seront plus adaptées pour la prise de décision.<br />Nous considérerons l'annotation dans le processus d'intelligence économique en fonction de la période de l'annotation, des utilisateurs et des documents. Les annotations sur un ou plusieurs documents, par un ou plusieurs utilisateurs, peuvent être utilisées pour évaluer l'orientation et l'intérêt des individus lorsqu'ils tentent de résoudre un problème décisionnel. <br />L'ensemble des annotations peut être représenté comme {Ai, l'ensemble des annotations; Ui, l'ensemble des utilisateurs; Tj, périodes des annotations; et Dk l'ensemble des documents} et nous l'avons appelé AMIE.<br />Les paramètres Ui, Tj, Dk peuvent être fixes ou variés afin d'obtenir les annotations pour la prise de décision.<br />Nous avons développé et expérimenté le modèle par une application au domaine d'accès aux ressources d'information sur Internet
|
26 |
Filtering parallel texts to improve translation model and cross-language information retrievalCai, Jian January 2001 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
27 |
Un modèle de recherche d'information basé sur les graphes et les similarités structurelles pour l'amélioration du processus de recherche d'informationChampclaux, Yaël 04 December 2009 (has links) (PDF)
Cette thèse d'informatique s'inscrit dans le domaine de la recherche d'information (RI). Elle a pour objet la création d'un modèle de recherche utilisant les graphes pour en exploiter la structure pour la détection de similarités entre les documents textuels d'une collection donnée et une requête utilisateur en vue d'améliorer le processus de recherche d'information. Ces similarités sont dites « structurelles » et nous montrons qu'elles apportent un gain d'information bénéfique par rapport aux seules similarités directes. Le rapport de thèse est structuré en cinq chapitres. Le premier chapitre présente un état de l'art sur la comparaison et les notions connexes que sont la distance et la similarité. Le deuxième chapitre présente les concepts clés de la RI, notamment l'indexation des documents, leur comparaison, et l'évaluation des classements retournés. Le troisième chapitre est consacré à la théorie des graphes et introduit les notations et notions liées à la représentation par graphe. Le quatrième chapitre présente pas à pas la construction de notre modèle pour la RI, puis, le cinquième chapitre décrit son application dans différents cas de figure, ainsi que son évaluation sur différentes collections et sa comparaison à d'autres approches.
|
28 |
Méthodes de sélection de collections dans un environnement de recherche d'informations distribuéeAbbaci, Faïza 20 June 2003 (has links) (PDF)
Le thème de cette thèse concerne le domaine de la recherche d'information distribuée (RID). Un système de RID (SRID) de recherche d'information distribuée gère la recherche sur un ensemble de collections de documents distribuées soit sur un réseau local, soit sur un ensemble plus étendu. Un SRID se compose, en général, d'un courtier et d'un ensemble de serveurs. Chaque serveur détient une collection de documents et un système de recherche d'information qui assure la recherche dans cette collection. Le courtier représente la composante avec laquelle l'utilisateur communique. A la réception d'une requête, le courtier choisit un sous-ensemble de serveurs parmi ceux qu'il connaît, auxquels il achemine la requête. Cette opération est appelée sélection de serveurs. Nous proposons dans cette thèse trois méthodes de sélection de serveurs. Ces méthodes ne nécessitent aucune coopération des serveurs interrogés, et aucune mise à jour de données au niveau du courtier.
|
29 |
Mesurer et améliorer la qualité des corpus comparablesBo, Li 26 June 2012 (has links) (PDF)
Les corpus bilingues sont des ressources essentielles pour s'affranchir de la barrière de la langue en traitement automatique des langues (TAL) dans un contexte multilingue. La plupart des travaux actuels utilisent des corpus parallèles qui sont surtout disponibles pour des langues majeurs et pour des domaines spécifiques. Les corpus comparables, qui rassemblent des textes comportant des informations corrélées, sont cependant moins coûteux à obtenir en grande quantité. Plusieurs travaux antérieurs ont montré que l'utilisation des corpus comparables est bénéfique à différentes taches en TAL. En parallèle à ces travaux, nous proposons dans cette thèse d'améliorer la qualité des corpus comparables dans le but d'améliorer les performances des applications qui les exploitent. L'idée est avantageuse puisqu'elle peut être utilisée avec n'importe quelle méthode existante reposant sur des corpus comparables. Nous discuterons en premier la notion de comparabilité inspirée des expériences d'utilisation des corpus bilingues. Cette notion motive plusieurs implémentations de la mesure de comparabilité dans un cadre probabiliste, ainsi qu'une méthodologie pour évaluer la capacité des mesures de comparabilité à capturer un haut niveau de comparabilité. Les mesures de comparabilité sont aussi examinées en termes de robustesse aux changements des entrées du dictionnaire. Les expériences montrent qu'une mesure symétrique s'appuyant sur l'entrelacement du vocabulaire peut être corrélée avec un haut niveau de comparabilité et est robuste aux changements des entrées du dictionnaire. En s'appuyant sur cette mesure de comparabilité, deux méthodes nommées: greedy approach et clustering approach, sont alors développées afin d'améliorer la qualité d'un corpus comparable donnée. L'idée générale de ces deux méthodes est de choisir une sous partie du corpus original qui soit de haute qualité, et d'enrichir la sous-partie de qualité moindre avec des ressources externes. Les expériences montrent que l'on peut améliorer avec ces deux méthodes la qualité en termes de score de comparabilité d'un corpus comparable donnée, avec la méthode clustering approach qui est plus efficace que la method greedy approach. Le corpus comparable ainsi obtenu, permet d'augmenter la qualité des lexiques bilingues en utilisant l'algorithme d'extraction standard. Enfin, nous nous penchons sur la tâche d'extraction d'information interlingue (Cross-Language Information Retrieval, CLIR) et l'application des corpus comparables à cette tâche. Nous développons de nouveaux modèles CLIR en étendant les récents modèles proposés en recherche d'information monolingue. Le modèle CLIR montre de meilleurs performances globales. Les lexiques bilingues extraits à partir des corpus comparables sont alors combinés avec le dictionnaire bilingue existant, est utilisé dans les expériences CLIR, ce qui induit une amélioration significative des systèmes CLIR.
|
30 |
Modélisation de la Recherche d'Information par la Logique et les Treillis. Application à la Recherche d'Information ConceptuelleAbdulahhad, Karam 05 May 2014 (has links) (PDF)
Cette thèse se situe dans le contexte des modèles logique de Recherche d'Information (RI). Le travail présenté dans la thèse est principalement motivé par l'inexactitude de l'hypothèse sur l'indépendance de termes. En effet, cette hypothèse communément acceptée en RI stipule que les termes d'indexation sont indépendant les un des autres. Cette hypothèse est fausse en pratique mais permet toit de même aux systèmes de RI de donner de bon résultats. La proposition contenue dans cette thèse met également l'emphase sur la nature déductive du processus de jugement de pertinence. Les logiques formelles sont bien adaptées pour la représentation des connaissances. Elles permettent ainsi de représenter les relations entre les termes. Les logiques formelles sont également des systèmes d'inférence, ainsi la RI à base de logique constitue une piste de travail pour construire des systèmes efficaces de RI. Cependant, en étudiant les modèles actuels de RI basés sur la logique, nous montrons que ces modèles ont généralement des lacunes. Premièrement, les modèles de RI logiques proposent normalement des représentations complexes de document et des requête et difficile à obtenir automatiquement. Deuxièmement, la décision de pertinence d-->q, qui représente la correspondance entre un document d et une requête q, pourrait être difficile à vérifier. Enfin, la mesure de l'incertitude U(d-->q) est soit ad-hoc ou difficile à mettre en oeuvre. Dans cette thèse, nous proposons un nouveau modèle de RI logique afin de surmonter la plupart des limites mentionnées ci-dessus. Nous utilisons la logique propositionnelle (PL). Nous représentons les documents et les requêtes comme des phrases logiques écrites en Forme Normale Disjonctive. Nous argumentons également que la décision de pertinence d-->q pourrait être remplacée par la validité de l'implication matérielle |= d-->q. Pour vérifier si d-->q est valide ou non, nous exploitons la relation potentielle entre PL et la théorie des treillis. Nous proposons d'abord une représentation intermédiaire des phrases logiques, où elles deviennent des noeuds dans un treillis ayant une relation d'ordre partiel équivalent à la validité de l'implication matérielle. En conséquence, nous transformons la vérification de |= d-->q, ce qui est un calcul intensif, en une série de vérifications simples d'inclusion d'ensembles. Afin de mesurer l'incertitude de la décision de pertinence U(d-->q), nous utilisons la fonction du degré d'inclusion Z, qui est capable de quantifier les relations d'ordre partielles définies sur des treillis. Enfin, notre modèle est capable de travailler efficacement sur toutes les phrases logiques sans aucune restriction, et est applicable aux données à grande échelle. Notre modèle apporte également quelques conclusions théoriques comme: la formalisation de l'hypothèse de van Rijsbergen sur l'estimation de l'incertitude logique U(d-->q) en utilisant la probabilité conditionnelle P(q|d), la redéfinition des deux notions Exhaustivity & Specificity, et finalement ce modèle a également la possibilité de reproduire les modèles les plus classiques de RI. De manière pratique, nous construisons trois instances opérationnelles de notre modèle. Une instance pour étudier l'importance de Exhaustivity et Specificity, et deux autres pour montrer l'insuffisance de l'hypothèse sur l'indépendance des termes. Nos résultats expérimentaux montrent un gain de performance lors de l'intégration Exhaustivity et Specificity. Cependant, les résultats de l'utilisation de relations sémantiques entre les termes ne sont pas suffisants pour tirer des conclusions claires. Le travail présenté dans cette thèse doit être poursuivit par plus d'expérimentations, en particulier sur l'utilisation de relations, et par des études théoriques en profondeur, en particulier sur les propriétés de la fonction Z.
|
Page generated in 0.027 seconds