41 |
Algorithms for classifying recorded music by genreBergstra, James January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
42 |
Etude de l'ambiguïté des requêtes dans un moteur de recherche spécialisé dans l'actualité : exploitation d'indices contextuels / Study of the ambiguity of queries in a news search engine : exploitation of contextual cluesLalleman, Fanny 26 November 2013 (has links)
Dans cette thèse, nous envisageons la question de l’ambiguïté des requêtes soumises à un moteur de recherche dans un domaine particulier qui est l’actualité. Nous nous appuyons sur les travaux récents dans le domaine de la recherche d’information (RI) qui ont montré l’apport d’informations contextuelles pour mieux cerner et traiter plus adéquatement le besoin informationnel. Nous faisons ainsi l’hypothèse que les éléments d’information disponibles dans une application de RI (contextes présents dans la base documentaire, répétitions et reformulations de requêtes, dimension diachronique de la recherche) peuvent nous aider à étudier ce problème d’ambiguïté. Nous faisons également l’hypothèse que l’ambiguïté va se manifester dans les résultats ramenés par un moteur de recherche. Dans ce but, nous avons mis en place un dispositif pour étudier l’ambiguïté des requêtes reposant sur une méthode de catégorisation thématique des requêtes, qui s’appuie sur unecatégorisation experte. Nous avons ensuite montré que cette ambiguïté est différente de celle repérée par une ressource encyclopédique telle que Wikipédia. Nous avons évalué ce dispositif de catégorisation en mettant en place deux tests utilisateurs. Enfin, nous fournissons une étude basée sur un faisceau d’indices contextuels afin de saisir le comportement global d’une requête. / In this thesis, we consider the question of the ambiguity of queries submitted to a search engine in a particular area that is news.We build on recent work in the field of information retrieval (IR) that showed the addition of contextual information to better identify and address more adequately the information need. On this basis, we make the hypothesis that the elements of information available in an application of IR (contexts in the collection of documents, repetitions and reformulations of queries, diachronic dimension of the search) can help us to examine this problem of ambiguity. We also postulate that ambiguity will manifest in the results returned by a search engine. In this purpose to evaluate these hypotheses, we set up a device to study the ambiguity of queries based on a method of thematic categorization of queries, which relies on an expert categorization. We then show that this ambiguity is different which is indicated by an encyclopedic resources such as Wikipedia.We evaluate this categorization device by setting up two user tests. Finally, we carry out a study based on a set of contextual clues in order to understand the global behavior of a query.
|
43 |
Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia / Representation of documents combining text and image : application to categorization and multimedia information retrievalMoulin, Christophe 22 June 2011 (has links)
L'exploitation des documents multimédias pose des problèmes de représentation des informations textuelles et visuelles contenues dans ces documents. Notre but est de proposer un modèle permettant de représenter chacune de ces informations et de les combiner en vue de deux tâches : la catégorisation et la recherche d'information. Ce modèle représente les documents sous forme de sacs de mots nécessitant la création de vocabulaires spécifiques. Le vocabulaire textuel, généralement de très grande taille, est constitué des mots apparaissant dans les documents. Le vocabulaire visuel est quant à lui construit en extrayant des caractéristiques de bas niveau des images. Nous étudions les différentes étapes de sa création et la pondération tfidf des mots visuels dans les images, inspirée des approches classiquement utilisées pour les mots textuels. Dans le contexte de la catégorisation de documents textuels, nous introduisons un critère qui sélectionne les mots les plus discriminants pour les catégories afin de réduire la taille du vocabulaire sans dégrader les résultats du classement. Nous présentons aussi dans le cadre multilabel, une méthode permettant de sélectionner les différentes catégories à associer à un document. En recherche d’information, nous proposons une approche analytique par apprentissage pour combiner linéairement les résultats issus des informations textuelles et visuelles, permettant d'améliorer significativement la recherche. Notre modèle est validé pour ces différentes tâches en participant à des compétitions internationales telles que XML Mining et ImageCLEF et sur des collections de taille conséquente / Exploiting multimedia documents leads to representation problems of the textual and visual information within documents. Our goal is to propose a model to represent these both information and to combine them for two tasks: categorization and information retrieval. This model represents documents as bags of words, which requires to define adapted vocabularies. The textual vocabulary, usually very large, corresponds to the words of documents while the visual one is created by extracting low-level features from images. We study the different steps of its creation and the tf.idf weighting of visual words in images usually used for textual words. In the context of the text categorization, we introduce a criterion to select the most discriminative words for categories in order to reduce the vocabulary size without degrading the results of classification. We also present in the multilabel context, a method that lets us to select the number of categories which must be associated with a document. In multimedia information retrieval, we propose an analytical approach based on machine learning techniques to linearly combine the results from textual and visual information which significantly improves research results. Our model has shown its efficiency on different collections of important size and was evaluated in several international competitions such as XML Mining and ImageCLEF
|
44 |
Un système de recherche d’information personnalisée basé sur la modélisation multidimensionnelle de l’utilisateur / Personalized Information retrieval system based on multidimensional user modelingHadjouni Krir, Myriam 21 September 2012 (has links)
Depuis l'explosion du Web, la Recherche d'Information (RI) s'est vue étendue et les moteurs de recherche sur le Web ont vu le jour. Les méthodes classiques de la RI, surtout destinées à des recherches textuelles simples, se sont retrouvées face à des documents de différents formats et des contenus riches. L'utilisateur, en réponse à cette avancée, est devenu plus exigeant quant aux résultats retournés par les systèmes de RI. La personnalisation tente de répondre à ces exigences en ayant pour objectif principal l'amélioration des résultats retournés à l'utilisateur en fonction de sa perception et de ses intérêts ainsi que de ses préférences. Le présent travail de thèse se situe à la croisée des différents aspects présentés et couvre cette problématique. Elle a pour objectif principal de proposer des solutions nouvelles et efficaces à cette problématique. Pour atteindre cet objectif, un système de personnalisation de la recherche spatiale et sémantique sur le Web et intégrant la modélisation de l'utilisateur, a été proposé. Ce système comprend deux volets : 1/ la modélisation de l'utilisateur ; 2/ la collaboration implicite des utilisateurs à travers la construction d'un réseau de modèles utilisateurs, construit itérativement lors des différentes recherches effectuées en ligne. Un prototype supportant le système proposé a été développé afin d'expérimenter et d'évaluer l'ensemble de la proposition. Ainsi, nous avons effectué un ensemble d'évaluation, dont les principales sont : a) l'évaluation de la qualité du modèle de l'utilisateur ; b) l'évaluation de l'efficacité de la recherche d'information ; c) l’évaluation de l'efficacité de la recherche d'information intégrant les informations spatiales ; d) l'évaluation de la recherche exploitant le réseau d'utilisateurs. Les expérimentations menées montrent une amélioration de la personnalisation des résultats présentés par rapport à ceux obtenus par d'autres moteurs de recherche. / The web explosion has led Information Retrieval (IR) to be extended and web search engines emergence. The conventional IR methods, usually intended for simple textual searches, faced new documents types and rich and scalable contents. The users, facing these evolutions, ask more for IR systems search results quality. In this context, the personalization main objective is improving results returned to the end user based sing on its perception and its interests and preferences. This thesis context is concerned with these different aspects. Its main objective is to propose new and effective solutions to the personalization problem. To achieve this goal, a spatial and semantic web personalization system integrating implicit user modeling is proposed. This system has two components: 1/ user modeling; /2 implicit users' collaboration through the construction of a users' models network. A system prototype was developed for the evaluation purpose that contains: a) user model quality evaluation; b) information retrieval quality evaluation; c) information retrieval quality evaluation with the spatial user model data; d) information retrieval quality evaluation with the whole user model data and the users' models network. Experiments showed amelioration in the personalized search results compared to a baseline web search.
|
45 |
Une approche adaptative pour la recherche d'information sur le WebPruski, Cédric 29 April 2009 (has links) (PDF)
Depuis son avènement au début des années 1990, le Web a profondément bouleversé la société contemporaine et ce à plusieurs niveaux. Ce nouvel outil est rapidement devenu incontournable et s'est affirmé comme la plus grande base de données du monde. La popularité sans cesse croissante du Web a généré une dynamique très importante principalement au niveau des données qu'il renferme. En effet, en vertu de l'évolution des connaissances du monde réel, de nouvelles informations sont rajoutées, d'autres retirées et certaines sont modifiées sans cesse sur le Web posant ainsi des problèmes pour retrouver l'information pertinente. Les moteurs de recherche existants ne sont pas capables d'une part de prendre en compte l'évolution des connaissances du Web lorsqu'un utilisateur pose une requête et d'autre part, de comprendre les besoins en information de l'utilisateur pour lui retourner les pages Web répondant à ces besoins. L'apparition du paradigme du Web Sémantique, visant à donner un sens aux données du Web pour les rendre compréhensibles par les machines grâce à l'utilisation d'ontologies, contribue à l'amélioration de la recherche documentaire sur le Web. Cependant, les problèmes posés par l'évolution restent peu pris en compte. Dans ces travaux, nous nous sommes intéressés à la prise en compte de l'évolution des données du Web dans le but d'améliorer, en terme de pertinence des résultats, la recherche documentaire sur le Web. La solution que nous proposons est basée sur les ontologies, fondement du Web Sémantique, pour représenter les connaissances du domaine de recherche visé par des requêtes ainsi que les vues des utilisateurs sur ce domaine. Dans la solution que nous préconisons, les ontologies sont vues comme des connaissances qui évoluent au cours du temps. Cette solution nous a obligé à considérer l'évolution des ontologies sous deux aspects différents : de manière générale par rapport au domaine visé par la requête et de manière plus particulière par rapport aux points de vue des utilisateurs. En premier lieu, nous proposons un modèle d'ontologies adaptatives ainsi qu'un processus d'adaptation permettant aux ontologies de s'adapter aux évolutions des connaissances d'un domaine. Le modèle ainsi défini s'appuie sur des idées émises dans les domaines de la psychologie et des sciences naturelles. Ensuite, nous proposons une exploitation de ce type d'ontologie pour améliorer la recherche documentaire sur le Web. Nous introduisons tout d'abord, des structures de données (les WPGraphs et W3Graphs) pour la représentation des données du Web, puis le langage de requête ASK adapté à ces structures pour l'extraction des données pertinentes. Nous proposons également un ensemble de règles d'enrichissement des requêtes ASK basé sur les relations ontologiques et les éléments propres aux ontologies adaptatives des ontologies représentant le domaine visé par la requête et celle représentant les vues des utilisateurs sur le domaine. Pour finir nous proposons un outil pour la gestion des ontologies adaptatives et la recherche d'information sur le Web ainsi qu'une validation expérimentale des concepts introduits. Cette dernière est basée sur un cas d'étude réaliste pour la recherche d'articles scientifiques publiés à la conférence internationale World Wide Web.
|
46 |
Fusion de systèmes et analyse des caractéristiques linguistiques des requêtes: vers un processus de RI adaptatifKompaoré, Nongdo Désiré 26 June 2008 (has links) (PDF)
La recherche d'information (RI) est un domaine de recherche qui est de plus en plus visible, surtout avec la profusion de données (textes, images, vidéos, etc) sur Internet.<br />Nous nous intéressons dans cette thèse à la RI à partir de documents textuels non structurés.<br />Trois éléments sont essentiels dans un processus de RI : un besoin d'information (généralement exprimé sous la forme d'une requête), un système de recherche d'information (SRI), et une collection de documents. Ainsi, la requête est soumise au SRI qui<br />recherche dans la collection les documents les plus pertinents pour la requête. La variabilité relative à l'expression de la requête, la relation entre la requête et les documents, ainsi que celle liée aux caractéristiques des SRI utilisés conduisent à des variabilités dans les réponses obtenues (Buckley et al., 2004). Ainsi, le système A peut être très<br />performant pour une requête donnée et être très médiocre pour une autre requête, alors que le système B conduira à des résultats inversés.<br />Notre thèse se situe dans ce contexte. Notre objectif est de proposer des méthodes de recherche pouvant s'intégrer dans un modèle de recherche capable de s'adapter à différents contextes. Nous considérons par exemple que les caractéristiques linguistiques (CL) des requêtes, les performances locales des systèmes ainsi que leurs caractéristiques<br />sont des éléments définissant différents contextes. Nous proposons plusieurs processus afin d'atteindre cet objectif. D'une part, nous utilisons un profil linguistique des requêtes (Mothe et Tanguy, 2005) qui nous permet d'établir une classification des requêtes à base de leurs CL. Nous utilisons à cet effet des techniques statistiques d'analyse de données telles que la classification ascendante hiérarchique (CAH) et les k-means. Les requêtes ne sont plus alors considérées de manière isolée, mais sont vues comme des groupes possédant des CL similaires. L'hypothèse sous-jacente que nous faisons est qu'il existe des contextes dans lesquels certains SRI sont plus adaptés que d'autres. Nous étudions alors les performances des systèmes sur les classes de requêtes obtenues (contextes). Nous proposons quatre méthodes de fusion afin de combiner les résultats obtenus pour une requête donnée, par différents SRI. Une série d'expérimentations valide nos propositions. <br />L'ensemble de ces travaux s'appuie sur l'évaluation au travers des campagnes d'évaluation de TREC.
|
47 |
Mod`ele flexible pour la Recherche<br />d'Information dans des corpus de<br />documents semi-structur´esSauvagnat, Karen 30 June 2005 (has links) (PDF)
La nature de sources d'information évolue, et les documents numériques<br />traditionnels ” plats ” ne contenant que du texte s'enrichissent d'information<br />structurelle et multimédia. Cette ´évolution est accélérée par l'expansion du<br />Web, et les documents semi-structurés de type XML (eXtensible Markup Language)<br />tendent à former la majorité des documents numériques mis à disposition<br />des utilisateurs. Le développement d'outils automatisés permettant un<br />accès efficace à ce nouveau type d'information numérique apparaît comme une<br />nécessité. Afin de valoriser au mieux l'ensemble des informations disponibles,<br />les méthodes existantes de Recherche d'Information (RI) doivent être adaptées.<br />L'information structurelle des documents peut en effet servir à affiner le concept<br />de granule documentaire. Le but pour les Systèmes de Recherche d'Information<br />(SRI) est alors de retrouver des unités d'information (et non plus de documents)<br />pertinentes à des requêtes utilisateur. Afin de répondre à cette problématique<br />fondamentale, de nouveaux modèles prenant en compte l'information structurelle<br />des documents, tant au niveau de l'indexation, de l'interrogation que de<br />la recherche doivent être construits.<br />L'objectif de nos travaux est de proposer un modèle permettant d'effectuer des<br />recherches flexibles dans des corpus de document semi-structurés. Ceci nous<br />a conduit à proposer le mod`ele XFIRM (XML Flexible Information Retrieval<br />Model ) reposant sur : (i) Un modèle de représentation des donn´ees générique,<br />permettant de modéliser des documents possédant des structures différentes ;<br />(ii) Un langage de requête flexible, permettant à l'utilisateur d'exprimer son<br />besoin selon divers degrés de précision, en exprimant ou non des conditions<br />sur la structure des documents ; (iii) Un modèle de recherche bas´ee sur une<br />m´ethode de propagation de la pertinence. Ce modèle a pour but de trouver les<br />unités d'information les plus exhaustives et spécifiques répondant à une requête<br />utilisateur, que celle-ci contienne ou non des conditions de structure. Les documents<br />semi-structurés peuvent être représentés sous forme arborescente, et<br />le but est alors de trouver les sous-arbres de taille minimale répondant à la<br />requête. Les recherches sur le contenu seul des documents sont effectuées en<br />prenant en compte les importances diverses des feuilles des sous-arbres, et en<br />plaçant ces derniers dans leur contexte, c'est à dire, en tenant compte de la<br />pertinence du document. Les recherches portant à la fois sur le contenu et la<br />structure des documents sont effectuées grâce à plusieurs propagations de pertinence<br />dans l'arbre du document, et ce afin d'effectuer une correspondance<br />vague entre l'arbre du document et l'arbre de la requête.<br />L'´evaluation de notre modèle, grâce au prototype que nous avons d´eveloppé,<br />montre l'intérêt de nos propositions, que ce soit pour effectuer des recherches<br />sur le contenu seul des documents que sur le contenu et la structure.
|
48 |
De la recherche d'information orientée sytème à la recherche d'information orientée contexte : Verrous, contributions et perspectivesTamine-Lechani, Lynda 25 November 2008 (has links) (PDF)
Le cadre général de nos travaux porte sur la recherche d'information (RI), domaine déjà ancien (début des années 60), qui n'a cessé d'évoluer dans le but de rationaliser le processus complexe permettant l'identification, au sein de volumes de plus en plus importants d'informations, celles qui sont potentiellement intéressantes pour l'utilisateur. Cette évolution a été tout d'abord marquée par l'ère, plus connue sous le nom de RI orientée-système, des approches formelles et modèles théoriques permettant l'accès à l'information, assujetties à des méthodologies d'évaluation de leur efficacité. Un des courants de recherche ayant marqué l'ère suivante, est véhiculé par la vision de la RI orientée contexte, qui a essentiellement recentré la conception des SRI autour de l'utilisateur et de son environnement. Les travaux ont se sont alors particulièrement intéressés à l'interprétation du besoin en information dans le cadre d'une tâche ou d'une situation, de l'interdépendance des éléments de l'environnement de l'utilisateur et leur impact sur sa perception de la pertinence. Nos travaux s'inscrivent précisément dans le courant de cette évolution de la RI orientée système vers la RI contextuelle, visant l'adaptation du processus de recherche d'information pour des utilisateurs spécifiques. Cette spécificité porte d'une part sur l'utilisateur, qui est au centre de l'activité de recherche d'information et d'autre part sur le contexte de cette activité, caractérisé par des dimensions relevant de choix que nous avons effectués. Nos contributions portent sur deux principaux volets. Le premier volet concerne la spécification et formalisation d'un modèle adaptatif/contextuel (marqué par l'évolution de nos objectifs) d'accès à l'information, plus précisément de type texte. Ces travaux se déclinent par des investigations diverses, focalisées sur la clarification et formalisation des besoins en information de l'utilisateur, de la modélisation du contexte de recherche puis de son intégration dans le modèle d'accès à l'information. Ensuite, comme un modèle n'est viable que lorsqu'il est reconnu efficace selon des normes et méthodologies d'évaluation reconnues, nous nous sommes intéressés, dans un second volet, à la définition d'un cadre d'évaluation permettant la validation de nos contributions dans le domaine.
|
49 |
Empan perceptif en lecture et en recherche d'information dans un texte : influence des signaux visuelsCauchard, Fabrice 26 September 2008 (has links) (PDF)
Cette thèse examine l'influence des signaux visuels (e.g. titres, marques de paragraphe) sur l'empan perceptif en lecture et en recherche d'information dans un texte. L'empan perceptif se définit comme la région du champ visuel autour du point de fixation à l'intérieur de laquelle de l'information utile est extraite. Il est communément admis que la taille de cet empan est très limitée : il ne s'étendrait pas, verticalement, au-delà de la ligne fixée en lecture et au-delà de deux lignes supplémentaires dans une tâche de recherche. L'hypothèse centrale à l'origine de cette thèse est que l'empan perceptif peut s'étendre au-delà des régions antérieurement définies lorsque le texte contient des signaux visuels. Trois expériences utilisant la technique de la fenêtre mobile ont été menées pour tester cette hypothèse. Dans les trois expériences, des textes expositifs contenant des signaux visuels ont été présentés soit en plein écran, soit à travers une fenêtre mobile (continuellement centrée sur les points de fixation) au-delà de laquelle le texte disparaissait. Cette fenêtre mobile n'avait pas de limite horizontale et était assez haute (3° d'angle visuel) pour contenir deux ou trois lignes supplémentaires en plus de la ligne fixée. Dans les deux premières expériences, les participants devaient lire les textes pour en rappeler le contenu. Dans la troisième expérience, les participants devaient chercher dans le texte la réponse à des questions spécifiques. Dans les trois expériences, on observe une perturbation de l'activité en présence de la fenêtre. Dans la première expérience, cette perturbation se traduit par une diminution des temps de relecture et par un rappel plus faible des thèmes du texte. Dans la deuxième expérience, on observe une diminution des temps de relecture, un ralentissement général du rythme de lecture, et un rappel plus faible de l'organisation hiérarchique des thèmes. Dans la troisième, on observe un ralentissement général de l'activité de recherche d'information. Ces résultats suggèrent que de l'information relative aux signaux visuels peut être perçue au-delà des régions antérieurement définies. Une nouvelle notion théorique, l'empan typographique, est proposée sur la base de ces résultats. Cet empan, d'une taille plus importante que l'empan perceptif traditionnellement délimité pour la perception des lettres et des mots, comprendrait toutes les informations typographiques perçues autour du point de fixation et utiles à l'activité (e.g. lecture, recherche d'information).
|
50 |
Un modèle général de recherche d?information :<br>Application à la recherche de documents techniques par des professionnelsKefi-Khelif, Leila 27 October 2006 (has links) (PDF)
En recherche d'information, les particularités relatives au contexte de recherche de l'utilisateur induisent certains besoins qu'il est nécessaire de prendre en compte dans la modélisation du système de recherche. Dans notre travail de thèse, nous nous situons dans un contexte où l'utilisateur a une mémoire des documents qu'il désire retrouver : son besoin est alors une description d'un document idéal, reflet du souvenir qu'il a de ces documents. Dans ce contexte de recherche particulier, nous proposons un modèle de recherche d'information fondé sur (i) un langage complexe (des entités inter reliées avec utilisation multiple d'une même entité dans la description du document et du besoin), (ii) des critères d'obligation/option et de certitude/incertitude, rattachés aux éléments de la requête, qui reflètent les doutes de l'utilisateur quant au contenu des documents susceptibles de l'intéresser et (iii) une fonction de correspondance prenant en compte les contraintes liées à la représentation des documents et des requêtes ainsi qu'une approche pour la reformulation du besoin fondée sur les jugements de pertinence de l'utilisateur et sur les caractéristiques communes des documents retenus (par rapport aux critères rattachés à la requête). Ce modèle est par la suite appliqué dans le cadre concret d'une application : la recherche de graphiques dans les documents techniques par des utilisateurs professionnels. À travers cette application, nous validons notre approche (prise en compte des critères d'obligation/option et de certitude/incertitude) en comparant notre modèle aux modèles classiques existants.
|
Page generated in 0.0359 seconds