Spelling suggestions: "subject:"recherche orientée"" "subject:"echerche orientée""
1 |
Collecte orientée sur le Web pour la recherche d'information spécialiséeDe Groc, Clément 05 June 2013 (has links) (PDF)
Les moteurs de recherche verticaux, qui se concentrent sur des segments spécifiques du Web, deviennent aujourd'hui de plus en plus présents dans le paysage d'Internet. Les moteurs de recherche thématiques, notamment, peuvent obtenir de très bonnes performances en limitant le corpus indexé à un thème connu. Les ambiguïtés de la langue sont alors d'autant plus contrôlables que le domaine est bien ciblé. De plus, la connaissance des objets et de leurs propriétés rend possible le développement de techniques d'analyse spécifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thèse, nous nous intéressons plus précisément à la procédure de collecte de documents thématiques à partir du Web pour alimenter un moteur de recherche thématique. La procédure de collecte peut être réalisée en s'appuyant sur un moteur de recherche généraliste existant (recherche orientée) ou en parcourant les hyperliens entre les pages Web (exploration orientée).Nous étudions tout d'abord la recherche orientée. Dans ce contexte, l'approche classique consiste à combiner des mot-clés du domaine d'intérêt, à les soumettre à un moteur de recherche et à télécharger les meilleurs résultats retournés par ce dernier.Après avoir évalué empiriquement cette approche sur 340 thèmes issus de l'OpenDirectory, nous proposons de l'améliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requêtes thématiques plus pertinentes pour le thème afin d'augmenter la précision de la collecte. Nous définissons une métrique fondée sur un graphe de cooccurrences et un algorithme de marche aléatoire, dans le but de prédire la pertinence d'une requête thématique. En aval du moteur de recherche, nous proposons de filtrer les documents téléchargés afin d'améliorer la qualité du corpus produit. Pour ce faire, nous modélisons la procédure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aléatoire biaisé afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thèse, nous nous focalisons sur l'exploration orientée du Web. Au coeur de tout robot d'exploration orientée se trouve une stratégie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thème, tout en minimisant le nombre de pages visitées qui ne sont pas en rapport avec le thème. En pratique, cette stratégie définit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indépendante du thème à partir de données existantes annotées automatiquement.
|
2 |
Collecte orientée sur le Web pour la recherche d’information spécialisée / Focused document gathering on the Web for domain-specific information retrievalDe Groc, Clément 05 June 2013 (has links)
Les moteurs de recherche verticaux, qui se concentrent sur des segments spécifiques du Web, deviennent aujourd'hui de plus en plus présents dans le paysage d'Internet. Les moteurs de recherche thématiques, notamment, peuvent obtenir de très bonnes performances en limitant le corpus indexé à un thème connu. Les ambiguïtés de la langue sont alors d'autant plus contrôlables que le domaine est bien ciblé. De plus, la connaissance des objets et de leurs propriétés rend possible le développement de techniques d'analyse spécifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thèse, nous nous intéressons plus précisément à la procédure de collecte de documents thématiques à partir du Web pour alimenter un moteur de recherche thématique. La procédure de collecte peut être réalisée en s'appuyant sur un moteur de recherche généraliste existant (recherche orientée) ou en parcourant les hyperliens entre les pages Web (exploration orientée).Nous étudions tout d'abord la recherche orientée. Dans ce contexte, l'approche classique consiste à combiner des mot-clés du domaine d'intérêt, à les soumettre à un moteur de recherche et à télécharger les meilleurs résultats retournés par ce dernier.Après avoir évalué empiriquement cette approche sur 340 thèmes issus de l'OpenDirectory, nous proposons de l'améliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requêtes thématiques plus pertinentes pour le thème afin d'augmenter la précision de la collecte. Nous définissons une métrique fondée sur un graphe de cooccurrences et un algorithme de marche aléatoire, dans le but de prédire la pertinence d'une requête thématique. En aval du moteur de recherche, nous proposons de filtrer les documents téléchargés afin d'améliorer la qualité du corpus produit. Pour ce faire, nous modélisons la procédure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aléatoire biaisé afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thèse, nous nous focalisons sur l'exploration orientée du Web. Au coeur de tout robot d'exploration orientée se trouve une stratégie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thème, tout en minimisant le nombre de pages visitées qui ne sont pas en rapport avec le thème. En pratique, cette stratégie définit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indépendante du thème à partir de données existantes annotées automatiquement. / Vertical search engines, which focus on a specific segment of the Web, become more and more present in the Internet landscape. Topical search engines, notably, can obtain a significant performance boost by limiting their index on a specific topic. By doing so, language ambiguities are reduced, and both the algorithms and the user interface can take advantage of domain knowledge, such as domain objects or characteristics, to satisfy user information needs.In this thesis, we tackle the first inevitable step of a all topical search engine : focused document gathering from the Web. A thorough study of the state of art leads us to consider two strategies to gather topical documents from the Web: either relying on an existing search engine index (focused search) or directly crawling the Web (focused crawling).The first part of our research has been dedicated to focused search. In this context, a standard approach consists in combining domain-specific terms into queries, submitting those queries to a search engine and down- loading top ranked documents. After empirically evaluating this approach over 340 topics, we propose to enhance it in two different ways: Upstream of the search engine, we aim at formulating more relevant queries in or- der to increase the precision of the top retrieved documents. To do so, we define a metric based on a co-occurrence graph and a random walk algorithm, which aims at predicting the topical relevance of a query. Downstream of the search engine, we filter the retrieved documents in order to improve the document collection quality. We do so by modeling our gathering process as a tripartite graph and applying a random walk with restart algorithm so as to simultaneously order by relevance the documents and terms appearing in our corpus.In the second part of this thesis, we turn to focused crawling. We describe our focused crawler implementation that was designed to scale horizontally. Then, we consider the problem of crawl frontier ordering, which is at the very heart of a focused crawler. Such ordering strategy allows the crawler to prioritize its fetches, maximizing the number of in-domain documents retrieved while minimizing the non relevant ones. We propose to apply learning to rank algorithms to efficiently order the crawl frontier, and define a method to learn a ranking function from existing crawls.
|
3 |
Conception et mise à l'essai d'un programme de métaphonologie bilingue français-anicinapemowin : une étude exploratoire en milieu scolaire anicinape auprès d'élèves au premier cycle du primaire au QuébecWiscutie-Crépeau, Nancy 25 May 2022 (has links)
Cette étude exploratoire menée au Québec dans une école située dans une communauté anicinape porte sur le développement des capacités métaphonologiques d'élèves anicinapek (n=9) scolarisés en français au premier cycle du primaire. Son principal objectif était de concevoir et de mettre à l'essai un programme de métaphonologie en français et en anicinapemowin fondé sur la typologie de Yopp (1988), en exploitant une littérature de jeunesse culturellement pertinente au vécu des élèves. D'une part, les sous-objectifs de la recherche étaient de 1) décrire les connaissances initiales des élèves dans les deux langues (conscience phonologique, décodage, compréhension en lecture); 2) documenter leurs représentations des langues et 3) documenter les changements potentiels quant à ces connaissances et représentations des langues à la suite du programme de métaphonologie. De l'autre, nous voulions 4) décrire les pratiques pédagogiques initiales des enseignants; 5) dresser un portrait de leurs représentations des langues et 6) documenter les changements potentiels quant à leurs pratiques pédagogiques et représentations des langues à la suite de nos interventions en classe.
Pour décrire le développement des aspects examinés, nous avons convoqué un cadre théorique fondé sur les travaux traitant de l'apprentissage de la lecture en langue première et seconde et fait appel à différents instruments. Pour les élèves, nous avons retenu trois sous-épreuves standardisées (dont deux ont fait l'objet d'une adaptation dans leur version française avant d'être traduites en anicinapemowin) et utilisé un questionnaire sur les représentations des langues. Pour les enseignants, nous avons recouru au questionnaire et à l'entretien semi-dirigé. Nos activités en métaphonologie, conçues en fonction du contexte sociolinguistique de la recherche, ont ciblé des activités litéraciques propices à la création d'un environnement linguistique sécurisant, qui se sont tenues sur une période de 10 semaines. En concomitance avec ces interventions, la prise des données a été ponctuée par trois moments stratégiques, soit avant, pendant et après la mise à l'essai de notre dispositif d'enseignement.
En vue de mieux appréhender ce développement, nous avons mis en relation les facteurs cognitivo-langagiers et socioaffectifs avec certains aspects de notre programme de métaphonologie. Pour compléter cette analyse, nous avons porté notre regard sur les pratiques des enseignants (les facteurs socioéducatifs), en mettant en relation leurs représentations des langues et leurs pratiques pédagogiques. Les résultats montrent que les élèves, davantage familiers avec des pratiques discursives orales, ont progressé sur le plan de leurs habiletés métaphonologiques dans les deux langues, cette progression étant plus rapide chez certains. De plus, la prise en compte de leur répertoire langagier a contribué à soutenir ce développement. Malgré la fragilité de leurs connaissances sur le plan du décodage, la compréhension en lecture des élèves s’édifie progressivement. Les interventions en classe ont également eu des bénéfices tangibles sur les représentations des langues de quelques élèves.
Enfin, notre étude montre que les deux enseignants participants à notre recherche, qui ont recours à des pratiques pédagogiques centrées sur les attentes ministérielles, reconnaissent d'emblée la légitimité des langues des élèves dans leur enseignement. Si cette recherche n'a pas amené de changement marquant dans les pratiques enseignantes, elle a toutefois le mérite d'avoir suscité certaines prises de conscience qui ont eu une incidence sur leurs représentations des langues. Les conclusions invitent les acteurs de la scène éducative à cibler des actions afin de mieux soutenir la formation professionnelle initiale et continue des futurs enseignants et à reconsidérer la place des langues autochtones dans l'éducation des élèves des Premières Nations.
|
Page generated in 0.2729 seconds