1 |
Approches non supervisées pour la recommandation de lectures et la mise en relation automatique de contenus au sein d'une bibliothèque numérique / Unsupervised approaches to recommending reads and automatically linking content within a digital libraryBenkoussas, Chahinez 14 December 2016 (has links)
Cette thèse s’inscrit dans le domaine de la recherche d’information (RI) et la recommandation de lecture. Elle a pour objets :— La création de nouvelles approches de recherche de documents utilisant des techniques de combinaison de résultats, d’agrégation de données sociales et de reformulation de requêtes ;— La création d’une approche de recommandation utilisant des méthodes de RI et les graphes entre les documents. Deux collections de documents ont été utilisées. Une collection qui provient de l’évaluation CLEF (tâche Social Book Search - SBS) et la deuxième issue du domaine des sciences humaines et sociales (OpenEdition, principalement Revues.org). La modélisation des documents de chaque collection repose sur deux types de relations :— Dans la première collection (CLEF SBS), les documents sont reliés avec des similarités calculées par Amazon qui se basent sur plusieurs facteurs (achats des utilisateurs, commentaires, votes, produits achetés ensemble, etc.) ;— Dans la deuxième collection (OpenEdition), les documents sont reliés avec des relations de citations (à partir des références bibliographiques).Le manuscrit est structuré en deux parties. La première partie «état de l’art» regroupe une introduction générale, un état de l’art sur la RI et sur les systèmes de recommandation. La deuxième partie «contributions» regroupe un chapitre sur la détection de comptes rendus de lecture au sein de la collection OpenEdition (Revues.org), un chapitre sur les méthodes de RI utilisées sur des requêtes complexes et un dernier chapitre qui traite l’approche de recommandation proposée qui se base sur les graphes. / This thesis deals with the field of information retrieval and the recommendation of reading. It has for objects:— The creation of new approach of document retrieval and recommendation using techniques of combination of results, aggregation of social data and reformulation of queries;— The creation of an approach of recommendation using methods of information retrieval and graph theories.Two collections of documents were used. First one is a collection which is provided by CLEF (Social Book Search - SBS) and the second from the platforms of electronic sources in Humanities and Social Sciences OpenEdition.org (Revues.org). The modelling of the documents of every collection is based on two types of relations:— For the first collection (SBS), documents are connected with similarity calculated by Amazon which is based on several factors (purchases of the users, the comments, the votes, products bought together, etc.);— For the second collection (OpenEdition), documents are connected with relations of citations, extracted from bibliographical references.We show that the proposed approaches bring in most of the cases gain in the performances of research and recommendation. The manuscript is structured in two parts. The first part "state of the art" includes a general introduction, a state of the art of informationretrieval and recommender systems. The second part "contributions" includes a chapter on the detection of reviews of books in Revues.org; a chapter on the methods of IR used on complex queries written in natural language and last chapter which handles the proposed approach of recommendation which is based on graph.
|
2 |
Étayage des activités de recherche d’information et d’apprentissage en environnement vidéo : apports de la segmentation et de la structuration / Scaffolding information seeking and learning in video-based environments : contributions of segmentation and structurationCojean, Salome 04 October 2018 (has links)
Les vidéos sont de plus en plus utilisées dans un contexte pédagogique, mais les formats de présentation sur les plateformes spécialisées (e.g., MOOC) sont variés et peu analysés. Il paraît cependant nécessaire de s’intéresser aux processus à l’oeuvre lors des tâches d’apprentissage et de recherche d’information (RI) pour adapter au mieux les environnements vidéo aux besoins et ressources cognitifs des individus. Au cours de ces deux tâches (RI et apprentissage), la littérature scientifique fait apparaître l’importance de la qualité du modèle mental de l’individu. Pour favoriser la construction d’un modèle mental pertinent par l’individu, deux types d’étayage sont envisagés au cours de cette thèse : la segmentation de la barre de navigation et la structuration du contenu de la vidéo par une table des matières. Les trois premières études ont permis de montrer que la présence conjointe des deux niveaux d’étayage a favorisé la performance en RI (étude 1), mais qu’elle n’a pas permis la construction d’un modèle mental efficace du contenu de la vidéo (étude 2). Au cours de l’étude 3, différents formats de présentation ont été comparés : le format pop-up a permis de diminuer la difficulté perçue de la tâche de RI. Les deux dernières études se sont centrées sur les effets de l’étayage lors d’une tâche d’apprentissage. La présence d’étayage n’a pas amélioré la qualité de l’apprentissage (étude 4). Néanmoins, lorsque l’apprenant est rendu actif, grâce à une tâche de RI par exemple, la mémorisation du contenu de la vidéo a été améliorée (étude 5). Les résultats sont discutés en termes de rôle organisateur de l’étayage permettant une récupération efficace de l’information. L’étayage organiserait l’information entrante dans l’environnement vidéo ou la mémoire de l’individu selon la tâche. / Videos are more and more used in pedagogical contexts, but presentation formats on specific platforms (e.g., MOOC) are varied and not so much analyzed. However, it seems necessary to focus on processes involved during learning and information seeking (IS) tasks to adapt video-based environments to individuals’ needs and cognitive resources. During learning and IS, scientific literature highlights the importance of individuals’ mental models. To encourage the construction of a relevant mental model, two types of scaffolding are considered in this thesis: the segmentation of the timeline and the structuration of the video content using a table of contents. The first three studies showed that the conjoint use of the two levels of scaffolding enhanced IS performance (study 1), but it did not promote the construction of a relevant mental model of the video content (study 2). During study 3, several presentation format were compared: the pop-up format reduced perceived difficulty of the IS task. The last two studies focused on the effects of scaffolding during a learning task. The presence of scaffolding did not enhanced learning performance (study 4). Nevertheless, when the learner was made active, thanks to an IS task for example, memorization of the video content was improved (study 5). Results are discussed in terms of organizing role of scaffolding enabling effective recovery of information. Scaffolding is here thought to organize incoming information in the video-based environment or in individual’s memory according to the task.
|
3 |
Évaluation d'outils d'accès à la connaissance en médecine générale / Evaluation of access to knowledge tools in general medicineSchuers, Matthieu 19 October 2017 (has links)
Les médecins, et en particulier les médecins généralistes, sont confrontésquotidiennement à la difficulté de ne pas tout savoir. En médecine générale, l’étendue duchamp d’activité impose aux professionnels une maîtrise de plus en plus aiguë del’information, qui doit s’appuyer sur le développement d’une littératie numérique, c’està-dire la capacité d’utiliser et de comprendre les outils et médias numériques. Lesobjectifs de ce travail étaient d’identifier les obstacles à la recherche d’information chezles médecins généralistes et de développer et d’évaluer des outils susceptibles desurmonter ces difficultés.Pour cela, nous avons réalisé une étude qualitative auprès d’internes de médecinegénérale et de médecins généralistes français. Elle a permis de mettre en évidence denombreux obstacles à la recherche d’informations en santé en ligne. Ces obstaclesconcernent les professionnels et les outils, certains sont également d’ordre institutionnel.Parmi ces obstacles figure la langue anglaise, qui semble constituer un repoussoir pourles médecins installés mais également pour les médecins en formation. D’après lesdonnées que nous avons recueillies, ce frein concerne aussi bien l’information en ellemêmeque son support.Plusieurs des outils développés par l’équipe du Département d’Informatique etd’Information Médicales du CHU de Rouen ont vocation à répondre à ces difficultés. Labase de données bibliographiques LiSSa permet l’accès à plusieurs centaines de milliersde références francophones en santé, issues de PubMed mais également de revuesfrancophones non indexées dans PubMed. Le constructeur de requêtes bibliographiquesmédicales permet à des utilisateurs non anglophones de construire des équations derecherche complexes dans leur langue maternelle, leur permettant de requêter dansPubMed, LiSSa ou CISMeF. / Physicians, and especially general practitioners, are not « all-knowing ». As they areconfronted with a large amount of clinical situations, information and knowledgemanagement are essential topics of interest. This management is mainly based on thedevelopment of numeric literacy, that is the ability to use and understand digital tools andmedia. The aims of this work were to identify the obstacles encountered by generalpractitioners when seeking health information online and to develop and assess tools tohelp them to overcome these barriers.We performed a qualitative study among general practice residents and generalpractitioners. This allowed us to highlight several obstacles encountered by them whenseeking medical information online. These obstacles include both tools and professionals’issues. Institutional obstacles were also identified. Of these barriers, the insufficientcommand of English was cited as an important issue by both residents and physicians.The Department of Medical Information and Informatics of the Rouen University Hospitalhas developed several tools in order to facilitate access to knowledge for healthprofessionals. LiSSa is a bibliographic database containing only articles written in French.It allows health professionals and researchers, whose native language is not English, toaccess to hundreds of thousands of references, from PubMed and from journals notindexed in PubMed. A multi-lingual query builder to facilitate information retrieval wasdesigned. It appears to be an effective tool to improve the quality of PubMed queries inparticular for users whose first native language is not English.
|
4 |
Leveraging User-Generated Content for Enhancing and Personalizing News Recommendation. / Analyse des opinions pour personnaliser la recommandation d’articles dans les portails d’informationsMeguebli, Youssef 27 March 2015 (has links)
La motivation principale de cette thèse est de proposer un système de recommandation personnalisé pour les plateformes d’informations. Pour cela, nous avons démontré que les opinions peuvent constituer un descripteur efficace pour améliorer la qualité de la recommandation. Au cours de cette thèse, nous avons abordé ce problème en proposant trois contributions principales. Tout d’abord, nous avons proposé un modèle de profil qui décrit avec précision les intérêts des utilisateurs ainsi que le contenu des articles de presse. Le modèle de profil proposé repose sur trois éléments : les entités nommées, les aspects et les sentiments. Nous avons testé notre modèle de profil sur les trois applications différentes que sont l’identification des orientations politiques des utilisateurs, la recommandation personnalisée des articles de presse et enfin la diversification de la liste des articles recommandés. Deuxièmement, nous avons proposé une approche de classement des opinions permettant de filtrer et sélectionner seulement les opinions pertinentes. Pour cela, nous avons utilisé une variation de la technique de PageRank pour définir le score de chaque opinion. Les résultats montrent que notre approche surpasse deux approches récemment proposées pour le classement des opinions. Troisièmement, nous avons étudié différentes façons d’enrichir le contenu des articles de presse par les opinions : par toutes les opinions, par seulement le topk des opinions, et enfin par un ensemble d’opinions diversifiées. Les résultats montrent que l’enrichissement des contenus des articles de presse / In this thesis, we have investigated how to exploit user-generated-content for personalized news recommendation purpose. The intuition behind this line of research is that the opinions provided by users, on news websites, represent a strong indicator about their profiles. We have addressed this problem by proposing three main contributions. Firstly, we have proposed a profile model that accurately describes both users’ interests and news article contents. The profile model was tested on three different applications ranging from identifying the political orientation of users to the context of news recommendation and the diversification of the list of recommended news articles. Results show that our profile model give much better results compared to state-of-the-art models. Secondly, we have investigated the problem of noise on opinions and how we can retrieve only relevant opinions in response to a given query.The proposed opinion ranking strategy is based on users’ debates features. We have used a variation of PageRank technique to define the score of each opinion. Results show that our approach outperforms two recent proposed opinions ranking strategies, particularly for controversial topics. Thirdly, we have investigated different ways of leveraging opinions on news article contents including all opinions, topk opinions based on opinion ranking strategy, and a set of diverse opinion. To extract a list of diverse opinions, we have employed a variation of an existing opinion diversification model. Results show that diverse opinions give the best performance over other leveraging strategies.
|
5 |
Recherche d'information et humanités numériques : une approche et des outils pour l'historien / Information seeking and digital humanities : an approach and tools for the historianSuire, Cyrille 13 September 2018 (has links)
Les travaux de cette thèse portent sur les conséquences du développement du numérique sur la pratique de recherche en SHS au sens large et en histoire en particulier. L'introduction du numérique bouleverse les pratiques de recherche en histoire en mettant à disposition du chercheur un grand volume de sources numérisées ainsi que de nombreux outils d'analyse et d'écriture. Si ces nouveaux moyens de recherche permettent à la discipline d'adopter de nouvelles approches et de renouveler certains points de vue, ils posent également des questions sur les plans méthodologique et épistémologique. Devant ce constat, nous avons choisi d'étudier plus en détail l'impact des outils de recherche d'information, bibliothèques numériques et moteurs de recherche de sources sur l'activité de recherche en histoire. Ces systèmes offrent un accès à un grand volume de documents historiques mais leur fonctionnement repose sur des traitements informatiques pour la plupart invisibles aux yeux des utilisateurs, qui peuvent ainsi s'apparenter à des boîtes noires. L'objectif principal de cette thèse est donc de donner les moyens aux utilisateurs d'observer et de comprendre ces processus dans l'optique de leur permettre d'en intégrer les effets de bord à leur méthodologie. Afin de mieux positionner notre objet d'étude, nous proposons un cadre conceptuel reposant sur la notion de ressource numérique. Ce concept représente les systèmes numériques que nous étudions au sein de leur contexte d'usage, de production et d'exécution, il fait le lien entre des usages attendus par les utilisateurs et des choix méthodologiques ou techniques issus des présupposés de ces concepteurs. Sur la base de ce cadre conceptuel, nous proposons une analyse des bibliothèques numériques et moteurs de recherche de sources en fonction de chacun des contextes. Ainsi, notre étude propose une analyse des usages de ce type de ressource numérique dans le cadre d'une recherche en histoire en adoptant une démarche expérimentale et en produisant des indicateurs de la pratique. Ces indicateurs sont ensuite croisés avec le fonctionnement du système, dans ces contextes de production et d'exécution, pour en révéler les biais méthodologiques. À l'issue de ces analyses, nous proposons un réinvestissement de ces résultats sous la forme d'un outil logiciel dédié à l'enseignement d'une approche critique de la recherche d'information en ligne pour les apprentis historiens. Ces travaux sont évalués par une démarche expérimentale. Elle est construite sur la base d'un prototype d'observation du comportement des utilisateurs en situation de recherche d'information et des outils de démonstration des biais associés au fonctionnement des processus informatiques impliqués lors des phases de production des contenus et d'exécution du système. Ce prototype a fait l'objet de plusieurs phases d'expérimentation liées à son développement, l'évaluation de ces fonctionnalités et de son impact sur la pratique dans un contexte de formation. / The work of this thesis focuses on the consequences of digital technology development on research practice in the humanities in the broad sense and particularly in history. The introduction of digital technology disrupts historical research practices by making available to the researcher a large volume of digitized sources as well as numerous analysis and writing tools. These new capacities of research allow the discipline to adopt new approaches and renew certain points of view, but they also raise methodological and epistemological questions. Given this observation, we have chosen to study in more detail the impact of information retrieval tools, digital libraries and search engines on historical research activity. These systems offer access to a large volume of historical documents but they depend on computer processes that are mostly invisible to users and acting as black boxes. The main objective of this work is to give users the means to observe and understand these processes in order to allow them to integrate their side effects in a suitable methodology. In order to better position our object of study, we propose a conceptual framework based on the notion of digital resource. This concept represents the digital systems that we study within their contexts of use, production and execution. It connects uses expected by users and methodological or technical choices based on the assumptions of system designers. Based on this conceptual framework, we propose an analysis of digital libraries and historical sources search engines according to each context. Thus, our study proposes an analysis of the uses of this type of digital resource within the framework of a research in history. The study adopts an experimental approach and produces indicators of the practice. These indicators are then crossed with the functioning of the system, in its contexts of production and execution, to reveal the potential methodological biases. Following these analyzes, we propose a reinvestment of these results in the form of a software tool dedicated to teaching a critical approach to online information retrieval for student in history. This work is evaluated by an experimental approach. It is built on the basis of a prototype of observation of the behavior of the users when they are looking for information. Our experimental approach is also based on demonstration tools of the biases associated with the functioning of the computer processes involved during the contexts of production and execution. This prototype has been the subject of several experimental phases related to its development, the evaluation of these features and its impact on practice in a training context.
|
6 |
Leveraging User-Generated Content for Enhancing and Personalizing News Recommendation. / Analyse des opinions pour personnaliser la recommandation d’articles dans les portails d’informationsMeguebli, Youssef 27 March 2015 (has links)
La motivation principale de cette thèse est de proposer un système de recommandation personnalisé pour les plateformes d’informations. Pour cela, nous avons démontré que les opinions peuvent constituer un descripteur efficace pour améliorer la qualité de la recommandation. Au cours de cette thèse, nous avons abordé ce problème en proposant trois contributions principales. Tout d’abord, nous avons proposé un modèle de profil qui décrit avec précision les intérêts des utilisateurs ainsi que le contenu des articles de presse. Le modèle de profil proposé repose sur trois éléments : les entités nommées, les aspects et les sentiments. Nous avons testé notre modèle de profil sur les trois applications différentes que sont l’identification des orientations politiques des utilisateurs, la recommandation personnalisée des articles de presse et enfin la diversification de la liste des articles recommandés. Deuxièmement, nous avons proposé une approche de classement des opinions permettant de filtrer et sélectionner seulement les opinions pertinentes. Pour cela, nous avons utilisé une variation de la technique de PageRank pour définir le score de chaque opinion. Les résultats montrent que notre approche surpasse deux approches récemment proposées pour le classement des opinions. Troisièmement, nous avons étudié différentes façons d’enrichir le contenu des articles de presse par les opinions : par toutes les opinions, par seulement le topk des opinions, et enfin par un ensemble d’opinions diversifiées. Les résultats montrent que l’enrichissement des contenus des articles de presse / In this thesis, we have investigated how to exploit user-generated-content for personalized news recommendation purpose. The intuition behind this line of research is that the opinions provided by users, on news websites, represent a strong indicator about their profiles. We have addressed this problem by proposing three main contributions. Firstly, we have proposed a profile model that accurately describes both users’ interests and news article contents. The profile model was tested on three different applications ranging from identifying the political orientation of users to the context of news recommendation and the diversification of the list of recommended news articles. Results show that our profile model give much better results compared to state-of-the-art models. Secondly, we have investigated the problem of noise on opinions and how we can retrieve only relevant opinions in response to a given query.The proposed opinion ranking strategy is based on users’ debates features. We have used a variation of PageRank technique to define the score of each opinion. Results show that our approach outperforms two recent proposed opinions ranking strategies, particularly for controversial topics. Thirdly, we have investigated different ways of leveraging opinions on news article contents including all opinions, topk opinions based on opinion ranking strategy, and a set of diverse opinion. To extract a list of diverse opinions, we have employed a variation of an existing opinion diversification model. Results show that diverse opinions give the best performance over other leveraging strategies.
|
7 |
Semantic Representation of a Heterogeneous Document Corpus for an Innovative Information Retrieval Model : Application to the Construction Industry / Représentation Sémantique de Corpus de Documents Hétérogènes pour un Modèle de Recherche d'Information Novateur : Application au Domaine du BâtimentCharbel, Nathalie 21 December 2018 (has links)
Les avancées récentes des Technologies de l'Information et de la Communication (TIC) ont entraîné des transformations radicales de plusieurs secteurs de l'industrie. L'adoption des technologies du Web Sémantique a démontré plusieurs avantages, surtout dans une application de Recherche d'Information (RI) : une meilleure représentation des données et des capacités de raisonnement sur celles-ci. Cependant, il existe encore peu d’applications industrielles car il reste encore des problèmes non résolus, tels que la représentation de documents hétérogènes interdépendants à travers des modèles de données sémantiques et la représentation des résultats de recherche accompagnés d'informations contextuelles.Dans cette thèse, nous abordons deux défis principaux. Le premier défi porte sur la représentation de la connaissance relative à un corpus de documents hétérogènes couvrant à la fois le contenu des documents fortement lié à un domaine métier ainsi que d'autres aspects liés à la structure de ces documents tels que leurs métadonnées, les relations inter et intra-documentaires (p. ex., les références entre documents ou parties de documents), etc. Le deuxième défi porte sur la construction des résultats de RI, à partir de ce corpus de documents hétérogènes, aidant les utilisateurs à mieux interpréter les informations pertinentes de leur recherche surtout quand il s'agit d'exploiter les relations inter/intra-documentaires.Pour faire face à ces défis, nous proposons tout d'abord une représentation sémantique du corpus de documents hétérogènes à travers un modèle de graphe sémantique couvrant à la fois les dimensions structurelle et métier du corpus. Ensuite, nous définissons une nouvelle structure de données pour les résultats de recherche, extraite à partir de ce graphe, qui incorpore les informations pertinentes directes ainsi qu'un contexte structurel et métier. Afin d'exploiter cette nouvelle structure dans un modèle de RI novateur, nous proposons une chaine de traitement automatique de la requête de l'utilisateur, allant du module d'interprétation de requête, aux modules de recherche, de classement et de présentation des résultats. Bien que nous proposions une chaine de traitement complète, nos contributions se focalisent sur les modules de recherche et de classement.Nous proposons une solution générique qui peut être appliquée dans différents domaines d'applications métiers. Cependant, dans cette thèse, les expérimentations ont été appliquées au domaine du Bâtiment et Travaux Publics (BTP), en s'appuyant sur des projets de construction. / The recent advances of Information and Communication Technology (ICT) have resulted in the development of several industries. Adopting semantic technologies has proven several benefits for enabling a better representation of the data and empowering reasoning capabilities over it, especially within an Information Retrieval (IR) application. This has, however, few applications in the industries as there are still unresolved issues, such as the shift from heterogeneous interdependent documents to semantic data models and the representation of the search results while considering relevant contextual information. In this thesis, we address two main challenges. The first one focuses on the representation of the collective knowledge embedded in a heterogeneous document corpus covering both the domain-specific content of the documents, and other structural aspects such as their metadata, their dependencies (e.g., references), etc. The second one focuses on providing users with innovative search results, from the heterogeneous document corpus, helping the users in interpreting the information that is relevant to their inquiries and tracking cross document dependencies.To cope with these challenges, we first propose a semantic representation of a heterogeneous document corpus that generates a semantic graph covering both the structural and the domain-specific dimensions of the corpus. Then, we introduce a novel data structure for query answers, extracted from this graph, which embeds core information together with structural-based and domain-specific context. In order to provide such query answers, we propose an innovative query processing pipeline, which involves query interpretation, search, ranking, and presentation modules, with a focus on the search and ranking modules.Our proposal is generic as it can be applicable in different domains. However, in this thesis, it has been experimented in the Architecture, Engineering and Construction (AEC) industry using real-world construction projects.
|
8 |
La navigation urbaine des enfants-piétons : approche développementale et ergonomique / Urban child navigation : developmental and ergonomics approachSolt, Jordan 11 December 2017 (has links)
Chaque année de nombreux enfants-piétons sont victimes de collisions avec des véhicules et ce malgré les efforts réalisés pour améliorer les véhicules et les infrastructures. Ces améliorations ont permis une réduction notable des séquelles mais l’étude du comportement des piétons demeure primordiale puisque ce sont ces comportements eux-mêmes qui expliquent la plus grande partie des collisions. Afin de comprendre les comportements et processus mentaux impliqués lors de la navigation urbaine, nous nous sommes intéressés aux quatre types d’études s’intéressant à la navigation urbaine infantile : (1) les études traitant des circonstances et facteurs accidentogènes, (2) celles s’intéressant aux moments clés auxquels le risque d’accident est le plus important, (3) celles traitant des compétences nécessaires au piéton pour naviguer de manière sûre, (4) et enfin celles, plus récentes, qui se centrent sur la perception du risque. Enfin, pour compléter notre approche, nous nous sommes tournés vers les dispositifs permettant de développer la compétence de piéton. Les objectifs de cette thèse sont triples : mieux comprendre l’impact de certains facteurs individuels et environnementaux sur l’exploration visuelle de scènes urbaines par les enfants, c’est-à-dire caractériser ce que « regarde » un enfant durant sa navigation urbaine, appréhender les différences développementales en terme de recherche d’information, et finalement, mesurer les différences interindividuelles et intraindividuelles durant le processus de prise de décision chez l’enfant-piéton. L’approche empirique de cette thèse s’articule autour de trois études complémentaires, alliant approche expérimentale et approche de terrain. Dans la première étude, 125 enfants âgés de 7 à 8 ans participant à une journée de prévention routière, ont été sollicités. Cette étude avait pour but de recueillir, par le biais de dessins réalisés par les enfants, des données qualitatives sur la représentation mentale de l’environnement urbain chez l’enfant-piéton. La deuxième étude a porté sur 62 participants, 21 adultes et 41 enfants âgés de 3 à 11 ans. Le protocole impliquait une tâche de prise de décision de franchissement de chaussée à l’aide de photographies. Dans l’objectif d’étudier la stratégie d’exploration visuelle en lien avec la prise de décision, cette étude avait pour but de recueillir des données oculométriques ainsi que de le temps de prise de décision. Enfin, pour notre dernière étude, nous nous sommes concentrés spécifiquement sur l’étude du processus décisionnel chez l’enfant à l’aide de la chronométrie mentale. Nous avons donc réalisé une expérimentation comptant 255 participants âgés de 5 à 11 ans. Le protocole comportait une tâche de prise de décision de franchissement de chaussée sur photographies d’un environnement urbain où la densité informationnelle variait. L’ensemble des résultats sont discutés autour de trois principaux points : (i) les mécanismes d’inhibition chez le piéton, (ii) les sources d’informations utilisées par l’enfant pour prendre ses décisions avec notamment la place d’autrui et (iii), les dispositifs de formation à destination des enfants-piétons / Each year, lots of pedestrian children get injured by vehicles, in spite of efforts made to improve vehicles and safety infrastructures.These improvements have drastically reduced damages on casualties, though the study of pedestrian behaviour remains crucial since most collisions are caused by pedestrian behaviour themselves. In order to understand mental processes and behaviours involved during movement in an urban context, four types of studies dealing with pedestrian children behaviours were analysed : (1) studies about accident-prone circumstances and factors, (2) studies about most likely key-moment for accidents to occur, (3) studies about key competencies needed by pedestrians to move safely in urban traffic, and finally (4), most recent studies about the perception of risk. With the aim of having a comprehensive approach, attention was also drawn on mechanisms that could improve pedestrians' skills.Therefore, this thesis' goals are multiple. First, to define what a children would look at when moving across urban traffic. Second, to understand how behaviours toward the search for information vary. Finally, to measure inter- and intra-individual differences during the decision-making process of pedestrian children. The empirical approach of this thesis relies on three complementary studies, mixing both empirical and in-the-field approach. The first study involved 125 7-to-8 year old children, who were attenting a road-awareness-day. Children were asked to answer a question with a drawing. The purpose of this first study was to gather qualitative data about how pedestrian children perceive the urban environment. The second study was done on 62 attendees, including 21 adults and 41 3-to-11 year old children. The protocol consisted in showing attendees photographs, and asking them do decide to cross the street or not. The purpose of this second study was to collect eye-based and decision-making-time data, in order to highlight the link between visual exploration and decision-making process. The thirs study focused specifically on pedestrian children's decision-making process, using mental chronometry. An experimentation was led on 255 5-to-11 year old participants. The protocol was also about asking attendees to make a decision based on photographs; but this time with a varying informational density. All results of the studies mentioned above will be summarized in 3 main topics which are : pedestrians' inhibition mechanisms, information sources (including other people), and finally, training techniques aimed for pedestrian children
|
9 |
Mesurer et améliorer la qualité des corpus comparables / Measuring and Improving Comparable Corpus QualityLi, Bo 26 June 2012 (has links)
Les corpus bilingues sont des ressources essentielles pour s'affranchir de la barrière de la langue en traitement automatique des langues (TAL) dans un contexte multilingue. La plupart des travaux actuels utilisent des corpus parallèles qui sont surtout disponibles pour des langues majeurs et pour des domaines spécifiques. Les corpus comparables, qui rassemblent des textes comportant des informations corrélées, sont cependant moins coûteux à obtenir en grande quantité. Plusieurs travaux antérieurs ont montré que l'utilisation des corpus comparables est bénéfique à différentes taches en TAL. En parallèle à ces travaux, nous proposons dans cette thèse d'améliorer la qualité des corpus comparables dans le but d'améliorer les performances des applications qui les exploitent. L'idée est avantageuse puisqu'elle peut être utilisée avec n'importe quelle méthode existante reposant sur des corpus comparables. Nous discuterons en premier la notion de comparabilité inspirée des expériences d'utilisation des corpus bilingues. Cette notion motive plusieurs implémentations de la mesure de comparabilité dans un cadre probabiliste, ainsi qu'une méthodologie pour évaluer la capacité des mesures de comparabilité à capturer un haut niveau de comparabilité. Les mesures de comparabilité sont aussi examinées en termes de robustesse aux changements des entrées du dictionnaire. Les expériences montrent qu'une mesure symétrique s'appuyant sur l'entrelacement du vocabulaire peut être corrélée avec un haut niveau de comparabilité et est robuste aux changements des entrées du dictionnaire. En s'appuyant sur cette mesure de comparabilité, deux méthodes nommées: greedy approach et clustering approach, sont alors développées afin d'améliorer la qualité d'un corpus comparable donnée. L'idée générale de ces deux méthodes est de choisir une sous partie du corpus original qui soit de haute qualité, et d'enrichir la sous-partie de qualité moindre avec des ressources externes. Les expériences montrent que l'on peut améliorer avec ces deux méthodes la qualité en termes de score de comparabilité d'un corpus comparable donnée, avec la méthode clustering approach qui est plus efficace que la method greedy approach. Le corpus comparable ainsi obtenu, permet d'augmenter la qualité des lexiques bilingues en utilisant l'algorithme d'extraction standard. Enfin, nous nous penchons sur la tâche d'extraction d'information interlingue (Cross-Language Information Retrieval, CLIR) et l'application des corpus comparables à cette tâche. Nous développons de nouveaux modèles CLIR en étendant les récents modèles proposés en recherche d'information monolingue. Le modèle CLIR montre de meilleurs performances globales. Les lexiques bilingues extraits à partir des corpus comparables sont alors combinés avec le dictionnaire bilingue existant, est utilisé dans les expériences CLIR, ce qui induit une amélioration significative des systèmes CLIR. / Bilingual corpora are an essential resource used to cross the language barrier in multilingual Natural Language Processing (NLP) tasks. Most of the current work makes use of parallel corpora that are mainly available for major languages and constrained areas. Comparable corpora, text collections comprised of documents covering overlapping information, are however less expensive to obtain in high volume. Previous work has shown that using comparable corpora is beneficent for several NLP tasks. Apart from those studies, we will try in this thesis to improve the quality of comparable corpora so as to improve the performance of applications exploiting them. The idea is advantageous since it can work with any existing method making use of comparable corpora. We first discuss in the thesis the notion of comparability inspired from the usage experience of bilingual corpora. The notion motivates several implementations of the comparability measure under the probabilistic framework, as well as a methodology to evaluate the ability of comparability measures to capture gold-standard comparability levels. The comparability measures are also examined in terms of robustness to dictionary changes. The experiments show that a symmetric measure relying on vocabulary overlapping can correlate very well with gold-standard comparability levels and is robust to dictionary changes. Based on the comparability measure, two methods, namely the greedy approach and the clustering approach, are then developed to improve the quality of any given comparable corpus. The general idea of these two methods is to choose the highquality subpart from the original corpus and to enrich the low-quality subpart with external resources. The experiments show that one can improve the quality, in terms of comparability scores, of the given comparable corpus by these two methods, with the clustering approach being more efficient than the greedy approach. The enhanced comparable corpus further results in better bilingual lexicons extracted with the standard extraction algorithm. Lastly, we investigate the task of Cross-Language Information Retrieval (CLIR) and the application of comparable corpora in CLIR. We develop novel CLIR models extending the recently proposed information-based models in monolingual IR. The information-based CLIR model is shown to give the best performance overall. Bilingual lexicons extracted from comparable corpora are then combined with the existing bilingual dictionary and used in CLIR experiments, which results in significant improvement of the CLIR system.
|
10 |
Problématique des entrepôts de données textuelles : dr Warehouse et la recherche translationnelle sur les maladies rares / Textual data Warehouse challenge : Dr. Warehouse and translational research on rare diseasesGarcelon, Nicolas 29 November 2017 (has links)
La réutilisation des données de soins pour la recherche s’est largement répandue avec le développement d’entrepôts de données cliniques. Ces entrepôts de données sont modélisés pour intégrer et explorer des données structurées liées à des thesaurus. Ces données proviennent principalement d’automates (biologie, génétique, cardiologie, etc) mais aussi de formulaires de données structurées saisies manuellement. La production de soins est aussi largement pourvoyeuse de données textuelles provenant des comptes rendus hospitaliers (hospitalisation, opératoire, imagerie, anatomopathologie etc.), des zones de texte libre dans les formulaires électroniques. Cette masse de données, peu ou pas utilisée par les entrepôts classiques, est une source d’information indispensable dans le contexte des maladies rares. En effet, le texte libre permet de décrire le tableau clinique d’un patient avec davantage de précisions et en exprimant l’absence de signes et l’incertitude. Particulièrement pour les patients encore non diagnostiqués, le médecin décrit l’histoire médicale du patient en dehors de tout cadre nosologique. Cette richesse d’information fait du texte clinique une source précieuse pour la recherche translationnelle. Cela nécessite toutefois des algorithmes et des outils adaptés pour en permettre une réutilisation optimisée par les médecins et les chercheurs. Nous présentons dans cette thèse l'entrepôt de données centré sur le document clinique, que nous avons modélisé, implémenté et évalué. À travers trois cas d’usage pour la recherche translationnelle dans le contexte des maladies rares, nous avons tenté d’adresser les problématiques inhérentes aux données textuelles: (i) le recrutement de patients à travers un moteur de recherche adapté aux données textuelles (traitement de la négation et des antécédents familiaux), (ii) le phénotypage automatisé à partir des données textuelles et (iii) l’aide au diagnostic par similarité entre patients basés sur le phénotypage. Nous avons pu évaluer ces méthodes sur l’entrepôt de données de Necker-Enfants Malades créé et alimenté pendant cette thèse, intégrant environ 490 000 patients et 4 millions de comptes rendus. Ces méthodes et algorithmes ont été intégrés dans le logiciel Dr Warehouse développé pendant la thèse et diffusé en Open source depuis septembre 2017. / The repurposing of clinical data for research has become widespread with the development of clinical data warehouses. These data warehouses are modeled to integrate and explore structured data related to thesauri. These data come mainly from machine (biology, genetics, cardiology, etc.) but also from manual data input forms. The production of care is also largely providing textual data from hospital reports (hospitalization, surgery, imaging, anatomopathologic etc.), free text areas in electronic forms. This mass of data, little used by conventional warehouses, is an indispensable source of information in the context of rare diseases. Indeed, the free text makes it possible to describe the clinical picture of a patient with more precision and expressing the absence of signs and uncertainty. Particularly for patients still undiagnosed, the doctor describes the patient's medical history outside any nosological framework. This wealth of information makes clinical text a valuable source for translational research. However, this requires appropriate algorithms and tools to enable optimized re-use by doctors and researchers. We present in this thesis the data warehouse centered on the clinical document, which we have modeled, implemented and evaluated. In three cases of use for translational research in the context of rare diseases, we attempted to address the problems inherent in textual data: (i) recruitment of patients through a search engine adapted to textual (data negation and family history detection), (ii) automated phenotyping from textual data, and (iii) diagnosis by similarity between patients based on phenotyping. We were able to evaluate these methods on the data warehouse of Necker-Enfants Malades created and fed during this thesis, integrating about 490,000 patients and 4 million reports. These methods and algorithms were integrated into the software Dr Warehouse developed during the thesis and distributed in Open source since September 2017.
|
Page generated in 0.1243 seconds