Spelling suggestions: "subject:"réponse""
21 |
Évaluation transparente du traitement des éléments de réponse à une question factuelleEl Ayari, Sarra 23 November 2009 (has links) (PDF)
Les systèmes de questions-réponses permettent à un utilisateur de rechercher une information précise dans un corpus de données massif, comme le Web. Ce sont des systèmes complexes qui utilisent des techniques de traitement automatique des langues (TAL). Des campagnes d'évaluation sont organisées pour évaluer leur performance fi nale, mais les équipes de recherche doivent ensuite réaliser des évaluation de diagnostic pour savoir les raisons de leurs succès et de leurs échecs. Or, il n'existe ni outil, ni méthode pour réaliser des évaluations systématiques de critères linguistiques pour de tels systèmes. L'objectif de ce travail est de proposer une méthodologie d'évaluation transparente des résultats intermédiaires produits par les systèmes de questions-réponses, en combinant à la fois une évaluation de performance et une analyse de corpus. Ainsi, nous discuterons de l'évaluation telle qu'elle est menée pour ces systèmes, et des limites rencontrées pour une évaluation de diagnostic. Dans un premier temps, nous nous interrogerons sur les pratiques d'évaluation, qu'elles portent sur les résultats finaux d'un système ou bien sur ceux que produisent les différents composants dans l'optique de dégager les tenants et les aboutissants d'une évaluation plus fine des stratégies linguistiques mise en oeuvre au sein des systèmes de questions-réponses. Cette étude nous permettra de dégager les principes d'une méthodologie d'évaluation de diagnostic transparente pour les systèmes de questions-réponses. Dans un deuxième temps, nous nous sommes intéressée aux erreurs classiques d'un système de questions-réponses a n de détailler les fonctionnalités nécessaires à un outil de diagnostic systématique de ces erreurs. Ceci nous a conduit à la création d'un outil d'évaluation, REVISE (Recherche, Extraction, VISualisation et Evaluation ), qui permet de stocker les résultats intermédiaires d'un système de façon à en disposer pour les annoter, les modi fier, les visualiser et les évaluer. Nous avons également discuté la généricité de cet outil à l'aide des résultats du système de questions-réponses RITEL. Enfi n, nous avons mené à l'aide de notre outil deux types d'études sur les systèmes de questions-réponses FRASQUES et QALC, l'une portant sur le critère linguistique focus extrait lors de l'analyse des questions et sur ses variations en contexte dans les phrases réponses sélectionnées par le système ; l'autre sur l'application des règles d'extraction de réponses précises.
|
22 |
Système de questions/réponses dans un contexte de business intelligenceKuchmann-Beauger, Nicolas 15 February 2013 (has links) (PDF)
Le volume et la complexité des données générées par les systèmes d'information croissent de façon singulière dans les entrepôts de données. Le domaine de l'informatique décisionnelle (aussi appelé BI) a pour objectif d'apporter des méthodes et des outils pour assister les utilisateurs dans leur tâche de recherche d'information. En effet, les sources de données ne sont en général pas centralisées, et il est souvent nécessaire d'interagir avec diverses applications. Accéder à l'information est alors une tâche ardue, alors que les employés d'une entreprise cherchent généralement à réduire leur charge de travail. Pour faire face à ce constat, le domaine " Enterprise Search " s'est développé récemment, et prend en compte les différentes sources de données appartenant aussi bien au réseau privé d'entreprise qu'au domaine public (telles que les pages Internet). Pourtant, les utilisateurs de moteurs de recherche actuels souffrent toujours de du volume trop important d'information à disposition. Nous pensons que de tels systèmes pourraient tirer parti des méthodes du traitement naturel des langues associées à celles des systèmes de questions/réponses. En effet, les interfaces en langue naturelle permettent aux utilisateurs de rechercher de l'information en utilisant leurs propres termes, et d'obtenir des réponses concises et non une liste de documents dans laquelle l'éventuelle bonne réponse doit être identifiée. De cette façon, les utilisateurs n'ont pas besoin d'employer une terminologie figée, ni de formuler des requêtes selon une syntaxe très précise, et peuvent de plus accéder plus rapidement à l'information désirée. Un challenge lors de la construction d'un tel système consiste à interagir avec les différentes applications, et donc avec les langages utilisés par ces applications d'une part, et d'être en mesure de s'adapter facilement à de nouveaux domaines d'application d'autre part. Notre rapport détaille un système de questions/réponses configurable pour des cas d'utilisation d'entreprise, et le décrit dans son intégralité. Dans les systèmes traditionnels de l'informatique décisionnelle, les préférences utilisateurs ne sont généralement pas prises en compte, ni d'ailleurs leurs situations ou leur contexte. Les systèmes état-de-l'art du domaine tels que Soda ou Safe ne génèrent pas de résultats calculés à partir de l'analyse de la situation des utilisateurs. Ce rapport introduit une approche plus personnalisée, qui convient mieux aux utilisateurs finaux. Notre expérimentation principale se traduit par une interface de type search qui affiche les résultats dans un dashboard sous la forme de graphes, de tables de faits ou encore de miniatures de pages Internet. En fonction des requêtes initiales des utilisateurs, des recommandations de requêtes sont aussi affichées en sus, et ce dans le but de réduire le temps de réponse global du système. En ce sens, ces recommandations sont comparables à des prédictions. Notre travail se traduit par les contributions suivantes : tout d'abord, une architecture implémentée via des algorithmes parallélisés et qui prend en compte la diversité des sources de données, à savoir des données structurées ou non structurées dans le cadre d'un framework de questions/réponses qui peut être facilement configuré dans des environnements différents. De plus, une approche de traduction basée sur la résolution de contrainte, qui remplace le traditionnel langage-pivot par un modèle conceptuel et qui conduit à des requêtes multidimensionnelles mieux personnalisées. En outre, en ensemble de patrons linguistiques utilisés pour traduire des questions BI en des requêtes pour bases de données, qui peuvent être facilement adaptés dans le cas de configurations différentes.
|
23 |
Rôle de la réponse immunitaire de type allergique et de la protéine parasitaire PfTCTP dans la physiopathologie du paludisme / Role of allergic immune response and parasite protein PfTCTP in the pathophysiology of malariaPelleau, Stéphane 20 December 2010 (has links)
Le paludisme, responsable du décès d’un million de personnes chaque année, reste un problème majeur de santé publique. Des études récentes ont évoqué des mécanismes immunopathologiques communs entre les manifestations allergiques et le paludisme, soutenus par l’existence d’un homologue parasitaire du facteur de relargage d’histamine humain (PfTCTP). Notre objectif était de déterminer l’implication des acteurs de la réponse allergique dans la gravité de l’accès palustre, et la capacité de la PfTCTP à moduler ces réponses.Trois groupes de sujets ont été recrutés dans des structures de santé à Dakar. Les patients infectés présentaient des taux élevés d’IgE totales et spécifiques, par rapport aux sujets sains, mais sans corrélation avec la gravité. A l’aide d’un test d’activation des basophiles basé sur l’expression du CD203c, nous avons montré que les basophiles de patients en accès simple présentaient un niveau d’activation basal significativement réduit. Ces mêmes patients présentaient des concentrations plasmatiques élevées en IL-10, suggérant un meilleur contrôle de leur réponse inflammatoire. Les basophiles de patients en accès grave présentaient une hyperréactivité à l’hémozoïne, ainsi qu’à des stimulations IgE-dépendantes (anti-IgE). Enfin, la présence de PfTCTP circulante a été associée à une plus grande réactivité des basophiles, tandis que l’acquisition d’anticorps contre cette protéine est associée à une protection envers une trop grande réactivité cellulaire.En conclusion, nos travaux soutiennent l’hypothèse d’une activation allergique excessive au cours du paludisme grave. Ce travail ouvre la voie à de nouvelles approches thérapeutiques. / Malaria is responsible of the death of a million person each year and remains a major public health problem. Recent studies have suggested the existence of common immunopathologic mechanisms between allergic manifestations and malaria, supported by the existence of a parasite homolog of the human histamine releasing factor (PfTCTP). Our objective was to determine i) the implication of allergic response actors in the severity of malaria, and ii) the ability of PfTCTP to modulate these responses.Three groups of subjects were recruited in health structures in Dakar. Infected patients presented high levels of total and specific IgE, compared to healthy controls, although not correlated with severity. With a basophil activation test based on CD203c expression, we demonstrated that basophils from mild malaria patients presented a significantly reduced basal level of activation which paralleled higher levels of IL-10, thus suggesting a better control of their inflammatory responses. Basophils from severe malaria patients showed an hyperreactivity to haemozoin and to IgE-dependent stimulations (anti-IgE). Finally, presence of circulating PfTCTP was associated with a higher basophil reactivity, whereas acquisition of anti-PfTCTP antibodies was associated with protection towards excessive cellular reactivity.In conclusion, our results support the hypothesis of an excessive allergic activation during severe malaria. This work might open the way to new therapeutic approaches.
|
24 |
La relation entre vie familiale et vie professionnelle : incidences des violences conjugales sur les travailleuses, les travailleurs et les organisations / Relationship between family life and professional life : impacts of domestic violence upon women workers, men workers and organisationsWielhorski, Nouchka 25 November 2014 (has links)
Les violences conjugales affectent la santé des individus, influent sur leurs comportements au travail, et impactent les organisations. Outre les pertes financières,elles contribuent à accentuer les inégalités entre les sexes, notamment au sein de la sphère professionnelle. Au travers d’une typologie des incidences des violences conjugales, la présente recherche exploratoire examine les processus à l’oeuvre dans l’interaction des victimes avec l’univers professionnel, et la manière dont les organisations peuvent répondre aux manifestations de ce phénomène familial. Elle repose sur un double cadre conceptuel : les violences conjugales et l’articulation famille-travail. L’accès au terrain s’appuie sur une combinaison de méthodologies qualitatives : 47 entretiens (individuels et collectifs semi-directifs, récits de vie),menés auprès de victimes et de membres d’organisations non-marchandes(associations, Fondation Kering, conseil général de l’Essonne) et marchandes (PSA Peugeot Citroën, BPI group).Outre l’ancrage théorique novateur, les résultats ont permis l’émergence d’un modèle qui articule le déterminant familial (les violences physiques, psychologiques,économiques), la relation famille-travail (débordement, conflit, compensation), ainsi que trois principales incidences organisationnelles (baisse de concentration,changement de comportement, surinvestissement au travail). Parmi ces 3manifestations, la baisse de concentration (débordement négatif) et le surinvestissement au travail (compensation) sont des éléments significatifs en termes de nombre de personnes concernées ; le changement de comportement(débordement négatif) constitue une variable marquante pour son caractère inexploré. Dans des logiques d’intégration ou de respect, les organisations sont susceptibles de contribuer à réduire les difficultés posées par ces interférences,obtenant ainsi des bénéfices économiques et managériaux.Les apports de l’étude se situent à plusieurs niveaux : d’une part, elle importe en France la problématique des incidences organisationnelles des violences conjugales,et d’autre part, elle l’inscrit dans le cadre théorique de la relation famille-travail. / Domestic violence affects the health of individuals, influences their behaviour in the workplace, and impacts organisations. In addition to financial loss, it contributes to emphasize gender inequalities, especially within the professional sphere. Througha typology of the implications of domestic violence, this exploratory research examines the processes in motion during the interactions of victims with their professional environment, and how organisations can respond to the manifestations of this phenomenon which occurs within the family sphere. It is based on a double conceptual framework: domestic violence and work-family articulation. Field access relies on a combination of qualitative methods: 47 interviews (semi-directive individual and collective interviews, life histories) lead with victims as well as with representatives of non-mercantile organisations (associations, Kering Foundation,conseil général de l’Essonne) and businesses (PSA Peugeot-Citroën, BPI group).Besides this innovative theoretical anchoring, the results have allowed the emergence of a model that articulates the family determinant (acts of physical,psychological, and economic violence), the work-family relationship (spill over,conflict, and compensation) as well as the three main organisational effects (decrease in concentration, change in behaviour, and over investment in work). Amongst those three manifestations, the decrease in concentration (negative spill over) and the over investment in work (compensation) are significant elements in terms of the number of people concerned; the change in behaviour (negative spill over) represents a remarkable variable because of its unexplored character. Following logics of integration or respect, the organisations are likely to contribute to reducing the difficulties posed by these interferences, thus receiving economic and managerial benefits.The contributions of the study are found on several levels: on one hand it imports into France the issue of the organisational implications of domestic violence,and on the other, it positions it within the theoretical framework of the work-family relationship.
|
25 |
Conception d'un famework pour la relaxation des requêtes SPARQL / Design of a Framework for Cooperative Answering of SPARQL Query in RDF DatabaseFokou Pelap, Géraud 21 November 2016 (has links)
Une ontologie (ou base de connaissances) est une représentation formelle de connaissances sous la forme d'entités et de faits sur ces entités. Ces dernières années de nombreuses ontologies ont été développées dans des contextes académiques et industriels. Elles sont généralement définies à l’aide du langage forme lRDF et interrogées avec le langage de requêtes SPARQL. Une connaissance partielle du contenu et de la structure d’une ontologie peut amener les utilisateurs à exécuter des requêtes qui retournent un résultat vide de réponses, considéré comme insatisfaisant. Parmi les techniques d’interrogation coopératives développées pour résoudre ce problème se trouve la technique de relaxation de requêtes. Elle consiste à affaiblir les conditions exprimées dans les requêtes pour retourner des résultats alternatifs à l'utilisateur. En étudiant les travaux existants sur la relaxation de requêtes SPARQL nous avons constaté qu’ils présentent plusieurs limitations :(1) ils ne permettent pas de définir précisément la relaxation à effectuer tout en offrant la possibilité de contrôler le processus de relaxation (2) ils n’identifient pas les causes réelles d'échec de la requête formulée par l'utilisateur et (3) ils n’intègrent pas d’outils interactifs pour mieux exploiter les techniques de relaxation proposées. Pour répondre à ces limitations, ce travail de thèse propose un framework pour la relaxation de requêtes SPARQL. Ce framework inclut un ensemble d'opérateurs de relaxation des requêtes SPARQL permettant de relaxer incrémentalement des parties précises de la requête utilisateur tout en contrôlant la pertinence des réponses alternatives retournées par rapport aux besoins exprimés par l’utilisateur dans sa requête. Notre framework propose également plusieurs algorithmes qui identifient les causes d’échec de la requête utilisateur et les requêtes qui réussissent (c'est-à-dire, qui ont des résultats) ayant un nombre maximal de conditions de la requête initialement exprimée. Ces informations permettent à l’utilisateur de mieux comprendre pourquoi sa requête échoue et d’exécuter des requêtes qui retournent des résultats alternatifs.Enfin, notre framework propose des stratégies de relaxation qui élargissent les conditions de la requête utilisateur en s’appuyant sur les causes d’échec de celle-ci. Ces stratégies permettent de réduire le temps d’exécution du processus de relaxation par rapport à l’approche classique, qui consiste à exécuter les requêtes relaxées, en fonction de leur similarité avec la requête utilisateur, jusqu’à l’obtention d’un nombre satisfaisant de résultats alternatifs. Les contributions proposées dans ce framework ont été implémentées et validées par des scénarios et expérimentations basés sur le banc d'essai LUBM. Ils montrent l’intérêt de nos contributions par rapport à l'état de l'art. / Ontology (or Knowledge base) is a formal representation of knowledge as entities and facts related to these entities. In the past years, several ontologies have been developed in academic and industrial contexts.They are generally defined with RDF language and querying with SPARQL language. A partial knowledge of instances and schema of ontology may lead user to execute queries that result in empty answers, considered as unsatisfactory. Among cooperative querying techniques which have been developed to solve the problem of empty answers, query relaxation technique is the well-known and used. It aims at weakening the conditions expressed in the original query to return alternative answers to the user. Existing work on relaxation of SPARQL queries we suffer from many drawbacks : (1) they do not allow defining in precise way the relaxation to perform with the ability to control the relaxation process (2) they do not identify the causes of failure of the request expressed by the user and (3) they do not include interactive tools to better exploit the relaxation techniques proposed. To address these limitations, this thesis proposes an advanced framework forquery relaxation SPARQL. First, this framework includes a set of relaxation operators dedicated to SPARQLqueries, to incrementally relax specific parts of the user request while controlling the relevance of the alternative responses returned w.r.t. to the user needs expressed in his request. Our framework also provides both several algorithms that identify the causes of failure of the user query and queries that are successful with a maximum number of conditions initially expressed in the failing request. This information allows the user to better understand why his request fails and execute queries that return non-empty alternative results. Finally,our framework offers intelligent relaxation strategies that rely on the causes of query failure. Such strategies reduce the execution time of the relaxation process compared to the traditional approach, which executes relaxed requests, based on their similarity to the user request, until a number of satisfactory alternative results is obtained. All contributions proposed in this framework were implemented and validated by experiments and scenarios based on the tests bench LUBM. They show the interest of our contributions w.r.t. the state of theart.
|
26 |
Les oomycètes microorganismes pathogènes de plantes : une nouvelle source de protéines pour l'utilisation des polymères lignocellulosiques / Oomycete plant pathogens : a new source of proteins for lignocellulosic biomass utilizationMartinez, Thomas 03 March 2015 (has links)
Les oomycètes représentent un groupe de microorganismes eucaryotes filamenteux distincts phylogénétiquement des champignons incluant de nombreuses espèces phytopathogènes. CBEL est une glycoprotéine pariétale de Phytophthora parasitica constituée d'une répétition de deux régions séparées par un linker. Chaque région protéique est constituée d'un domaine protéique de liaison à la cellulose (CBM1) et un motif PAN /Apple impliqué dans des interactions protéines-protéines ou protéines-polysaccharides. Cette étude doctorale porte sur la caractérisation de la protéine CBEL et plus particulièrement de ses CBM1s ainsi que sur l'évaluation et optimisation du potentiel de cette protéine à : (i) stimuler les défenses naturelles des plantes (ii) augmenter l'activité de glycosides hydrolases. Dans la première partie de ce travail doctoral différents tests visant à reproduire un traitement éliciteur externe sur plante entière ont pour cela été développés. Ces tests ont permis de mettre en évidence que formulée en présence de surfactants CBEL est capable d'induire diverses réponses de défense chez A. thaliana. Une production en masse de cette protéine a été réalisée dans la levure Pichia pastoris et la bactérie Escherichia coli dans l'optique d'une future application agronomique. Les protéines recombinantes CBELcol et CBELpic produite dans ces différents systèmes d'expression présentent des profils de glycosylation différents de celui de la protéine native CBELnat. Alors que ces protéines semblent se lier de manière identique à la cellulose les différents tests d'élicitation développés au cours de ce travail mettent en évidence des variations dans leur activité élicitrice suggérant que la nature des résidus glucidiques présents sur cette glycoprotéine peut avoir un impact sur sa capacité induire des réponses de défenses en application externe. Lors de la deuxième partie de ce travail de thèse la capacité de CBEL à interagir avec différents substrats cellulosiques a été caractérisée. Les résultats obtenus ont permis de montrer que CBEL se lie avec une haute affinité à la cellulose cristalline avicel et que la présence de CBM1 fonctionnels est nécessaire à cette interaction. De manière intéressante, le CBM1-1 et CBM1-2 ne semblent pas contribuer de manière égale à cette interaction. Par ailleurs la laison de CBEL à la cellulose induit des perturbations structurales sur le substrat et permet d'améliorer l'activité de la xylanase XynB de Talaromyces versatilis sur paille de blé. En outre une xylanase chimère possédant dans sa séquence le CBM1-1 de CBEL possède également une activité augmentée sur paille blé. L'ensemble de ces résultats met en évidence le potentiel de CBEL et de son CBM1-1 pour l'amélioration de l'activité de glycoside hydrolases utilisables par exemple en bioraffinerie. En dernier lieu un travail de caractérisation structurale de la protéine CBEL a également été entamé au cours de cette étude. L'enveloppe de la protéine CBEL en solution à notamment été déterminée par SAXS (Small Angle X-ray Scattering) et un modèle 3D de cette protéine a été obtenu. / Oomycetes are fungal like microorganisms evolutionary distinct from true fungi that include pathogens of plants. CBEL is a cell wall glycoprotein isolated from the oomycete Phytophthora parasitica that is composed of two distinct regions linked by a threonine/proline rich linker. Each region owns a cellulose binding module (CBM1) and a PAN-Apple domain involved in protein-protein or proteins-polysaccharides interactions. Since CBEL is able to induce defense responses in numerous plant species, its use for the development of products able to protect crops has been envisaged. For this purpose we analysed the effect of an external CBEL treatment on plants. We found that in the presence of surfactants CBEL is able to induce cytosolic calcium changes, defense gene expression, and cell death on A. thaliana. CBEL application for crop protection requires the development of economically reliable production processes. In the case of proteinaceous elicitors, an attractive strategy to obtain large amount of elicitors is to express them in heterologous hosts such as bacteria or yeasts. CBELcol and CBELpic were produced respectively in E. coli and in P. pastoris. CBELcol is unglycosylated whereas CBELpic displays a glycosylation profile distinct from the native protein (CBELnat). We found that all these proteins are able to bind crystalline cellulose. On the other side we found that the elicitor activity of CBELpic is distinct from CBELnat and CBELcol suggesting that the glycosylation on CBEL can have an impact on its ability to induce plant defense responses after external treatment on A. thaliana. In the second part of this work the two CBMs (1-1 and 1-2) that form part of CBEL have been submitted to detailed characterization, first to better quantify their interaction with cellulose and second to determine whether these CBMs can be useful for biotechnological applications, such as biomass hydrolysis. A variety of biophysical techniques were used to study the interaction of the CBMs with various substrates and the data obtained clearly indicate that CBEL's CBM1-1 exhibits much greater cellulose binding ability than CBM1-2. Engineering of the family 11 xylanase from Talaromyces versatilis (TvXynB), an enzyme that naturally bears a family 1 CBM, has produced two variants. The first one lacks a CBM, whereas the second contains the CBEL CBM1-1 in the place of the natural CBM1. The study of these enzymes has revealed that wild type TvXynB binds to cellulose, probably via its CBM1, and that the substitution of its CBM by oomycetal CBM1-1 does not affect its activity on this substrate. Moreover, the presence of CBEL during the hydrolysis of wheat straw actually potentiates the action of TvXynB, a result that is consistent with the hypothesis that CBM1-1 can alter cellulose surface fibres rather like some other members of CBM family 1.
|
27 |
Question Answering System in a Business Intelligence Context / Système de questions/réponses dans un contexte de business intelligenceKuchmann-Beauger, Nicolas 15 February 2013 (has links)
Le volume et la complexité des données générées par les systèmes d’information croissent de façon singulière dans les entrepôts de données. Le domaine de l’informatique décisionnelle (aussi appelé BI) a pour objectif d’apporter des méthodes et des outils pour assister les utilisateurs dans leur tâche de recherche d’information. En effet, les sources de données ne sont en général pas centralisées, et il est souvent nécessaire d’interagir avec diverses applications. Accéder à l’information est alors une tâche ardue, alors que les employés d’une entreprise cherchent généralement à réduire leur charge de travail. Pour faire face à ce constat, le domaine « Enterprise Search » s’est développé récemment, et prend en compte les différentes sources de données appartenant aussi bien au réseau privé d’entreprise qu’au domaine public (telles que les pages Internet). Pourtant, les utilisateurs de moteurs de recherche actuels souffrent toujours de du volume trop important d’information à disposition. Nous pensons que de tels systèmes pourraient tirer parti des méthodes du traitement naturel des langues associées à celles des systèmes de questions/réponses. En effet, les interfaces en langue naturelle permettent aux utilisateurs de rechercher de l’information en utilisant leurs propres termes, et d’obtenir des réponses concises et non une liste de documents dans laquelle l’éventuelle bonne réponse doit être identifiée. De cette façon, les utilisateurs n’ont pas besoin d’employer une terminologie figée, ni de formuler des requêtes selon une syntaxe très précise, et peuvent de plus accéder plus rapidement à l’information désirée. Un challenge lors de la construction d’un tel système consiste à interagir avec les différentes applications, et donc avec les langages utilisés par ces applications d’une part, et d’être en mesure de s’adapter facilement à de nouveaux domaines d’application d’autre part. Notre rapport détaille un système de questions/réponses configurable pour des cas d’utilisation d’entreprise, et le décrit dans son intégralité. Dans les systèmes traditionnels de l’informatique décisionnelle, les préférences utilisateurs ne sont généralement pas prises en compte, ni d’ailleurs leurs situations ou leur contexte. Les systèmes état-de-l’art du domaine tels que Soda ou Safe ne génèrent pas de résultats calculés à partir de l’analyse de la situation des utilisateurs. Ce rapport introduit une approche plus personnalisée, qui convient mieux aux utilisateurs finaux. Notre expérimentation principale se traduit par une interface de type search qui affiche les résultats dans un dashboard sous la forme de graphes, de tables de faits ou encore de miniatures de pages Internet. En fonction des requêtes initiales des utilisateurs, des recommandations de requêtes sont aussi affichées en sus, et ce dans le but de réduire le temps de réponse global du système. En ce sens, ces recommandations sont comparables à des prédictions. Notre travail se traduit par les contributions suivantes : tout d’abord, une architecture implémentée via des algorithmes parallélisés et qui prend en compte la diversité des sources de données, à savoir des données structurées ou non structurées dans le cadre d’un framework de questions/réponses qui peut être facilement configuré dans des environnements différents. De plus, une approche de traduction basée sur la résolution de contrainte, qui remplace le traditionnel langage-pivot par un modèle conceptuel et qui conduit à des requêtes multidimensionnelles mieux personnalisées. En outre, en ensemble de patrons linguistiques utilisés pour traduire des questions BI en des requêtes pour bases de données, qui peuvent être facilement adaptés dans le cas de configurations différentes. / The amount and complexity of data generated by information systems keep increasing in Warehouses. The domain of Business Intelligence (BI) aims at providing methods and tools to better help users in retrieving those data. Data sources are distributed over distinct locations and are usually accessible through various applications. Looking for new information could be a tedious task, because business users try to reduce their work overload. To tackle this problem, Enterprise Search is a field that has emerged in the last few years, and that takes into consideration the different corporate data sources as well as sources available to the public (e.g. World Wide Web pages). However, corporate retrieval systems nowadays still suffer from information overload. We believe that such systems would benefit from Natural Language (NL) approaches combined with Q&A techniques. Indeed, NL interfaces allow users to search new information in their own terms, and thus obtain precise answers instead of turning to a plethora of documents. In this way, users do not have to employ exact keywords or appropriate syntax, and can have faster access to new information. Major challenges for designing such a system are to interface different applications and their underlying query languages on the one hand, and to support users’ vocabulary and to be easily configured for new application domains on the other hand. This thesis outlines an end-to-end Q&A framework for corporate use-cases that can be configured in different settings. In traditional BI systems, user-preferences are usually not taken into account, nor are their specific contextual situations. State-of-the art systems in this field, Soda and Safe do not compute search results on the basis of users’ situation. This thesis introduces a more personalized approach, which better speaks to end-users’ situations. Our main experimentation, in this case, works as a search interface, which displays search results on a dashboard that usually takes the form of charts, fact tables, and thumbnails of unstructured documents. Depending on users’ initial queries, recommendations for alternatives are also displayed, so as to reduce response time of the overall system. This process is often seen as a kind of prediction model. Our work contributes to the following: first, an architecture, implemented with parallel algorithms, that leverages different data sources, namely structured and unstructured document repositories through an extensible Q&A framework, and this framework can be easily configured for distinct corporate settings; secondly, a constraint-matching-based translation approach, which replaces a pivot language with a conceptual model and leads to more personalized multidimensional queries; thirdly, a set of NL patterns for translating BI questions in structured queries that can be easily configured in specific settings. In addition, we have implemented an iPhone/iPad™ application and an HTML front-end that demonstrate the feasibility of the various approaches developed through a series of evaluation metrics for the core component and scenario of the Q&A framework. To this end, we elaborate on a range of gold-standard queries that can be used as a basis for evaluating retrieval systems in this area, and show that our system behave similarly as the well-known WolframAlpha™ system, depending on the evaluation settings.
|
28 |
Réutilisation d'entités nommées pour la réponse au courrielDanet, Laurent 12 April 2018 (has links)
La réponse automatique aux courriels est une solution envisagée pour faciliter le travail de certains services d’entreprises, tels que les services à la clientèle ou les relations avec des investisseurs, services confrontés à un grand nombre de courriels souvent répétitifs. Nous avons décidé d’adapter une approche de raisonnement à base de cas (CBR - Case-Based Reasoning) pour confronter ce problème. Cette approche vise à réutiliser des messages antérieurs pour répondre à de nouveaux courriels, en sélectionnant une réponse adéquate parmi les messages archivés et en l’adaptant pour la rendre pertinent par rapport au contexte de la nouvelle requête. L’objectif de nos travaux est de définir une démarche pour aider l’usager d’un système de réponse au courriel à réutiliser les entités nommées de courriels antécédents. Cependant, les entités nommées nécessitent une adaptation avant d’être réutilisées. Pour ce faire, nous effectuons deux tâches qui sont d’abord l’identification des portions modifiables du message antécédent et ensuite la sélection des portions qui seront adaptées pour construire la réponse à la requête. Les deux tâches nécessitent l’utilisation de connaissances. Notre problématique consiste à déterminer si les approches adaptatives, basées sur des techniques d’apprentissage automatique permettent d’acquérir des connaissances pour réutiliser efficacement des entités nommées. La première tâche d’identification des portions modifiables s’apparente à l’extraction d’information. Toutefois nous nous intéressons uniquement aux entités nommées et à leurs spécialisations. La seconde tâche, la sélection de portions à adapter, correspond à une catégorisation de textes dans laquelle nous utilisons la requête pour attribuer une classe à la réponse que nous devons construire. La classe nous indique quelles entités doivent être adaptées. ii Nous avons étudiés et comparées différentes approches pour les deux tâches. Ainsi, nous avons testés pour l’extraction, les approches manuelle et automatiques, de haut en bas (top-down) et de bas vers le haut (bottom-up) sur un corpus de courriels. Les résultats obtenus par l’approche manuelle sont excellents. Toutefois nous observons une dégradation pour les approches automatiques. Pour la catégorisation, Nous avons évalué différentes représentations des textes et des mots, l’utilisation de poids pour ces derniers, et l’impact d’une compression obtenue par l’utilisation de règles d’association. Les résultats obtenus sont généralement satisfaisants et nous indique que notre approche, composée des deux tâches décrites précédemment, pourrait s’appliquer à notre problème de réponse automatique aux courriels. / An automatic e-mail response system is a solution for improving the operations of certain business services, like customers’ services or investor relations. Those services are dealing with a large volume requests coming through e-mail messages, most of them being repetitive. We have decided to explore a CBR approach (Case-Based Reasoning) for this problem. Such an approach makes use of antecedent messages to respond to new incoming e-mails. Requests coming from customers or investors are often redundant; we could select an adequate answer among the archived messages, and then adapt it to make it coherent with the actual context of the new message request. In this project, we address the re-use problem, but more specifically the identification of named entity and their specialized roles. These entities are portions of text strongly depend on the context of the antecedent message, and hence need some adaptation to be re-used. We divide the reuse process in two tasks which are: a) the identification of modifiable portions of an antecedent message; b) the selection of portions to be adapted to build the answer of the request. For first task, we make use of information extraction techniques. But we will concentrate our efforts uniquely on the extraction of named entities and their specializations. For second task we make use of text classification techniques to decide which portions are subject to adaptation. This decision is based on the context of the request, words which compose it. We used different approaches for the two tasks. We tested manual and automatics top-down and bottom-up extraction techniques on an e-mail corpus for the identification of iv modifiable portions extraction task. Manual approach gives us excellent results. But, we notice a degradation of performance for automatic extraction techniques. For the selection of portions to be adapted, we compared made use of association rules and various word representation. Association rules use permits to compress data without degrades results a lot. Globally, results are good and indicate that our approach, desrcibes before, could be applied to our problem.
|
29 |
La vraisemblance de patrons de réponses : étude de la précision des indices d'ajustement des scores individuels, de leurs points critiques et du taux optimal d'aberranceSt-Onge, Christina 13 April 2018 (has links)
Cette étude doctorale porte sur les indices d’ajustement des scores individuels dérivés de la Théorie des réponses aux items (TRI). Les deux concepts retenus dans le cadre de cette recherche sont les taux de détection et les points critiques. Le premier et le troisième article traitent des taux de détection tandis que le deuxième article traite des points critiques. Le premier article étudie la relation entre la puissance des indices et l’ajustement des modèles logistiques à 2 et à 3 paramètres de la TRI aux données. Les résultats suggèrent que pour que les indices soient puissants, un modèle qui correspond à la distribution des données doit être préféré à un modèle qui épouse les données. Dans le deuxième article, nous avons élaboré des points critiques pour la statistiques lz qui peuvent être utilisés dans des contextes semblables à ceux étudiés dans le cadre du premier article. Les résultats obtenus, dans le deuxième article, démontrent qu’il est possible de créer une table des points critiques. Les intervalles de confiance calculés pour chaque point critique indiquent que ces derniers sont précis. Lors de la mise à l’essai de ces points critiques, il a été observé que les taux d’erreur de type I sont conservateurs. Ceci est plus prononcé pour l’erreur de type I de 0,01. Quant aux taux de détection pour les niveaux d’erreur de type I de 0,05 et 0,10, ils sont légèrement inférieurs à ceux recensés dans la documentation. Dans le troisième article, il est question de la relation entre les taux de détection des indices d’ajustement des scores individuels et le taux d’aberrance des patrons de réponses. Les résultats de ce troisième article suggèrent l’existence du phénomène du taux d’aberrance optimal. Il y a une augmentation du taux de détection des indices d’ajustement des scores individuels avec l’augmentation du taux d’aberrance jusqu’à l’atteinte d’un sommet. Par la suite, une augmentation du taux d’aberrance entraîne une diminution du taux de détection. Ces derniers résultats nous permettre d’expliquer un phénomène qui n’avait jamais été formellement étudié auparavant. / This doctoral research on Item Response Theory (IRT)-based Person-Fit Statistics (PFS) is comprised of three studies. This research was divided in such a way so we could study two key concepts: the detection rates and the critical values of PFS. In the first and third study, detection rates were studied. The second study focused on the critical values of a PFS. In the first article, we observed that the PFS were more accurate when they were used with parametric estimated ICCs (ML2P and ML3P), and this was independent of the sample size. It seems necessary to verify the model-data fit before carrying out appropriateness assessment with IRT-based PFS. Following the development of a table of critical values, in the second article, the degrees of confidence were calculated for each interval and these results lead us to believe that the critical values were precise. These critical values were tested and it was observed that the type I error rates were conservative but the detection rates observed for .05 and .10 type I error levels were slightly inferior to the detection rates found in the literature. In the third article, we investigated the optimal aberrance phenomenon, i.e., we observed an increase in the detection rate of PFS with an increase in the aberrance rate until a peak was reached and then an increase in the aberrance rate lead to a decrease in the detection rates of PFS. These last results help us to explain a phenomenon that was never previously studied.
|
30 |
Pouvoir prédictif des questions de sondageAllodehou, Amos 23 April 2018 (has links)
Les sondages pré-électoraux jouent un rôle important dans les élections en aidant les candidats à sélectionner leur plateforme et les électeurs à coordonner leurs votes. Ils influencent le bien-être de la société à travers les mesures de politiques qui seront mises en oeuvre après les élections. Mais, les prédictions obtenues à partir des réponses aux sondages sont souvent biaisées et volatiles. Les biais proviennent soit du format de question utilisé dans le sondage soit du processus cognitif par lequel les individus élaborent la réponse. La négligence de corrélation est l’un des biais cognitifs susceptibles d’affecter les réponses au sondage. Le présent mémoire vise à comparer théoriquement et empiriquement les pouvoirs prédictifs des différents formats de questions posées dans les sondages puis à mesurer l’effet du biais de négligence de corrélation sur les réponses des individus à l’aide d’une expérience de laboratoire. Les sondeurs utilisent trois types de question pour prédire le résultat de l’élection : les questions binaires, binaires avec incertitude et probabilistes. Les résultats théoriques montrent que les questions binaires avec incertitude donnent une estimation plus précise du résultat de l’élection que les questions binaires. Cette précision dépend de la proportion des électeurs indécis dans la population et de la façon dont les répondants interprètent la question. Les questions probabilistes sont plus précises que les deux autres formats de question. Selon les résultats expérimentaux, la corrélation entre les préférences électorales et les coûts de participation aux élections affecte significativement les réponses données par les individus dans les sondages.
|
Page generated in 0.0574 seconds