81 |
The relative predictive accuracy of time series prediction methods vs. indexing prediction methods : an empirical study /Greenberg, Ralph Howard January 1982 (has links)
No description available.
|
82 |
Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporellesKevers, Laurent 31 January 2011 (has links) (PDF)
Dans le contexte actuel d'une société et d'une économie centrées sur l'information, l'accès à la masse grandissante de documents électroniques est devenu un enjeu capital. De nombreux outils de recherche d'informations se contentent cependant d'un scénario de recherche classique, basé sur les mots. Pourtant, la relation entre un concept et son expression ne se limite pas toujours à un lien unique. Ainsi, un concept peut souvent être désigné par plusieurs expressions (« chômeur » et « demandeur d'emploi »), et inversement, un mot peut aussi parfois désigner plusieurs concepts différents (« carotte » en tant que légume ou en géologie). Afin de gérer cette difficulté, il peut être intéressant de représenter les documents non plus dans un espace de mots, mais dans un espace de concepts. Dans cette thèse, nous proposons trois façons d'apporter des éléments de sens à la représentation des documents : une méthode de classification supervisée (semi-)automatique de documents, la prise en compte de manière particulière de certains éléments d'informations, comme le temps, et finalement un système d'indexation thématico-temporel qui montre l'intérêt, et les perspectives en termes applicatifs, de cette approche multidimensionnelle et sémantique de l'accès à l'information.
|
83 |
Un test des déterminants internes de la motivation situationnelle en contexte naturel :<br />Approche hiérarchique de la motivation en Education Physique et SportiveHauw, Nicolas 12 December 2006 (has links) (PDF)
L'objet de cette thèse était d'examiner les relations entre d'une part les motivations de l'élève en EPS et d'autre part celles pour les activités physiques et sportives. Le modèle hiérarchique de la motivation intrinsèque et extrinsèque (MHMIE, Vallerand, 1997) postule que la motivation d'un individu dans une tâche spécifique dépend de facteurs psychologiques internes telles que ses motivations dans un ou plusieurs contextes de vie en lien avec la situation vécue. Une première étude (N = 371) s'est attachée à vérifier cette source d'influence dans le contexte de l'Education Physique et Sportive (EPS). Les résultats obtenus par des méthodes d'équations structurelles démontrent que les motivations de l'élève vis-à-vis des activités sportives pratiquées en dehors de l'école n'influencent pas directement ses motivations durant la leçon d'EPS. Cette relation s'avère médiée par la motivation contextuelle en EPS. Une seconde étude (n = 171) a testé les effets descendants et ascendants entre les deux niveaux hiérarchiques de généralité. Conformément au MHMIE, les résultats obtenus confirment la relation de réciprocité dans le temps entre les motivations situationnelle et contextuelle en EPS. Enfin, notre démarche nous a conduit à démontrer l'existence d'un conflit motivationnel ressenti par l'élève au sein même de la séance d'EPS (N = 203). Notre travail nous permet finalement de conclure que la perception par l'élève de la nature de la séance détermine le lien unissant sa motivation situationnelle à l'une ou l'autre de ses motivations contextuelles (i.e. dans les sports ou en EPS).
|
84 |
Caracterização fitossanitária e seleção de limeiras ácidas 'Tahiti' clone Quebra-galho candidatas a matrizesSilva, Simone Rodrigues da [UNESP] 04 July 2007 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:33:40Z (GMT). No. of bitstreams: 0
Previous issue date: 2007-07-04Bitstream added on 2014-06-13T18:45:43Z : No. of bitstreams: 1
silva_sr_dr_jabo.pdf: 2004552 bytes, checksum: 9add4746708701cae05ee9a28f001bfe (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Estacao Experimental de Bebedouro / Fundecitrus / Objetivando caracterizar sanitariamente a lima ácida ‘Tahiti’ clone Quebra-galho [C. latifolia (Yu. Tanaka) Tanaka] e selecionar plantas candidatas a matrizes, 80 plantas foram avaliadas quanto aos sintomas de tristeza, exocorte, sorose e pelo estado nutricional, desenvolvimento, produção e qualidade de frutos e por testes biológicos para as viroses citadas e xiloporose. Para viróides, empregou-se também RT-PCR. Todos os testes biológicos foram positivos para tristeza e negativos para xiloporose. Para exocorte, 82,5% dos testes foram positivos. No caso da sorose, 11,2% dos testes foram positivos apesar das plantas de campo não apresentarem sintomas. Quanto à tristeza, a reação em ‘Galego’ foi fraca (58,8%), média (40%) e forte (1,2%), sem caneluras nos ramos das plantas no campo. Os viróides Hop stunt viroid (HSVd), Citrus dwarfing viroid (CVd-III) e o Citrus exocortis viroid (CEVd) foram encontrados em 31,3%, 82,5% e 100,0% das plantas, respectivamente. Todas as plantas estudadas estavam infectadas com o CTV e com o CEVd, que foi encontrado isoladamente ou em combinação com outros viróides. Diferenças observadas na expressão dos sintomas de exocorte e tristeza na copa e no porta-enxerto podem ser atribuídas a interferências entre os viróides e a seleção pela multiplicação de gemas de árvores contaminadas por variantes pouco virulentas. O estado nutricional, o desenvolvimento, a produção e a qualidade dos frutos não apresentaram associação com o tipo de contaminação por viróides, o que também ocorreu com as plantas selecionadas como candidatas a matrizes em função da produção e qualidade física dos frutos. / Aiming at to characterize sanitarily the acid lime ‘Tahiti’ clone “Quebragalho” [C. latifolia (Yu. Tanaka) Tanaka] and select applicant mother plants, 80 plants were evaluated about the symptoms of tristeza disease, exocortis, psorosis and nutritional state, development, production and quality of the fruits, and by biological tests for the cited viruses and xyloporosis. For the viroids, was used RT-PCR too. All the biological tests were positive for tristeza disease and negative for xyloporosis. For exocortis, 82.5% of the tests were positive. In the case of the psorosis, 11.2% of the tests were positive although the plants in the field do not present symptoms. To the tristeza disease, the reaction in 'Galego' was of weak (58.8%), middle (40.0%) and strong (1.2%), without pittings in the branches of the plants in the field. The viroids Hop stunt viroid (HSVd), Citrus dwarfing viroid (CVd-III) and the Citrus exocortis viroid (CEVd) were found, respectively, in 31.3%, 82.5% and 100.0% of the plants. All of the plants in study were infected with the CTV and the CEVd, that was found isolately or in combinations with other viroids. Differences observed in the expression of the exocortis symptoms and tristeza disease in the cup and in the rootstock can be attributed to interferences between the viroids and the selection by the multiplication through cuttings of infected trees by strains few virulent. The nutritional state, development, production and quality of the fruits, did not presented association with the type of contamination by viroids, what also occurred with the applicant mother plants selected in function of the production and physical quality of the fruits.
|
85 |
Caracterização fitossanitária e seleção de limeiras ácidas 'Tahiti' clone Quebra-galho candidatas a matrizes /Silva, Simone Rodrigues da. January 2007 (has links)
Resumo: Objetivando caracterizar sanitariamente a lima ácida 'Tahiti' clone Quebra-galho [C. latifolia (Yu. Tanaka) Tanaka] e selecionar plantas candidatas a matrizes, 80 plantas foram avaliadas quanto aos sintomas de tristeza, exocorte, sorose e pelo estado nutricional, desenvolvimento, produção e qualidade de frutos e por testes biológicos para as viroses citadas e xiloporose. Para viróides, empregou-se também RT-PCR. Todos os testes biológicos foram positivos para tristeza e negativos para xiloporose. Para exocorte, 82,5% dos testes foram positivos. No caso da sorose, 11,2% dos testes foram positivos apesar das plantas de campo não apresentarem sintomas. Quanto à tristeza, a reação em 'Galego' foi fraca (58,8%), média (40%) e forte (1,2%), sem caneluras nos ramos das plantas no campo. Os viróides Hop stunt viroid (HSVd), Citrus dwarfing viroid (CVd-III) e o Citrus exocortis viroid (CEVd) foram encontrados em 31,3%, 82,5% e 100,0% das plantas, respectivamente. Todas as plantas estudadas estavam infectadas com o CTV e com o CEVd, que foi encontrado isoladamente ou em combinação com outros viróides. Diferenças observadas na expressão dos sintomas de exocorte e tristeza na copa e no porta-enxerto podem ser atribuídas a interferências entre os viróides e a seleção pela multiplicação de gemas de árvores contaminadas por variantes pouco virulentas. O estado nutricional, o desenvolvimento, a produção e a qualidade dos frutos não apresentaram associação com o tipo de contaminação por viróides, o que também ocorreu com as plantas selecionadas como candidatas a matrizes em função da produção e qualidade física dos frutos. / Abstract: Aiming at to characterize sanitarily the acid lime 'Tahiti' clone "Quebragalho" [C. latifolia (Yu. Tanaka) Tanaka] and select applicant mother plants, 80 plants were evaluated about the symptoms of tristeza disease, exocortis, psorosis and nutritional state, development, production and quality of the fruits, and by biological tests for the cited viruses and xyloporosis. For the viroids, was used RT-PCR too. All the biological tests were positive for tristeza disease and negative for xyloporosis. For exocortis, 82.5% of the tests were positive. In the case of the psorosis, 11.2% of the tests were positive although the plants in the field do not present symptoms. To the tristeza disease, the reaction in 'Galego' was of weak (58.8%), middle (40.0%) and strong (1.2%), without pittings in the branches of the plants in the field. The viroids Hop stunt viroid (HSVd), Citrus dwarfing viroid (CVd-III) and the Citrus exocortis viroid (CEVd) were found, respectively, in 31.3%, 82.5% and 100.0% of the plants. All of the plants in study were infected with the CTV and the CEVd, that was found isolately or in combinations with other viroids. Differences observed in the expression of the exocortis symptoms and tristeza disease in the cup and in the rootstock can be attributed to interferences between the viroids and the selection by the multiplication through cuttings of infected trees by strains few virulent. The nutritional state, development, production and quality of the fruits, did not presented association with the type of contamination by viroids, what also occurred with the applicant mother plants selected in function of the production and physical quality of the fruits. / Orientador: Antonio Baldo Geraldo Martins / Coorientador: Eduardo Sanches Stuchi / Banca: José Orlando de Figueiredo / Banca: Maria Luísa Penteado Natividade Targon / Banca: José Carlos Barbosa / Banca: Antonio de Goes / Doutor
|
86 |
Modélisation et utilisation de ressources et services Web et indexation de données dans un contexte d’incertitude / Management approach of services, web resources and indexing in a context of uncertaintiesOmri, Asma 30 August 2018 (has links)
Il est communément admis que la production de données connait, depuis plusieurs années, un développement spectaculaire en raison de la multiplication des nouvelles technologies telles que les réseaux sociaux, les nouveaux appareils mobiles, les compteurs intelligents, les capteurs et le cloud computing. De fait, cette explosion de données devrait se poursuivre et même accélérer. S'interroger sur la façon dont on devrait traiter cette masse de qui devient de plus en plus variée, complexe et moins structurée, est alors essentiel. DaaS ( Data As A Service) peut être définie comme l'approvisionnement, la gestion et la fourniture de données présentées dans un format immédiatement consommable aux utilisateurs professionnels des organisations en tant que service. Les données retournées par ces services se caractérisent généralement par l'incertitude et l'hétérogénéité. Nombreux sont les approches qui traitent les données selon le cycle de vie du service Web qui repose sur 6 phases à savoir la création, la sélection, la découverte, la modélisation, l'invocation et la composition des services, dans le but de résoudre le problème de volume de données, de son hétérogénéité ou de sa vitesse d'évolution. En revanche, il y a très peu d'approches qui s'intéressent à la qualité de données et au traitement de son incertitude dans le Web. Nous nous sommes naturellement intéressés, dans cette thèse, à la question des services Web dans un contexte de systèmes distribués et hétérogènes. La principale contribution à apporter dans le cadre de ce travail de recherche est d'étudier la composition de services et/ou de ressources Web et l'indexation de données dans un contexte incertain. Dans un premier temps, au travers des apports de la littérature, le cadre théorique relatif aux spécificités du concept de service DaaS incertain, est présente en adoptant la théorie possibiliste. Le problème de la composition de services Web et l'impact de l'incertitude, qui peut être associée à la sortie d'un service, sur les processus de sélection et de composition des services sont explicites. Pour ce faire, nous avons proposé une approche possibiliste afin de modéliser l'incertitude des données renvoyées par des services incertains. Plus précisément, nous avons étendu les normes de description de service Web (par exemple, WSDL) pour représenter les degrés d'incertitude des sorties. Nous avons également étendu le processus d'invocation de service pour prendre en compte l'incertitude des données d'entrée. Cette extension est basée sur la théorie des mondes possibles utilisée dans les bases de données possibilistes. Nous avons également mis en avant un ensemble d'operateurs de composition, sensibles aux valeurs d'incertitude, dans le but d'orchestrer des services de données incertains. Dans un deuxième temps, nous avons étudié l'impact de l'incertitude sur la représentation et la manipulation des ressources Web. Nous avons défini le concept de ressource Web incertaine et proposé des mécanismes de composition de ressources. Pour ce faire, un modèle de description de l'incertitude à travers le concept de ressource Web incertaine a été présente. Celui-ci est basé sur un modèle probabiliste ou chaque ressource peut avoir plusieurs représentations possibles, avec une certaine probabilité. Enfin, et dans un dernier temps, nous avons proposé des méthodes d'indexation documentaire des données de type Big Data. Au commencement, nous avons adopté une approche d'indexation syntaxique de données incertaines, ensuite, nous avons suivi une méthode d'indexation sémantique incertaine. Enfin, et pour booster cette démarche, nous avons proposé une méthode hybride d'indexation dans un contexte incertain / It is widely accepted that data production has been developing spectacularly for several years due to the proliferation of new technologies such as social networks, new mobile devices, smart meters, sensors and cloud computing. In fact, this data explosion should continue and even accelerate. To wonder about the way in which one should treat this mass of which becomes more and more varied, complex and less structured, is then essential. DaaS (Data As A Service) can be defined as the supply, management and delivery of data presented in an immediately consumable format business users of organizations as a service. The data returned by these services are generally characterized by uncertainty and heterogeneity. There are many approaches that process data across the Web service lifecycle, which is based on six phases: creation, selection, discovery, modeling, invocation, and composition of services, in order to solve the problem. problem of data volume, its heterogeneity or its speed of evolution. On the other hand, there are very few approaches to data quality and the treatment of uncertainty in the Web. In this thesis, we are naturally interested in the question of Web services in a context of distributed and heterogeneous systems. The main contribution to be made in this research is to study the composition of Web services and / or resources and the indexing of data in an uncertain context. First, through the contributions of the literature, the theoretical framework relative to the specificities of the concept of DaaS service uncertain, is presented by adopting the possibilistic theory. The problem of the composition of Web services and the impact of the uncertainty, which can be associated with the exit of a service, on the processes of selection and composition of the services are explained. To do this, we proposed a possibilistic approach to model the uncertainty of data returned by uncertain services. Specifically, we have extended Web service description standards (for example, WSDL) to represent the uncertainty levels of the outputs. We have also extended the service invocation process to account for the uncertainty of input data. This extension is based on the theory of possible worlds used in possibilistic databases. We also put forward a set of composition operators, sensitive to uncertainty values, in order to orchestrate uncertain data services. Second, we studied the impact of uncertainty on the representation and manipulation of Web resources. We defined the concept of an uncertain web resource and proposed resource composition mechanisms. To do this, a model describing uncertainty through the concept of uncertain web resource was presented. This one is based on a probabilistic model where each resource can have several possible representations, with a certain probability. Finally, and finally, we proposed methods of documentary indexing of data of the Big Data type. Initially, we adopted an approach of syntactic indexing of uncertain data, then we followed an uncertain method of semantic indexing. Finally, and to boost this approach, we have proposed a hybrid method of indexing in an uncertain context
|
87 |
Indexation et interrogation de pages web décomposées en blocs visuelsFaessel, Nicolas 14 June 2011 (has links)
Cette thèse porte sur l'indexation et l'interrogation de pages Web. Dans ce cadre, nous proposons un nouveau modèle : BlockWeb, qui s'appuie sur une décomposition de pages Web en une hiérarchie de blocs visuels. Ce modèle prend en compte, l'importance visuelle de chaque bloc et la perméabilité des blocs au contenu de leurs blocs voisins dans la page. Les avantages de cette décomposition sont multiples en terme d'indexation et d'interrogation. Elle permet notamment d'effectuer une interrogation à une granularité plus fine que la page : les blocs les plus similaires à une requête peuvent être renvoyés à la place de la page complète. Une page est représentée sous forme d'un graphe acyclique orienté dont chaque nœud est associé à un bloc et étiqueté par l'importance de ce bloc et chaque arc est étiqueté la perméabilité du bloc cible au bloc source. Afin de construire ce graphe à partir de la représentation en arbre de blocs d'une page, nous proposons un nouveau langage : XIML (acronyme de XML Indexing Management Language), qui est un langage de règles à la façon de XSLT. Nous avons expérimenté notre modèle sur deux applications distinctes : la recherche du meilleur point d'entrée sur un corpus d'articles de journaux électroniques et l'indexation et la recherche d'images sur un corpus de la campagne d'ImagEval 2006. Nous en présentons les résultats. / This thesis is about indexing and querying Web pages. We propose a new model called BlockWeb, based on the decomposition of Web pages into a hierarchy of visual blocks. This model takes in account the visual importance of each block as well as the permeability of block's content to their neighbor blocks on the page. Splitting up a page into blocks has several advantages in terms of indexing and querying. It allows to query the system with a finer granularity than the whole page: the most similar blocks to the query can be returned instead of the whole page. A page is modeled as a directed acyclic graph, the IP graph, where each node is associated with a block and is labeled by the coefficient of importance of this block and each arc is labeled by the coefficient of permeability of the target node content to the source node content. In order to build this graph from the bloc tree representation of a page, we propose a new language : XIML (acronym for XML Indexing Management Language), a rule based language like XSLT. The model has been assessed on two distinct dataset: finding the best entry point in a dataset of electronic newspaper articles, and images indexing and querying in a dataset drawn from web pages of the ImagEval 2006 campaign. We present the results of these experiments.
|
88 |
Indexation audio-visuelle des personnes dans un contexte de télévisionBendris, Meriem 07 July 2011 (has links) (PDF)
Le développement et l'amélioration du réseau Internet a permis de mettre un grand nombre de contenus télévisuels à disposition des utilisateurs. Afin de faciliter la navigation parmi ces vidéos, il est intéressant de développer des technologies pour indexer les personnes automatiquement. Les solutions actuelles proposent de construire l'index audio-visuel des personnes par combinaison des index audio et visuel obtenus de manière indépendante. Malheureusement, pour les émissions de télévision, il est difficile de détecter et de regrouper les personnes automatiquement à cause des nombreuses ambiguïtés dans l'audio, le visuel et leur association (interactivité des dialogues, variations de pose du visage, asynchronie entre la parole et l'apparence, etc). Les approches basées sur la fusion des index audio et visuel combinent les erreurs d'indexation issues de chaque modalité. Les travaux présentés dans ce rapport exploitent la complémentarité entre les informations audio et visuelle afin de palier aux faiblesses de chaque modalité. Ainsi, une modalité peut appuyer l'indexation d'une personne lorsque l'autre est jugée peu fiable. Nous proposons une procédure de correction mutuelle des erreurs d'indexation de chaque modalité. D'abord, les erreurs sont détectées automatiquement à l'aide d'indicateurs de présence de visage parlant. Puis, la modalité qui a échoué est corrigée grâce à un schéma automatique. Nous avons proposé en premier lieu un système initial d'indexation de visages parlants basé sur la détection et le regroupement du locuteur et du costume. Nous proposons une méthode de combinaison d'index basée sur la maximisation de la couverture globale des groupes de personnes. Ce système, évalué sur des émissions de plateaux, obtient une grande précision (90%), mais un faible rappel (seulement 55% des visages parlants sont détectés). Afin de détecter automatiquement la présence d'un visage parlant dans le processus de correction mutuelle, nous avons développé une nouvelle méthode de détection de mouvement des lèvres basée sur la mesure du degré de désordre de la direction des pixels autour de la région des lèvres. L'évaluation, réalisée sur le corpus de d'émission de plateaux, montre une amélioration significative de la détection des visages parlants comparé à l'état de l'art dans ce contexte. En particulier, notre méthode s'avère être plus robuste à un mouvement global du visage. Enfin, nous avons proposé deux schémas de correction. Le premier est basé sur une modification systématique de la modalité considérée a priori la moins fiable. Le second compare des scores de vérification de l'identité non supervisée afin de déterminer quelle modalité a échoué et la corriger. Les modèles non supervisés des personnes sont appris à partir des ensembles homogènes de visages parlants obtenus automatiquement par le système initial. Les deux méthodes de correction conduisent à une amélioration significative des performances (+2 à 5% de la F-mesure). Nous nous sommes également intéressé aux systèmes biométriques audio-visuels et particulièrement sur les techniques de fusion tardives pour la vérification d'identité. Nous avons proposé une méthode de fusion dépendante de la qualité du signal dans chaque modalité.
|
89 |
Smart Beta : en studie om hur smart beta strategier presterar på den svenska börsen / Smart Beta : a study on how smart beta strategies performs on the Swedish stock exchangeMårtensson, Patrik, Sjöberg, Henrik January 2017 (has links)
Den ständigt pågående debatten om aktiv respektive passiv förvaltning av fonder tycks aldrig upphöra. Det finns för- och nackdelar inom respektive kategori och vetenskapliga teorier kan argumentera för båda sätten. Men den senaste tiden har ett nytt förvaltningssätt introducerats, smart beta. Smart beta kan klassificeras som en hybrid mellan passiv och aktiv förvaltning. Tidigare studier inom området har uppvisat goda resultat för smart beta, dock i andra geografiska områden och med stora globala index. I denna studie introduceras en ny typ av smart beta strategi som har skapats efter ett lönsamhetsmått. Syftet med studien är att undersöka hur smart beta presterar på den svenska marknaden, med utgångspunkt i OMXS30. Studien har en positivistisk forskningsfilosofi tillsammans med en deduktiv ansats och en kvantitativ metod. Resultatet av studien visar att samtliga smart beta strategier genererar en högre avkastning än OMXS30. Tre effektivitetsmått har använts för att beräkna den riskjusterade avkastningen och även där påvisar samtliga smart beta strategier ett högre värde. Resultatet ligger i linje med tidigare studier inom området. Den strategi som genererade högst avkastning och högst riskjusterad avkastning var studiens nya smart beta strategi. Denna studie bidrar med att introducera en ny strategi, samt att undersöka effekten på den svenska börsen. Studien kan vara av värde för såväl etablerade aktörer inom finansbranschen, som för enskilda personer. För vidare forskning inom området bör tidsperioden utökas och fler strategier testas, framförallt med lönsamhetsmått. / The ongoing debate on active and passive fund management never seems to end. There are some pros and cons in each category and scientific theories can argue for both ways. But recently, a new strategy has been introduced, smart beta. Smart beta can be classified as a hybrid between a passive and active strategy. Previous studies have shown good results for smart beta, but in other geographic areas and with larger indexes. In this study, a new type of profitability smart beta is introduced. The purpose of the study is to examine how smart beta performs on the Swedish market, with starting point in OMXS30. The study has a positivist research philosophy along with a deductive approach and a quantitative method. The result of the study shows that all smart beta strategies generate a higher return than OMXS30. Three efficiency measures have been used to calculate the risk-adjusted return, and here too, all smart beta strategies demonstrate a higher value. The result is in line with previous studies in the field. The strategy that generated the highest risk-adjusted return was the study's new strategy. The contribution of this study is to introduce a new strategy, as well as examine the effect of the previous strategies on the Swedish market. The study can be of value to both established actors in the finance industry, but also for individuals. For further research in the area, the time period should be extended and more strategies tested, especially with measures of profitability.
|
90 |
Réduire la probabilité de disparité des termes en exploitant leurs relations sémantiques / Reducing Term Mismatch Probability by Exploiting Semantic Term RelationsAlmasri, Mohannad 27 June 2017 (has links)
Les systèmes de recherche d’information utilisent généralement une multitude de fonctionnalités pour classer les documents. Néanmoins, un élément reste essentiel pour le classement, qui est les modèles standards de recherche d’information.Cette thèse aborde une limitation fondamentale des modèles de recherche d’information, à savoir le problème de la disparité des termes <Term Mismatch Problem>. Le problème de la disparité des termes est un problème de longue date dans la recherche d'informations. Cependant, le problème de la récurrence de la disparité des termes n'a pas bien été défini dans la recherche d'information, son importance, et à quel point cela affecterai les résultats de la recherche. Cette thèse tente de répondre aux problèmes présentés ci-dessus.Nos travaux de recherche sont rendus possibles par la définition formelle de la probabilité de la disparité des termes. Dans cette thèse, la disparité des termes est définie comme étant la probabilité d'un terme ne figurant pas dans un document pertinent pour la requête. De ce fait, cette thèse propose des approches pour réduire la probabilité de la disparité des termes. De plus, nous confortons nos proposions par une analyse quantitative de la probabilité de la disparité des termes qui décrit de quelle manière les approches proposées permettent de réduire la probabilité de la disparité des termes tout en conservant les performances du système.Au première niveau, à savoir le document, nous proposons une approche de modification des documents en fonction de la requête de l'utilisateur. Il s'agit de traiter les termes de la requête qui n'apparaissent pas dans le document. Le modèle de document modifié est ensuite utilisé dans un modèle standard de recherche afin d'obtenir un modèle permettant de traiter explicitement la disparité des termes.Au second niveau, à savoir la requête, nous avons proposé deux majeures contributions.Premièrement, nous proposons une approche d'expansion de requête sémantique basée sur une ressource collaborative. Nous concentrons plutôt sur la structure de ressources collaboratives afin d'obtenir des termes d'expansion intéressants qui contribuent à réduire la probabilité de la disparité des termes, et par conséquent, d'améliorer la qualité de la recherche.Deuxièmement, nous proposons un modèle d'expansion de requête basé sur les modèles de langue neuronaux. Les modèles de langue neuronaux sont proposés pour apprendre les représentations vectorielles des termes dans un espace latent, appelées <Distributed Neural Embeddings>. Ces représentations vectorielles s'appuient sur les relations entre les termes permettant ainsi d'obtenir des résultats impressionnants en comparaison avec l'état de l'art dans les taches de similarité de termes. Cependant, nous proposons d'utiliser ces représentations vectorielles comme une ressource qui définit les relations entre les termes.Nous adaptons la définition de la probabilité de la disparité des termes pour chaque contribution ci-dessus. Nous décrivons comment nous utilisons des corpus standard avec des requêtes et des jugements de pertinence pour estimer la probabilité de la disparité des termes. Premièrement, nous estimons la probabilité de la disparité des termes à l'aide les documents et les requêtes originaux. Ainsi, nous présentons les différents cas de la disparité des termes clairement identifiée dans les systèmes de recherche pour les différents types de termes d'indexation. Ensuite, nous indiquons comment nos contributions réduisent la probabilité de la disparité des termes estimée et améliorent le rappel du système.Des directions de recherche prometteuses sont identifiées dans le domaine de la disparité des termes qui pourrait présenter éventuellement un impact significatif sur l'amélioration des scénarios de la recherche. / Even though modern retrieval systems typically use a multitude of features to rank documents, the backbone for search ranking is usually the standard retrieval models.This thesis addresses a limitation of the standard retrieval models, the term mismatch problem. The term mismatch problem is a long standing problem in information retrieval. However, it was not well understood how often term mismatch happens in retrieval, how important it is for retrieval, or how it affects retrieval performance. This thesis answers the above questions.This research is enabled by the formal definition of term mismatch. In this thesis, term mismatch is defined as the probability that a term does not appear in a document given that this document is relevant. We propose several approaches for reducing term mismatch probability through modifying documents or queries. Our proposals are then followed by a quantitative analysis of term mismatch probability that shows how much the proposed approaches reduce term mismatch probability with maintaining the system performance. An essential component for achieving term mismatch probability reduction is the knowledge resource that defines terms and their relationships.First, we propose a document modification approach according to a user query. The main idea of our document modification approach is to deal with mismatched query terms. While prior research on document enrichment provides a static approach for document modification, we are concerned to only modify the document in case of mismatch. The modified document is then used in a standard retrieval model in order to obtain a mismatch aware retrieval model.Second, we propose a semantic query expansion approach based on a collaborative knowledge resource. We focus on the collaborative resource structure to obtain interesting expansion terms that contribute to reduce term mismatch probability, and as a result, improve the effectiveness of search.Third, we propose a query expansion approach based on neural language models. Neural language models are proposed to learn term vector representations, called distributed neural embeddings. Distributed neural embeddings capture relationships between terms, and they obtained impressive results comparing with state of the art approaches in term similarity tasks. However, in information retrieval, distributed neural embeddings are newly started to be exploited. We propose to use distributed neural embeddings as a knowledge resource in a query expansion scenario.Fourth, we apply the term mismatch probability definition for each contribution of the above contributions. We show how we use standard retrieval corpora with queries and relevance judgments to estimate the term mismatch probability. We estimate the term mismatch probability using original documents and queries, and we figure out how mismatch problem is clearly found in search systems for different types of indexing terms. Then, we point out how much our contributions reduce the estimated mismatch probability, and improve the system recall. As a result, we present how the modified document and query representations contribute to build a mismatch aware retrieval model that mitigate term mismatch problem theoretically and practically.This dissertation shows the effectiveness of our proposals to improve retrieval performance. Our experiments are conducted on corpora from two different domains: medical domain and cultural heritage domain. Moreover, we use two different types of indexing terms for representing documents and queries: words and concepts, and we exploit several types of relationships between indexing terms: hierarchical relationships, relationships based on a collaborative resource structure, relationships defined on distributed neural embeddings.Promising research directions are identified where the term mismatch research may make a significance impact on improving the search scenarios.
|
Page generated in 0.1058 seconds