Global ETD Search

211	Contributions au problème d'hétérogénéité sémantique dans les systèmes pair-à-pair : application à la recherche d'information Thomas, Cerqueus 15 November 2012 (has links) (PDF) Nous considérons des systèmes pair-à-pair (P2P) pour le partage de données dans lesquels chaque pair est libre de choisir l'ontologie qui correspond le mieux à ses besoins pour représenter ses données. Nous parlons alors d'hétérogénéité sémantique. Cette situation est un frein important à l'interopérabilité car les requêtes émises par les pairs peuvent être incomprises par d'autres. Dans un premier temps nous nous focalisons sur la notion d'hétérogénéité sémantique. Nous définissons un ensemble de mesures permettant de caractériser finement l'hétérogénéité d'un système suivant différentes facettes. Dans un deuxième temps nous définissons deux protocoles. Le premier, appelé CorDis, permet de réduire l'hétérogénéité sémantique liée aux disparités entre pairs. Il dissémine des correspondances dans le système afin que les pairs apprennent de nouvelles correspondances. Le second protocole, appelé GoOD-TA, permet de réduire l'hétérogénéité sémantique d'un système liée à son organisation. L'objectif est d'organiser le système de sorte que les pairs proches sémantiquement soient proches dans le système. Ainsi deux pairs deviennent voisins s'ils utilisent la même ontologie ou s'il existe de nombreuses correspondances entre leurs ontologies respectives. Enfin, dans un trois temps, nous proposons l'algorithme DiQuESH pour le routage et le traitement de requêtes top-k dans les systèmes P2P sémantiquement hétérogènes. Cet algorithme permet à un pair d'obtenir les k documents les plus pertinents de son voisinage. Nous montrons expérimentalement que les protocoles CorDis et GoOD-TA améliorent les résultats obtenus par DiQuESH. Système P2P hétérogénéité sémantique ontologie interopérabilité recherche d'information
212	Génération de documents virtuels par intégration de relations entre documents structurés pour la recherche d'information Verbyst, Delphine 14 October 2008 (has links) (PDF) La recherche d'information sur des documents structurés tente de répondre de manière cibl ée à une requête utilisateur en ne fournissant que des éléments de documents (doxels) pour satisfaire ce besoin d'information. Ce travail de thèse étudie l'apport de la caractérisation des relations (structurelles et non structurelles) entre parties de documents structurés dans ce contexte. Nous modélisons l'indexation des documents structurés en utilisant la structure et les relations entre doxels et nous caractérisons ces relations par des valeurs d'exhaustivité et de spéci cité relatives. Le processus de recherche basé sur ces documents structurés génère des documents virtuels résultats, en spéci ant les liens pertinents entre les doxels. Le modèle est validé par des expérimentations sur la campagne d'évaluation INEX 2007 (660 000 documents Wikipedia, 100 requêtes) et les résultats obtenus montrent une amélioration de 24% en précision moyenne avec le modèle vectoriel. recherche d'information documents structurés documents virtuels exhaustivité relative spéci cité relative relations non-structurelles
213	Décodage itératif pour les codes LDPC au-delà de la propagation de croyances. Planjery, Shiva 05 December 2012 (has links) (PDF) Les codes Low-Density Parity-Check (LDPC) sont au coeur de la recherche des codes correcteurs d'erreurs en raison de leur excellente performance de décodage en utilisant un algorithme de décodage itératif de type propagation de croyances (Belief Propagation - BP). Cet algorithme utilise la représentation graphique d'un code, dit graphe de Tanner, et calcule les fonctions marginales sur le graphe. Même si l'inférence calculée n'est exacte que sur un graphe acyclique (arbre), l'algorithme BP estime de manière très proche les marginales sur les graphes cycliques, et les codes LDPC peuvent asymptotiquement approcher la capacité de Shannon avec cet algorithme. Cependant, sur des codes de longueurs finies dont la représentation graphique contient des cycles, l'algorithme BP est sous-optimal et donne lieu à l'apparition du phénomène dit de plancher d'erreur. Le plancher d'erreur se manifeste par la dégradation soudaine de la pente du taux d'erreur dans la zone de fort rapport signal à bruit où les structures néfastes au décodage sont connues en termes de Trapping Sets présents dans le graphe de Tanner du code, entraînant un échec du décodage. De plus, les effets de la quantification introduite par l'implémentation en hardware de l'algorithme BP peuvent amplifier ce problème de plancher d'erreur. Dans cette thèse nous introduisons un nouveau paradigme pour le décodage itératif à précision finie des codes LDPC sur le canal binaire symétrique. Ces nouveaux décodeurs, appelés décodeurs itératifs à alphabet fini (Finite Alphabet Iterative Decoders - FAID) pour préciser que les messages appartiennent à un alphabet fini, sont capables de surpasser l'algorithme BP dans la région du plancher d'erreur. Les messages échangés par les FAID ne sont pas des probabilités ou vraisemblances quantifiées, et les fonctions de mise à jour des noeuds de variable ne copient en rien le décodage par BP ce qui contraste avec les décodeurs BP quantifiés traditionnels. En effet, les fonctions de mise à jour sont de simples tables de vérité conçues pour assurer une plus grande capacité de correction d'erreur en utilisant la connaissance de topologies potentiellement néfastes au décodage présentes dans un code donné. Nous montrons que sur de multiples codes ayant un poids colonne de trois, il existe des FAID utilisant 3 bits de précision pouvant surpasser l'algorithme BP (implémenté en précision flottante) dans la zone de plancher d'erreur sans aucun compromis dans la latence de décodage. C'est pourquoi les FAID obtiennent des performances supérieures comparées au BP avec seulement une fraction de sa complexité. Par ailleurs, nous proposons dans cette thèse une décimation améliorée des FAID pour les codes LDPC dans le traitement de la mise à jour des noeuds de variable. La décimation implique de fixer certains bits du code à une valeur particulière pendant le décodage et peut réduire de manière significative le nombre d'itérations requises pour corriger un certain nombre d'erreurs fixé tout en maintenant de bonnes performances d'un FAID, le rendant plus à même d'être analysé. Nous illustrons cette technique pour des FAID utilisant 3 bits de précision codes de poids colonne trois. Nous montrons également comment cette décimation peut être utilisée de manière adaptative pour améliorer les capacités de correction d'erreur des FAID. Le nouveau modèle proposé de décimation adaptative a, certes, une complexité un peu plus élevée, mais améliore significativement la pente du plancher d'erreur pour un FAID donné. Sur certains codes à haut rendement, nous montrons que la décimation adaptative des FAID permet d'atteindre des capacités de correction d'erreur proches de la limite théorique du décodage au sens du maximum de vraisemblance. Finite Alphabet Iterative Decoder Trapping sets beyond Belief Propagation decoding
214	Algorithmes itératifs à faible complexité pour le codage de canal et le compressed sensing Danjean, Ludovic 29 November 2012 (has links) (PDF) L'utilisation d'algorithmes itératifs est aujourd'hui largement répandue dans tous les domaines du traitement du signal et des communications numériques. Dans les systèmes de communications modernes, les algorithmes itératifs sont utilisés dans le décodage des codes "low-density parity-check" (LDPC), qui sont une classe de codes correcteurs d'erreurs utilisés pour leurs performances exceptionnelles en terme de taux d'erreur. Dans un domaine plus récent qu'est le "compressed sensing", les algorithmes itératifs sont utilisés comme méthode de reconstruction afin de recouvrer un signal ''sparse" à partir d'un ensemble d'équations linéaires, appelées observations. Cette thèse traite principalement du développement d'algorithmes itératifs à faible complexité pour les deux domaines mentionnés précédemment, à savoir le design d'algorithmes de décodage à faible complexité pour les codes LDPC, et le développement et l'analyse d'un algorithme de reconstruction à faible complexité, appelé ''Interval-Passing Algorithm (IPA)'', dans le cadre du "compressed sensing". Dans la première partie de cette thèse, nous traitons le cas des algorithmes de décodage des codes LDPC. Il est maintenu bien connu que les codes LDPC présentent un phénomène dit de ''plancher d'erreur" en raison des échecs de décodage des algorithmes de décodage traditionnels du types propagation de croyances, et ce en dépit de leurs excellentes performances de décodage. Récemment, une nouvelle classe de décodeurs à faible complexité, appelés ''finite alphabet iterative decoders (FAIDs)'' ayant de meilleures performances dans la zone de plancher d'erreur, a été proposée. Dans ce manuscrit nous nous concentrons sur le problème de la sélection de bons décodeurs FAID pour le cas de codes LDPC ayant un poids colonne de 3 et le cas du canal binaire symétrique. Les méthodes traditionnelles pour la sélection des décodeurs s'appuient sur des techniques asymptotiques telles que l'évolution de densité, mais qui ne garantit en rien de bonnes performances sur un code de longueurs finies surtout dans la région de plancher d'erreur. C'est pourquoi nous proposons ici une méthode de sélection qui se base sur la connaissance des topologies néfastes au décodage pouvant être présente dans un code en utilisant le concept de "trapping sets bruités''. Des résultats de simulation sur différents codes montrent que les décodeurs FAID sélectionnés grâce à cette méthode présentent de meilleures performance dans la zone de plancher d'erreur comparé au décodeur à propagation de croyances. Dans un second temps, nous traitons le sujet des algorithmes de reconstruction itératifs pour le compressed sensing. Des algorithmes itératifs ont été proposés pour ce domaine afin de réduire la complexité induite de la reconstruction par "linear programming''. Dans cette thèse nous avons modifié et analysé un algorithme de reconstruction à faible complexité dénommé IPA utilisant les matrices creuses comme matrices de mesures. Parallèlement aux travaux réalisés dans la littérature dans la théorie du codage, nous analysons les échecs de reconstruction de l'IPA et établissons le lien entre les "stopping sets'' de la représentation binaire des matrices de mesure creuses. Les performances de l'IPA en font un bon compromis entre la complexité de la reconstruction sous contrainte de minimisation de la norme $ell_1$ et le très simple algorithme dit de vérification. Finite Alphabet Iterative Decoders Compressed Sensing Interval Passing Algorithm
215	De l'extraction des connaissances à la recommandation. Duthil, Benjamin 03 December 2012 (has links) (PDF) Les technologies de l'information et le succès des services associés (forums, sites spécialisés, etc) ont ouvert la voie à un mode d'expression massive d'opinions sur les sujets les plus variés (e-commerce, critiques artistiques, etc). Cette profusion d'opinions constitue un véritable eldorado pour l'internaute, mais peut rapidement le conduire à une situation d'indécision car,les avis déposés peuvent être fortement disparates voire contradictoires. Pour une gestion fiable et pertinente de l'information contenue dans ces avis, il est nécessaire de mettre en place des systèmes capables de traiter directement les opinions exprimées en langage naturel afin d'en contrôler la subjectivité et de gommer les effets de lissage des traitements statistiques. La plupart des systèmes dits de recommandation ne prennent pas en compte toute la richesse sémantique des critiques et leur associent souvent des systèmes d'évaluation qui nécessitent une implication conséquente et des compétences particulières chez l'internaute. Notre objectif est de minimiser l'intervention humaine dans le fonctionnement collaboratif des systèmes de recommandation en automatisant l'exploitation des données brutes que constituent les avis en langage naturel. Notre approche non supervisée de segmentation thématique extrait les sujets d'intérêt des critiques, puis notre technique d'analyse de sentiments calcule l'opinion exprimée sur ces critères. Ces méthodes d'extraction de connaissances combinées à des outils d'analyse multicritère adaptés à la fusion d'avis d'experts ouvrent la voie à des systèmes de recommandation pertinents, fiables et personnalisés. Fouille de texte Fouille de données Extraction d'opinion Extraction conceptuelle Système de recommandation analyse multicritère
216	Forskningsframställning och forskningsförbindelse i Biblioteksbladet 2001–2011 : En kritisk diskursanalys / Research-Representation and Research-Connection in Biblioteksbladet 2001–2011 : A Critical Discourse Analysis Larsson, Jonas January 2012 (has links) In this two years master’s thesis I examine the library’s representation of research and its influence upon the relationship between the library practice and the research practice. I also intend to find out what controls the representation and if it is possible to see changes in the representation over time. My source material has been texts published in the Swedish library journal – and social domain – Biblioteksbladet during the last decennium (2001–2011). The method I have used is Norman Fairclough’s critical discourse analysis (CDA) with its three-dimensional, analytical frame-work that focuses on the text, the discursive practice and the social practice. On the level of the social practice I also have included Antonio Gramsci’s theory of hegemony. The results show that the research-image is mainly influenced by pragmatism and marketization and that these two discourses are reflected in the library’s relationship to the research community. An increase in the speech about research may also be noted. At the same time, a similar speech about education and life-long learning is prominent. The explanation I suggest is the hegemonization or naturalization of the ideology of human capital, which is shaping all of the educational institutions. It is principally in this ideological context, and on the basis of real economic demands, the representation of research and the research-connection must be seen. Libraries Universities and colleges Research Research – Sweden Discourse analysis Library science ; Information science Bibliotek universitet forskning forskning – Sverige diskursanalys biblioteks- och informationsvetenskap
217	Digital art in digital libraries : a study of user-oriented information retrieval Konstantelos, Leonidas January 2009 (has links) This thesis presents an empirical investigation of the problems of including pictorial digital art in the context of Digital Libraries (DLs). The rational for this work is that digital art material is a significant source of learning and research, provided that it is systematically collected and maintained in structured electronic repositories. The thesis addresses a fundamental question: How to provide description and retrieval services, which are based on the needs of digital art user communities? This raises three research issues. One is the need to combine DL collections into meaningful and functional content. The second is the importance of a user-oriented approach to designing and developing Digital Libraries. The third is the requirement for continuing access to digital art as a record of modern culture. These questions are explored through a needs assessment targeted to Arts & Humanities scholars, digital artists and representatives of the DL community. A data collection methodology is developed, based on the principles of Social Informatics and a case study of evaluation efforts in extant projects. The results from this process demonstrate that the scholarly value of digital art can be established by aggregating material from various repositories into a unified dataset. The results also identify specific documentation and retrieval issues deriving from inclusion of digital art in a DL environment that necessitate further investigation. To this end, a review of sixteen digital art online resources is conducted which reveals ad-hoc collection strategies and metadata deficiencies. The work presents a prototype Digital Library for enhancing the educational outcome of digital art. The application is used as an implementation platform for material aggregation and augmented documentation through the Media Art Notation System (MANS). The summative evaluation findings confirm that the suggested solutions are highly rated by the targeted audiences. The thesis makes a contribution to academic knowledge in situating the representation of digital art within modern society. By critically examining the unique requirements of this material using the resources of social theory, the thesis represents a contemporary and pragmatic perspective on digital media art. In a well-structured Digital Library, the scholarly potential of digital art is much greater than the currently employed ad-hoc context. This work offers a sustained reflection and a roadmap for selecting and consistently applying a strategy that aims to continually improve the quality of digital art provision.
218	Mesurer et améliorer la qualité des corpus comparables Bo, Li 26 June 2012 (has links) (PDF) Les corpus bilingues sont des ressources essentielles pour s'affranchir de la barrière de la langue en traitement automatique des langues (TAL) dans un contexte multilingue. La plupart des travaux actuels utilisent des corpus parallèles qui sont surtout disponibles pour des langues majeurs et pour des domaines spécifiques. Les corpus comparables, qui rassemblent des textes comportant des informations corrélées, sont cependant moins coûteux à obtenir en grande quantité. Plusieurs travaux antérieurs ont montré que l'utilisation des corpus comparables est bénéfique à différentes taches en TAL. En parallèle à ces travaux, nous proposons dans cette thèse d'améliorer la qualité des corpus comparables dans le but d'améliorer les performances des applications qui les exploitent. L'idée est avantageuse puisqu'elle peut être utilisée avec n'importe quelle méthode existante reposant sur des corpus comparables. Nous discuterons en premier la notion de comparabilité inspirée des expériences d'utilisation des corpus bilingues. Cette notion motive plusieurs implémentations de la mesure de comparabilité dans un cadre probabiliste, ainsi qu'une méthodologie pour évaluer la capacité des mesures de comparabilité à capturer un haut niveau de comparabilité. Les mesures de comparabilité sont aussi examinées en termes de robustesse aux changements des entrées du dictionnaire. Les expériences montrent qu'une mesure symétrique s'appuyant sur l'entrelacement du vocabulaire peut être corrélée avec un haut niveau de comparabilité et est robuste aux changements des entrées du dictionnaire. En s'appuyant sur cette mesure de comparabilité, deux méthodes nommées: greedy approach et clustering approach, sont alors développées afin d'améliorer la qualité d'un corpus comparable donnée. L'idée générale de ces deux méthodes est de choisir une sous partie du corpus original qui soit de haute qualité, et d'enrichir la sous-partie de qualité moindre avec des ressources externes. Les expériences montrent que l'on peut améliorer avec ces deux méthodes la qualité en termes de score de comparabilité d'un corpus comparable donnée, avec la méthode clustering approach qui est plus efficace que la method greedy approach. Le corpus comparable ainsi obtenu, permet d'augmenter la qualité des lexiques bilingues en utilisant l'algorithme d'extraction standard. Enfin, nous nous penchons sur la tâche d'extraction d'information interlingue (Cross-Language Information Retrieval, CLIR) et l'application des corpus comparables à cette tâche. Nous développons de nouveaux modèles CLIR en étendant les récents modèles proposés en recherche d'information monolingue. Le modèle CLIR montre de meilleurs performances globales. Les lexiques bilingues extraits à partir des corpus comparables sont alors combinés avec le dictionnaire bilingue existant, est utilisé dans les expériences CLIR, ce qui induit une amélioration significative des systèmes CLIR.
219	Modélisation de la Recherche d'Information par la Logique et les Treillis. Application à la Recherche d'Information Conceptuelle Abdulahhad, Karam 05 May 2014 (has links) (PDF) Cette thèse se situe dans le contexte des modèles logique de Recherche d'Information (RI). Le travail présenté dans la thèse est principalement motivé par l'inexactitude de l'hypothèse sur l'indépendance de termes. En effet, cette hypothèse communément acceptée en RI stipule que les termes d'indexation sont indépendant les un des autres. Cette hypothèse est fausse en pratique mais permet toit de même aux systèmes de RI de donner de bon résultats. La proposition contenue dans cette thèse met également l'emphase sur la nature déductive du processus de jugement de pertinence. Les logiques formelles sont bien adaptées pour la représentation des connaissances. Elles permettent ainsi de représenter les relations entre les termes. Les logiques formelles sont également des systèmes d'inférence, ainsi la RI à base de logique constitue une piste de travail pour construire des systèmes efficaces de RI. Cependant, en étudiant les modèles actuels de RI basés sur la logique, nous montrons que ces modèles ont généralement des lacunes. Premièrement, les modèles de RI logiques proposent normalement des représentations complexes de document et des requête et difficile à obtenir automatiquement. Deuxièmement, la décision de pertinence d-->q, qui représente la correspondance entre un document d et une requête q, pourrait être difficile à vérifier. Enfin, la mesure de l'incertitude U(d-->q) est soit ad-hoc ou difficile à mettre en oeuvre. Dans cette thèse, nous proposons un nouveau modèle de RI logique afin de surmonter la plupart des limites mentionnées ci-dessus. Nous utilisons la logique propositionnelle (PL). Nous représentons les documents et les requêtes comme des phrases logiques écrites en Forme Normale Disjonctive. Nous argumentons également que la décision de pertinence d-->q pourrait être remplacée par la validité de l'implication matérielle \|= d-->q. Pour vérifier si d-->q est valide ou non, nous exploitons la relation potentielle entre PL et la théorie des treillis. Nous proposons d'abord une représentation intermédiaire des phrases logiques, où elles deviennent des noeuds dans un treillis ayant une relation d'ordre partiel équivalent à la validité de l'implication matérielle. En conséquence, nous transformons la vérification de \|= d-->q, ce qui est un calcul intensif, en une série de vérifications simples d'inclusion d'ensembles. Afin de mesurer l'incertitude de la décision de pertinence U(d-->q), nous utilisons la fonction du degré d'inclusion Z, qui est capable de quantifier les relations d'ordre partielles définies sur des treillis. Enfin, notre modèle est capable de travailler efficacement sur toutes les phrases logiques sans aucune restriction, et est applicable aux données à grande échelle. Notre modèle apporte également quelques conclusions théoriques comme: la formalisation de l'hypothèse de van Rijsbergen sur l'estimation de l'incertitude logique U(d-->q) en utilisant la probabilité conditionnelle P(q\|d), la redéfinition des deux notions Exhaustivity & Specificity, et finalement ce modèle a également la possibilité de reproduire les modèles les plus classiques de RI. De manière pratique, nous construisons trois instances opérationnelles de notre modèle. Une instance pour étudier l'importance de Exhaustivity et Specificity, et deux autres pour montrer l'insuffisance de l'hypothèse sur l'indépendance des termes. Nos résultats expérimentaux montrent un gain de performance lors de l'intégration Exhaustivity et Specificity. Cependant, les résultats de l'utilisation de relations sémantiques entre les termes ne sont pas suffisants pour tirer des conclusions claires. Le travail présenté dans cette thèse doit être poursuivit par plus d'expérimentations, en particulier sur l'utilisation de relations, et par des études théoriques en profondeur, en particulier sur les propriétés de la fonction Z. Recherche d'Information Indexation Conceptuelle Modèles Logiques Modèles Théoriques
220	Le codage distribué pour un réseau de capteurs sans-fil basé sur les turbo codes en bloc Yin, Yizhi 07 December 2012 (has links) (PDF) Cette thèse étudie les performances d'un réseau de capteurs sans-fil coopératif, basé sur un codage réseau algébrique linéaire appliqué au relais. On considère un schéma coopératif basé sur le code produit en bloc où un grand nombre de sources transmettent des données indépendantes codées par un premier code en bloc vers un seul destinataire avec l'aide du relais. Dans ce schéma, le relais applique le codage réseau algébrique linéaire en utilisant un code correcteur d'erreur systématique linéaire en bloc sur les mots de code source détectés par le relais. Seule, la redondance générée par le relais est transférée vers le destinataire. Le destinataire observe un mot de code produit en bloc en combinant les observations des sources et du relais. Premièrement, on aborde la coopération en mode time-division multiple-access (TDMA) et suppose un canal source-relais bruité. On analyse les probabilités théoriques à l'entrée et à la sortie du relais pour différente stratégies de détection au relais. On établit aussi une borne théorique sur la probabilité d'erreur de trame pour le schéma coopératif proposé. Puis on évalue la coopération multi-relais afin de traiter la corrélation des erreurs dans la redondance générée par le relais. Différents configurations de coopération (mono ou multi-relais avec différentes stratégies au relais) sont comparées. On montre que la liaison source-relais est le maillon faible du réseau. On évalue ensuite la capacité du réseau sous la condition de taille finie du code. Ensuite, on étudie la coopération basée sur la technique code-division multiple-access (CDMA) appliqué au relais de telle sorte que le signal du relais est avec ceux des sources dans la même bande de fréquence radio. Pour simplifier l'analyse, on suppose un canal source-relais sans erreur. On propose une procédure de décodage itératif avec la neutralisation de l'interférence. On formule deux cas de coopération basé sur CDMA: TDMA-CDMA avec répartition orthogonale dans le temps entre les sources et FDMA-CDMA avec allocation de sous-bandes de fréquence disjointes pour les sources. Le ratio d'allocation d'énergie entre les sources et le relais est évalué en utilisant les simulations. Cooperative Communications Network Coding Turbo Product Codes

Search results