91 |
On-demand Development of Statistical Machine Translation Systems / Développement à la demande des systèmes de traduction automatique statistiquesGong, Li 25 November 2014 (has links)
La traduction automatique statistique produit des résultats qui en font un choix privilégié dans la plupart des scénarios de traduction assistée par ordinateur.Cependant, le développement de ces systèmes de haute performance implique des traitements très coûteux sur des données à grande échelle. De nouvelles données sont continuellement disponibles,alors que les systèmes construits de manière standard sont statiques, ce qui rend l'utilisation de nouvelles données couteuse car les systèmes sont typiquement reconstruits en intégralité.En outre, le processus d'adaptation des systèmes de traduction est généralement fondé sur un corpus de développement et est effectué une fois pour toutes. Dans cette thèse, nous proposons un cadre informatique pour répondre à ces trois problèmes conjointement. Ce cadre permet de développer des systèmes de traduction à la demande avec des mises à jour incrémentales et permet d’adapter les systèmes construits à chaque nouveau texte à traduire.La première contribution importante de cette thèse concerne une nouvelle méthode d'alignement sous-phrastique qui peut aligner des paires de phrases en isolation. Cette propriété permet aux systèmes de traduction de calculer des informations à la demande afin d'intégrer de façon transparente de nouvelles données disponibles sans re-entraînement complet des systèmes.La deuxième contribution importante de cette thèse est de proposer l'intégration de stratégies d'échantillonnage contextuel pour sélectionner des exemples de traduction à partir de corpus à grande échelle sur la base de leur similarité avec le texte à traduire afin d obtenir des tables de traduction adaptées / Statistical Machine Translation (SMT) produces results that make it apreferred choice in most machine-assisted translation scenarios.However,the development of such high-performance systems involves thecostly processing of very large-scale data. New data are constantly madeavailable while the constructed SMT systems are usually static, so thatincorporating new data into existing SMT systems imposes systemdevelopers to re-train systems from scratch. In addition, the adaptationprocess of SMT systems is typically based on some available held-outdevelopment set and is performed once and for all.In this thesis, wepropose an on-demand framework that tackles the 3 above problemsjointly, to enable to develop SMT systems on a per-need with incremental updates and to adapt existing systems to each individual input text.The first main contribution of this thesis is devoted to a new on-demandword alignment method that aligns training sentence pairs in isolation.This property allows SMT systems to compute information on a per-needbasis and to seamlessly incorporate new available data into an exiting SMT system without re-training the whole systems. The second maincontribution of this thesis is the integration of contextual sampling strategies to select translation examples from large-scale corpora that are similar to the input text so as to build adapted phrase tables
|
92 |
Using Background Knowledge to Enhance Biomedical Ontology Matching / Utilisation des ressources de connaissances externes pour améliorer l'alignement d'ontologies biomédicalesAnnane, Amina 29 October 2018 (has links)
Les sciences de la vie produisent de grandes masses de données (par exemple, des essais cliniques et des articles scientifiques). L'intégration et l'analyse des différentes bases de données liées à la même question de recherche, par exemple la corrélation entre phénotypes et génotypes, sont essentielles pour découvrir de nouvelles connaissances. Pour cela, la communauté des sciences de la vie a adopté les techniques du Web sémantique pour réaliser l'intégration et l'interopérabilité des données, en particulier les ontologies. En effet, les ontologies représentent la brique de base pour représenter et partager la quantité croissante de données sur le Web. Elles fournissent un vocabulaire commun pour les humains, et des définitions d'entités formelles pour les machines.Un grand nombre d'ontologies et de terminologies biomédicales a été développé pour représenter et annoter les différentes bases de données existantes. Cependant, celles qui sont représentées avec différentes ontologies qui se chevauchent, c'est à dire qui ont des parties communes, ne sont pas interopérables. Il est donc crucial d'établir des correspondances entre les différentes ontologies utilisées, ce qui est un domaine de recherche actif connu sous le nom d'alignement d'ontologies.Les premières méthodes d'alignement d'ontologies exploitaient principalement le contenu lexical et structurel des ontologies à aligner. Ces méthodes sont moins efficaces lorsque les ontologies à aligner sont fortement hétérogènes lexicalement, c'est à dire lorsque des concepts équivalents sont décrits avec des labels différents. Pour pallier à ce problème, la communauté d'alignement d'ontologies s'est tournée vers l'utilisation de ressources de connaissance externes en tant que pont sémantique entre les ontologies à aligner. Cette approche soulève plusieurs nouvelles questions de recherche, notamment : (1) la sélection des ressources de connaissance à utiliser, (2) l'exploitation des ressources sélectionnées pour améliorer le résultat d'alignement. Plusieurs travaux de recherche ont traité ces problèmes conjointement ou séparément. Dans notre thèse, nous avons fait une revue systématique et une comparaison des méthodes proposées dans la littérature. Puis, nous nous sommes intéressés aux deux questions.Les ontologies, autres que celles à aligner, sont les ressources de connaissance externes (Background Knowledge : BK) les plus utilisées. Les travaux apparentés sélectionnent souvent un ensemble d'ontologies complètes en tant que BK même si, seuls des fragments des ontologies sélectionnées sont réellement efficaces pour découvrir de nouvelles correspondances. Nous proposons une nouvelle approche qui sélectionne et construit une ressource de connaissance à partir d'un ensemble d'ontologies. La ressource construite, d'une taille réduite, améliore, comme nous le démontrons, l'efficience et l'efficacité du processus d'alignement basé sur l'exploitation de BK.L'exploitation de BK dans l'alignement d'ontologies est une épée à double tranchant : bien qu'elle puisse augmenter le rappel (i.e., aider à trouver plus de correspondances correctes), elle peut réduire la précision (i.e., générer plus de correspondances incorrectes). Afin de faire face à ce problème, nous proposons deux méthodes pour sélectionner les correspondances les plus pertinentes parmi les candidates qui se basent sur : (1) un ensemble de règles et (2) l'apprentissage automatique supervisé. Nous avons expérimenté et évalué notre approche dans le domaine biomédical, grâce à la profusion de ressources de connaissances en biomédecine (ontologies, terminologies et alignements existants). Nous avons effectué des expériences intensives sur deux benchmarks de référence de la campagne d'évaluation de l'alignement d'ontologie (OAEI). Nos résultats confirment l'efficacité et l'efficience de notre approche et dépassent ou rivalisent avec les meilleurs résultats obtenus. / Life sciences produce a huge amount of data (e.g., clinical trials, scientific articles) so that integrating and analyzing all the datasets related to a given research question like the correlation between phenotypes and genotypes, is a key element for knowledge discovery. The life sciences community adopted Semantic Web technologies to achieve data integration and interoperability, especially ontologies which are the key technology to represent and share the increasing amount of data on the Web. Indeed, ontologies provide a common domain vocabulary for humans, and formal entity definitions for machines.A large number of biomedical ontologies and terminologies has been developed to represent and annotate various datasets. However, datasets represented with different overlapping ontologies are not interoperable. It is therefore crucial to establish correspondences between the ontologies used; an active area of research known as ontology matching.Original ontology matching methods usually exploit the lexical and structural content of the ontologies to align. These methods are less effective when the ontologies to align are lexically heterogeneous i.e., when equivalent concepts are described with different labels. To overcome this issue, the ontology matching community has turned to the use of external knowledge resources as a semantic bridge between the ontologies to align. This approach arises several new issues mainly: (1) the selection of these background resources, (2) the exploitation of the selected resources to enhance the matching results. Several works have dealt with these issues jointly or separately. In our thesis, we made a systematic review and historical evaluation comparison of state-of-the-art approaches.Ontologies, others than the ones to align, are the most used background knowledge resources. Related works often select a set of complete ontologies as background knowledge, even if, only fragments of the selected ontologies are actually effective for discovering new mappings. We propose a novel BK-based ontology matching approach that selects and builds a knowledge resource with just the right concepts chosen from a set of ontologies. The conducted experiments showed that our BK selection approach improves efficiency without loss of effectiveness.Exploiting background knowledge resources in ontology matching is a double-edged sword: while it may increase recall (i.e., retrieve more correct mappings), it may lower precision (i.e., produce more incorrect mappings). We propose two methods to select the most relevant mappings from the candidate ones: (1) based on a set of rules and (2) with Supervised Machine Learning. We experiment and evaluate our approach in the biomedical domain, thanks to the profusion of knowledge resources in biomedicine (ontologies, terminologies and existing alignments).We evaluated our approach with extensive experiments on two Ontology Alignment Evaluation Initiative (OAEI) benchmarks. Our results confirm the effectiveness and efficiency of our approach and overcome or compete with state-of-the-art matchers exploiting background knowledge resources.
|
93 |
Mémoires partagées d’alignements sous-phrastiques bilingues / Mémoires partagées d’alignements sous-phrastiques bilinguesSegura, Johan 16 November 2012 (has links)
Cette thèse s'inscrit dans le cadre du traitement automatique du langage naturel, et traite plus précisément de l'alignement sous-phrastique bilingue classiquement lié à la traduction automatique statistique. Les travaux exposés s'en distinguent en proposant une mécanique évolutive à base d'exemples initiée par des annotateurs non-experts via une interface adaptée. L'approche est principalement motivée par la recherche d'une expressivité comparable à celle observée dans les alignements manuels. Une partie importante de ce travail consiste à définir un cadre formel sous-tendant une architecture originale à base d'exemples alignés. Plusieurs mémoires d'alignements ont été constituées en tirant parti d'informations provenant d'analyseurs syntaxiques automatiques en plaçant les prérequis technologiques à un niveau raisonnablement peu élevé. Deux nouvelles méthodes d'alignement sont comparées à des références connues via des mesures d'accord classiques et trois distances transformationnelles sont introduites. / This research belongs to the Natural Language Processing (NLP) field and more specifically focuses on topic Sub-sentential Alignment which is closely related to Machine Translation. The originality of this work consists in an example-based approach bootstrapped by the participation of non-expert annotators through an appropriate interface. Seeking for a greater expressivity, such as observed in manual alignments, mainly motivates the whole approach. An important effort has been made to define a formal environment for this original architecture based on aligned examples. Several memories have been created using syntactic informations from parsers' outputs with reasonnable low-tech requirements. A couple of new alignment methods were compared with state-of-the-art measures and three transformational metrics were introduced.
|
94 |
La scoliose lombaire dégénérative − Relation entre la clinique, la statique rachidienne, la dégénérescence discale et musculo-ligamentaire : analyse tridimensionnelle par la stéréoradiographie, l’imagerie par résonance magnétique et la tomodensitométrie / Lumbar degenerative scoliosis – Relationship between clinical presentation, spinal alignment, and soft tissues degeneration : a tridimensional analysis with stereoradiography, magnetic resonance imaging and CT scanFerrero, Emmanuelle 15 November 2018 (has links)
La scoliose de l’adulte est une pathologie dont la prévalence augmente avec de le vieillissement de la population. De plus, la demande fonctionnelle est de plus en plus importante chez ces patients. De nombreuses études ont montré un bénéfice du traitement chirurgical de la déformation de l’adulte par rapport au traitement médical en termes d’amélioration des scores fonctionnels, de qualité de vie et de satisfaction. Néanmoins, cette chirurgie est associée à de nombreuses complications (jusque 50% dans certaines séries), pour la plupart mécaniques telle la pseudarthrose, la rupture d’implant, la dégradation des étages adjacents. Ainsi, si l’analyse radiographique de la scoliose a bien été explorée, certaines questions demeurent comme les phénomènes responsables d’une aggravation brutale de la déformation chez certains patients ou les causes d’échecs. L’objectif de ce travail était d’analyser la scoliose de l’adulte, en 3D à l’aide de la stéréoradiographie et d’évaluer le système musculaire de ces patients afin de mettre en évidence des relations entre déformations rachidiennes notamment par l’analyse du plan horizontal, et dégénérescence musculaire.La 1e partie de ce travail était consacrée à l’analyse 3D de la scoliose : tout d’abord avec l’analyse de reproductibilité chez l’adulte des mesures 3D effectuées par stéréoradiographie, puis par l’analyse de l’alignement global de ces patients avec une déformation rachidienne, à l’aide d’un nouveau paramètre prenant en compte la position de la jonction cervico-céphalique. Apres avoir analysé l’alignement postural, le système musculaire pelvi-rachidien a été étudié dans la 2e partie. En effet, en plus de l’alignement du squelette, c’est l’activation du système musculaire qui est responsable du maintien d’une posture érigée. Nous avons décrit les caractéristiques musculaires des patients avec une scoliose lombaire et analysé les relations avec les paramètres radiographiques de la déformation, montrant que selon le type de déformation certains groupes musculaires étaient plus touchés par l’atrophie et l’infiltration graisseuse. En les comparant à des sujets jeunes et âgés sans déformation, nous avons observé que les patients avec une scoliose avaient une dégénérescence musculaire à la fois liée à la déformation et au vieillissement. Dans une 3e partie, en faisant le lien entre les données de la posture par la stéréoradiographie et les données musculaires de l’IRM, nous avons utilisé un modèle musculosquelettique personnalisé pour mieux comprendre les contraintes exercées sur les segments vertébraux et donc pour essayer d’expliquer les faillites mécaniques.Ainsi, l’association de mesures 3D radiographiques et de l’analyse musculaire pourrait permettre en comprenant mieux les phénomènes dégénératifs, de mieux prédire l’aggravation de la déformation et donc de la prévenir par une rééducation ciblée. Par exemple, un renforcement des érecteurs du rachis mais aussi des fléchisseurs pourrait permettre de mieux maintenir la posture. Et, un renforcement des érecteurs et fléchisseurs de hanche pourrait permettre d’activer de manière plus efficace, les mécanismes de compensation telle la rétroversion pelvienne. De plus, la mise en évidence de facteur de risque musculosquelettique d’aggravation de la déformation entrainerait une prise en charge plus précoce de ces patients. Une analyse longitudinale serait donc intéressante. / Adult degenerative scoliosis is a pathology whose prevalence increases with the aging of the population. Moreover, the functional demand is more and more important in these patients. Many studies have shown a benefit of surgical treatment of adult spinal deformity compared to medical treatment in terms of improved functional scores, quality of life and satisfaction. Nevertheless, this surgery is associated with many complications (up to 50% in some series), mostly mechanical such as nonunion, implant rupture, degradation of adjacent levels. Thus, if the radiographic analysis of scoliosis has been well explored, some questions remain like the phenomena responsible for a sudden worsening of the deformation in certain patients or the causes of failures. The aim of this work was to analyze adult scoliosis in 3D using stereoradiography and to evaluate the muscular system of these patients in order to highlight the relationships between spinal deformities, particularly by the horizontal plane analysis, and muscle degeneration.The first part of this work was dedicated to the 3D analysis of scoliosis: first, with the analysis of reproducibility in the adult of 3D stereoradiographic measurements, then by the analysis of the global alignment of these patients with spinal deformity, using a new parameter taking into account the position of the cervico-cephalic junction. After analyzing the postural alignment, the spino-pelvic muscular system was studied in the second part. Indeed, in addition to the alignment of the skeleton, it is the activation of the muscular system that is responsible for maintaining an erect posture. We described the muscular features of patients with lumbar scoliosis and analyzed the relationships with the radiographic parameters of the deformity, showing that depending on the type of deformity some muscle groups were more affected by atrophy and fatty infiltration. Comparing them to young and elderly subjects without deformity, we observed that patients with scoliosis had muscle degeneration that was both related to deformity and aging. In the third part, by linking stereoradiographic posture data with muscular MRI data, we used a personalized musculoskeletal model to better understand the constraints on vertebral segments and therefore to try to explain the mechanical failures.Thus, the combination of 3D radiographic measurements and muscle analysis could better predict muscle degeneration and worsening of deformity and thus prevent it by targeted rehabilitation. For example, a strengthening of the erectors of the spine but also of the flexors could allow better maintaining the posture. And, a strengthening of the erectors and hip flexors could allow activating more effectively, compensation mechanisms such pelvic retroversion. In addition, the demonstration of a musculoskeletal risk factor worsening the deformity would lead to an earlier management of these patients. A longitudinal analysis would be interesting.
|
95 |
Recherche de résonances de haute masse dans le canal dimuon à l'aide du spectromètre à muons de l'expérience ATLAS au CERNHelsens, Clément 11 June 2009 (has links) (PDF)
Le LHC est un collisionneur de protons d'une énergie de 14 TeV dans le centre de masse situé au CERN. Les premières collisions sont attendues à l'automne 2009. L'expérience ATLAS est l'une des deux expériences généralistes installées auprès du LHC. L'énergie disponible et la haute luminosité du LHC permettront à ATLAS de rechercher le boson de Higgs ainsi que les nouvelles particules prédites par les modèles de physique au-delà du modèle standard. Les muons occupent une place importante pour les mesures du modèle standard ainsi que pour la recherche de nouvelle physique. Cette thèse étudie la recherche directe de Z' se désintégrant en une paire de muons. Un petit nombre d'événements suffit pour découvrir un Z' ce qui est envisageable dès les premières collectes de données. On y étudiera notamment les effets de l'alignement du spectromètre à muons sur des traces de haut pT et sur le potentiel de découverte de Z' de l'expérience ATLAS. Cette analyse s'inscrivant dans le cadre du démarrage du LHC, l'alignement du spectromètre à muons n'aura pas atteint les performances nominales. Des muons de hauts pT ont été utilisés pour estimer l'impact d'un alignement dégradé sur la reconstruction de traces. Les comparaisons ont été faites en terme d'efficacité de reconstruction, de résolution en impulsion et en masse invariante, d'identification de la charge et de sensibilité à la découverte ou à l'exclusion. Pour les premières données du LHC une analyse avec le spectromètre seul est nécessaire. Enfin, une étude complète pour déterminer la géométrie initiale du spectromètre à muons en utilisant des traces sans champ magnétique toroïdal a été menée.
|
96 |
Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement sous-phrastiqueChenon, Christophe 28 October 2005 (has links) (PDF)
La traduction assistée par ordinateur a connu un grand essor dans les années 1990 avec l'arrivée des environnements à mémoires de traduction. Ces systèmes exploitent la redondance des textes techniques produits et traduits dans l'industrie, en proposant aux traducteurs de réutiliser des traductions archivées et d'accroître ainsi leur productivité. Ces mémoires utilisent, sans analyse, des segments de textes (le plus souvent des phrases entières) dont le découpage et l'alignement sont garantis par le traducteur.<br /><br />Pourtant ces mémoires recèlent des gisements d'information importants au niveau sous-phrastique dont les utilisateurs ne peuvent pas bénéficier. Le formalisme TransTree permet de représenter des correspondances sous-segmentales enchassées bilingues. Ces correspondances complexes (les amphigrammes) forment une structure arborescente exprimable en XML. Une transformation de surface conduit à une visualisation dynamique mettant en évidence les différents niveaux de correspondance entre sous-segments.<br /><br />TransTree s'accompagne d'une méthode générale de construction par voie statistique, fondée sur les arbres binaires de sécabilité. Cette méthode permet d'établir des amphigrammes à partir des correspondances entre mots typographiques. Il est possible d'abstraire des patrons de traduction (amphigrammes génériques) par classification des exemples rencontrés dans le corpus.<br /><br />Quelques expérimentations ont été effectuées pour valider le pouvoir d'expression du formalisme, explorer différentes options de construction et esquisser un algorithme de reconstitution d'un segment cible à partir d'un segment source inconnu avec la connaissance extraite des mémoires de traduction.
|
97 |
Modélisation de la coarticulation en Langue des Signes Française pour la diffusion automatique d'informations en gare ferroviaire à l'aide d'un signeur virtuelSegouat, Jérémie 15 December 2010 (has links) (PDF)
Le cadre de nos recherches est la diffusion d'informations en Langue des Signes Française via un signeur virtuel, par combinaison de segments d'énoncés préenregistrés. Notre étude porte sur une proposition de modèle de coarticulation pour ce système de diffusion. Le phénomène de coarticulation est encore très peu étudié dans le domaine des langues des signes : en puisant dans différents domaines (langues vocales, gestes) nous proposons une définition de ce qu'est la coarticulation en langue des signes, et nous présentons une méthodologie d'analyse de ce phénomène, en nous focalisant sur les configurations des mains et la direction du regard. Nous détaillons les différents aspects de la création et de l'annotation de corpus, et de l'analyse de ces annotations. Des calculs statistiques quantitatifs et qualitatifs nous permettent de proposer un modèle de coarticulation, basé sur des relâchements et des tensions de configurations des mains. Nous proposons et mettons en oeuvre une méthodologie d'évaluation de notre modèle. Enfin nous proposons des perspectives autour des utilisations potentielles de ce modèle pour des recherches en traitement d'image et en animation de personnages 3d s'exprimant en langue des signes française.
|
98 |
DYNAMIQUE DE LA GENERATION D'HARMONIQUES DANS LES ATOMES ET LES MOLECULESBoutu, Willem 28 September 2007 (has links) (PDF)
La génération d'harmoniques d'ordre élevé par focalisation d'impulsions laser femtosecondes et intenses dans des gaz permet d'obtenir des trains d'impulsions attosecondes dans l'XUV. Dans cette thèse, nous présentons une technique destinée à optimiser l'efficacité de génération, puis nous montrons comment la caractérisation du rayonnement permet l'étude de la dynamique des molécules en champ fort. Dans une première partie, par une manipulation de sa phase spatiale, nous transformons le profil du faisceau laser infrarouge au foyer afin d'agrandir le volume de génération. Nous mettons en évidence la possibilité de créer un profil carré, élargi d'un facteur 2.5 par rapport au profil gaussien. Nous étudions ensuite la génération d'harmoniques dans les gaz rares par un tel faisceau, à la fois expérimentalement et numériquement. Bien que nous n'ayons pu observer d'augmentation significative du signal harmonique, les simulations effectuées à plus forte énergie indiquent un gain d'efficacité. Dans une seconde partie, nous montrons que le spectre et la phase spectrale du rayonnement harmonique issu d'un ensemble de molécules linéaires alignées présentent des structures liées aux caractéristiques des molécules. Nous mettons en évidence la présence d'un saut de phase lié à un phénomène d'interférences quantiques lors de l'étape de recombinaison. Nous étudions la dépendance de ce saut de phase en fonction de différents paramètres, tels que l'orientation des molécules ou l'éclairement de génération. Ces mesures permettent l'étude de la dynamique électronique lors de la recombinaison du paquet d'ondes électroniques. De plus, elles devront servir de support pour les nouvelles modélisations du comportement des molécules en champ intense.
|
99 |
Transformation automatique de la parole - Etude des transformations acoustiquesMesbahi, Larbi 28 October 2010 (has links) (PDF)
Le travail effectué dans cette thèse s'insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l'état de l'art utilisent pour la plupart des modèles de voix probabilistes GMM (Gaussian Mixture Models). Ces SCV utilisent des fonctions de conversion linéaires apprises à partir des GMMs. Elles permettent d'obtenir des voix converties de bonne qualité. Cependant, elles sont soumises à des défauts de conception liées à l'apprentissage de ces modèles. On peut ainsi noter le surlissage (oversmoothing) qui est une généralisation trop poussée et son opposé, le sur-apprentissage (overfitting) qui est une spécialisation trop poussée. Un aspect de cette thèse explore différentes stratégies d'apprentissage des fonctions de conversion. La première piste suivie est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième propose une alternative aux fonctions de conversion linéaires basées sur des GMMs en recourant aux modèles de transformation non-linéaire à base de réseaux de Neurones (RBF, Radial Basis Functions). Cette thèse s'intéresse d'autre part aux données utilisées pour apprendre les modèles de voix et les transformations. En effet, pour apprendre la fonction de conversion, les données issues des locuteurs source et cible doivent être mises en correspondance. Or, dans la plupart des cas d'utilisation, ces données ne sont pas parallèles. Autrement dit, les deux locuteurs n'ont pas prononcé suffisamment de phrases similaires. Notre proposition consiste à faire correspondre ces données lacunaires en les décomposant en classes acoustiques et en s'appuyant sur l'appariement, classique, des classes acoustiques cibles et sources. Enfin, notre intérêt se porte sur la paramètrisation de la voix car, pour obtenir une haute qualité de voix, il est nécessaire que cette paramètrisation conserve un maximum d'information sur le locuteur. Il s'agit en l'occurrence de l'enveloppe de son signal, obtenue fidèlement par la méthode de True-Envelope. Or, les premières études ont montré que ces données doivent être réduites pour nourrir un modèle probabiliste efficace. Pour cela, nous avons recours à la technique de réduction de dimension d'analyse par composantes principales (PCA, Principal componant analysis). Cette solution s'avère plus efficace lorsqu'on différencie les fonctions de transformation selon la classe phonétique.
|
100 |
Découverte automatique de correspondances entre ontologiesTournaire, Rémi 08 October 2010 (has links) (PDF)
Dans cette thèse, nous adoptons une approche formelle pour définir et découvrir des mappings d'inclusion probabilistes entre deux taxonomies avec une sémantique claire, dans l'optique d'échange collaboratif de documents. Nous comparons deux façons de modéliser des mappings probabilistes tout en étant compatible avec les contraintes logiques déclarées dans chaque taxonomie selon une propriété de monotonie, puis nous montrons que ces modèles sont complémentaires pour distinguer les mappings pertinents. Nous fournissons un moyen d'estimer les probabilités d'un mapping par une technique bayésienne basée sur les statistiques des extensions des classes impliquées dans le mapping. Si les ensembles d'instances sont disjoints, on utilise des classifieurs pour les fusionner. Nous présentons ensuite un algorithme de type "générer et tester" qui utilise les deux modèles de mappings pour découvrir les plus probables entre deux taxonomies. Nous menons une analyse expérimentale fouillée de ProbaMap. Nous présentons un générateur de données synthétiques qui produit une entrée contrôlée pour une analyse quantitative et qualitative sur un large spectre de situations. Nous présentons aussi deux séries de résultats d'expériences sur des données réelles : l'alignement du jeu de donnée "Directory" d'OAEI, et une comparaison pour l'alignement de Web Directories sur lesquels ProbaMap obtient de meilleurs résultats que SBI (IJCAI 2003). Les perspectives pour ces travaux consistent à concevoir un système de réponse à des requêtes probabilistes en réutilisant des mappings probabilites, et la conversion des coefficients retournés par les méthodes de matching existantes en probabilités.
|
Page generated in 0.0914 seconds