Spelling suggestions: "subject:"extraction dde l'information"" "subject:"extraction dee l'information""
1 |
Extraction de données à partir du WebAchir, Badr 07 1900 (has links) (PDF)
Le Web est devenu riche en informations circulant à travers le monde entier via le réseau Internet. Cela a provoqué l'expansion de grandes quantités de données. De plus, ces données sont souvent non structurées et difficiles à être utilisées dans des applications Web. D'une part, l'intérêt des utilisateurs pour l'exploitation de ces données a augmenté d'une façon concurrentielle. D'autre part, les données ne sont pas faciles à être consultées par l'humain. Cet intérêt a motivé les chercheurs à penser à des approches d'extraction des données à partir du Web, d'où l'apparition des adaptateurs. Un adaptateur est basé sur un ensemble des règles d'extraction définissant l'emplacement des données dans le document à extraire. Plusieurs outils existent pour la construction de ces règles. Notre travail s'intéresse au problème de l'extraction de données à partir du Web. Dans ce document, nous proposons une méthode d'extraction des données à partir du Web basée sur l'apprentissage machine pour la construction des règles d'extraction. Les résultats de l'extraction de notre approche démontrent une importance en matière de précision d'extraction et une meilleure performance dans le processus d'apprentissage. L'utilisation de notre outil dans une application d'interrogation de sources de données a permis de répondre aux besoins des utilisateurs d'une manière très simple et automatique.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : extraction, adaptateurs, règles d'extraction, apprentissage machine, Web, applications Web.
|
2 |
Résumé automatique de texte arabeDouzidia, Fouad Soufiane January 2004 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
3 |
Méthodes probabilistes, floues et quantiques pour l'extraction de l'information biologiqueSierocinski, Thomas 02 October 2008 (has links) (PDF)
Les progrès des technologies de mesure et le séquençage des génomes, ont permis l'émergence, dans les années 1990, de techniques de mesure globale de l'expression génique, les puces à ADN. Ce type d'expérience, dit à " haut débit ", en raison du volume de données qu'elles génèrent nécessitent un traitement automatique pour l'interprétation des résultats. Dans ce but, de nombreuses approches ont été développées, essentiellement réparties en deux familles : les méthodes de classification supervisées et non supervisées. Nous présentons ici la distillation sémantique, une approche de classification non supervisée originale fondée sur un formalisme inspiré de la mesure physique en mécanique quantique permettant l'analyse des résultats d'analyse de puces à ADN. Cette méthode fournit à l'utilisateur une liste de gènes ordonnée par spécificité pour chaque échantillon biologique de l'expérience, décrivant ainsi chaque contexte cellulaire ainsi que l'influence de chaque gène dans ces contextes. Celleci a été mise à l'épreuve sur deux jeux de données : un jeu " tissus-spécifique " pour lequel notre méthode a correctement caractérisé les gènes spécifiques de chaque tissu, et un jeu de données cliniques de patients atteints de fibroses hépatiques à divers stades pour lequel la distillation sémantique a permis de trouver des signatures dans les voies métaboliques et les processus biologiques associés aux gènes spécifiques de chaque stade de la maladie.
|
4 |
Fusion multi-niveaux par boosting pour le tagging automatique / Multi-level fusion by boosting for automatic taggingFoucard, Rémi 20 December 2013 (has links)
Les tags constituent un outil très utile pour indexer des documents multimédias. Cette thèse de doctorat s’intéresse au tagging automatique, c’est à dire l’association automatique par un algorithme d’un ensemble de tags à chaque morceau. Nous utilisons des techniques de boosting pour réaliser un apprentissage prenant mieux en compte la richesse de l’information exprimée par la musique. Un algorithme de boosting est proposé, afin d’utiliser conjointement des descriptions de morceaux associées à des extraits de différentes durées. Nous utilisons cet algorithme pour fusionner de nouvelles descriptions, appartenant à différents niveaux d’abstraction. Enfin, un nouveau cadre d’apprentissage est proposé pour le tagging automatique, qui prend mieux en compte les subtilités des associations entre les tags et les morceaux. / Tags constitute a very useful tool for multimedia document indexing. This PhD thesis deals with automatic tagging, which consists in associating a set of tags to each song automatically, using an algorithm. We use boosting techniques to design a learning which better considers the complexity of the information expressed by music. A boosting algorithm is proposed, which can jointly use song descriptions associated to excerpts of different durations. This algorithm is used to fuse new descriptions, which belong to different abstraction levels. Finally, a new learning framework is proposed for automatic tagging, which better leverages the subtlety ofthe information expressed by music.
|
5 |
Grammaires locales étendues : principes, mise en œuvre et applications pour l’extraction de l’information / Extended local grammars : principles, implementation and applications for information extractionMartinez, Cristian 19 December 2017 (has links)
Les grammaires locales constituent un formalisme de description de constructions linguistiques et sont communément représentées sous la forme de graphes orientés. Utilisées pour la recherche et l'extraction de motifs dans un texte, elles trouvent leurs limites dans le traitement de variations non décrites ou fautives ainsi que dans la capacité à accéder à des connaissances exogènes, c'est-à-dire des informations à extraire, au cours de l'analyse, de ressources externes à la grammaire et qui peuvent s'avérer utiles pour normaliser, enrichir, valider ou mettre en relation les motifs reconnus. Dans cette thèse nous introduisons la notion de grammaire locale étendue. Il s'agit d'un formalisme capable d'étendre le modèle classique des grammaires locales. Premièrement, en ajoutant des fonctions arbitraires à satisfaire, appelées fonctions étendues, qui ne sont pas prédéfinies à l'avance et qui sont évaluées en dehors de la grammaire. De surcroît, ce formalisme fournit à l'analyseur syntaxique la possibilité de déclencher des événements qui peuvent également être traités sous la forme de fonctions étendues. Le travail présenté se divise en trois parties: dans un premier temps, nous étudions les principes concernant la construction des grammaires locales étendues. Nous présentons ensuite la mise en œuvre d'un moteur d'analyse textuelle implémentant le formalisme proposé. Enfin, nous étudions quelques applications pour l'extraction de l'information dans des textes bien formés et des textes bruités. Nous nous focalisons sur le couplage des ressources externes et des méthodes non-symboliques dans la construction de nos grammaires en montrant la pertinence de cette approche pour dépasser les limites des grammaires locales classiques / Local grammars constitute a descriptive formalism of linguistic phenomena and are commonly represented using directed graphs. Local grammars are used to recognize and extract patterns in a text, but they had some inherent limits in dealing with unexpected variations as well as in their capacity to access exogenous knowledge, in other words information to extract, during the analysis, from external resources and which may be useful to normalize, enhance validate or link the recognized patterns. In this thesis, we introduce the notion of extended local grammar, a formalism capable to extend the classic model of local grammars. The means are twofold: on the one hand, it is achieved by adding arbitrary conditional-functions, called extended functions, which are not predefined in advance and are evaluated from outside of the grammar. On the other hand, it is achieved by allowing the parsing engine to trigger events that can also be processed as extended functions. The work presented herewith is divided into three parts: In the first part, we study the principles regarding the construction of the extended local grammars. Then, we present a proof-of-concept of a corpus-processing tool which implements the proposed formalism. Finally, we study some techniques to extract information from both well-formed and noisy texts. We focus on the coupling of external resources and non-symbolic methods in the construction of our grammars and we highlight the suitability of this approach in order to overcome the inherent limitations of classical local grammars
|
6 |
Information diffusion, information and knowledge extraction from social networks / Diffusion d'information, extraction d'information et de connaissance sans les réseaux sociauxHoang 1985-...., Thi Bich Ngoc 28 September 2018 (has links)
La popularité des réseaux sociaux a rapidement augmenté au cours de la dernière décennie. Selon Statista, environ 2 milliards d'utilisateurs utiliseront les réseaux sociaux d'ici janvier 2018 et ce nombre devrait encore augmenter au cours des prochaines années. Tout en gardant comme objectif principal de connecter le monde, les réseaux sociaux jouent également un rôle majeur dans la connexion des commerçants avec les clients, les célébrités avec leurs fans, les personnes ayant besoin d'aide avec les personnes désireuses d'aider, etc.. Le succès de ces réseaux repose principalement sur l'information véhiculée ainsi que sur la capacité de diffusion des messages dans les réseaux sociaux. Notre recherche vise à modéliser la diffusion des messages ainsi qu'à extraire et à représenter l'information des messages dans les réseaux sociaux. Nous introduisons d'abord une approche de prédiction de la diffusion de l'information dans les réseaux sociaux. Plus précisément, nous prédisons si un tweet va être re-tweeté ou non ainsi que son niveau de diffusion. Notre modèle se base sur trois types de caractéristiques: basées sur l'utilisateur, sur le temps et sur le contenu. Nous avons évalué notre modèle sur différentes collections correspondant à une douzaine de millions de tweets. Nous avons montré que notre modèle améliore significativement la F-mesure par rapport à l'état de l'art, à la fois pour prédire si un tweet va être re-tweeté et pour prédire le niveau de diffusion. La deuxième contribution de cette thèse est de fournir une approche pour extraire des informations dans les microblogs. Plusieurs informations importantes sont incluses dans un message relatif à un événement, telles que la localisation, l'heure et les entités associées. Nous nous concentrons sur l'extraction de la localisation qui est un élément primordial pour plusieurs applications, notamment les applications géospatiales et les applications liées aux événements. Nous proposons plusieurs combinaisons de méthodes existantes d'extraction de localisation dans des tweets en ciblant des applications soit orientées rappel soit orientées précision. Nous présentons également un modèle pour prédire si un tweet contient une référence à un lieu ou non. Nous montrons que nous améliorons significativement la précision des outils d'extraction de lieux lorsqu'ils se focalisent sur les tweets que nous prédisons contenir un lieu. Notre dernière contribution présente une base de connaissances permettant de mieux représenter l'information d'un ensemble de tweets liés à des événements. Nous combinons une collection de tweets de festivals avec d'autres ressources issues d'Internet pour construire une ontologie de domaine. Notre objectif est d'apporter aux utilisateurs une image complète des événements référencés au sein de cette collection. / The popularity of online social networks has rapidly increased over the last decade. According to Statista, approximated 2 billion users used social networks in January 2018 and this number is still expected to grow in the next years. While serving its primary purpose of connecting people, social networks also play a major role in successfully connecting marketers with customers, famous people with their supporters, need-help people with willing-help people. The success of online social networks mainly relies on the information the messages carry as well as the spread speed in social networks. Our research aims at modeling the message diffusion, extracting and representing information and knowledge from messages on social networks. Our first contribution is a model to predict the diffusion of information on social networks. More precisely, we predict whether a tweet is going to be diffused or not and the level of the diffusion. Our model is based on three types of features: user-based, time-based and content-based features. Being evaluated on various collections corresponding to dozen millions of tweets, our model significantly improves the effectiveness (F-measure) compared to the state-of-the-art, both when predicting if a tweet is going to be retweeted or not, and when predicting the level of retweet. The second contribution of this thesis is to provide an approach to extract information from microblogs. While several pieces of important information are included in a message about an event such as location, time, related entities, we focus on location which is vital for several applications, especially geo-spatial applications and applications linked to events. We proposed different combinations of various existing methods to extract locations in tweets targeting either recall-oriented or precision-oriented applications. We also defined a model to predict whether a tweet contains a location or not. We showed that the precision of location extraction tools on the tweets we predict to contain a location is significantly improved as compared when extracted from all the tweets.Our last contribution presents a knowledge base that better represents information from a set of tweets on events. We combined a tweet collection with other Internet resources to build a domain ontology. The knowledge base aims at bringing users a complete picture of events referenced in the tweet collection (we considered the CLEF 2016 festival tweet collection).
|
Page generated in 0.2032 seconds