• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 55
  • 39
  • 17
  • Tagged with
  • 124
  • 124
  • 104
  • 73
  • 53
  • 51
  • 51
  • 51
  • 47
  • 47
  • 47
  • 41
  • 31
  • 30
  • 29
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Étude des signatures géniques dans un contexte d’expériences de RNA- Seq

Trofimov, Assya 08 1900 (has links)
No description available.
42

Le mouvement en action : estimation du flot optique et localisation d'actions dans les vidéos / Motion in action : optical flow estimation and action localization in videos

Weinzaepfel, Philippe 23 September 2016 (has links)
Avec la récente et importante croissance des contenus vidéos, la compréhension automatique de vidéos est devenue un problème majeur.Ce mémoire présente plusieurs contributions sur deux tâches de la compréhension automatique de vidéos : l'estimation du flot optique et la localisation d'actions humaines.L'estimation du flot optique consiste à calculer le déplacement de chaque pixel d'une vidéo et fait face à plusieurs défis tels que les grands déplacements non rigides, les occlusions et les discontinuités du mouvement.Nous proposons tout d'abord une méthode pour le calcul du flot optique, basée sur un modèle variationnel qui incorpore une nouvelle méthode d'appariement.L'algorithme d'appariement proposé repose sur une architecture corrélationnelle hiérarchique à plusieurs niveaux et gère les déformations non rigides ainsi que les textures répétitives.Il permet d'améliorer l'estimation du flot en présence de changements d'apparence significatifs et de grands déplacements.Nous présentons également une nouvelle approche pour l'estimation du flot optique basée sur une interpolation dense de correspondances clairsemées tout en respectant les contours.Cette méthode tire profit d'une distance géodésique basée sur les contours qui permet de respecter les discontinuités du mouvement et de gérer les occlusions.En outre, nous proposons une approche d'apprentissage pour détecter les discontinuités du mouvement.Les motifs de discontinuité du mouvement sont prédits au niveau d'un patch en utilisant des forêts aléatoires structurées.Nous montrons expérimentalement que notre approche surclasse la méthode basique construite sur le gradient du flot tant sur des données synthétiques que sur des vidéos réelles.Nous présentons à cet effet une base de données contenant des vidéos d'utilisateurs.La localisation d'actions humaines consiste à reconnaître les actions présentes dans une vidéo, comme `boire' ou `téléphoner', ainsi que leur étendue temporelle et spatiale.Nous proposons tout d'abord une nouvelle approche basée sur les réseaux de neurones convolutionnels profonds.La méthode passe par l'extraction de tubes dépendants de la classe à détecter, tirant parti des dernières avancées en matière de détection et de suivi.La description des tubes est enrichie par des descripteurs spatio-temporels locaux.La détection temporelle est effectuée à l'aide d'une fenêtre glissante à l'intérieur de chaque tube.Notre approche surclasse l'état de l'art sur des bases de données difficiles de localisation d'actions.Deuxièmement, nous présentons une méthode de localisation d'actions faiblement supervisée, c'est-à-dire qui ne nécessite pas l'annotation de boîtes englobantes.Des candidats de localisation d'actions sont calculés en extrayant des tubes autour des humains.Cela est fait en utilisant un détecteur d'humains robuste aux poses inhabituelles et aux occlusions, appris sur une base de données de poses humaines.Un rappel élevé est atteint avec seulement quelques tubes, permettant d'appliquer un apprentissage à plusieurs instances.En outre, nous présentons une nouvelle base de données pour la localisation d'actions humaines.Elle surmonte les limitations des bases existantes, telles la diversité et la durée des vidéos.Notre approche faiblement supervisée obtient des résultats proches de celles totalement supervisées alors qu'elle réduit significativement l'effort d'annotations requis. / With the recent overwhelming growth of digital video content, automatic video understanding has become an increasingly important issue.This thesis introduces several contributions on two automatic video understanding tasks: optical flow estimation and human action localization.Optical flow estimation consists in computing the displacement of every pixel in a video andfaces several challenges including large non-rigid displacements, occlusions and motion boundaries.We first introduce an optical flow approach based on a variational model that incorporates a new matching method.The proposed matching algorithm is built upon a hierarchical multi-layer correlational architecture and effectively handles non-rigid deformations and repetitive textures.It improves the flow estimation in the presence of significant appearance changes and large displacements.We also introduce a novel scheme for estimating optical flow based on a sparse-to-dense interpolation of matches while respecting edges.This method leverages an edge-aware geodesic distance tailored to respect motion boundaries and to handle occlusions.Furthermore, we propose a learning-based approach for detecting motion boundaries.Motion boundary patterns are predicted at the patch level using structured random forests.We experimentally show that our approach outperforms the flow gradient baseline on both synthetic data and real-world videos,including an introduced dataset with consumer videos.Human action localization consists in recognizing the actions that occur in a video, such as `drinking' or `phoning', as well as their temporal and spatial extent.We first propose a novel approach based on Deep Convolutional Neural Network.The method extracts class-specific tubes leveraging recent advances in detection and tracking.Tube description is enhanced by spatio-temporal local features.Temporal detection is performed using a sliding window scheme inside each tube.Our approach outperforms the state of the art on challenging action localization benchmarks.Second, we introduce a weakly-supervised action localization method, ie, which does not require bounding box annotation.Action proposals are computed by extracting tubes around the humans.This is performed using a human detector robust to unusual poses and occlusions, which is learned on a human pose benchmark.A high recall is reached with only several human tubes, allowing to effectively apply Multiple Instance Learning.Furthermore, we introduce a new dataset for human action localization.It overcomes the limitations of existing benchmarks, such as the diversity and the duration of the videos.Our weakly-supervised approach obtains results close to fully-supervised ones while significantly reducing the required amount of annotations.
43

Contrôle santé des structures composites : génération de délaminages par choc laser et quantification par apprentissage machine / Structural Health Monitoring of composite structures : LASER shock delamination generation and machine learning-based quantification

Ghrib, Meriem 07 December 2017 (has links)
Dans ce travail, nous abordons la quantification de dommage de type délaminage dans des stratifiés en CFRP. Le problème de quantification est transformé en un problème de classification multiclasses au sens de l'apprentissage statistique. Chaque classe correspond à une certaine sévérité de dommage. Le modèle de machine à vecteurs de support (SVM) est utilisé pour effectuer la classification. Généralement, des descripteurs de dommage basés sur une utilisation directe des signaux mesurés (SBF) sont utilisés pour apprendre les modèles décisionnels. Dans ce travail, nous nous basons sur l'hypothèse qu'un dommage génère nécessairement une part de non linéarité dans la réponse dynamique de la structure et nous investiguons la pertinence de l'utilisation de descripteurs de dommage basés sur un modèle non linéaire (NMBF) pour améliorer les performances du modèle décisionnel. Les NMBF proposés sont calculés en se basant sur le modèle de Hammerstein en parallèle identifié avec un signal de type "sweep exponentiel". Une réduction de dimension du vecteur des caractéristiques en utilisant l'ACP est également conduite et son effet sur les performances du processus de quantification suggéré est étudié. L'approche de quantification proposée a été testée et validée en utilisant des résultats de simulation puis des résultats expérimentaux obtenus sur des plaques composites en CFRP équipées d'éléments piézoélectriques et contenant diverses sévérités de délaminage. Les dommages de type délaminage ont été générés au sein des échantillons de manière calibrée et réaliste à l'aide de la technique du choc LASER et plus particulièrement du choc LASER symétrique. Nous avons démontré expérimentalement que cette configuration de choc LASER est une alternative efficace aux méthodes classiques de génération de dommage telles que les impacts classiques et les patches de Téflon, permettant une meilleure calibration du dommage en type, profondeur et taille. / In this work, we approach delamination quantification in Carbon Fiber Reinforced Polymer (CFRP) laminates as a classification problem whereby each class corresponds to a certain damage extent. A Support Vector Machine (SVM) is used to perform multi-class classification task. Classically, Signal Based Features (SBF) are used to train SVMs when approaching SHM from a machine learning perspective. In this work, starting from the assumption that damage causes a structure to exhibit nonlinear response, we investigate whether the use of Nonlinear Model Based Features (NMBF) increases classification performance. NMBF are computed based on parallel Hammerstein models which are identified with an Exponential Sine Sweep (ESS) signal. Dimensionality reduction of features vector using Principal Component Analysis (PCA) is also conducted in order to find out if it allows robustifying the quantification process suggested in this work. The proposed quantification approach was first tested and validated using simulation results. Thereafter, experimental results on CFRP composite plates equipped with piezoelectric elements and containing various delamination severities are considered for demonstration. Delamination-type damage is introduced into samples in a calibrated and realistic way using LASER Shock Wave Technique (LSWT) and more particularly symmetrical LASER shock configuration. We have experimentally demonstrated that such a configuration of LASER shock is an effective alternative to conventional damage generation techniques such as conventional impacts and Teflon inserts since it allows for a better calibration of damage in type, depth and size.
44

Real-time detection of Advanced Persistent Threats using Information Flow Tracking and Hidden Markov Models / Détection temps réel de menaces persistantes avancées par suivi de flux d'information et modèles de Markov cachés

Brogi, Guillaume 04 April 2018 (has links)
Dans cette thèse, nous présentons les risques posés par les Menaces Persistentes Avancées (APTs) et proposons une approche en deux temps pour distinguer les attaques qui en font partie. Ce travail fait partie d'Akheros, un Système de Détection d'Intrusion (IDS) autonome développé par trois doctorants. L'idée est d'utiliser l'apprentissage machine pour détecté des évènements inattendus et vérifier s'ils posent un risque de sécurité. La dernière étape, et le sujet de cette thèse, est de mettre en évidence les APT. Les campagnes d'APT sont particulièrement dangereuses car les attaquants sont compétents et ont un but précis ainsi que du temps et de l'argent. Nous partons des résultats des parties précédentes d'Akheros: une liste d'évènements traduisible en flux d'information et qui indique quand des attaques sont détectées. Nous faisons ressortir les liens entre attaques en utilisant le Suivi de Flux d'Information: nous ajoutons une nouvelle teinte pour chaque attaque. Lors de la propagation, si une teinte se trouve en amont d'un flux qui fait partie d'une attaque, alors les deux attaques sont liés. Certaines attaques se trouvent liées par erreur car les évènements que nous utilisons ne sont pas assez précis, d'où l'approche en deux temps. Dans le cas où certaines attaques ne sont pas détectées, la teinte de cette attaque n'est pas créée, cependant, les autres teintes sont propagées normalement, et l'attaque précédent l'attaque non détectée sera liée à l'attaque lui faisant suite. Le deuxième temps de l'approche est de retirer les liens erronés. Nous utilisons un Modèle de Markov Caché pour représenter les APTs et retirons les campagnes qui ne suivent pas le modèle. Ceci fonctionne car les APTs, quoique toutes différentes, passent par les mêmes phases. Ces phases sont les états cachés du modèle. Les observations sont les types d'attaques effectuées pendant ces phases. De plus, les actions futures des attaquants dépendent des résultats de l'action en cours, ce qui satisfait l'hypothèse de Markov. Le score utilisé pour classer les campagnes potentielles de la plus proche d'une APT à la plus éloigné est basé sur un algorithme de Viterbi modifié pour prendre en compte les attaques non détectées potentielles. / In this thesis, we present the risks posed by Advanced Persitent Threats (APTs) and propose a two-step approach for recognising when detected attacks are part of one. This is part of the Akheros solution, a fully autonomous Intrusion Detection System (IDS) being developed in collaboration by three PhD students. The idea is to use machine learning to detect unexpected events and check if they present a security risk. The last part, and the subject of this thesis, is the highlighting of APT. APTs campaigns are particularly dangerous because they are performed by skilled attackers with a precise goal and time and money on their side.We start with the results from the previous part of the Akheros IDS: a list of events, which can be translated to flows of information, with an indication for events found to be attacks. We find links between attacks using Information Flow Tracking. To do so, we create a new taint for each detected attack and propagate it. Whenever a taint is on the input of an event that is part of another attack, then the two attacks are linked. However, the links are only potential because the events used are not precise enough, which leads to erroneously propagated taints. In the case of an undetected attack, no taint is created for that attack, but the other taints are still propagated as normal so that previous attack is still linked to the next attack, only skipping the undetected one. The second step of the approach is to filter out the erroneous links. To do so, we use a Hidden Markov Model to represent APTs and remove potential attack campaign that do not fit the model. This is possible because, while each APT is different, they all go through the same phases, which form the hidden states of our model. The visible observations are the kind of attacks performed during these phases. In addition, the results in one phase dictate what the attackers do next, which fits the Markov hypothesis. The score used to rank potential attack campaign from most likely an APT to least likely so is based on a customised Viterbi algorithm in order to take into account potentially undetected attacks.
45

Conception d’un système de contrôle par impédance pour un exosquelette thérapeutique

Gosselin, Frédéric January 2018 (has links)
Le développement de technologies sécuritaires pour les interactions humain-robot offre la possibilité de concevoir des robots d’assistance thérapeutique. Une des approches recherchées est l’exosquelette permettant aux utilisateurs souffrant de paralysie partielle de retrouver leur mobilité en augmentant la force et la stabilité des jambes. Pour atteindre cet objectif, l’utilisation de l’actionneur différentiel élastique (ADE) permet d’appliquer une assistance mécanique aux membres de l’utilisateur tout en lui permettant d’influencer le résultat final. Le contrôle par impédance permet de tirer avantage de cette technologie, mais demande une gestion des forces externes plus élaborée. La gravité influence la position finale en exerçant une force vers le sol. Les frictions internes du robot et les résistances articulatoires de l’utilisateur peuvent aussi limiter la capacité d’atteindre une position désirée. Pour assurer la sécurité de l’utilisateur, il est nécessaire de compenser ces problèmes de façon à ne pas limiter le caractère compliant des actionneurs. Le contrôle par impédance combiné à la génération de trajectoire par polynôme quintique proposée permet d’améliorer la précision de l’exosquelette tout en réduisant la rigidité nécessaire. La compensation de gravité proposée permet à l’exosquelette d’apprendre l’influence de la gravité sur la précision du système et d’appliquer le couple supplémentaire pour l’annuler. Les résultats montrent que le système est capable d’assurer une performance intéressante et qu’il peut maintenir cette performance malgré la présence de forces externes autres que la gravité. Les exosquelettes actuellement sur le marché fournissent une assistance en force sans évaluer la sécurité de la démarche de l’utilisateur, ce qui nécessite un utilisateur capable de marcher par lui-même pour le contrôler. L’approche proposée a le potentiel de rendre possible l’exosquelette thérapeutique capable d’assurer l’équilibre de son utilisateur lors de ses déplacements, même s’il peut difficilement le faire sans assistance.
46

Décodage des intentions et des exécutions motrices : étude du rôle des oscillations cérébrales via l’apprentissage machine et développement d’outils open-source / Decoding motor intentions and movement execution : investigating the role of cerebral oscillations using machine learning and development of open-source tools

Combrisson, Etienne 13 December 2017 (has links)
L'exécution d'un simple mouvement est associée à des modulations complexes de l'activité oscillatoire du cerveau. Toutefois, notre compréhension du rôle spécifique des composantes de phase, d'amplitude ou de couplage phase-amplitude (PAC) durant la préparation et l'exécution motrice est encore partielle. La première partie de cette thèse traite de cette question en analysant des données d'EEG intracrânien obtenues chez des sujets épileptiques effectuant une tâche center out différée. Les outils d'apprentissage machine ont permis d'identifier des marqueurs neuronaux propres aux états moteur ou aux directions de mouvement. En plus du rôle déjà bien connu de la puissance spectrale, cette approche dictée par les données (data-driven) a identifié une implication importante de la composante de phase basse fréquence ainsi que du PAC dans les processus neuronaux de la préparation et de l'exécution motrice. En plus de cet apport empirique, une importante partie de ce travail de thèse a consisté à implémenter des outils d'analyse et de visualisation de données électrophysiologiques. Plusieurs utilitaires ont été conçus spécifiquement : une toolbox dédiée à l'extraction et à la classification de marqueurs neuronaux (Brainpipe), des outils de calcul de PAC modulaire basé sur des tenseurs (Tensorpac) ainsi qu'un ensemble d'interfaces graphiques dédiées à la visualisation de données cérébrales (Visbrain). Ces recherches auront permis de mieux comprendre le rôle des oscillations neuronales lors de comportements dirigés et met également à disposition un ensemble d'outils efficaces et libres permettant à la communauté scientifique de répliquer et d'étendre ces recherches / The execution of a motor task is associated with complex patterns of oscillatory modulations in the brain. However, the specific role of oscillatory phase, amplitude and phase-amplitude coupling (PAC) across the planning and execution stages of goal-directed motor behavior is still not yet fully understood. The aim of the first part of this PhD thesis was to address this question by analyzing intracranial EEG data recorded in epilepsy patients during the performance of a delayed center-out task. Using machine learning, we identified functionally relevant oscillatory features via their accuracy in predicting motor states and movement directions. In addition to the established role of oscillatory power, our data-driven approach revealed the prominent role of low-frequency phase as well as significant involvement of PAC in the neuronal underpinnings of motor planning and execution. In parallel to this empirical research, an important portion of this PhD work was dedicated to the development of efficient tools to analyze and visualize electrophysiological brain data. These packages include a feature extraction and classification toolbox (Brainpipe), modular and tensor-based PAC computation tools (Tensorpac) and a versatile brain data visualization GUI (Visbrain). Taken together, this body of research advances our understanding of the role of brain oscillations in goal-directed behavior, and provides efficient open-source packages for the scientific community to replicate and extend this research
47

Développement de modèles spécifiques aux séquences génomique virales / Developing viral genomic data-specific classification models

Schmitt, Louise-Amelie 19 July 2017 (has links)
Le séquençage ADN d'échantillons complexes contenant plusieurs espèces est une technique de choix pour étudier le paysage viral d'un milieu donné. Or les génomes viraux sont difficiles à identifier, de par leur extrême variabilité et la relation étroite qu'ils entretiennent avec leurs hôtes. Nous proposons de nouvelles pistes de recherche pour apporter une solution spécifique aux séquences virales afin de répondre au besoin d'identification pour lequel les solutions génériques existantes n'apportent pas de réponse satisfaisante. / DNA sequencing of complex samples containing various living species is a choice approach to study the viral landscape of a given environment. Viral genomes are hard to identify due to their extreme variability and the tight relationship they have with their hosts. We hereby provide new leads for the development of a virusesspecific solution to the need for accurate identification that hasn't found a satisfactory solution in the existing universal software so far.
48

Mesure de l'attention visuo-spatiale dans l'espace et le temps par les potentiels reliés aux événements (PRÉ)

Pelland-Goulet, Pénélope 06 1900 (has links)
Les potentiels reliés aux événements (PRÉ) sont très couramment utilisés comme méthode de mesure de l’attention visuelle. Certaines composantes PRÉ comme la N2pc et la P3 sont largement considérées comme marqueurs du déploiement de l’attention. Afin d’investiguer s’il est possible de déterminer la localisation sur laquelle l’attention est dirigée ou encore la présence ou non de l’attention à une localisation donnée, une tâche d’indiçage spatial a été utilisée. L’indice indiquait l’une de quatre localisations sur laquelle les participants devaient diriger leur attention. L’indice spatial utilisé était de nature exclusivement symbolique, impliquant que l’attention devait être déplacée de façon volontaire. L’analyse des signaux ÉEG captés alors que les participants réalisaient la tâche a été effectuée en faisant usage d’une technique d’apprentissage machine. Un classificateur de type SVM (Support Vector Machine) a ainsi été utilisé afin de prédire la présence ou l’absence d’attention à une localisation en utilisant le signal ÉEG associé aux cibles et aux distracteurs. Un taux de précision de 75% (p < 0,001) a été obtenu lors de cette classification, le niveau du hasard se trouvant à 50%. Un classificateur de type DSVM (SVM à dendrogramme) a été utilisé afin de prédire le locus précis de l’attention en utilisant le signal ÉEG relié aux cibles uniquement. Dans ce problème de classification, un taux de prédiction exacte de 51,7% (p < 0,001) a été obtenu, le niveau du hasard étant de 25%. Les résultats indiquent qu’il est possible de distinguer le locus attentionnel à partir des PRÉ dans un espace de +/- 0,4 degrés d’angle visuel et ce, avec des taux de précision dépassant largement le niveau du hasard. / Event related potentials (ERP) are commonly used as a method of measuring visual attention. ERP components such as N2pc and P3 are largely considered as markers of attention deployment. In order to investigate the possibility of predicting the locus and the presence or absence of attention, a spatial cueing task was used. A cue indicated one of the four locations on which subjects had to direct their attention. The spatial cue was exclusively symbolic, implying that attention had to be oriented voluntarily. The analysis of the EEG signal which was measured as subjects carried out the task was performed using machine learning. An SVM (Support Vector Machine) classifier was used to predict the presence or absence of attention at one location, using the EEG signal associated with targets and distractors. A decoding accuracy of 75% (p < 0,001) was achieved for this classification, with a chance level of 50%. A DSVM (Dendrogram SVM) was used to predict the precise locus of attention using the EEG signal linked to targets only. In this classification problem, a decoding accuracy of 51,7% (p < 0,001) was achieved, with a chance level of 25%. These results suggest that it is possible to distinguish the locus of attention from ERPs in a +/- 0,4 degrees of visual angle space with decoding accuracies considerably above chance.
49

Learning structured models on weighted graphs, with applications to spatial data analysis / Apprentissage de modèles structurés sur graphes pondérés et application à l’analyse de données spatiales

Landrieu, Loïc 26 June 2016 (has links)
La modélisation de processus complexes peut impliquer un grand nombre de variables ayant entre elles une structure de corrélation compliquée. Par exemple, les phénomènes spatiaux possèdent souvent une forte régularité spatiale, se traduisant par une corrélation entre variables d’autant plus forte que les régions correspondantes sont proches. Le formalisme des graphes pondérés permet de capturer de manière compacte ces relations entre variables, autorisant la formalisation mathématique de nombreux problèmes d’analyse de données spatiales. La première partie du manuscrit se concentre sur la résolution efficace de problèmes de régularisation spatiale, mettant en jeu des pénalités telle que la variation totale ou la longueur totale des contours. Nous présentons une stratégie de préconditionnement pour l’algorithme generalized forward-backward, spécifiquement adaptée à la résolution de problèmes structurés par des graphes pondérés présentant une grande variabilité de configurations et de poids. Nous présentons ensuite un nouvel algorithme appelé cut pursuit, qui exploite les relations entre les algorithmes de flots et la variation totale au travers d’une stratégie de working set. Ces algorithmes présentent des performances supérieures à l’état de l’art pour des tâches d’agrégations de données geostatistiques. La seconde partie de ce document se concentre sur le développement d’un nouveau modèle qui étend les chaînes de Markov à temps continu au cas des graphes pondérés non orientés généraux. Ce modèle autorise la prise en compte plus fine des interactions entre noeuds voisins pour la prédiction structurée, comme illustré pour la classification supervisée de tissus urbains. / Modeling complex processes often involve a high number of variables with anintricate correlation structure. For example, many spatially-localized processes display spatial regularity, as variables corresponding to neighboring regions are more correlated than distant ones. The formalism of weighted graphs allows us to capture relationships between interacting variables in a compact manner, permitting the mathematical formulation of many spatial analysis tasks. The first part of this manuscript focuses on optimization problems with graph-structure dregularizers, such as the total variation or the total boundary size. We first present the convex formulation and its resolution with proximal splitting algorithms. We introduce a new preconditioning scheme for the existing generalized forward-backward proximal splitting algorithm, specifically designed for graphs with high variability in neighbourhood configurations and edge weights. We then introduce a new algorithm, cut pursuit, which used the links between graph cuts and total variation in a working set scheme. We also present a variation of this algorithm which solved the problem regularized by the non convex total boundary length penalty. We show that our proposed approaches reach or outperform state-of-the-art for geostatistical aggregation as well as image recovery problems. The second part focuses on the development of a new model, expanding continuous-time Markov chain models to general undirected weighted graphs. This allows us to take into account the interactions between neighbouring nodes in structured classification, as demonstrated for a supervised land-use classification task from cadastral data.
50

Information diffusion, information and knowledge extraction from social networks / Diffusion d'information, extraction d'information et de connaissance sans les réseaux sociaux

Hoang 1985-...., Thi Bich Ngoc 28 September 2018 (has links)
La popularité des réseaux sociaux a rapidement augmenté au cours de la dernière décennie. Selon Statista, environ 2 milliards d'utilisateurs utiliseront les réseaux sociaux d'ici janvier 2018 et ce nombre devrait encore augmenter au cours des prochaines années. Tout en gardant comme objectif principal de connecter le monde, les réseaux sociaux jouent également un rôle majeur dans la connexion des commerçants avec les clients, les célébrités avec leurs fans, les personnes ayant besoin d'aide avec les personnes désireuses d'aider, etc.. Le succès de ces réseaux repose principalement sur l'information véhiculée ainsi que sur la capacité de diffusion des messages dans les réseaux sociaux. Notre recherche vise à modéliser la diffusion des messages ainsi qu'à extraire et à représenter l'information des messages dans les réseaux sociaux. Nous introduisons d'abord une approche de prédiction de la diffusion de l'information dans les réseaux sociaux. Plus précisément, nous prédisons si un tweet va être re-tweeté ou non ainsi que son niveau de diffusion. Notre modèle se base sur trois types de caractéristiques: basées sur l'utilisateur, sur le temps et sur le contenu. Nous avons évalué notre modèle sur différentes collections correspondant à une douzaine de millions de tweets. Nous avons montré que notre modèle améliore significativement la F-mesure par rapport à l'état de l'art, à la fois pour prédire si un tweet va être re-tweeté et pour prédire le niveau de diffusion. La deuxième contribution de cette thèse est de fournir une approche pour extraire des informations dans les microblogs. Plusieurs informations importantes sont incluses dans un message relatif à un événement, telles que la localisation, l'heure et les entités associées. Nous nous concentrons sur l'extraction de la localisation qui est un élément primordial pour plusieurs applications, notamment les applications géospatiales et les applications liées aux événements. Nous proposons plusieurs combinaisons de méthodes existantes d'extraction de localisation dans des tweets en ciblant des applications soit orientées rappel soit orientées précision. Nous présentons également un modèle pour prédire si un tweet contient une référence à un lieu ou non. Nous montrons que nous améliorons significativement la précision des outils d'extraction de lieux lorsqu'ils se focalisent sur les tweets que nous prédisons contenir un lieu. Notre dernière contribution présente une base de connaissances permettant de mieux représenter l'information d'un ensemble de tweets liés à des événements. Nous combinons une collection de tweets de festivals avec d'autres ressources issues d'Internet pour construire une ontologie de domaine. Notre objectif est d'apporter aux utilisateurs une image complète des événements référencés au sein de cette collection. / The popularity of online social networks has rapidly increased over the last decade. According to Statista, approximated 2 billion users used social networks in January 2018 and this number is still expected to grow in the next years. While serving its primary purpose of connecting people, social networks also play a major role in successfully connecting marketers with customers, famous people with their supporters, need-help people with willing-help people. The success of online social networks mainly relies on the information the messages carry as well as the spread speed in social networks. Our research aims at modeling the message diffusion, extracting and representing information and knowledge from messages on social networks. Our first contribution is a model to predict the diffusion of information on social networks. More precisely, we predict whether a tweet is going to be diffused or not and the level of the diffusion. Our model is based on three types of features: user-based, time-based and content-based features. Being evaluated on various collections corresponding to dozen millions of tweets, our model significantly improves the effectiveness (F-measure) compared to the state-of-the-art, both when predicting if a tweet is going to be retweeted or not, and when predicting the level of retweet. The second contribution of this thesis is to provide an approach to extract information from microblogs. While several pieces of important information are included in a message about an event such as location, time, related entities, we focus on location which is vital for several applications, especially geo-spatial applications and applications linked to events. We proposed different combinations of various existing methods to extract locations in tweets targeting either recall-oriented or precision-oriented applications. We also defined a model to predict whether a tweet contains a location or not. We showed that the precision of location extraction tools on the tweets we predict to contain a location is significantly improved as compared when extracted from all the tweets.Our last contribution presents a knowledge base that better represents information from a set of tweets on events. We combined a tweet collection with other Internet resources to build a domain ontology. The knowledge base aims at bringing users a complete picture of events referenced in the tweet collection (we considered the CLEF 2016 festival tweet collection).

Page generated in 0.0684 seconds