Global ETD Search

161	Métrologie des graphes de terrain, application à la construction de ressources lexicales et à la recherche d'information Navarro, Emmanuel 04 November 2013 (has links) (PDF) Cette thèse s'organise en deux parties : une première partie s'intéresse aux mesures de similarité (ou de proximité) définies entre les sommets d'un graphe, une seconde aux méthodes de clustering de graphe biparti. Une nouvelle mesure de similarité entre sommets basée sur des marches aléatoires en temps courts est introduite. Cette méthode a l'avantage, en particulier, d'être insensible à la densité du graphe. Il est ensuite proposé un large état de l'art des similarités entre sommets, ainsi qu'une comparaison expérimentale de ces différentes mesures. Cette première partie se poursuit par la proposition d'une méthode robuste de comparaison de graphes partageant le même ensemble de sommets. Cette méthode est mise en application pour comparer et fusionner des graphes de synonymie. Enfin une application d'aide à la construction de ressources lexicales est présentée. Elle consiste à proposer de nouvelles relations de synonymie à partir de l'ensemble des relations de synonymie déjà existantes. Dans une seconde partie, un parallèle entre l'analyse formelle de concepts et le clustering de graphe biparti est établi. Ce parallèle conduit à l'étude d'un cas particulier pour lequel une partition d'un des groupes de sommets d'un graphe biparti peut-être déterminée alors qu'il n'existe pas de partitionnement correspondant sur l'autre type de sommets. Une méthode simple qui répond à ce problème est proposée et évaluée. Enfin Kodex, un système de classification automatique des résultats d'une recherche d'information est présenté. Ce système est une application en RI des méthodes de clustering vues précédemment. Une évaluation sur une collection de deux millions de pages web montre les avantages de l'approche et permet en outre de mieux comprendre certaines différences entre méthodes de clustering. graphes de terrain similarité comparaison de graphes marche aléatoire clustering analyse formelle de concepts ressources lexicales recherche d'information
162	Nouvel Algorithme pour la Réduction de la Dimensionnalité en Imagerie Hyperspectrale Khoder, Jihan 24 October 2013 (has links) (PDF) En Imagerie hyperspectrale, les volumes de données acquises atteignent souvent le gigaoctet pour une seule et même scène observée. De ce fait, l'analyse de ces données au contenu physique complexe passe obligatoirement par une étape préliminaire de réduction de la dimensionnalité. Cette réduction a un double objectif, le premier consiste à réduire la redondance et le second permet de faciliter les traitements postérieurs (extraction, classification et reconnaissance de formes) et donc l'interprétation des données. La classification automatique est une étape importante du processus d'extraction de connaissances à partir des données. Elle vise à découvrir la structure intrinsèque d'un ensemble d'objets en formant des regroupements qui partagent des caractéristiques similaires. Dans cette thèse, nous nous intéressons à la réduction de dimension dans le cadre de la classification non supervisée des bandes spectrales. Différentes approches existent, comme celles basées sur la projection (linéaire ou non-linéaire) des données de grandes dimensions sur des sous-espaces de représentation bien choisis ou sur les techniques de sélection de bandes spectrales exploitant des critères de complémentarité-redondance d'information qui ne permettent pas de préserver toute la richesse de l'information apportée par ce type de données. 1 - Nous avons accompli une étude comparative, sur la stabilité et la similarité des algorithmes des méthodes non paramétriques et non supervisée de la projection et aussi de la sélection des bandes utilisées dans la réduction de la dimensionnalité à différents niveaux de bruit déterminés. Les tests sont effectués sur des images hyperspectrales, en classant ces derniers en trois catégories selon leur degré de performance de préserver la quantité d'informations. 2 - Nous avons introduit une nouvelle approche de critère basée sur la di-similarité des attributs spectraux et utilisée dans un espace local sur des matrices de données ; L'approche a servi pour définir un taux de préservation d'un évènement rare dans une transformation mathématique donnée. Cependant, nous avons limitée son application au contexte de la thèse liée à la réduction de la taille des données dans une image hyperspectrale. 3 - Les études comparatives ont permis une première proposition d'approche hybride pour la reduction de la taille d'une image hyperspectrale permettant une meilleure stabilité : BandClustering avec Multidimensional Scaling (MDS). Des exemples sont donnés pour démontrer l'originalité et la pertinence de l'hybridation (BandClust / MDS) de l'analyse effectuée. 4 - La tendance de l'hybridation a été généralisée par la suite en présentant un algorithme hybride adaptatif non supervisé basé sur la logique flou (Fuzzy C means), une méthode de projection comme l'analyse en composante principale (ACP) et un indice de validité d'une classification. Les classifications effectuées par Fuzzy C means permettent d'affecter chaque pixel d'une image hyperspectrale à toutes les classes avec des degrés d'appartenance variant entre 0 et 1. Cette propriété rend la méthode FCM intéressante pour la mise en évidence soit des transitions progressives entre les différentes bandes spectrales ou des hétérogénéités spectrales. Grâce à des méthodes conventionnelles appelées indices de validité de classes, nous avons déterminé le nombre optimal de classes de FCM ainsi que le paramètre de flou. Nous montrons que cette hybridation conduit à un taux de réduction pertinent dans l'imagerie hyperspectrale. Par conséquent, Cet algorithme appliqué à différents échantillons de données hyperspectrales, permet une imagerie spectrale beaucoup plus informative, notamment au niveau de l'hétérogénéité spectrale. Image hyperspectrale Méthodes de projection Sélection de bandes Indice de validité Critère de stabilité Estimation de la dimension intrinsèque Critère de similarité Perte d'information Réduction de la dimension
163	Workload- and Data-based Automated Design for a Hybrid Row-Column Storage Model and Bloom Filter-Based Query Processing for Large-Scale DICOM Data Management / Conception automatisée basée sur la charge de travail et les données pour un modèle de stockage hybride ligne-colonne et le traitement des requêtes à l’aide de filtres de Bloom pour la gestion de données DICOM à grande échelle Nguyen, Cong-Danh 04 May 2018 (has links) Dans le secteur des soins de santé, les données d'images médicales toujours croissantes, le développement de technologies d'imagerie, la conservation à long terme des données médicales et l'augmentation de la résolution des images entraînent une croissance considérable du volume de données. En outre, la variété des dispositifs d'acquisition et la différence de préférences des médecins ou d'autres professionnels de la santé ont conduit à une grande variété de données. Bien que la norme DICOM (Digital Imaging et Communication in Medicine) soit aujourd'hui largement adoptée pour stocker et transférer les données médicales, les données DICOM ont toujours les caractéristiques 3V du Big Data: volume élevé, grande variété et grande vélocité. En outre, il existe une variété de charges de travail, notamment le traitement transactionnel en ligne (en anglais Online Transaction Processing, abrégé en OLTP), le traitement analytique en ligne (anglais Online Analytical Processing, abrégé en OLAP) et les charges de travail mixtes. Les systèmes existants ont des limites concernant ces caractéristiques des données et des charges de travail. Dans cette thèse, nous proposons de nouvelles méthodes efficaces pour stocker et interroger des données DICOM. Nous proposons un modèle de stockage hybride des magasins de lignes et de colonnes, appelé HYTORMO, ainsi que des stratégies de stockage de données et de traitement des requêtes. Tout d'abord, HYTORMO est conçu et mis en œuvre pour être déployé sur un environnement à grande échelle afin de permettre la gestion de grandes données médicales. Deuxièmement, la stratégie de stockage de données combine l'utilisation du partitionnement vertical et un stockage hybride pour créer des configurations de stockage de données qui peuvent réduire la demande d'espace de stockage et augmenter les performances de la charge de travail. Pour réaliser une telle configuration de stockage de données, l'une des deux approches de conception de stockage de données peut être appliquée: (1) conception basée sur des experts et (2) conception automatisée. Dans la première approche, les experts créent manuellement des configurations de stockage de données en regroupant les attributs des données DICOM et en sélectionnant une disposition de stockage de données appropriée pour chaque groupe de colonnes. Dans la dernière approche, nous proposons un cadre de conception automatisé hybride, appelé HADF. HADF dépend des mesures de similarité (entre attributs) qui prennent en compte les impacts des informations spécifiques à la charge de travail et aux données pour générer automatiquement les configurations de stockage de données: Hybrid Similarity (combinaison pondérée de similarité d'accès d'attribut et de similarité de densité d'attribut) les attributs dans les groupes de colonnes; Inter-Cluster Access Similarity est utilisé pour déterminer si deux groupes de colonnes seront fusionnés ou non (pour réduire le nombre de jointures supplémentaires); et Intra-Cluster Access La similarité est appliquée pour décider si un groupe de colonnes sera stocké dans une ligne ou un magasin de colonnes. Enfin, nous proposons une stratégie de traitement des requêtes adaptée et efficace construite sur HYTORMO. Il considère l'utilisation des jointures internes et des jointures externes gauche pour empêcher la perte de données si vous utilisez uniquement des jointures internes entre des tables partitionnées verticalement. De plus, une intersection de filtres Bloom (intersection of Bloom filters, abrégé en ) est appliqué pour supprimer les données non pertinentes des tables d'entrée des opérations de jointure; cela permet de réduire les coûts d'E / S réseau. (...) / In the health care industry, the ever-increasing medical image data, the development of imaging technologies, the long-term retention of medical data and the increase of image resolution are causing a tremendous growth in data volume. In addition, the variety of acquisition devices and the difference in preferences of physicians or other health-care professionals have led to a high variety in data. Although today DICOM (Digital Imaging and Communication in Medicine) standard has been widely adopted to store and transfer the medical data, DICOM data still has the 3Vs characteristics of Big Data: high volume, high variety and high velocity. Besides, there is a variety of workloads including Online Transaction Processing (OLTP), Online Analytical Processing (OLAP) and mixed workloads. Existing systems have limitations dealing with these characteristics of data and workloads. In this thesis, we propose new efficient methods for storing and querying DICOM data. We propose a hybrid storage model of row and column stores, called HYTORMO, together with data storage and query processing strategies. First, HYTORMO is designed and implemented to be deployed on large-scale environment to make it possible to manage big medical data. Second, the data storage strategy combines the use of vertical partitioning and a hybrid store to create data storage configurations that can reduce storage space demand and increase workload performance. To achieve such a data storage configuration, one of two data storage design approaches can be applied: (1) expert-based design and (2) automated design. In the former approach, experts manually create data storage configurations by grouping attributes and selecting a suitable data layout for each column group. In the latter approach, we propose a hybrid automated design framework, called HADF. HADF depends on similarity measures (between attributes) that can take into consideration the combined impact of both workload- and data-specific information to generate data storage configurations: Hybrid Similarity (a weighted combination of Attribute Access and Density Similarity measures) is used to group the attributes into column groups; Inter-Cluster Access Similarity is used to determine whether two column groups will be merged together or not (to reduce the number of joins); and Intra-Cluster Access Similarity is applied to decide whether a column group will be stored in a row or a column store. Finally, we propose a suitable and efficient query processing strategy built on top of HYTORMO. It considers the use of both inner joins and left-outer joins. Furthermore, an Intersection Bloom filter () is applied to reduce network I/O cost.We provide experimental evaluations to validate the benefits of the proposed methods over real DICOM datasets. Experimental results show that the mixed use of both row and column stores outperforms a pure row store and a pure column store. The combined impact of both workload-and data-specific information is helpful for HADF to be able to produce good data storage configurations. Moreover, the query processing strategy with the use of the can improve the execution time of an experimental query up to 50% when compared to the case where no is applied. DICOM Données volumineuses Données clairsemées HYTORMO Modèle de stockage hybride Stockage en lignes Stockage en colonnes Similarité hybride Filtre Bloom Intersection de filtres Bloom Joindre DICOM Big data Sparse datasets HYTORMO Hybrid storage model Row store Column store Hybrid similarity Bloom filter Intersection Bloom filter Join
164	Développement des méthodes génériques d'analyses multi-variées pour la surveillance de la qualité du produit / Development of multivariate analysis methods for the product quality prediction Melhem, Mariam 20 November 2017 (has links) L’industrie microélectronique est un domaine compétitif, confronté de manière permanente à plusieurs défis. Pour évaluer les étapes de fabrication, des tests de qualité sont appliqués. Ces tests étant discontinus, une défaillance des équipements peut causer une dégradation de la qualité du produit. Des alarmes peuvent être déclenchées pour indiquer des problèmes. D’autre part, on dispose d’une grande quantité de données des équipements obtenues à partir de capteurs. Une gestion des alarmes, une interpolation de mesures de qualité et une réduction de données équipements sont nécessaires. Il s’agit dans notre travail à développer des méthodes génériques d’analyse multi-variée permettant d’agréger toutes les informations disponibles sur les équipements pour prédire la qualité de produit en prenant en compte la qualité des différentes étapes de fabrication. En se basant sur le principe de reconnaissance de formes, nous avons proposé une approche pour prédire le nombre de produits restant à produire avant les pertes de performance liée aux spécifications clients en fonction des indices de santé des équipement. Notre approche permet aussi d'isoler les équipements responsables de dégradation. En plus, une méthodologie à base de régression régularisée est développée pour prédire la qualité du produit tout en prenant en compte les relations de corrélations et de dépendance existantes dans le processus. Un modèle pour la gestion des alarmes est construit où des indices de criticité et de similarité sont proposés. Les données alarmes sont ensuite utilisées pour prédire le rejet de produits. Une application sur des données industrielles provenant de STMicroelectronics est fournie. / The microelectronics industry is a highly competitive field, constantly confronted with several challenges. To evaluate the manufacturing steps, quality tests are applied during and at the end of production. As these tests are discontinuous, a defect or failure of the equipment can cause a deterioration in the product quality and a loss in the manufacturing Yield. Alarms are setting off to indicate problems, but periodic alarms can be triggered resulting in alarm flows. On the other hand, a large quantity of data of the equipment obtained from sensors is available. Alarm management, interpolation of quality measurements and reduction of correlated equipment data are required. We aim in our work to develop generic methods of multi-variate analysis allowing to aggregate all the available information (equipment health indicators, alarms) to predict the product quality taking into account the quality of the various manufacturing steps. Based on the pattern recognition principle, data of the degradation trajectory are compared with health indices for failing equipment. The objective is to predict the remaining number of products before loss of the performance related to customer specifications, and the isolation of equipment responsible for degradation. In addition, regression- ased methods are used to predict the product quality while taking into account the existing correlation and the dependency relationships in the process. A model for the alarm management is constructed where criticality and similarity indices are proposed. Then, alarm data are used to predict the product scrap. An application to industrial data from STMicroelectronics is provided. Analyse statistique multi-Variée Régression régularisée Analyse de similarité Gestion d’alarmes Indices de santé Prédiction de la qualité du produit Amélioration du rendement Industrie micro-Électronique. Data-Based diagnosis and prognosis Multivariate statistical analysis Regularized regression Similarity analysis Alarm management Health index Product quality prediction Yield improvement Microelectronic industry.
165	Estimation du RUL par des approches basées sur l'expérience : de la donnée vers la connaissance / Rul estimation using experience based approached : from data to knwoledge Khelif, Racha 14 December 2015 (has links) Nos travaux de thèses s’intéressent au pronostic de défaillance de composant critique et à l’estimation de la durée de vie résiduelle avant défaillance (RUL). Nous avons développé des méthodes basées sur l’expérience. Cette orientation nous permet de nous affranchir de la définition d’un seuil de défaillance, point problématique lors de l’estimation du RUL. Nous avons pris appui sur le paradigme de Raisonnement à Partir de Cas (R à PC) pour assurer le suivi d’un nouveau composant critique et prédire son RUL. Une approche basée sur les instances (IBL) a été développée en proposant plusieurs formalisations de l’expérience : une supervisée tenant compte de l’ état du composant sous forme d’indicateur de santé et une non-supervisée agrégeant les données capteurs en une série temporelle mono-dimensionnelle formant une trajectoire de dégradation. Nous avons ensuite fait évoluer cette approche en intégrant de la connaissance à ces instances. La connaissance est extraite à partir de données capteurs et est de deux types : temporelle qui complète la modélisation des instances et fréquentielle qui, associée à la mesure de similarité permet d’affiner la phase de remémoration. Cette dernière prend appui sur deux types de mesures : une pondérée entre fenêtres parallèles et fixes et une pondérée avec projection temporelle. Les fenêtres sont glissantes ce qui permet d’identifier et de localiser l’état actuel de la dégradation de nouveaux composants. Une autre approche orientée donnée a été test ée. Celle-ci est se base sur des caractéristiques extraites des expériences, qui sont mono-dimensionnelles dans le premier cas et multi-dimensionnelles autrement. Ces caractéristiques seront modélisées par un algorithme de régression à vecteurs de support (SVR). Ces approches ont été évaluées sur deux types de composants : les turboréacteurs et les batteries «Li-ion». Les résultats obtenus sont intéressants mais dépendent du type de données traitées. / Our thesis work is concerned with the development of experience based approachesfor criticalcomponent prognostics and Remaining Useful Life (RUL) estimation. This choice allows us to avoidthe problematic issue of setting a failure threshold.Our work was based on Case Based Reasoning (CBR) to track the health status of a new componentand predict its RUL. An Instance Based Learning (IBL) approach was first developed offering twoexperience formalizations. The first is a supervised method that takes into account the status of thecomponent and produces health indicators. The second is an unsupervised method that fuses thesensory data into degradation trajectories.The approach was then evolved by integrating knowledge. Knowledge is extracted from the sensorydata and is of two types: temporal that completes the modeling of instances and frequential that,along with the similarity measure refine the retrieval phase. The latter is based on two similaritymeasures: a weighted one between fixed parallel windows and a weighted similarity with temporalprojection through sliding windows which allow actual health status identification.Another data-driven technique was tested. This one is developed from features extracted from theexperiences that can be either mono or multi-dimensional. These features are modeled by a SupportVector Regression (SVR) algorithm. The developed approaches were assessed on two types ofcritical components: turbofans and ”Li-ion” batteries. The obtained results are interesting but theydepend on the type of the treated data. Indicateur de santé Trajectoires de dégradation IBL Approche basée sur les instances Raisonnement à partir de cas Connaissance Similarité SVR Régression à vecteurs de support Experience based prognostics Remaining Useful Life RUL Health indicators Degradation trajectories IBL Instance Based Learning CBR Knowledge Similarity Support Vector Regression Case Based Reasoning 600
166	Inférence des acteurs de la régulation des expressions géniques / The Inference of Gene Expression Regulator actors. Bourgeade, Laetitia 30 January 2015 (has links) La quantité croissante de données générées est à l’origine de nombreuses problématiques en bioinformatique telles que le développement de nouvelles méthodes de traitement et d’analyse efficaces de ces données. Plus particulièrement, les réseaux de régulation des fonctions cellulaires sont au coeur de nombreux projets aujourd’hui. Il est donc nécessaire, afin d’appréhender correctement ces systèmes de régulation, de comprendre l’origine et de caractériser les acteurs de ces systèmes tels que les ARN et les pseudogènes.Nous avons établi une nouvelle méthode de comparaison d’une séquence ARN requête avec un jeu de séquences ARN cibles. Notre méthode se base sur (i) l’indexation préalable des graines en séquence/structure des ARN du jeu cible, (ii) la recherche des ARN cibles par détection des graines de la séquence requête présentes également dans le jeu de données cible et le chainage de ces graines, puis (iii) la complétion de l’alignement obtenu à l’aide d’un algorithme d’alignement exact incorporant des contraintes d’alignement. Cette méthode a été appliquée sur le jeu de données de BraliBase2.1. L’exactitude des résultats obtenus et l’efficacité de la méthode ont alors été comparés à la méthode d’alignement exact LocARNA et à son filtre basé sur un algorithme de chainage de graines récemment développé, ExpLocP. Notre méthode RNA-unchained permet d’améliorer significativement les temps de calcul de LocARNA et présente des temps de calcul similaires à ExpLocP, tout en améliorant l’exactitude des alignements finaux.De plus, nous avons développé une méthode, PseudOE, de détection et de caractérisation du pseudome au sein d’un génome et d’analyse comparative de ce pseudome entre plusieurs génomes. Cette méthode a ainsi permis de réaliser l’analyse du panpseudome de deux souches relativement distantes de l’espèce Oenococcus oeni et qui présentent des propriétés oenologiques opposées. On observe dans ces génomes compacts, de 1,8Mb, 8,5% de pseudogènes. Par comparaison aux autres génomes bactériens, les génomes d’O. oeni semblent sensibles à la pseudogénisation. La majorité des pseudogènes détectés ont pour origine des mutations de leur séquence et sont présents uniquement dans l’un des génomes, ce qui soutient l’hypothèse d’une origine récente de ces séquences et qui illustre la tendance des O. oeni à l’hypermutabilité. De plus, l’analyse des données fournies par PseudOE a permis la mise en évidence d’une organisation spatiale des pseudogènes au sein de territoires spécifiques du chromosome. L’ensemble de ces analyses illustre les particularités des pseudogènes chez O. oeni et apporte des informations supplémentaires concernant l’évolution des gènes/génomes dont les annotations de génomes pourraient retirer des bénéfices. / The increasing amount of available data is a source of many issues in bioinformatics such that the development of new methods of treatments and efficient analysis of data. Especially, regulatory networks are at the heart of many projects. Also, in order to understand regulatory systems, it appears to be necessary to characterize and to understand actors of these systems such as RNA and pseudogenes. We develop a new method to compare a query RNA with a static set of target RNAs. Our method is based on (i) a preliminary indexing of the sequence/structure seeds of the target RNAs, (ii) searching the potentially homolog RNAs by detecting seeds of the query present in targets, chaining these seeds, then (iii) completing the alignment using an anchor-based exact alignment algorithm. We apply our method on the benchmark Bralibase2.1. We compare our method accuracy and efficiency with the exact method LocARNA and its recent seeds-based speed-up ExpLocP. Our pipeline RNA-unchained greatly improves computation time of LocARNA and is comparable to the one of ExpLocP, while improving the overall accuracy of the final alignments.Moreover, we develop a new method, PseudOE, to detect and to characterize the pseudome of one genome, and to analyse by comparison two genomes at least. This method allows to analyse the pan-pseudome of two distantly related Oenococcus oeni strains with opposite oenological properties. Quite interestingly, with 8.5% of pseudogenes for a compact 1.8Mb genome, O. oeni appeared to be prone to pseudogenization compared to other bacteria. A great proportion of pseudogenes were found to come from mutational degradation suggesting a relatively recent origin that could illustrate the natural propensity of O. oeni for hypermutability. In addition, we identify a spatial organization of pseudogenes into dedicated chromosomal territories. These analysis illustrate peculiar properties of O. oeni pseudogenes, providing additional insights of gene/genome evolution from which future genome annotation will benefit. ARN Oenococcus oeni Adaptation Plasticité Évolutions génomiques Comparaisons génomiques Pseudome Pseudogènes Similarité Comparaison (un vs. plusieurs) Chaînage Graines Filtrage, Alignement Indexation Stucture secondaire RNA Oenococcus oeni Niche adaptation Gene plasticity Genome evolution Comparative genomics Pseudome Pseudogenes Similarity One vs. all comparisons Chaining Seeds Alignment Filtering Indexing Secondary stucture
167	DS-Fake : a data stream mining approach for fake news detection Mputu Boleilanga, Henri-Cedric 08 1900 (has links) L’avènement d’internet suivi des réseaux sociaux a permis un accès facile et une diffusion rapide de l’information par toute personne disposant d’une connexion internet. L’une des conséquences néfastes de cela est la propagation de fausses informations appelées «fake news». Les fake news représentent aujourd’hui un enjeu majeur au regard de ces conséquences. De nombreuses personnes affirment encore aujourd’hui que sans la diffusion massive de fake news sur Hillary Clinton lors de la campagne présidentielle de 2016, Donald Trump n’aurait peut-être pas été le vainqueur de cette élection. Le sujet de ce mémoire concerne donc la détection automatique des fake news. De nos jours, il existe un grand nombre de travaux à ce sujet. La majorité des approches présentées se basent soit sur l’exploitation du contenu du texte d’entrée, soit sur le contexte social du texte ou encore sur un mélange entre ces deux types d’approches. Néanmoins, il existe très peu d’outils ou de systèmes efficaces qui détecte une fausse information dans la vie réelle, tout en incluant l’évolution de l’information au cours du temps. De plus, il y a un manque criant de systèmes conçues dans le but d’aider les utilisateurs des réseaux sociaux à adopter un comportement qui leur permettrait de détecter les fausses nouvelles. Afin d’atténuer ce problème, nous proposons un système appelé DS-Fake. À notre connaissance, ce système est le premier à inclure l’exploration de flux de données. Un flux de données est une séquence infinie et dénombrable d’éléments et est utilisée pour représenter des données rendues disponibles au fil du temps. DS-Fake explore à la fois l’entrée et le contenu d’un flux de données. L’entrée est une publication sur Twitter donnée au système afin qu’il puisse déterminer si le tweet est digne de confiance. Le flux de données est extrait à l’aide de techniques d’extraction du contenu de sites Web. Le contenu reçu par ce flux est lié à l’entrée en termes de sujets ou d’entités nommées mentionnées dans le texte d’entrée. DS-Fake aide également les utilisateurs à développer de bons réflexes face à toute information qui se propage sur les réseaux sociaux. DS-Fake attribue un score de crédibilité aux utilisateurs des réseaux sociaux. Ce score décrit la probabilité qu’un utilisateur puisse publier de fausses informations. La plupart des systèmes utilisent des caractéristiques comme le nombre de followers, la localisation, l’emploi, etc. Seuls quelques systèmes utilisent l’historique des publications précédentes d’un utilisateur afin d’attribuer un score. Pour déterminer ce score, la majorité des systèmes utilisent la moyenne. DS-Fake renvoie un pourcentage de confiance qui détermine la probabilité que l’entrée soit fiable. Contrairement au petit nombre de systèmes qui utilisent l’historique des publications en ne prenant pas en compte que les tweets précédents d’un utilisateur, DS-Fake calcule le score de crédibilité sur la base des tweets précédents de tous les utilisateurs. Nous avons renommé le score de crédibilité par score de légitimité. Ce dernier est basé sur la technique de la moyenne Bayésienne. Cette façon de calculer le score permet d’atténuer l’impact des résultats des publications précédentes en fonction du nombre de publications dans l’historique. Un utilisateur donné ayant un plus grand nombre de tweets dans son historique qu’un autre utilisateur, même si les tweets des deux sont tous vrais, le premier utilisateur est plus crédible que le second. Son score de légitimité sera donc plus élevé. À notre connaissance, ce travail est le premier qui utilise la moyenne Bayésienne basée sur l’historique de tweets de toutes les sources pour attribuer un score à chaque source. De plus, les modules de DS-Fake ont la capacité d’encapsuler le résultat de deux tâches, à savoir la similarité de texte et l’inférence en langage naturel hl(en anglais Natural Language Inference). Ce type de modèle qui combine ces deux tâches de TAL est également nouveau pour la problématique de la détection des fake news. DS-Fake surpasse en termes de performance toutes les approches de l’état de l’art qui ont utilisé FakeNewsNet et qui se sont basées sur diverses métriques. Il y a très peu d’ensembles de données complets avec une variété d’attributs, ce qui constitue un des défis de la recherche sur les fausses nouvelles. Shu et al. ont introduit en 2018 l’ensemble de données FakeNewsNet pour résoudre ce problème. Le score de légitimité et les tweets récupérés ajoutent des attributs à l’ensemble de données FakeNewsNet. / The advent of the internet, followed by online social networks, has allowed easy access and rapid propagation of information by anyone with an internet connection. One of the harmful consequences of this is the spread of false information, which is well-known by the term "fake news". Fake news represent a major challenge due to their consequences. Some people still affirm that without the massive spread of fake news about Hillary Clinton during the 2016 presidential campaign, Donald Trump would not have been the winner of the 2016 United States presidential election. The subject of this thesis concerns the automatic detection of fake news. Nowadays, there is a lot of research on this subject. The vast majority of the approaches presented in these works are based either on the exploitation of the input text content or the social context of the text or even on a mixture of these two types of approaches. Nevertheless, there are only a few practical tools or systems that detect false information in real life, and that includes the evolution of information over time. Moreover, no system yet offers an explanation to help social network users adopt a behaviour that will allow them to detect fake news. In order to mitigate this problem, we propose a system called DS-Fake. To the best of our knowledge, this system is the first to include data stream mining. A data stream is a sequence of elements used to represent data elements over time. This system explores both the input and the contents of a data stream. The input is a post on Twitter given to the system that determines if the tweet can be trusted. The data stream is extracted using web scraping techniques. The content received by this flow is related to the input in terms of topics or named entities mentioned in the input text. This system also helps users develop good reflexes when faced with any information that spreads on social networks. DS-Fake assigns a credibility score to users of social networks. This score describes how likely a user can publish false information. Most of the systems use features like the number of followers, the localization, the job title, etc. Only a few systems use the history of a user’s previous publications to assign a score. To determine this score, most systems use the average. DS-Fake returns a percentage of confidence that determines how likely the input is reliable. Unlike the small number of systems that use the publication history by taking into account only the previous tweets of a user, DS-Fake calculates the credibility score based on the previous tweets of all users. We renamed the credibility score legitimacy score. The latter is based on the Bayesian averaging technique. This way of calculating the score allows attenuating the impact of the results from previous posts according to the number of posts in the history. A user who has more tweets in his history than another user, even if the tweets of both are all true, the first user is more credible than the second. His legitimacy score will therefore be higher. To our knowledge, this work is the first that uses the Bayesian average based on the post history of all sources to assign a score to each source. DS-Fake modules have the ability to encapsulate the output of two tasks, namely text similarity and natural language inference. This type of model that combines these two NLP tasks is also new for the problem of fake news detection. There are very few complete datasets with a variety of attributes, which is one of the challenges of fake news research. Shu et al. introduce in 2018 the FakeNewsNet dataset to tackle this issue. Our work uses and enriches this dataset. The legitimacy score and the retrieved tweets from named entities mentioned in the input texts add features to the FakeNewsNet dataset. DS-Fake outperforms all state-of-the-art approaches that have used FakeNewsNet and that are based on various metrics. Détection de fausses nouvelles Exploration de flux de données IA explicable score de légitimité Traitement Automatique du Langage Inférence du langage naturel Similarité de texte Reconnaissance d’entité nommée Réseaux de neurones Fake news detection Data stream mining Explainable AI Legitimacy score Natural Language Processing Natural Language Inference Text similarity Named Entity Recognition Neural Networks
168	Compression et inférence des opérateurs intégraux : applications à la restauration d’images dégradées par des flous variables / Approximation and estimation of integral operators : applications to the restoration of images degraded by spatially varying blurs Escande, Paul 26 September 2016 (has links) Le problème de restauration d'images dégradées par des flous variables connaît un attrait croissant et touche plusieurs domaines tels que l'astronomie, la vision par ordinateur et la microscopie à feuille de lumière où les images sont de taille un milliard de pixels. Les flous variables peuvent être modélisés par des opérateurs intégraux qui associent à une image nette u, une image floue Hu. Une fois discrétisé pour être appliqué sur des images de N pixels, l'opérateur H peut être vu comme une matrice de taille N x N. Pour les applications visées, la matrice est stockée en mémoire avec un exaoctet. On voit apparaître ici les difficultés liées à ce problème de restauration des images qui sont i) le stockage de ce grand volume de données, ii) les coûts de calculs prohibitifs des produits matrice-vecteur. Ce problème souffre du fléau de la dimension. D'autre part, dans beaucoup d'applications, l'opérateur de flou n'est pas ou que partialement connu. Il y a donc deux problèmes complémentaires mais étroitement liés qui sont l'approximation et l'estimation des opérateurs de flou. Cette thèse a consisté à développer des nouveaux modèles et méthodes numériques permettant de traiter ces problèmes. / The restoration of images degraded by spatially varying blurs is a problem of increasing importance. It is encountered in many applications such as astronomy, computer vision and fluorescence microscopy where images can be of size one billion pixels. Variable blurs can be modelled by linear integral operators H that map a sharp image u to its blurred version Hu. After discretization of the image on a grid of N pixels, H can be viewed as a matrix of size N x N. For targeted applications, matrices is stored with using exabytes on the memory. This simple observation illustrates the difficulties associated to this problem: i) the storage of a huge amount of data, ii) the prohibitive computation costs of matrix-vector products. This problems suffers from the challenging curse of dimensionality. In addition, in many applications, the operator is usually unknown or only partially known. There are therefore two different problems, the approximation and the estimation of blurring operators. They are intricate and have to be addressed with a global overview. Most of the work of this thesis is dedicated to the development of new models and computational methods to address those issues. Opérateurs intégraux Flou variable Parcimonie Approximation Estimation Fléau de la dimension Restauration Décomposition multi-Échelle Défloutage Déconvolution Problème inverse Grande dimension Interpolation de données éparpillées Produit-Convolution Algorithmes rapides Bruit multiplicatif structuté Mesure de similarité Microscopie Astronomie Integral operators Spatially varying blur Sparsity Approximation Estimation Curse of dimensionality Restoration Multi-Scale approximation Deblurring Deconvolution Inverse problem High-Dimension Scattered data interpolation Product-Convolution Fast algorithms Structured multiplicative noise Similarity measure Microscopy Astronomy 510
169	Contribution à la théorie des ondelettes : application à la turbulence des plasmas de bord de Tokamak et à la mesure dimensionnelle de cibles / Contribution to the wavelet theory : Application to edge plasma turbulence in tokamaks and to dimensional measurement of targets Scipioni, Angel 19 November 2010 (has links) La nécessaire représentation en échelle du monde nous amène à expliquer pourquoi la théorie des ondelettes en constitue le formalisme le mieux adapté. Ses performances sont comparées à d'autres outils : la méthode des étendues normalisées (R/S) et la méthode par décomposition empirique modale (EMD).La grande diversité des bases analysantes de la théorie des ondelettes nous conduit à proposer une approche à caractère morphologique de l'analyse. L'exposé est organisé en trois parties.Le premier chapitre est dédié aux éléments constitutifs de la théorie des ondelettes. Un lien surprenant est établi entre la notion de récurrence et l'analyse en échelle (polynômes de Daubechies) via le triangle de Pascal. Une expression analytique générale des coefficients des filtres de Daubechies à partir des racines des polynômes est ensuite proposée.Le deuxième chapitre constitue le premier domaine d'application. Il concerne les plasmas de bord des réacteurs de fusion de type tokamak. Nous exposons comment, pour la première fois sur des signaux expérimentaux, le coefficient de Hurst a pu être mesuré à partir d'un estimateur des moindres carrés à ondelettes. Nous détaillons ensuite, à partir de processus de type mouvement brownien fractionnaire (fBm), la manière dont nous avons établi un modèle (de synthèse) original reproduisant parfaitement la statistique mixte fBm et fGn qui caractérise un plasma de bord. Enfin, nous explicitons les raisons nous ayant amené à constater l'absence de lien existant entre des valeurs élevées du coefficient d'Hurst et de supposées longues corrélations.Le troisième chapitre est relatif au second domaine d'application. Il a été l'occasion de mettre en évidence comment le bien-fondé d'une approche morphologique couplée à une analyse en échelle nous ont permis d'extraire l'information relative à la taille, dans un écho rétrodiffusé d'une cible immergée et insonifiée par une onde ultrasonore / The necessary scale-based representation of the world leads us to explain why the wavelet theory is the best suited formalism. Its performances are compared to other tools: R/S analysis and empirical modal decomposition method (EMD). The great diversity of analyzing bases of wavelet theory leads us to propose a morphological approach of the analysis. The study is organized into three parts. The first chapter is dedicated to the constituent elements of wavelet theory. Then we will show the surprising link existing between recurrence concept and scale analysis (Daubechies polynomials) by using Pascal's triangle. A general analytical expression of Daubechies' filter coefficients is then proposed from the polynomial roots. The second chapter is the first application domain. It involves edge plasmas of tokamak fusion reactors. We will describe how, for the first time on experimental signals, the Hurst coefficient has been measured by a wavelet-based estimator. We will detail from fbm-like processes (fractional Brownian motion), how we have established an original model perfectly reproducing fBm and fGn joint statistics that characterizes magnetized plasmas. Finally, we will point out the reasons that show the lack of link between high values of the Hurst coefficient and possible long correlations. The third chapter is dedicated to the second application domain which is relative to the backscattered echo analysis of an immersed target insonified by an ultrasonic plane wave. We will explain how a morphological approach associated to a scale analysis can extract the diameter information Ondelettes Principe d'incertitude de Heisenberg Pavage temps-Fréquence Moments Régularité Support compact Fonction d'échelle Fonction d'ondelette Approximations Détails Résolution Filtre QMF Coefficients de Daubechies Analyse Reconstruction Précurseur Algorithme de Mallat Convolution Décimation Symétrisation Orthogonalisation Gram Schmidt Filtres frontières Complexité Décomposition modale empirique Méthode R/S Analyse des fluctuations redressées Fractal Auto-Similarité Plasma Bruit Gaussien fractionnaire Mouvement Brownien fractionnaire Ultrason Wavelets Heisenberg uncertainty principle Time-Frequency tiles Vanishing moments Regularity Compact support Scaling function Wavelet function Approximations Details Resolution QMF filters Daubechies coefficients Analysis Reconstruction Precursor Mallat algorithm Convolution Decimation Mirroring Orthogonalization Gram Schmidt Boundary filters Complexity Empirical Modal Decomposition R/S method Detrended fluctuations Analysis Fractal Self-Similarity Plasma Fractional Gaussian noise Fractional Brownian motion Ultrasound 530.44 515.243 3

Search results