Global ETD Search

1	Fuzzy logic pattern in text and image data analysis / Motifs de la logique floue pour l'analyse des sentiments et en imagerie Nderu, Lawrence 14 December 2015 (has links) La logique floue est aujourd'hui universellement admise comme discipline ayant fait ses preuves à l'intersection des mathématiques, de l'informatique, des sciences cognitives et de l'Intelligence Artificielle. En termes formels, la logique floue est une extension de la logique classique ayant pour but de mesurer la flexibilité du raisonnement humain, et permettant la modélisation des imperfections des données, en particulier, les deux imperfections les plus fréquentes : l'imprécision et l'incertitude. En outre, la logique floue ignore le principe du tiers exclu et celui de non-contradiction.Nous n'allons pas, dans ce court résumé de la thèse, reprendre et définir tous les concepts de cet outil devenu désormais classique : fonction d'appartenance, degré d'appartenance, variable linguistique, opérateurs flous, fuzzyfication, défuzzication, raisonnement approximatif … L'un des concepts de base de cette logique est la notion de possibilité qui permet de modéliser la fonction d'appartenance d'un concept. La possibilité d'un événement diffère de sa probabilité dans la mesure où elle n'est pas intimement liée à celle de l'événement contraire. Ainsi, par exemple, si la probabilité qu'il pleuve demain est de 0,6, alors la probabilité qu'il ne pleuve pas doit être égale à 0,4 tandis que les possibilités qu'il pleuve demain ou non peuvent toutes les deux être égales à 1 (ou encore deux autres valeurs dont la somme peut dépasser 1).Dans le domaine de l'informatique, l'apprentissage non supervisé (ou « clustering ») est une méthode d'apprentissage automatique quasi-autonome. Il s'agit pour un algorithme de diviser un groupe de données, en sous-groupes de manière que les données considérées comme les plus similaires soient associées au sein d'un groupe homogène. Une fois que l'algorithme propose ces différents regroupements, le rôle de l'expert ou du groupe d'experts est alors de nommer chaque groupe, éventuellement diviser certains ou de regrouper certains, afin de créer des classes. Les classes deviennent réelles une fois que l'algorithme a fonctionné et que l'expert les a nommées.Encore une fois, notre travail, comme tous les travaux du domaine, vise à adapter les modèles traditionnelles d'apprentissage et/ou de raisonnement à l'imprécision du monde réel. L'analyse des sentiments à partir de ressources textuelles et les images dans le cadre de l'agriculture de précision nous ont permis d'illustrer nos hypothèses. L'introduction par le biais de notre travail du concept de motifs flous est sans aucun doute une contribution majeure.Ce travail a donné lieu à trois contributions majeures : / Standard (type-1) fuzzy sets were introduced to mimic human reasoning in its use of approximate information and uncertainty to generate decisions. Since knowledge can be expressed in a natural way by using fuzzy sets, many decision problems can be greatly simpli_ed. However, standard type-1 fuzzy sets have limitations when it comes to modelinghuman decision making.When Zadeh introduced the idea of higher types of fuzzy sets called type-n fuzzy sets andtype-2 fuzzy sets, the objective was to solve problems associated with modeling uncertainty using crisp membership functions of type-1 fuzzy sets. The extra dimension presented by type-2 fuzzy sets provides more design freedom and exibility than type-1 fuzzy sets. The ability of FLS to be hybridized with other methods extended the usage of Fuzzy LogicSystems (FLS) in many application domains. In architecture and software engineering the concept of patterns was introduced as a way of creating general repeatable solutions to commonly occurring problems in the respective_elds. In software engineering for example, the design pattern is not a _nished design that can be transformed directly into code. It is a description or template on how to solve a problem that can be used in many di_erent situations. This thesis introduces the novel concept of fuzzy patterns in T2 FLS. Micro-blogs and social media platforms are now considered among the most popular forms of online communication. Through a platform like TwitterTM much information reecting people's opinions and attitudes is published and shared among users on a daily basis. This has brought great opportunities to companies interested in tracking and monitoring the reputation of their brands and businesses, and to policy makers and politicians to support their assessment of public opinions about their policies or political issues. Thisresearch demonstrates the importance of the neutral category in sentiment polarity analysis, it then introduces the concept of fuzzy patterns in sentiment polarity analysis. The xvii Interval Type-2 Fuzzy Set (IT2 FS), were proposed by reference [Men07c] to model words. This is because it is characterized by its Footprint Of Uncertainty (FOU). The FOU providesa potential to capture word uncertainties. The use of IT2 FS in polarity sentiment classi_cation is demonstrated. The importance of the neutral category is demonstrated in both supervised and unsupervised learning methods. In the _nal section the concept of fuzzy patterns in contrast Logique floue Traitement d'images Analyse des sentiments Intelligence artificielle Reconnaissance des formes
2	Une approche de détection des communautés d'intérêt dans les réseaux sociaux : application à la génération d'IHM personnalisées / An approach to detect communities of interest in social networks : application to the generation of customized HCI Chouchani, Nadia 07 December 2018 (has links) De nos jours, les Réseaux Sociaux sont omniprésents dans tous les aspects de la vie. Une fonctionnalité fondamentale de ces réseaux est la connexion entre les utilisateurs. Ces derniers sont engagés progressivement à contribuer en ajoutant leurs propres contenus. Donc, les Réseaux Sociaux intègrent également les créations des utilisateurs ; ce qui incite à revisiter les méthodes de leur analyse. Ce domaine a conduit désormais à de nombreux travaux de recherche ces dernières années. L’un des problèmes principaux est la détection des communautés. Les travaux de recherche présentés dans ce mémoire se positionnent dans les thématiques de l’analyse sémantique des Réseaux Sociaux et de la génération des applications interactives personnalisées. Cette thèse propose une approche pour la détection des communautés d’intérêt dans les Réseaux Sociaux. Cette approche modélise les données sociales sous forme d’un profil utilisateur social représenté par un ontologie. Elle met en oeuvre une méthode pour l’Analyse des Sentiments basées sur les phénomènes de l’influence sociale et d’Homophilie. Les communautés détectées sont exploitées dans la génération d’applications interactives personnalisées. Cette génération est basée sur une approche de type MDA, indépendante du domaine d’application. De surcroît, cet ouvrage fait état d’une évaluation de nos propositions sur des données issues de Réseaux Sociaux réels. / Nowadays, Social Networks are ubiquitous in all aspects of life. A fundamental feature of these networks is the connection between users. These are gradually engaged to contribute by adding their own content. So Social Networks also integrate user creations ; which encourages researchers to revisit the methods of their analysis. This field has now led to a great deal of research in recent years. One of the main problems is the detection of communities. The research presented in this thesis is positioned in the themes of the semantic analysis of Social Networks and the generation of personalized interactive applications. This thesis proposes an approach for the detection of communities of interest in Social Networks. This approach models social data in the form of a social user profile represented by an ontology. It implements a method for the Sentiment Analysis based on the phenomena of social influence and homophily. The detected communities are exploited in the generation of personalized interactive applications. This generation is based on an approach of type MDA, independent of the application domain. In addition, this manuscript reports an evaluation of our proposals on data from Real Social Networks. Réseaux sociaux Communauté d’intérêt Profil utilisateur Ontologie Analyse des sentiments Social networks Community of interest User profile Ontology Sentiment analysis
3	Apprentissage de représentation pour des données générées par des utilisateurs / Representation learning of user-generated data Poussevin, Mickael 21 January 2015 (has links) Dans cette thèse, nous étudions comment les méthodes d'apprentissage de représentations peuvent être appliquées à des données générées par l'utilisateur. Nos contributions couvrent trois applications différentes, mais partagent un dénominateur commun: l'extraction des représentations d'utilisateurs concernés. Notre première application est la tâche de recommandation de produits, où les systèmes existant créent des profils utilisateurs et objets qui reflètent les préférences des premiers et les caractéristiques des derniers, en utilisant l'historique. De nos jours, un texte accompagne souvent cette note et nous proposons de l'utiliser pour enrichir les profils extraits. Notre espoir est d'en extraire une connaissance plus fine des goûts des utilisateurs. Nous pouvons, en utilisant ces modèles, prédire le texte qu'un utilisateur va écrire sur un objet. Notre deuxième application est l'analyse des sentiments et, en particulier, la classification de polarité. Notre idée est que les systèmes de recommandation peuvent être utilisés pour une telle tâche. Les systèmes de recommandation et classificateurs de polarité traditionnels fonctionnent sur différentes échelles de temps. Nous proposons deux hybridations de ces modèles: la première a de meilleures performances en classification, la seconde exhibe un vocabulaire de surprise. La troisième et dernière application que nous considérons est la mobilité urbaine. Elle a lieu au-delà des frontières d'Internet, dans le monde physique. Nous utilisons les journaux d'authentification des usagers du métro, enregistrant l'heure et la station d'origine des trajets, pour caractériser les utilisateurs par ses usages et habitudes temporelles. / In this thesis, we study how representation learning methods can be applied to user-generated data. Our contributions cover three different applications but share a common denominator: the extraction of relevant user representations. Our first application is the item recommendation task, where recommender systems build user and item profiles out of past ratings reflecting user preferences and item characteristics. Nowadays, textual information is often together with ratings available and we propose to use it to enrich the profiles extracted from the ratings. Our hope is to extract from the textual content shared opinions and preferences. The models we propose provide another opportunity: predicting the text a user would write on an item. Our second application is sentiment analysis and, in particular, polarity classification. Our idea is that recommender systems can be used for such a task. Recommender systems and traditional polarity classifiers operate on different time scales. We propose two hybridizations of these models: the former has better classification performance, the latter highlights a vocabulary of surprise in the texts of the reviews. The third and final application we consider is urban mobility. It takes place beyond the frontiers of the Internet, in the physical world. Using authentication logs of the subway users, logging the time and station at which users take the subway, we show that it is possible to extract robust temporal profiles. Intelligence artificielle Apprentissage de représentation Factorisation matricielle Réseaux de neurones Systèmes de représentation Analyse des sentiments Sentiment analysis Artificial intelligence 004
4	Analyse des sentiments : système autonome d'exploration des opinions exprimées dans les critiques cinématographiques Dziczkowski, Grzegorz 04 December 2008 (has links) (PDF) Cette thèse décrit l'étude et le développement d'un système conçu pour l'évaluation des sentiments des critiques cinématographiques. Un tel système permet :<br />- la recherche automatique des critiques sur Internet,<br />- l'évaluation et la notation des opinions des critiques cinématographiques,<br />- la publication des résultats.<br /><br />Afin d'améliorer les résultats d'application des algorithmes prédicatifs, l'objectif de ce système est de fournir un système de support pour les moteurs de prédiction analysant les profils des utilisateurs. Premièrement, le système recherche et récupère les probables critiques cinématographiques de l'Internet, en particulier celles exprimées par les commentateurs prolifiques. <br /><br />Par la suite, le système procède à une évaluation et à une notation de l'opinion<br />exprimée dans ces critiques cinématographiques pour automatiquement associer<br />une note numérique à chaque critique ; tel est l'objectif du système.<br />La dernière étape est de regrouper les critiques (ainsi que les notes) avec l'utilisateur qui les a écrites afin de créer des profils complets, et de mettre à disposition ces profils pour les moteurs de prédictions.<br /><br />Pour le développement de ce système, les travaux de recherche de cette thèse portaient essentiellement sur la notation des sentiments ; ces travaux s'insérant dans les domaines de ang : Opinion Mining et d'Analyse des Sentiments.<br />Notre système utilise trois méthodes différentes pour le classement des opinions. Nous présentons deux nouvelles méthodes ; une fondée sur les connaissances linguistiques et une fondée sur la limite de traitement statistique et linguistique. Les résultats obtenus sont ensuite comparés avec la méthode statistique basée sur le classificateur de Bayes, largement utilisée dans le domaine.<br />Il est nécessaire ensuite de combiner les résultats obtenus, afin de rendre l'évaluation finale aussi précise que possible. Pour cette tâche nous avons utilisé un quatrième classificateur basé sur les réseaux de neurones.<br /><br />Notre notation des sentiments à savoir la notation des critiques est effectuée sur une échelle de 1 à 5. Cette notation demande une analyse linguistique plus profonde qu'une notation seulement binaire : positive ou négative, éventuellement subjective ou objective, habituellement utilisée.<br /><br />Cette thèse présente de manière globale tous les modules du système conçu et de manière plus détaillée la partie de notation de l'opinion. En particulier, nous mettrons en évidence les avantages de l'analyse linguistique profonde moins utilisée dans le domaine de l'analyse des sentiments que l'analyse statistique. [INFO:INFO_OH] Computer Science/Other Opinion Mining Analyse des Sentiments Classification du Texte Catégorisation du Texte Information Retrieval Moteur de Prédiction
5	Analyse des médias sociaux de santé pour évaluer la qualité de vie des patientes atteintes d’un cancer du sein / Analysis of social health media to assess the quality of life of breast cancer patients Tapi Nzali, Mike Donald 28 September 2017 (has links) En 2015, le nombre de nouveaux cas de cancer du sein en France s'élève à 54 000. Le taux de survie 5 ans après le diagnostic est de 89 %. Si les traitements modernes permettent de sauver des vies, certains sont difficiles à supporter. De nombreux projets de recherche clinique se sont donc focalisés sur la qualité de vie (QdV) qui fait référence à la perception que les patients ont de leurs maladies et de leurs traitements. La QdV est un critère d'évaluation clinique pertinent pour évaluer les avantages et les inconvénients des traitements que ce soit pour le patient ou pour le système de santé. Dans cette thèse, nous nous intéresserons aux histoires racontées par les patients dans les médias sociaux à propos de leur santé, pour mieux comprendre leur perception de la QdV. Ce nouveau mode de communication est très prisé des patients car associé à une grande liberté du discours due notamment à l'anonymat fourni par ces sites.L’originalité de cette thèse est d’utiliser et d'étendre des méthodes de fouille de données issues des médias sociaux pour la langue Française. Les contributions de ce travail sont les suivantes : (1) construction d’un vocabulaire patient/médecin ; (2) détection des thèmes discutés par les patients; (3) analyse des sentiments des messages postés par les patients et (4) mise en relation des différentes contributions citées.Dans un premier temps, nous avons utilisé les textes des patients pour construire un vocabulaire patient/médecin spécifique au domaine du cancer du sein, en recueillant divers types d'expressions non-expertes liées à la maladie, puis en les liant à des termes biomédicaux utilisés par les professionnels de la santé. Nous avons combiné plusieurs méthodes de la littérature basées sur des approches linguistiques et statistiques. Pour évaluer les relations obtenues, nous utilisons des validations automatiques et manuelles. Nous avons ensuite transformé la ressource construite dans un format lisible par l’être humain et par l’ordinateur en créant une ontologie SKOS, laquelle a été intégrée dans la plateforme BioPortal.Dans un deuxième temps, nous avons utilisé et étendu des méthodes de la littérature afin de détecter les différents thèmes discutés par les patients dans les médias sociaux et de les relier aux dimensions fonctionnelles et symptomatiques des auto-questionnaires de QdV (EORTC QLQ-C30 et EORTC QLQ-BR23). Afin de détecter les thèmes, nous avons appliqué le modèle d’apprentissage non supervisé LDA avec des prétraitements pertinents. Ensuite, nous avons proposé une méthode permettant de calculer automatiquement la similarité entre les thèmes détectés et les items des auto-questionnaires de QdV. Nous avons ainsi déterminé de nouveaux thèmes complémentaires à ceux déjà présents dans les questionnaires. Ce travail a ainsi mis en évidence que les données provenant des forums de santé sont susceptibles d'être utilisées pour mener une étude complémentaire de la QdV.Dans un troisième temps, nous nous sommes focalisés sur l’extraction de sentiments (polarité et émotions). Pour cela, nous avons évalué différentes méthodes et ressources pour la classification de sentiments en Français. Ces expérimentations ont permis de déterminer les caractéristiques utiles dans la classification de sentiments pour différents types de textes, y compris les textes provenant des forums de santé. Finalement, nous avons utilisé les différentes méthodes proposées dans cette thèse pour quantifier les thèmes et les sentiments identifiés dans les médias sociaux de santé.De manière générale, ces travaux ont ouvert des perspectives prometteuses sur diverses tâches d'analyse des médias sociaux pour la langue française et en particulier pour étudier la QdV des patients à partir des forums de santé. / In 2015, the number of new cases of breast cancer in France is 54,000.The survival rate after 5 years of cancer diagnosis is 89%.If the modern treatments allow to save lives, some are difficult to bear. Many clinical research projects have therefore focused on quality of life (QoL), which refers to the perception that patients have on their diseases and their treatments.QoL is an evaluation method of alternative clinical criterion for assessing the advantages and disadvantages of treatments for the patient and the health system. In this thesis, we will focus on the patients stories in social media dealing with their health. The aim is to better understand their perception of QoL. This new mode of communication is very popular among patients because it is associated with a great freedom of speech, induced by the anonymity provided by these websites.The originality of this thesis is to use and extend social media mining methods for the French language. The main contributions of this work are: (1) construction of a patient/doctor vocabulary; (2) detection of topics discussed by patients; (3) analysis of the feelings of messages posted by patients and (4) combinaison of the different contributions to quantify patients discourse.Firstly, we used the patient's texts to construct a patient/doctor vocabulary, specific to the field of breast cancer, by collecting various types of non-experts' expressions related to the disease, linking them to the biomedical terms used by health care professionals. We combined several methods of the literature based on linguistic and statistical approaches. To evaluate the relationships, we used automatic and manual validations. Then, we transformed the constructed resource into human-readable format and machine-readable format by creating a SKOS ontology, which is integrated into the BioPortal platform.Secondly, we used and extended literature methods to detect the different topics discussed by patients in social media and to relate them to the functional and symptomatic dimensions of the QoL questionnaires (EORTC QLQ-C30 and EORTC QLQ-BR23). In order to detect the topics discussed by patients, we applied the unsupervised learning LDA model with relevant preprocessing. Then, we applied a customized Jaccard coefficient to automatically compute the similarity distance between the topics detected with LDA and the items in the auto-questionnaires. Thus, we detected new emerging topics from social media that could be used to complete actual QoL questionnaires. This work confirms that social media can be an important source of information for the study of the QoL in the field of cancer.Thirdly, we focused on the extraction of sentiments (polarity and emotions). For this, we evaluated different methods and resources for the classification of feelings in French.These experiments aim to determine useful characteristics in the classification of feelings for different types of texts, including texts from health forums.Finally, we used the different methods proposed in this thesis to quantify the topics and feelings identified in the health social media.In general, this work has opened promising perspectives on various tasks of social media analysis for the French language and in particular the study of the QoL of patients from the health forums. Cancer du sein Qualité de vie Extraction d'information Fouille de textes Analyse des sentiments Détection des thèmes Breast cancer Quality of life Information retrieval Text mining Sentiment analysis Topic detection
6	Analyse d'opinion dans les interactions orales / Opinion analysis in speech interactions Barriere, Valentin 15 April 2019 (has links) La reconnaissance des opinions d'un locuteur dans une interaction orale est une étape cruciale pour améliorer la communication entre un humain et un agent virtuel. Dans cette thèse, nous nous situons dans une problématique de traitement automatique de la parole (TAP) sur les phénomènes d'opinions dans des interactions orales spontanées naturelles. L'analyse d'opinion est une tâche peu souvent abordée en TAP qui se concentrait jusqu'à peu sur les émotions à l'aide du contenu vocal et non verbal. De plus, la plupart des systèmes récents existants n'utilisent pas le contexte interactionnel afin d'analyser les opinions du locuteur. Dans cette thèse, nous nous penchons sur ces sujet. Nous nous situons dans le cadre de la détection automatique en utilisant des modèles d’apprentissage statistiques. Après une étude sur la modélisation de la dynamique de l'opinion par un modèle à états latents à l’intérieur d'un monologue, nous étudions la manière d’intégrer le contexte interactionnel dialogique, et enfin d'intégrer l'audio au texte avec différents types de fusion. Nous avons travaillé sur une base de données de Vlogs au niveau d'un sentiment global, puis sur une base de données d'interactions dyadiques multimodales composée de conversations ouvertes, au niveau du tour de parole et de la paire de tours de parole. Pour finir, nous avons fait annoté une base de données en opinion car les base de données existantes n'étaient pas satisfaisantes vis-à-vis de la tâche abordée, et ne permettaient pas une comparaison claire avec d'autres systèmes à l'état de l'art.A l'aube du changement important porté par l’avènement des méthodes neuronales, nous étudions différents types de représentations: les anciennes représentations construites à la main, rigides mais précises, et les nouvelles représentations apprises de manière statistique, générales et sémantiques. Nous étudions différentes segmentations permettant de prendre en compte le caractère asynchrone de la multi-modalité. Dernièrement, nous utilisons un modèle d'apprentissage à états latents qui peut s'adapter à une base de données de taille restreinte, pour la tâche atypique qu'est l'analyse d'opinion, et nous montrons qu'il permet à la fois une adaptation des descripteurs du domaine écrit au domaine oral, et servir de couche d'attention via son pouvoir de clusterisation. La fusion multimodale complexe n'étant pas bien gérée par le classifieur utilisé, et l'audio étant moins impactant sur l'opinion que le texte, nous étudions différentes méthodes de sélection de paramètres pour résoudre ces problèmes. / 2588/5000Recognizing a speaker's opinions in an oral interaction is a crucial step in improving communication between a human and a virtual agent. In this thesis, we find ourselves in a problematic of automatic speech processing (APT) on opinion phenomena in natural spontaneous oral interactions. Opinion analysis is a task that is not often addressed in TAP that focused until recently on emotions using voice and non-verbal content. In addition, most existing legacy systems do not use the interactional context to analyze the speaker's opinions. In this thesis, we focus on these topics.We are in the context of automatic detection using statistical learning models. A study on modeling the dynamics of opinion by a model with latent states within a monologue, we study how to integrate the context interactional dialogical, and finally to integrate audio to text with different types of fusion. We worked on a basic Vlogs data at a global sense, and on the basis of multimodal data dyadic interactions composed of open conversations, at the turn of speech and word pair of towers. Finally, we annotated database in opinion because existing database were not satisfactory vis-à-vis the task addressed, and did not allow a clear comparison with other systems in the state art.At the dawn of significant change brought by the advent of neural methods, we study different types of representations: the ancient representations built by hand, rigid, but precise, and new representations learned statistically, and general semantics. We study different segmentations to take into account the asynchronous nature of multi-modality. Recently, we are using a latent state learning model that can adapt to a small database, for the atypical task of opinion analysis, and we show that it allows both an adaptation of the descriptors of the written domain to the oral domain, and serve as an attention layer via its clustering power. Complex multimodal fusion is not well managed by the classifier used, and audio being less impacting on opinion than text, we study different methods of parameter selection to solve these problems. Analyse des sentiments Fouille d'opinions Deep learning Champs aléatoires conditionnels Traitement automatique des langues Traitement de la parole Sentiment analysis Opinion mining Deep learning Conditional random fields Natural language processing Speech processing
7	Information Digestion Dias, Gaël 10 December 2010 (has links) (PDF) The World Wide Web (WWW) is a huge information network within which searching for relevant quality contents remains an open question. The ambiguity of natural language is traditionally one of the main reasons, which prevents search engines from retrieving information according to users' needs. However, the globalized access to the WWW via Weblogs or social networks has highlighted new problems. Web documents tend to be subjective, they mainly refer to actual events to the detriment of past events and their ever growing number contributes to the well-known problem of information overload. In this thesis, we present our contributions to digest information in real-world heterogeneous text environments (i.e. the Web) thus leveraging users' efforts to encounter relevant quality information. However, most of the works related to Information Digestion deal with the English language fostered by freely available linguistic tools and resources, and as such, cannot be directly replicated for other languages. To overcome this drawback, two directions may be followed: on the one hand, building resources and tools for a given language, or on the other hand, proposing language-independent approaches. Within the context of this report, we will focus on presenting language-independent unsupervised methodologies to (1) extract implicit knowledge about the language and (2) understand the explicit information conveyed by real-world texts, thus allowing to reach Multilingual Information Digestion. digestion d'information environnement textuels relation sémantiques entre mots analyse de sentiments
8	Transformer les big social data en prévisions - méthodes et technologies : Application à l'analyse de sentiments / Transforming big social data into forecasts - methods and technologies El alaoui, Imane 04 July 2018 (has links) Extraire l'opinion publique en analysant les Big Social data a connu un essor considérable en raison de leur nature interactive, en temps réel. En effet, les données issues des réseaux sociaux sont étroitement liées à la vie personnelle que l’on peut utiliser pour accompagner les grands événements en suivant le comportement des personnes. C’est donc dans ce contexte que nous nous intéressons particulièrement aux méthodes d’analyse du Big data. La problématique qui se pose est que ces données sont tellement volumineuses et hétérogènes qu’elles en deviennent difficiles à gérer avec les outils classiques. Pour faire face aux défis du Big data, de nouveaux outils ont émergés. Cependant, il est souvent difficile de choisir la solution adéquate, car la vaste liste des outils disponibles change continuellement. Pour cela, nous avons fourni une étude comparative actualisée des différents outils utilisés pour extraire l'information stratégique du Big Data et les mapper aux différents besoins de traitement.La contribution principale de la thèse de doctorat est de proposer une approche d’analyse générique pour détecter de façon automatique des tendances d’opinion sur des sujets donnés à partir des réseaux sociaux. En effet, étant donné un très petit ensemble de hashtags annotés manuellement, l’approche proposée transfère l'information du sentiment connue des hashtags à des mots individuels. La ressource lexicale qui en résulte est un lexique de polarité à grande échelle dont l'efficacité est mesurée par rapport à différentes tâches de l’analyse de sentiment. La comparaison de notre méthode avec différents paradigmes dans la littérature confirme l'impact bénéfique de notre méthode dans la conception des systèmes d’analyse de sentiments très précis. En effet, notre modèle est capable d'atteindre une précision globale de 90,21%, dépassant largement les modèles de référence actuels sur l'analyse du sentiment des réseaux sociaux. / Extracting public opinion by analyzing Big Social data has grown substantially due to its interactive nature, in real time. In fact, our actions on social media generate digital traces that are closely related to our personal lives and can be used to accompany major events by analysing peoples' behavior. It is in this context that we are particularly interested in Big Data analysis methods. The volume of these daily-generated traces increases exponentially creating massive loads of information, known as big data. Such important volume of information cannot be stored nor dealt with using the conventional tools, and so new tools have emerged to help us cope with the big data challenges. For this, the aim of the first part of this manuscript is to go through the pros and cons of these tools, compare their respective performances and highlight some of its interrelated applications such as health, marketing and politics. Also, we introduce the general context of big data, Hadoop and its different distributions. We provide a comprehensive overview of big data tools and their related applications.The main contribution of this PHD thesis is to propose a generic analysis approach to automatically detect trends on given topics from big social data. Indeed, given a very small set of manually annotated hashtags, the proposed approach transfers information from hashtags known sentiments (positive or negative) to individual words. The resulting lexical resource is a large-scale lexicon of polarity whose efficiency is measured against different tasks of sentiment analysis. The comparison of our method with different paradigms in literature confirms the impact of our method to design accurate sentiment analysis systems. Indeed, our model reaches an overall accuracy of 90.21%, significantly exceeding the current models on social sentiment analysis. Big data Big social data Analyse de sentiments Analyse de tendances Outils big data Performance des outils big data Big data Big social data Social media Sentiment analysis Trends detection Big data performance Big data benchmarking 670
9	Fouille de documents et d'opinions multilingue / Mining Documents and Sentiments in Cross-lingual Context Saad, Motaz 20 January 2015 (has links) L’objectif de cette thèse est d’étudier les sentiments dans les documents comparables. Premièrement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’informations des agences de presse locales et étrangères dans les langues anglaise et arabe. Les documents en anglais ont été recueillis du site de la BBC, ceux en arabe du site d’Al-Jazzera. Deuxièmement, nous avons présenté une mesure de similarité cross-linguistique des documents dans le but de récupérer et aligner automatiquement les documents comparables. Ensuite, nous avons proposé une méthode d’annotation cross-linguistique en termes de sentiments, afin d’étiqueter les documents source et cible avec des sentiments. Enfin, nous avons utilisé des mesures statistiques pour comparer l’accord des sentiments entre les documents comparables source et cible. Les méthodes présentées dans cette thèse ne dépendent pas d’une paire de langue bien déterminée, elles peuvent être appliquées sur toute autre couple de langue / The aim of this thesis is to study sentiments in comparable documents. First, we collect English, French and Arabic comparable corpora from Wikipedia and Euronews, and we align each corpus at the document level. We further gather English-Arabic news documents from local and foreign news agencies. The English documents are collected from BBC website and the Arabic documents are collected from Al-jazeera website. Second, we present a cross-lingual document similarity measure to automatically retrieve and align comparable documents. Then, we propose a cross-lingual sentiment annotation method to label source and target documents with sentiments. Finally, we use statistical measures to compare the agreement of sentiments in the source and the target pair of the comparable documents. The methods presented in this thesis are language independent and they can be applied on any language pair Fouille de textes Corpus comparable Recherche d’information inter-Langues Projection inter-Langues Analyse des sentiments Text mining Natural language processing Comparable corpus Cross-Lingual information retrieval Cross-Lingual projection Sentiment analysis 006.312
10	Analyse automatique d'opinion : problématique de l'intensité et de la négation pour l'application à un corpus journalistique Zhang, Lei 11 December 2012 (has links) (PDF) La problématique de l'analyse d'opinion connaît un intérêt croissant depuis une quinzaine d'années. Cette problématique mène à de nombreux travaux ayant des objectifs allant de la constitution de ressources lexicales à l'identification des cibles d'une opinion. Le cadre applicatif de notre étude est l'analyse automatique d'articles de journaux pour la veille d'opinion. Ce cadre est ambitieux vis-à-vis de l'état de l'art puisque nous sommes amené à étudier un grand nombre de critères propres à l'analyse d'opinion. Nous proposons un modèle conceptuel permettant de caractériser une opinion par la polarité, l'intensité, la prototypicalité, la cible, la source, l'engagement de l'auteur, etc. En particulier, nous modélisons la négation et ses effets sur l'intensité et la polarité. En plus des cas classiques de négation, nous sommes en mesure de modéliser des effets de rhétoriques tels que l'euphémisme ou la litote, très présents dans le genre journalistique. À partir de ce modèle conceptuel, nous présentons un ensemble de choix techniques permettant de préciser les ressources et traitements nécessaires à l'automatisation. Nous mettons en œuvre deux applications (en chinois et en français) de la chaîne de traitements issue du modèle permettant de confirmer la validité du modèle conceptuel ainsi que l'efficacité des traitements automatiques. analyse d'opinion fouille d'opinions analyse de sentiments analyse automatique (linguistique) négation (linguistique) modèles linguistiques extraction d'informations

Search results