Global ETD Search

161	Outiller la conception centrée utilisateur en milieu industriel complexe : des techniques de traitement automatique de textes pour la conception des cockpits / Create tools for user centred design in a highly complex environment : automatic text analysis for cockpit design Papaïx, Benoît 20 December 2011 (has links) Dans le milieu aéronautique professionnel (un des secteurs professionnels les plus sûr au monde), la gestion des conséquences des erreurs humaines doit être améliorée pour garantir une sécurité maximum. Pour ce faire, il est nécessaire de mettre en place des techniques de conception centrées sur l’utilisateur. Cependant, la mise en place de ces techniques est rendue difficile par les particularités des systèmes sociotechniques complexes (la certification, la complexité des systèmes conçus, le nombre de personnes impliquées…). Notre étude a pour but de développer et de valider des outils d’aide à la conception centrée sur l’utilisateur, notamment pour le traitement automatique de grande quantité de données. Pour ce faire, nous avons, dans un premier temps, réalisé une étude basée sur le jugement d’expert visant à identifier, dans une base de données, des scenarii susceptibles de contenir une erreur de l’équipage. Les résultats de cette méthode par jugement d’expert ont été comparés à ceux obtenus à l’aide d’outils de traitement automatique. Cette comparaison a permis :1/ D’identifier des algorithmes pertinents pour l’extraction d’information dans des bases de données (algorithme des plus proches voisins et de filtrage bayesien) ;2/ De proposer une méthodologie permettant l’extraction automatique de situations à risque pouvant donner lieu à des études plus approfondies, sur simulateur par exemple. Cette étape est primordiale dans cadre de la conception centrée utilisateur.Les liens établis avec les études des incidents/accidents laissent envisager des impacts positifs sur la sécurité aérienne. / In the professional aeronautical field (one of the safest in the world), human error management must be improved to reach a better safety level. To do this, a user centred design process has to be implemented. However, due to the complexity of socio technical systems, the implementation of an efficient user centred design process could be challenging. To ease this process, our study aims to develop and validate specific tools, particularly for processing large amounts of textual data. In our study, we will firstly undertake an extraction of scenarios that can contain human errors in a specific database. This extraction will be based on expert judgment (control condition). Secondly, we will confront the control condition with results obtained automatically. The results of this comparison allow:1/ The identification of relevant algorithms for automatic information extraction within large textual databases (Nearest Neighbour, Bayesian filtering);2/ The identification of a methodology to extract risk situations that could be included in specific studies. This step is very important for the user centred design process.Links that we have established between our results and incident/accident studies allow us to consider positive impacts on aviation safety. Conception centrée utilisateur Traitement automatique de textes Erreur Humaine Sûreté des Systèmes Aviation User Centred Design Automatic Text Processing Human Error System Safety Aviation
162	Locating Information in Heterogeneous log files / Localisation d'information dans les fichiers logs hétérogènes Saneifar, Hassan 02 December 2011 (has links) Cette thèse s'inscrit dans les domaines des systèmes Question Réponse en domaine restreint, la recherche d'information ainsi que TALN. Les systèmes de Question Réponse (QR) ont pour objectif de retrouver un fragment pertinent d'un document qui pourrait être considéré comme la meilleure réponse concise possible à une question de l'utilisateur. Le but de cette thèse est de proposer une approche de localisation de réponses dans des masses de données complexes et évolutives décrites ci-dessous.. De nos jours, dans de nombreux domaines d'application, les systèmes informatiques sont instrumentés pour produire des rapports d'événements survenant, dans un format de données textuelles généralement appelé fichiers log. Les fichiers logs représentent la source principale d'informations sur l'état des systèmes, des produits, ou encore les causes de problèmes qui peuvent survenir. Les fichiers logs peuvent également inclure des données sur les paramètres critiques, les sorties de capteurs, ou une combinaison de ceux-ci. Ces fichiers sont également utilisés lors des différentes étapes du développement de logiciels, principalement dans l'objectif de débogage et le profilage. Les fichiers logs sont devenus un élément standard et essentiel de toutes les grandes applications. Bien que le processus de génération de fichiers logs est assez simple et direct, l'analyse de fichiers logs pourrait être une tâche difficile qui exige d'énormes ressources de calcul, de temps et de procédures sophistiquées. En effet, il existe de nombreux types de fichiers logs générés dans certains domaines d'application qui ne sont pas systématiquement exploités d'une manière efficace en raison de leurs caractéristiques particulières. Dans cette thèse, nous nous concentrerons sur un type des fichiers logs générés par des systèmes EDA (Electronic Design Automation). Ces fichiers logs contiennent des informations sur la configuration et la conception des Circuits Intégrés (CI) ainsi que les tests de vérification effectués sur eux. Ces informations, très peu exploitées actuellement, sont particulièrement attractives et intéressantes pour la gestion de conception, la surveillance et surtout la vérification de la qualité de conception. Cependant, la complexité de ces données textuelles complexes, c.-à-d. des fichiers logs générés par des outils de conception de CI, rend difficile l'exploitation de ces connaissances. Plusieurs aspects de ces fichiers logs ont été moins soulignés dans les méthodes de TALN et Extraction d'Information (EI). Le grand volume de données et leurs caractéristiques particulières limitent la pertinence des méthodes classiques de TALN et EI. Dans ce projet de recherche nous cherchons à proposer une approche qui permet de répondre à répondre automatiquement aux questionnaires de vérification de qualité des CI selon les informations se trouvant dans les fichiers logs générés par les outils de conception. Au sein de cette thèse, nous étudions principalement "comment les spécificités de fichiers logs peuvent influencer l'extraction de l'information et les méthodes de TALN?". Le problème est accentué lorsque nous devons également prendre leurs structures évolutives et leur vocabulaire spécifique en compte. Dans ce contexte, un défi clé est de fournir des approches qui prennent les spécificités des fichiers logs en compte tout en considérant les enjeux qui sont spécifiques aux systèmes QR dans des domaines restreints. Ainsi, les contributions de cette thèse consistent brièvement en :〉Proposer une méthode d'identification et de reconnaissance automatique des unités logiques dans les fichiers logs afin d'effectuer une segmentation textuelle selon la structure des fichiers. Au sein de cette approche, nous proposons un type original de descripteur qui permet de modéliser la structure textuelle et le layout des documents textuels.〉Proposer une approche de la localisation de réponse (recherche de passages) dans les fichiers logs. Afin d'améliorer la performance de recherche de passage ainsi que surmonter certains problématiques dûs aux caractéristiques des fichiers logs, nous proposons une approches d'enrichissement de requêtes. Cette approches, fondée sur la notion de relevance feedback, consiste en un processus d'apprentissage et une méthode de pondération des mots pertinents du contexte qui sont susceptibles d'exister dans les passage adaptés. Cela dit, nous proposons également une nouvelle fonction originale de pondération (scoring), appelée TRQ (Term Relatedness to Query) qui a pour objectif de donner un poids élevé aux termes qui ont une probabilité importante de faire partie des passages pertinents. Cette approche est également adaptée et évaluée dans les domaines généraux.〉Etudier l'utilisation des connaissances morpho-syntaxiques au sein de nos approches. A cette fin, nous nous sommes intéressés à l'extraction de la terminologie dans les fichiers logs. Ainsi, nous proposons la méthode Exterlog, adaptée aux spécificités des logs, qui permet d'extraire des termes selon des patrons syntaxiques. Afin d'évaluer les termes extraits et en choisir les plus pertinents, nous proposons un protocole de validation automatique des termes qui utilise une mesure fondée sur le Web associée à des mesures statistiques, tout en prenant en compte le contexte spécialisé des logs. / In this thesis, we present contributions to the challenging issues which are encounteredin question answering and locating information in complex textual data, like log files. Question answering systems (QAS) aim to find a relevant fragment of a document which could be regarded as the best possible concise answer for a question given by a user. In this work, we are looking to propose a complete solution to locate information in a special kind of textual data, i.e., log files generated by EDA design tools.Nowadays, in many application areas, modern computing systems are instrumented to generate huge reports about occurring events in the format of log files. Log files are generated in every computing field to report the status of systems, products, or even causes of problems that can occur. Log files may also include data about critical parameters, sensor outputs, or a combination of those. Analyzing log files, as an attractive approach for automatic system management and monitoring, has been enjoying a growing amount of attention [Li et al., 2005]. Although the process of generating log files is quite simple and straightforward, log file analysis could be a tremendous task that requires enormous computational resources, long time and sophisticated procedures [Valdman, 2004]. Indeed, there are many kinds of log files generated in some application domains which are not systematically exploited in an efficient way because of their special characteristics. In this thesis, we are mainly interested in log files generated by Electronic Design Automation (EDA) systems. Electronic design automation is a category of software tools for designing electronic systems such as printed circuit boards and Integrated Circuits (IC). In this domain, to ensure the design quality, there are some quality check rules which should be verified. Verification of these rules is principally performed by analyzing the generated log files. In the case of large designs that the design tools may generate megabytes or gigabytes of log files each day, the problem is to wade through all of this data to locate the critical information we need to verify the quality check rules. These log files typically include a substantial amount of data. Accordingly, manually locating information is a tedious and cumbersome process. Furthermore, the particular characteristics of log files, specially those generated by EDA design tools, rise significant challenges in retrieval of information from the log files. The specific features of log files limit the usefulness of manual analysis techniques and static methods. Automated analysis of such logs is complex due to their heterogeneous and evolving structures and the large non-fixed vocabulary.In this thesis, by each contribution, we answer to questions raised in this work due to the data specificities or domain requirements. We investigate throughout this work the main concern "how the specificities of log files can influence the information extraction and natural language processing methods?". In this context, a key challenge is to provide approaches that take the log file specificities into account while considering the issues which are specific to QA in restricted domains. We present different contributions as below:> Proposing a novel method to recognize and identify the logical units in the log files to perform a segmentation according to their structure. We thus propose a method to characterize complex logicalunits found in log files according to their syntactic characteristics. Within this approach, we propose an original type of descriptor to model the textual structure and layout of text documents.> Proposing an approach to locate the requested information in the log files based on passage retrieval. To improve the performance of passage retrieval, we propose a novel query expansion approach to adapt an initial query to all types of corresponding log files and overcome the difficulties like mismatch vocabularies. Our query expansion approach relies on two relevance feedback steps. In the first one, we determine the explicit relevance feedback by identifying the context of questions. The second phase consists of a novel type of pseudo relevance feedback. Our method is based on a new term weighting function, called TRQ (Term Relatedness to Query), introduced in this work, which gives a score to terms of corpus according to their relatedness to the query. We also investigate how to apply our query expansion approach to documents from general domains.> Studying the use of morpho-syntactic knowledge in our approaches. For this purpose, we are interested in the extraction of terminology in the log files. Thus, we here introduce our approach, named Exterlog (EXtraction of TERminology from LOGs), to extract the terminology of log files. To evaluate the extracted terms and choose the most relevant ones, we propose a candidate term evaluation method using a measure, based on the Web and combined with statistical measures, taking into account the context of log files. Recherche d'Information Traitement de la langue naturelle Fouille de textes Système Question Réponse Données Textuelles Complexes Information Retrieval Natural Language Processing Text Mining Question Answering Systems Complex Textual Data
163	La vigne, le vin et les amphores en Cilicie à l'époque romaine : production et diffusion du Ier siècle av. J.-C. au IVe siècle apr. J.-C / Vine, wine and amphorae in Roman Cilicia : production and diffusion from the 1st c. B.C. to the 4th c. AD Autret, Caroline 24 January 2015 (has links) Cette étude, réalisée dans le cadre d’une thèse de doctorat, s’appuie à la fois sur des missions de terrain (prospections, étude du mobilier amphorique issu de ces examens de surface et de fouilles archéologiques) et sur des recherches documentaires. Nous avons débuté par l’analyse des sources écrites et iconographiques qui témoignent de la vigne et du vin. Elles nous renseignent sur l’importance de ces denrées en Cilicie depuis l’époque archaïque. Nous avons poursuivi avec les installations agricoles que nous avons répertoriées. Celles-ci traduisent la place de la viniculture en Cilicie durant l’Antiquité. Leur nombre substantiel corrobore le témoignage des sources sur l’importance du vin. Les prospections pédestres nous ont permis d’identifier plusieurs ateliers amphoriques datés de l’époque romaine. Ces découvertes attestent que des amphores, récipients privilégiés du commerce maritime, étaient produites dans cette province orientale. Une partie de la production viticole était donc exportée. Le matériel récolté sur les centres de production fut étudié en vue d’établir une chrono-typologie des six types d’emballages de transport maritime façonnés localement. Enfin, le recensement des sites de consommation où ces récipients furent exportés permet de dresser la carte de diffusion des amphores locales et donc de retracer les réseaux d’échanges dans lesquels était impliquée la Cilicie. Ces données sont indispensables en vue d’appréhender l’importance tenue par le vin de cette région littorale dans le cadre plus général du commerce maritime de l’Empire romain. / This study was carried out in the context of a Ph.D thesis. It is based both on field work (surveys, studies of amphorae collected during surveys and during archaeological excavations) and on documentary research. First, the analyse of ancient sources, written and iconographic, attest to the importance of oil and wine as surplus commodities in this Mediterranean province. Investigated press elements furnish insight to the place of Cilician viticulture during Antiquity. The substantial number of these elements reinforce the assertions of ancient sources that wine was a signficant surplus commodity of this region. During our survey we identified several Roman-era kiln-sites in the region. Their presence demonstrates that Cilician transport amphorae, or maritime shipping containers, were produced to accomodate this trade. Analysis of amphora remains collected at the kiln sites and nearby excavations enabled us to construct a chrono-typology of six amphorae that were produced locally. Last, we compared our results with those of materials published at excavations conducted throughout the Mediterranean and beyond. This enabled us to trace the distribution patterns and commercial networks of Cilician surplus commodities. These data become crucial to our understanding of the place of Cilician wine trade in the wider Roman Mediterranean economy. Cilicie Vigne Vin Textes antiques Monnaies Installation agricole Atelier Amphore Cilicia Vine Wine Ancient text Coins Press elements Kiln-Site Amphora
164	Manières de lire, façons d'enseigner : dispositions à lire et à faire lire des textes littéraires chez les professeurs des écoles débutants / Ways to read, ways to teach : read and make read literary texts for novice teachers Fradet-Hannoyer, Marthe 25 November 2019 (has links) Cette thèse vise à apporter des connaissances sur le développement professionnel des professeurs des écoles débutants dans le domaine de la lecture des textes littéraires.Le cadre théorique, construit au croisement de l’analyse de l’activité enseignante, de la didactique de la compréhension et de la lecture littéraire et de la sociologie de l’éducation permet de situer ce développement au sein d’un système complexe : celui de l’activité enseignante ; celui de la formation initiale ; celui de la lecture des textes littéraires.Le cadre méthodologique composite conduit à développer une enquête quantitative visant à saisir les corpus et les enjeux assignés à la lecture des textes littéraires à l’école par les enquêtés et une enquête qualitative reposant sur le suivi longitudinal de professeurs des écoles et l’observation d’actions de formation.Notre recherche aboutit à trois conclusions : l’interdépendance entre les dispositions à lire et à faire lire du maitre et les dispositions à lire des élèves ; l’enrichissement des situations didactiques par les lectures diverses du maitre et des élèves et leur rapport dans le développement professionnel du maitre ; les apports d’action de formation intégrative et projective dans l’élaboration de l’activité enseignante dans le domaine de la lecture des textes littéraires. / This dissertation aims to provide knowledge on the professional development of teachers of beginner schools in the reading literary texts.The theoretical framework, built at the crossroads of the analysis of teaching activity, the didactics of comprehension and literary reading and the sociology of education, makes it possible to situate this development within a complex system: teacher activity; that of initial training; that of reading literary texts.The composite methodological framework leads to the development of a quantitative survey aimed at capturing the corpora and stakes assigned to the reading of literary texts at school by the respondents and a qualitative survey based on the longitudinal follow-up of school teachers and the observation of training actions.Our research leads to three conclusions: the interdependence between the teacher's ways to read and ways to teach and the reading arrangements of pupils ; the enrichment of didactic situations through the various readings of the teacher and pupils and their relationship in the professional development of the teacher; the contributions of integrative and projective training action in the development of teaching activity in the field of reading literary texts. Professeurs des écoles débutants Développement professionnel Littérature de jeunesse Formation initiale Lecture littéraire Textes littéraires Novice teacher Professional development Children's literature Novice teacher learning Literary texts
165	Des sources ibériques du théâtre élisabéthain et jacobéen : réseaux d'influence, circulation des textes, dramaturgie et théâtralité / Iberian sources of Elizabethan and Jacobean theatre : networks of influence, circulation of texts, dramaturgy and theatricality Demoux, Anna 20 September 2019 (has links) Cette thèse se propose de réévaluer le statut des sources ibériques au sein d’un corpus de pièces anglaises jouées entre la fin du règne d’Élisabeth Ie et le début de l’ère jacobéenne, période marquée par de profonds changements socio-culturels. Elle se concentre non pas sur la tension bien connue et souvent étudiée entre hispanophilie et hispanophobie qui caractérise alors la représentation des relations anglo-ibériques, mais envisage ce rapport selon une perspective textuelle, culturelle et esthétique incluant les relais qui, à l’échelle européenne, permettaient à ces textes de circuler, tout en les modifiant. Ce travail porte donc sur les réseaux d’influence des textes ibériques de la culture de cour des XVe et XVIe siècles, et leur impact sur le théâtre anglais de la première modernité. Il aborde notamment le roman sentimental Tractado de amores de Arnalte y Lucenda de Diego de San Pedro, la poésie de cour de Juan Boscán et Garcilaso de la Vega avec le long poème Leandro et le sonnet XXIX « Pasando el mar Leandro el animoso », la romance pastorale Los siete libros de La Diana de Jorge de Montemayor et le récit picaresque publié anonymement, La vida de Lazarillo de Tormes, y de sus fortunas y adversidades. Ces œuvres sont mises en dialogue avec des textes didactiques et philosophiques tels que El libro aureo de Marco Aurelio d’Antonio de Guevara, Le Courtisan de Baldassare Castiglione traduit par Boscán et El Examen de Ingenios de Juan Huarte de San Juan, qui s’intéressent tous à la figure du courtisan et à la notion de « service ». Quant au corpus de textes dramatiques anglais privilégiés dans cette étude, il est principalement constitué de pièces de Shakespeare, en particulier de The Two Gentlemen of Verona, Love’s Labour’s Lost, The Merry Wives of Windsor, Twelfth Night et The Winter’s Tale. Ces œuvres sont mises en relation avec d’autres écrits contemporains : Hero and Leander de Christopher Marlowe, Blurt Master Constable de Thomas Dekker, ainsi que des textes de John Lyly et de Ben Jonson. En complétant et réorientant les études portant sur les intrigues et les personnages de la littérature dramatique anglaise, champ d’investigation traditionnel des Source Studies, cette thèse aborde ces éléments selon une approche qui prend en compte les perspectives sociétales et théâtrales inhérentes à la littérature issue de la société de cour ibérique : cette littérature innovante reflète, façonne et interroge tout particulièrement la théâtralité d’un milieu où les individus ne cessent de se mettre en scène. Tour à tour auteurs, dédicataires et personnages-clés de ces fictions dont ils sont très friands, les membres de la société de cour ibérique fournissent ainsi aux écrivains anglais de la première modernité un terrain de jeu propice à l’innovation et à l’expérimentation dramaturgiques / This dissertation proposes to reassess the status of Iberian sources within a corpus of English plays staged between the last years of the reign of Elizabeth I and the beginning of the Jacobean era, a period marked by deep socio-cultural changes. It does not focus on the well-known and often studied tension between Hispanophilia and Hispanophobia which characterises the representation of Anglo-Iberian relations at the time, but considers this relationship from a textual, cultural and aesthetic perspective including the go-betweens that, at a European scale, enabled these texts to circulate while they were altering them. This work thus deals with the networks of influence of Iberian texts belonging to 15th-and-16th-century court culture and the impact they had on early modern English drama. In particular, it tackles the sentimental romance Tractado de amores de Arnalte y Lucenda by Diego de San Pedro, court poetry by Juan Boscán and Garcilaso de la Vega with the long poem Leandro and sonnet XXIX « Pasando el mar Leandro el animoso », the pastoral romance Los siete libros de La Diana by Jorge de Montemayor and the anonymously published picaresque tale La vida de Lazarillo de Tormes, y de sus fortunas y adversidades. These works are set in conversation with didactic and philosophical texts such as El libro aureo de Marco Aurelio by Antonio de Guevara, The Courtier by Baldassare Castiglione translated by Boscán and El Examen de Ingenios by Juan Huarte de San Juan: they all deal with the figure of the courtier and the notion of « service ». As to the corpus of English dramatic texts chosen for this study, it is mainly composed of plays by Shakespeare, notably The Two Gentlemen of Verona, Love’s Labour’s Lost, The Merry Wives of Windsor, Twelfth Night et The Winter’s Tale. These works are related to other contemporary writings: Hero and Leander by Christopher Marlowe, Blurt Master Constable by Thomas Dekker, along with texts by John Lyly and Ben Jonson. By supplementing and redirecting the studies addressing plots and characters in the English dramatic literature, the traditional field of investigation of Source Studies, this dissertation discusses these elements from a perspective which takes into account the societal and theatrical dimensions inherent to the literature born out of the Iberian court society : this innovative literature reflects, shapes and questions especially the theatricality of an environment where individuals never cease to stage themselves. Alternately authors, dedicatees and key-characters and figures of these fictions they enjoy thoroughly, the members of the Iberian court society thus provide early modern English writers with a playground conducive to dramaturgical innovation and experimentation. XVIe-XVIIe siècles Angleterre Péninsule ibérique Sources Réseaux d’influence Circulation des textes Dramaturgie Théâtralité 16th-17th centuries England Iberian peninsula Sources Networks of influence Circulation of texts Dramaturgy Theatricality
166	On Computational Stylistics : mining Literary Texts for the Extraction of Characterizing Stylistic Patterns / De la stylistique computationnelle : fouille de textes littéraires pour l'extraction de motifs stylistiques caractérisants Boukhaled, Mohamed Amine 13 September 2016 (has links) Notre thèse se situe dans le domaine interdisciplinaire de la stylistique computationnelle, à savoir l'application des méthodes statistiques et computationnelles à l'étude du style littéraire. Historiquement, la plupart des travaux effectués en stylistique computationnelle se sont concentrés sur les aspects lexicaux. Dans notre thèse, l’accent est mis sur l'aspect syntaxique du style qui est beaucoup plus difficile à analyser étant donné sa nature abstraite. Comme contribution principale, dans cette thèse, nous travaillons sur une approche à l'étude stylistique computationnelle de textes classiques de littérature française d'un point de vue herméneutique, où découvrir des traits linguistiques intéressants se fait sans aucune connaissance préalable. Plus concrètement, nous nous concentrons sur le développement et l'extraction des motifs morphosyntaxiques. Suivant la ligne de pensée herméneutique, nous proposons un processus de découverte de connaissances pour la caractérisation stylistique accentué sur la dimension syntaxique du style et permettant d'extraire des motifs pertinents à partir d'un texte donné. Ce processus proposé consiste en deux étapes principales, une étape d'extraction de motifs séquentiels suivi de l'application de certaines mesures d'intérêt. En particulier, l'extraction de tous les motifs syntaxiques possibles d'une longueur donnée est proposée comme un moyen particulièrement utile pour extraire des caractéristiques intéressantes dans un scénario exploratoire. Nous proposons, évaluons et présentons des résultats sur les trois mesures d'intérêt proposées, basée chacune sur un raisonnement théorique linguistique et statistique différent. / The present thesis locates itself in the interdisciplinary field of computational stylistics, namely the application of statistical and computational methods to the study of literary style. Historically, most of the work done in computational stylistics has been focused on lexical aspects especially in the early decades of the discipline. However, in this thesis, our focus is put on the syntactic aspect of style which is quite much harder to capture and to analyze given its abstract nature. As main contribution, we work on an approach to the computational stylistic study of classic French literary texts based on a hermeneutic point of view, in which discovering interesting linguistic patterns is done without any prior knowledge. More concretely, we focus on the development and the extraction of complex yet computationally feasible stylistic features that are linguistically motivated, namely morpho-syntactic patterns. Following the hermeneutic line of thought, we propose a knowledge discovery process for the stylistic characterization with an emphasis on the syntactic dimension of style by extracting relevant patterns from a given text. This knowledge discovery process consists of two main steps, a sequential pattern mining step followed by the application of some interestingness measures. In particular, the extraction of all possible syntactic patterns of a given length is proposed as a particularly useful way to extract interesting features in an exploratory scenario. We propose, carry out an experimental evaluation and report results on three proposed interestingness measures, each of which is based on a different theoretical linguistic and statistical backgrounds. Stylistique computationnelle Fouille de données séquentielles Découverte de connaissances Fouille de textes Motif morphosyntaxique Mesure d'interêt Computational stylistics Sequential data mining Knowledge dicovery 004
167	Local differentially private mechanisms for text privacy protection Mo, Fengran 08 1900 (has links) Dans les applications de traitement du langage naturel (NLP), la formation d’un modèle efficace nécessite souvent une quantité massive de données. Cependant, les données textuelles dans le monde réel sont dispersées dans différentes institutions ou appareils d’utilisateurs. Leur partage direct avec le fournisseur de services NLP entraîne d’énormes risques pour la confidentialité, car les données textuelles contiennent souvent des informations sensibles, entraînant une fuite potentielle de la confidentialité. Un moyen typique de protéger la confidentialité consiste à privatiser directement le texte brut et à tirer parti de la confidentialité différentielle (DP) pour protéger le texte à un niveau de protection de la confidentialité quantifiable. Par ailleurs, la protection des résultats de calcul intermédiaires via un mécanisme de privatisation de texte aléatoire est une autre solution disponible. Cependant, les mécanismes existants de privatisation des textes ne permettent pas d’obtenir un bon compromis entre confidentialité et utilité en raison de la difficulté intrinsèque de la protection de la confidentialité des textes. Leurs limitations incluent principalement les aspects suivants: (1) ces mécanismes qui privatisent le texte en appliquant la notion de dχ-privacy ne sont pas applicables à toutes les métriques de similarité en raison des exigences strictes; (2) ils privatisent chaque jeton (mot) dans le texte de manière égale en fournissant le même ensemble de sorties excessivement grand, ce qui entraîne une surprotection; (3) les méthodes actuelles ne peuvent garantir la confidentialité que pour une seule étape d’entraînement/ d’inférence en raison du manque de composition DP et de techniques d’amplification DP. Le manque du compromis utilité-confidentialité empêche l’adoption des mécanismes actuels de privatisation du texte dans les applications du monde réel. Dans ce mémoire, nous proposons deux méthodes à partir de perspectives différentes pour les étapes d’apprentissage et d’inférence tout en ne requérant aucune confiance de sécurité au serveur. La première approche est un mécanisme de privatisation de texte privé différentiel personnalisé (CusText) qui attribue à chaque jeton d’entrée un ensemble de sortie personnalisé pour fournir une protection de confidentialité adaptative plus avancée au niveau du jeton. Il surmonte également la limitation des métriques de similarité causée par la notion de dχ-privacy, en adaptant le mécanisme pour satisfaire ϵ-DP. En outre, nous proposons deux nouvelles stratégies de 5 privatisation de texte pour renforcer l’utilité du texte privatisé sans compromettre la confidentialité. La deuxième approche est un modèle Gaussien privé différentiel local (GauDP) qui réduit considérablement le volume de bruit calibrée sur la base d’un cadre avancé de comptabilité de confidentialité et améliore ainsi la précision du modèle en incorporant plusieurs composants. Le modèle se compose d’une couche LDP, d’algorithmes d’amplification DP de sous-échantillonnage et de sur-échantillonnage pour l’apprentissage et l’inférence, et d’algorithmes de composition DP pour l’étalonnage du bruit. Cette nouvelle solution garantit pour la première fois la confidentialité de l’ensemble des données d’entraînement/d’inférence. Pour évaluer nos mécanismes de privatisation de texte proposés, nous menons des expériences étendues sur plusieurs ensembles de données de différents types. Les résultats expérimentaux démontrent que nos mécanismes proposés peuvent atteindre un meilleur compromis confidentialité-utilité et une meilleure valeur d’application pratique que les méthodes existantes. En outre, nous menons également une série d’études d’analyse pour explorer les facteurs cruciaux de chaque composant qui pourront fournir plus d’informations sur la protection des textes et généraliser d’autres explorations pour la NLP préservant la confidentialité. / In Natural Language Processing (NLP) applications, training an effective model often requires a massive amount of data. However, text data in the real world are scattered in different institutions or user devices. Directly sharing them with the NLP service provider brings huge privacy risks, as text data often contains sensitive information, leading to potential privacy leakage. A typical way to protect privacy is to directly privatize raw text and leverage Differential Privacy (DP) to protect the text at a quantifiable privacy protection level. Besides, protecting the intermediate computation results via a randomized text privatization mechanism is another available solution. However, existing text privatization mechanisms fail to achieve a good privacy-utility trade-off due to the intrinsic difficulty of text privacy protection. The limitations of them mainly include the following aspects: (1) those mechanisms that privatize text by applying dχ-privacy notion are not applicable for all similarity metrics because of the strict requirements; (2) they privatize each token in the text equally by providing the same and excessively large output set which results in over-protection; (3) current methods can only guarantee privacy for either the training/inference step, but not both, because of the lack of DP composition and DP amplification techniques. Bad utility-privacy trade-off performance impedes the adoption of current text privatization mechanisms in real-world applications. In this thesis, we propose two methods from different perspectives for both training and inference stages while requiring no server security trust. The first approach is a Customized differentially private Text privatization mechanism (CusText) that assigns each input token a customized output set to provide more advanced adaptive privacy protection at the token-level. It also overcomes the limitation for the similarity metrics caused by dχ-privacy notion, by turning the mechanism to satisfy ϵ-DP. Furthermore, we provide two new text privatization strategies to boost the utility of privatized text without compromising privacy. The second approach is a Gaussian-based local Differentially Private (GauDP) model that significantly reduces calibrated noise power adding to the intermediate text representations based on an advanced privacy accounting framework and thus improves model accuracy by incorporating several components. The model consists of an LDP-layer, sub-sampling and up-sampling DP amplification algorithms 7 for training and inference, and DP composition algorithms for noise calibration. This novel solution guarantees privacy for both training and inference data. To evaluate our proposed text privatization mechanisms, we conduct extensive experiments on several datasets of different types. The experimental results demonstrate that our proposed mechanisms can achieve a better privacy-utility trade-off and better practical application value than the existing methods. In addition, we also carry out a series of analyses to explore the crucial factors for each component which will be able to provide more insights in text protection and generalize further explorations for privacy-preserving NLP. Traitement du langue naturelle Confidentialité différentielle Natural language processing Differential privacy Text privacy protection Privacy-Preserving method
168	Low-resource suicide ideation and depression detection with multitask learning and large language models Breau, Pierre-William 08 1900 (has links) Nous évaluons des méthodes de traitement automatique du langage naturel (TALN) pour la détection d’idées suicidaires, de la dépression et de l’anxiété à partir de publications sur les médias sociaux. Comme les ensembles de données relatifs à la santé mentale sont rares et généralement de petite taille, les méthodes classiques d’apprentissage automatique ont traditionnellement été utilisées dans ce domaine. Nous évaluons l’effet de l’apprentissage multi-tâche sur la détection d’idées suicidaires en utilisant comme tâches auxiliaires des ensembles de données disponibles publiquement pour la détection de la dépression et de l’anxiété, ainsi que la classification d’émotions et du stress. Nous constatons une hausse de la performance de classification pour les tâches de détection d’idées suicidaires, de la dépression et de l’anxiété lorsqu’elles sont entraînées ensemble en raison de similitudes entre les troubles de santé mentale à l’étude. Nous observons que l’utilisation d’ensembles de données publiquement accessibles pour des tâches connexes peut bénéficier à la détection de problèmes de santé mentale. Nous évaluons enfin la performance des modèles ChatGPT et GPT-4 dans des scénarios d’apprentissage zero-shot et few-shot. GPT-4 surpasse toutes les autres méthodes testées pour la détection d’idées suicidaires. De plus, nous observons que ChatGPT bénéficie davantage de l’apprentissage few-shot, car le modèle fournit un haut taux de réponses non concluantes si aucun exemple n’est présenté. Enfin, une analyse des faux négatifs produits par GPT-4 pour la détection d’idées suicidaires conclut qu’ils sont dus à des erreurs d’étiquetage plutôt qu’à des lacunes du modèle. / In this work we explore natural language processing (NLP) methods to suicide ideation, depression, and anxiety detection in social media posts. Since annotated mental health data is scarce and difficult to come by, classical machine learning methods have traditionally been employed on this type of task due to the small size of the datasets. We evaluate the effect of multi-task learning on suicide ideation detection using publicly-available datasets for depression, anxiety, emotion and stress classification as auxiliary tasks. We find that classification performance of suicide ideation, depression, and anxiety is improved when trained together because of the proximity between the mental disorders. We observe that publicly-available datasets for closely-related tasks can benefit the detection of certain mental health conditions. We then perform classification experiments using ChatGPT and GPT-4 using zero-shot and few-shot learning, and find that GPT-4 obtains the best performance of all methods tested for suicide ideation detection. We further observe that ChatGPT benefits the most from few-shot learning as it struggles to give conclusive answers when no examples are provided. Finally, an analysis of false negative results for suicide ideation output by GPT-4 concludes that they are due to labeling errors rather than mistakes from the model. Modèles de langage Idées suicidaires Classification de textes Apprentissage multitâche Language models Suicide ideation Text classification Multitask learning
169	Aspects de la tradition orale comme marqueurs d'identité culturelle : le vocabulaire et la chanson traditionnelle des francophones du Détroit Bénéteau, Marcel 25 April 2018 (has links) La communauté francophone du Sud-Ouest ontarien, qui remonte à la fondation de la colonie du Détroit par Cadillac en 1701, s'avère d'un intérêt particulier pour les enquêteurs, et ce dans plusieurs domaines. Non seulement constitue-t-elle le plus ancien peuplement francophone permanent à l'ouest de Montréal, mais elle fut longtemps isolée des autres régions du Canada français. Qui plus est, sa population s'établit à deux époques distinctes, dans des contextes de peuplement complètement différents: un premier groupe, composé de marchands, de militaires, de voyageurs et d'agriculteurs, s'établit le long de la rivière Détroit au 18e siècle; plus de cent ans plus tard, un deuxième groupe d'agriculteurs québécois vint occuper les terres plus à l'est, au bord du lac Sainte-Claire. Malgré leurs différentes origines et certains traits culturels distinctifs propres à chacune de ces populations, la plupart des chercheurs ont traité les francophones du Sud-ouest comme un groupe homogène, l'identifiant sans aucune nuance à la grande communauté franco-ontarienne, elle- même considérée comme une simple extension du Québec. Le but de cette étude était d'abord d'établir que la communauté francophone du Détroit est effectivement composée de deux groupes culturellement distincts. La démarche suivie consiste en l'analyse de deux corpus recueillis dans la région depuis 1989: d'abord, un lexique de plus de 3000 archaïsmes et régionalismes employés par les habitants des deux zones de peuplement, et aussi un répertoire d'environ 2000 chansons traditionnelles françaises, également distribuées chez les deux populations. La distribution géographique des éléments de ces deux corpus sur l'ensemble du terrain révèle que chacun des groupes garde effectivement d'importantes particularités régionales et que celles-ci sont reliées de près aux contextes socio-culturels présents à leurs époques de peuplement respectives. De cette façon, les facteurs historiques et géographiques sont réintroduits dans le discours identitaire des Franco-Ontariens. De plus, la comparaison des chansons avec des répertoires recueillis ailleurs en Amérique française remet en question plusieurs acquis concernant la chanson traditionnelle au Canada français. Enfin, l'étude éclaire les liens entre la tradition orale, la langue qui véhicule son expression et le contexte historique à l'époque de son implantation dans une région. / Québec Université Laval, Bibliothèque 2014 D 3.5 UL 2001 B465
170	Classification automatique de commentaires synchrones dans les vidéos de danmaku Peng, Youyang 01 1900 (has links) Le danmaku désigne les commentaires synchronisés qui s’affichent et défilent directement en surimpression sur des vidéos au fil du visionnement. Bien que les danmakus proposent à l’audience une manière originale de partager leur sentiments, connaissances, compréhensions et prédictions sur l’histoire d’une série, etc., et d’interagir entre eux, la façon dont les commentaires s’affichent peut nuire à l’expérience de visionnement, lorsqu’une densité excessive de commentaires dissimule complètement les images de la vidéo ou distrait l’audience. Actuellement, les sites de vidéo chinois emploient principalement des méthodes par mots-clés s’appuyant sur des expressions régulières pour éliminer les commentaires non désirés. Ces approches risquent fortement de surgénéraliser en supprimant involontairement des commentaires intéressants contenant certains mots-clés ou, au contraire, de sous-généraliser en étant incapables de détecter ces mots lorsqu’ils sont camouflés sous forme d’homophones. Par ailleurs, les recherches existantes sur la classification automatique du danmaku se consacrent principalement à la reconnaissance de la polarité des sentiments exprimés dans les commentaires. Ainsi, nous avons cherché à regrouper les commentaires par classes fonctionnelles, à évaluer la robustesse d’une telle classification et la possibilité de l’automatiser dans la perspective de développer de meilleurs systèmes de filtrage des commentaires. Nous avons proposé une nouvelle taxonomie pour catégoriser les commentaires en nous appuyant sur la théorie des actes de parole et la théorie des gratifications dans l’usage des médias, que nous avons utilisées pour produire un corpus annoté. Un fragment de ce corpus a été co-annoté pour estimer un accord inter-annotateur sur la classification manuelle. Enfin, nous avons réalisé plusieurs expériences de classification automatique. Celles-ci comportent trois étapes : 1) des expériences de classification binaire où l’on examine si la machine est capable de faire la distinction entre la classe majoritaire et les classes minoritaires, 2) des expériences de classification multiclasses à granularité grosse cherchant à classifier les commentaires selon les catégories principales de notre taxonomie, et 3) des expériences de classification à granularité fine sur certaines sous-catégories. Nous avons expérimenté avec des méthodes d’apprentissage automatique supervisé et semi-supervisé avec différents traits. / Danmaku denotes synchronized comments which are displayed and scroll directly on top of videos as they unfold. Although danmaku offers an innovative way to share their sentiments, knowledge, predictions on the plot of a series, etc., as well as to interact with each other, the way comments display can have a negative impact on the watching experience, when the number of comments displayed in a given timespan is so high that they completely hide the pictures, or distract audience. Currently, Chinese video websites mainly ressort to keyword approaches based on regular expressions to filter undesired comments. These approaches are at high risk to overgeneralize, thus deleting interesting comments coincidentally containing some keywords, or, to the contrary, undergeneralize due to their incapacity to detect occurrences of these keywords disguised as homophones. On another note, existing research focus essentially on recognizing the polarity of sentiments expressed within comments. Hence, we have sought to regroup comments into functional classes, evaluate the robustness of such a classification and the feasibility of its automation, under an objective of developping better comments filtering systems. Building on the theory of speech acts and the theory of gratification in media usage, we have proposed a new taxonomy of danmaku comments, and applied it to produce an annotated corpus. A fragment of the corpus has been co-annotated to estimate an interannotator agreement for human classification. Finally, we performed several automatic classification experiments. These involved three steps: 1) binary classification experiments evaluating whether the machine can distinguish the most frequent class from all others, 2) coarse-grained multi-class classification experiments aiming at classifying comments within the main categories of our taxonomy, and 3) fine-grained multi-class classification experiments on specific subcategories. We experimented both with supervised and semi-supervised learning algorithms with diffrent features. Danmaku Taxonomie Annotation du corpus Traitement automatique des langues Classification automatique de textes Apprentissage automatique Taxonomy Corpus annotation Natural language processing Automatic text classification Machine learning Linguistics / Linguistique (UMI : 0290)

Search results