Global ETD Search

131	Modelos de tópicos na classificação automática de resenhas de usuários. / Topic models in user review automatic classification. Denis Deratani Mauá 14 August 2009 (has links) Existe um grande número de resenhas de usuário na internet contendo valiosas informações sobre serviços, produtos, política e tendências. A compreensão automática dessas opiniões é não somente cientificamente interessante, mas potencialmente lucrativa. A tarefa de classificação de sentimentos visa a extração automática das opiniões expressas em documentos de texto. Diferentemente da tarefa mais tradicional de categorização de textos, na qual documentos são classificados em assuntos como esportes, economia e turismo, a classificação de sentimentos consiste em anotar documentos com os sentimentos expressos no texto. Se comparados aos classificadores tradicionais, os classificadores de sentimentos possuem um desempenho insatisfatório. Uma das possíveis causas do baixo desempenho é a ausência de representações adequadas que permitam a discriminação das opiniões expressas de uma forma concisa e própria para o processamento de máquina. Modelos de tópicos são modelos estatísticos que buscam extrair informações semânticas ocultas na grande quantidade de dados presente em coleções de texto. Eles representam um documento como uma mistura de tópicos, onde cada tópico é uma distribuição de probabilidades sobre palavras. Cada distribuição representa um conceito semântico implícito nos dados. Modelos de tópicos, as palavras são substituídas por tópicos que representam seu significado de forma sucinta. De fato, os modelos de tópicos realizam uma redução de dimensionalidade nos dados que pode levar a um aumento do desempenho das técnicas de categorização de texto e recuperação de informação. Na classificação de sentimentos, eles podem fornecer a representação necessária através da extração de tópicos que representem os sentimentos expressos no texto. Este trabalho dedica-se ao estudo da aplicação de modelos de tópicos na representação e classificação de sentimentos de resenhas de usuário. Em particular, o modelo Latent Dirichlet Allocation (LDA) e quatro extensões (duas delas desenvolvidas pelo autor) são avaliados na tarefa de classificação de sentimentos baseada em múltiplos aspectos. As extensões ao modelo LDA permitem uma investigação dos efeitos da incorporação de informações adicionais como contexto, avaliações de aspecto e avaliações de múltiplos aspectos no modelo original. / There is a large number of user reviews on the internet with valuable information on services, products, politics and trends. There is both scientific and economic interest in the automatic understanding of such data. Sentiment classification is concerned with automatic extraction of opinions expressed in user reviews. Unlike standard text categorization tasks that deal with the classification of documents into subjects such as sports, economics and tourism, sentiment classification attempts to tag documents with respect to the feelings they express. Compared to the accuracy of standard methods, sentiment classifiers have shown poor performance. One possible cause of such a poor performance is the lack of adequate representations that lead to opinion discrimination in a concise and machine-readable form. Topic Models are statistical models concerned with the extraction of semantic information hidden in the large number of data available in text collections. They represent a document as a mixture of topics, probability distributions over words that represent a semantic concept. According to Topic Model representation, words can be substituted by topics able to represent concisely its meaning. Indeed, Topic Models perform a data dimensionality reduction that can improve the performance of text classification and information retrieval techniques. In sentiment classification, they can provide the necessary representation by extracting topics that represent the general feelings expressed in text. This work presents a study of the use of Topic Models for representing and classifying user reviews with respect to their feelings. In particular, the Latent Dirichlet Allocation (LDA) model and four extensions (two of them developed by the author) are evaluated on the task of aspect-based sentiment classification. The extensions to the LDA model enables us to investigate the effects of the incorporation of additional information such as context, aspect rating and multiple aspect rating into the original model. Aprendizado computacional Aprendizado de máquina Categorização de texto Classificação de sentimento Inteligência artificial Processamento de texto Artificial intelligence Computational learning Machine learning Sentiment classification Text categorization Text processing
132	Outiller la conception centrée utilisateur en milieu industriel complexe : des techniques de traitement automatique de textes pour la conception des cockpits / Create tools for user centred design in a highly complex environment : automatic text analysis for cockpit design Papaïx, Benoît 20 December 2011 (has links) Dans le milieu aéronautique professionnel (un des secteurs professionnels les plus sûr au monde), la gestion des conséquences des erreurs humaines doit être améliorée pour garantir une sécurité maximum. Pour ce faire, il est nécessaire de mettre en place des techniques de conception centrées sur l’utilisateur. Cependant, la mise en place de ces techniques est rendue difficile par les particularités des systèmes sociotechniques complexes (la certification, la complexité des systèmes conçus, le nombre de personnes impliquées…). Notre étude a pour but de développer et de valider des outils d’aide à la conception centrée sur l’utilisateur, notamment pour le traitement automatique de grande quantité de données. Pour ce faire, nous avons, dans un premier temps, réalisé une étude basée sur le jugement d’expert visant à identifier, dans une base de données, des scenarii susceptibles de contenir une erreur de l’équipage. Les résultats de cette méthode par jugement d’expert ont été comparés à ceux obtenus à l’aide d’outils de traitement automatique. Cette comparaison a permis :1/ D’identifier des algorithmes pertinents pour l’extraction d’information dans des bases de données (algorithme des plus proches voisins et de filtrage bayesien) ;2/ De proposer une méthodologie permettant l’extraction automatique de situations à risque pouvant donner lieu à des études plus approfondies, sur simulateur par exemple. Cette étape est primordiale dans cadre de la conception centrée utilisateur.Les liens établis avec les études des incidents/accidents laissent envisager des impacts positifs sur la sécurité aérienne. / In the professional aeronautical field (one of the safest in the world), human error management must be improved to reach a better safety level. To do this, a user centred design process has to be implemented. However, due to the complexity of socio technical systems, the implementation of an efficient user centred design process could be challenging. To ease this process, our study aims to develop and validate specific tools, particularly for processing large amounts of textual data. In our study, we will firstly undertake an extraction of scenarios that can contain human errors in a specific database. This extraction will be based on expert judgment (control condition). Secondly, we will confront the control condition with results obtained automatically. The results of this comparison allow:1/ The identification of relevant algorithms for automatic information extraction within large textual databases (Nearest Neighbour, Bayesian filtering);2/ The identification of a methodology to extract risk situations that could be included in specific studies. This step is very important for the user centred design process.Links that we have established between our results and incident/accident studies allow us to consider positive impacts on aviation safety. Conception centrée utilisateur Traitement automatique de textes Erreur Humaine Sûreté des Systèmes Aviation User Centred Design Automatic Text Processing Human Error System Safety Aviation
133	Condition-specific differential subnetwork analysis for biological systems Jhamb, Deepali 04 1900 (has links) Indiana University-Purdue University Indianapolis (IUPUI) / Biological systems behave differently under different conditions. Advances in sequencing technology over the last decade have led to the generation of enormous amounts of condition-specific data. However, these measurements often fail to identify low abundance genes/proteins that can be biologically crucial. In this work, a novel text-mining system was first developed to extract condition-specific proteins from the biomedical literature. The literature-derived data was then combined with proteomics data to construct condition-specific protein interaction networks. Further, an innovative condition-specific differential analysis approach was designed to identify key differences, in the form of subnetworks, between any two given biological systems. The framework developed here was implemented to understand the differences between limb regeneration-competent Ambystoma mexicanum and –deficient Xenopus laevis. This study provides an exhaustive systems level analysis to compare regeneration competent and deficient subnetworks to show how different molecular entities inter-connect with each other and are rewired during the formation of an accumulation blastema in regenerating axolotl limbs. This study also demonstrates the importance of literature-derived knowledge, specific to limb regeneration, to augment the systems biology analysis. Our findings show that although the proteins might be common between the two given biological conditions, they can have a high dissimilarity based on their biological and topological properties in the subnetwork. The knowledge gained from the distinguishing features of limb regeneration in amphibians can be used in future to chemically induce regeneration in mammalian systems. The approach developed in this dissertation is scalable and adaptable to understand differential subnetworks between any two biological systems. This methodology will not only facilitate the understanding of biological processes and molecular functions which govern a given system but also provide novel intuitions about the pathophysiology of diseases/conditions. Limb regeneration Text mining Differential network analysis Subnetwork analysis Concept based mining Extremities (Anatomy) -- Regeneration Extremities (Anatomy) -- Physiology Text processing (Computer science) Data mining
134	Probabilistic tree transducers for grammatical error correction Buys, Jan Moolman 12 1900 (has links) Thesis (MSc)--Stellenbosch University, 2013. / ENGLISH ABSTRACT: We investigate the application of weighted tree transducers to correcting grammatical errors in natural language. Weighted finite-state transducers (FST) have been used successfully in a wide range of natural language processing (NLP) tasks, even though the expressiveness of the linguistic transformations they perform is limited. Recently, there has been an increase in the use of weighted tree transducers and related formalisms that can express syntax-based natural language transformations in a probabilistic setting. The NLP task that we investigate is the automatic correction of grammar errors made by English language learners. In contrast to spelling correction, which can be performed with a very high accuracy, the performance of grammar correction systems is still low for most error types. Commercial grammar correction systems mostly use rule-based methods. The most common approach in recent grammatical error correction research is to use statistical classifiers that make local decisions about the occurrence of specific error types. The approach that we investigate is related to a number of other approaches inspired by statistical machine translation (SMT) or based on language modelling. Corpora of language learner writing annotated with error corrections are used as training data. Our baseline model is a noisy-channel FST model consisting of an n-gram language model and a FST error model, which performs word insertion, deletion and replacement operations. The tree transducer model we use to perform error correction is a weighted top-down tree-to-string transducer, formulated to perform transformations between parse trees of correct sentences and incorrect sentences. Using an algorithm developed for syntax-based SMT, transducer rules are extracted from training data of which the correct version of sentences have been parsed. Rule weights are also estimated from the training data. Hypothesis sentences generated by the tree transducer are reranked using an n-gram language model. We perform experiments to evaluate the performance of different configurations of the proposed models. In our implementation an existing tree transducer toolkit is used. To make decoding time feasible sentences are split into clauses and heuristic pruning is performed during decoding. We consider different modelling choices in the construction of transducer rules. The evaluation of our models is based on precision and recall. Experiments are performed to correct various error types on two learner corpora. The results show that our system is competitive with existing approaches on several error types. / AFRIKAANSE OPSOMMING: Ons ondersoek die toepassing van geweegde boomoutomate om grammatikafoute in natuurlike taal outomaties reg te stel. Geweegde eindigetoestand outomate word suksesvol gebruik in ’n wye omvang van take in natuurlike taalverwerking, alhoewel die uitdrukkingskrag van die taalkundige transformasies wat hulle uitvoer beperk is. Daar is die afgelope tyd ’n toename in die gebruik van geweegde boomoutomate en verwante formalismes wat sintaktiese transformasies in natuurlike taal in ’n probabilistiese raamwerk voorstel. Die natuurlike taalverwerkingstoepassing wat ons ondersoek is die outomatiese regstelling van taalfoute wat gemaak word deur Engelse taalleerders. Terwyl speltoetsing in Engels met ’n baie hoë akkuraatheid gedoen kan word, is die prestasie van taalregstellingstelsels nog relatief swak vir meeste fouttipes. Kommersiële taalregstellingstelsels maak oorwegend gebruik van reël-gebaseerde metodes. Die algemeenste benadering in onlangse navorsing oor grammatikale foutkorreksie is om statistiese klassifiseerders wat plaaslike besluite oor die voorkoms van spesifieke fouttipes maak te gebruik. Die benadering wat ons ondersoek is verwant aan ’n aantal ander benaderings wat geïnspireer is deur statistiese masjienvertaling of op taalmodellering gebaseer is. Korpora van taalleerderskryfwerk wat met foutregstellings geannoteer is, word as afrigdata gebruik. Ons kontrolestelsel is ’n geraaskanaal eindigetoestand outomaatmodel wat bestaan uit ’n n-gram taalmodel en ’n foutmodel wat invoegings-, verwyderings- en vervangingsoperasies op woordvlak uitvoer. Die boomoutomaatmodel wat ons gebruik vir grammatikale foutkorreksie is ’n geweegde bo-na-onder boom-na-string omsetteroutomaat geformuleer om transformasies tussen sintaksbome van korrekte sinne en foutiewe sinne te maak. ’n Algoritme wat ontwikkel is vir sintaksgebaseerde statistiese masjienvertaling word gebruik om reëls te onttrek uit die afrigdata, waarvan sintaksontleding op die korrekte weergawe van die sinne gedoen is. Reëlgewigte word ook vanaf die afrigdata beraam. Hipotese-sinne gegenereer deur die boomoutomaat word herrangskik met behulp van ’n n-gram taalmodel. Ons voer eksperimente uit om die doeltreffendheid van verskillende opstellings van die voorgestelde modelle te evalueer. In ons implementering word ’n bestaande boomoutomaat sagtewarepakket gebruik. Om die dekoderingstyd te verminder word sinne in frases verdeel en die soekruimte heuristies besnoei. Ons oorweeg verskeie modelleringskeuses in die samestelling van outomaatreëls. Die evaluering van ons modelle word gebaseer op presisie en herroepvermoë. Eksperimente word uitgevoer om verskeie fouttipes reg te maak op twee leerderkorpora. Die resultate wys dat ons model kompeterend is met bestaande benaderings op verskeie fouttipes. Grammar correction -- Data processing Natural language processing Weighted tree transducer Text processing (Computer science) Dissertations -- Mathematical sciences Theses -- Mathematical sciences Dissertations -- Computer science Theses -- Computer science Computational linguistics English language -- Grammar
135	Interprétation de Documents Techniques : des Outils à leur Intégration dans un Système à Base de Connaissances Adam, Sébastien 11 December 2001 (has links) (PDF) Les travaux présentés dans ce mémoire abordent la problématique de l'interprétation de documents techniques. Dans ce contexte, ils se trouvent à la confluence de différentes thématiques de recherche telles que le traitement du signal et des images, la reconnaissance de formes, l'intelligence artificielle, la communication Homme/Machine et l'ingénierie des connaissances. En effet, si ces domaines scientifiques diffèrent dans leurs fondements, ils sont complémentaires et leurs apports respectifs sont indispensables pour la conception d'un système d'interprétation fiable et adaptable. Dans ce contexte pluridisciplinaire, le mémoire est organisé en deux parties. La première partie propose une méthodologie originale permettant la détection et la reconnaissance de formes (caractères et symboles) multi-orientées et multi-échelles. L'approche adoptée est basée sur la transformée de Fourier-Mellin. Elle permet la reconnaissance de formes isolées, mais aussi, dans une certaine mesure, de formes connectées. Son utilisation autorise en outre l'estimation des paramètres de mouvements des formes. Les outils développés sont évalués et comparés sur différentes bases de caractères et les résultats obtenus sont tout à fait compétitifs au regard des approches de la littérature. La seconde partie de ce mémoire aborde quant à elle la problématique de l'interprétation de documents techniques avec un point de vue orienté vers l'ingénierie des connaissances. Les réflexions proposées dans ce cadre permettent selon nous de montrer la faisabilité et la pertinence d'une démarche orientée connaissances pour la conception d'un système d'interprétation. Elles ont donné lieu à une implémentation conduisant à un système nommé NATALI v2. Une représentation explicite des connaissances, une architecture logicielle à base d'agents ainsi que différentes interfaces homme-machine offrent une bonne adaptabilité et une grande souplesse au système. analyse d'image interprétation de documents techniques transformée de Fourier-Mellin représentation de connaissances système multi-agents interfaces homme-machine
136	Poválečná generace překladatelů: malé a velké dějiny. Ilustrace problematiky na rozhovorech s překladateli / The postwar generation of translators: Small and Big History. Illustration issues on interviews with translators Neudertová, Miriam January 2013 (has links) During the research project "The situation of literary translation in Czech society after 1945", which was initiated by the Institute of Translation studies of the Faculty of Arts of Charles University and undertaken between 2008 and 2011, nearly thirty interviews were conducted with important Czech translators of the post-war generation. This thesis follows the cited research project. It is divided into three parts. The first part presents an introduction to the methods of oral history. The second part confronts objective historical facts with subjective memory - information obtained through the conducted interviews. The third part expands the corpus with two further sets of interviews. These are introduced by a short depiction of the presented narrators and followed by an editorial note. In the summary the paper points out and evaluates the results gained by the present research, including the newly collected material.
137	Anforderungen, Entwurfsmuster und Systeme für kollaboratives Schreiben Stüber, Frank 14 November 2011 (has links) Kollaboratives Schreiben (KS) bezeichnet das gemeinsame Erstellen eines Textdokuments in einer Gruppe, deren Mitglieder zur gleichen Zeit oder an unterschiedlichen Zeiten, am gleichen oder an unterschiedlichen Orten arbeiten können. Ausgehend von einer detaillierten KS-Analyse und den daraus resultierenden Anforderungen an softwaregestützte KS-Systeme, werden zunächst typischen Entwurfsmuster für die Implementation derartiger Systeme herausgearbeitet. Im Anschluss daran werden zwei unterschiedliche Software-Architekturen entwickelt und diskutiert. Zum einen ist dies eine Erweiterung des etablierten Protokollstandards WebDAV um eine auf Textabschnitten basierende Synchronisation, zum anderen eine idealtypische Architektur für ein neu zu entwickelndes KS-System, welche im Gegensatz zu herkömmlichen Textverarbeitungssystem nicht nur den Text sondern ein Projekt, bestehend aus Text und dessen verknüpften bzw. begleitenden Ressourcen, in den Mittelpunkt der Kollaboration stellt. / Collaborative writing (CW) is a joint work to create a text document in a group whose members are working at different times and at different locations. Firstly, based on a detailed analysis of CW and the resulting demands on software-based CW systems, typical patterns for the implementation of such systems are identified. Subsequently, two different software architectures are developed and discussed. While the first is an extension of the established protocol standard WebDAV to include a section based text synchronization. The second is an ideal type architecture for a newly developed CW system, which in contrast to a conventional word processing system takes not only the text at the center of collaboration but a complete project consisting of text and its linked or associated resources. Kollaboration Kollaboratives Schreiben Kollaborative Textverarbeitung Kollaborative Entwurfsmuster Collaboration Collaborative Writing Collaborative Text Processing Collaborative Design Patterns AN 96300 ddc:020
138	Structuration automatique de flux télévisuels Guinaudeau, Camille 07 December 2011 (has links) (PDF) L'augmentation du nombre de documents multimédias disponibles rend nécessaire la mise en place de méthodes de structuration automatique capables de faciliter l'accès à l'information contenue dans les documents, tout en étant suffisamment génériques pour pouvoir structurer des documents tout-venants. Dans ce cadre, nous proposons deux types de structuration, linéaire et hiérarchique, s'appuyant sur les transcriptions automatiques de la parole prononcée dans les documents. Ces transcriptions, indépendantes du type des documents considérés, sont exploitées par le biais de méthodes issues du traitement automatiques des langues (TAL). Les deux techniques de structuration, ainsi que la phase de segmentation thématique sur laquelle elles reposent, donnent lieu à plusieurs contributions originales. Tout d'abord, la méthode de segmentation thématique employée, originellement développée pour du texte écrit, est adaptée aux particularités des transcriptions automatiques de vidéos professionnelles - erreurs de transcription, faible nombre de répétitions de vocabulaire. Le critère de cohésion lexicale sur lequel elle se fonde est, en effet, sensible à ces spécificités, ce qui pénalise fortement les performances de l'algorithme. Cette adaptation est mise en place, d'une part grâce à la prise en compte, lors du calcul de la cohésion lexicale, de connaissances linguistiques et d'informations issues de la reconnaissance automatique de la parole et du signal (relations sémantiques, prosodie, mesures de confiance), et d'autre part grâce à des techniques d'interpolation de modèles de langue. À partir de cette étape de segmentation thématique, nous proposons une méthode de structuration thématique linéaire permettant de mettre en relation des segments abordant des thématiques similaires. La méthode employée, fondée sur une technique issue du domaine de la recherche d'information, est adaptée aux données audiovisuelles grâce à des indices prosodiques, qui permettent de favoriser les mots proéminents dans le discours, et des relations sémantiques. Finalement, nous proposons un travail plus exploratoire examinant différentes pistes pour adapter un algorithme de segmentation thématique linéaire à une tâche de segmentation thématique hiérarchique. Pour cela, l'algorithme de segmentation linéaire est modifié - ajustement du calcul de la cohésion lexicale, utilisation de chaines lexicales - pour prendre en compte la distribution du vocabulaire au sein du document à segmenter. Les expérimentations menées sur trois corpora composés de journaux télévisés et d'émissions de reportages, transcrits manuellement et automatiquement, montrent que les approches proposées conduisent à une amélioration des performances des méthodes de structuration développées. multimédia traitement automatique des langues reconnaissance automatique de la parole structuration de flux télévisuels segmentation thématique mesures de confiance relations sémantiques prosodie segmentation thématique hiérarchique
139	Edition collaborative des documents semi-structurés Martin, Stéphane 08 September 2011 (has links) (PDF) Les éditeurs collaboratifs permettent à des utilisateurs éloignés de collaborer à une tâche commune qui va de l'utilisation d'un agenda partagé à la réalisation de logiciels. Ce concept est né avec SCCS en 1972 et connait un engouement récent (ex: Wikipedia). L'absence de centralisation et l'asynchronisme sont des aspects essentiels de cette approche qui relève d'un modèle pair-à-pair (P2P). D'un autre côté, le format XML est devenu une référence pour la manipulation et l'échange de documents. Notre travail vise à la réalisation d'un éditeur collaboratif P2P pour l'édition de documents semi-structurés qui sont une abstraction du format XML. Le problème est difficile et de nombreuses propositions se sont révélées erronées ou ne passant pas à l'échelle. Nous rappelons les concepts et l'état de l'art sur l'édition collaborative, les modèles centralisés et le P2P. Ensuite, nous explorons deux approches différentes : les transformées opérationnelles et le CRDT (Commutative Replicated Data Type) avec différentes structures de données arborescentes. L'objectif est de réaliser les opérations de base (ajout, suppression et ré-étiquetage) tout en garantissant la convergence du processus d'édition. Nous proposons un algorithme générique pour l'approche CRDT basée sur une notion d'indépendance dans la structure de données. Nous avons étendu nos travaux afin de réaliser l'opération de déplacement d'un sous-arbre et de prendre en compte le typage XML. Peu de travaux abordent ces deux points qui sont très utiles pour l'édition de documents. Finalement, nous donnons les résultats expérimentaux obtenus avec un prototype permettant de valider notre approche. Edition collaborative Pair-à-Pair Documents semi-structurés Transformées opérationnelles Type pour XML
140	Convergence des copies dans les environnements collaboratifs répartis Vidot, Nicolas 20 September 2002 (has links) (PDF) Dans les environnements collaboratifs répartis temps réel, les objets répliqués, partagés par les utilisateurs sont soumis à des contraintes de concurrence. Pour les satisfaire, différents algorithmes de contrôle, exploitant les propriétés sémantiques des opérations et utilisant les Transformées opérationnelles, ont été proposés de façon à ordonner les opérations concurrentes et par-là garantir la convergence des copies d'un objet tout en respectant l'intention des usagers. Leur inconvénient est d'imposer ou bien que les opérations utilisées par les utilisateurs satisfassent une condition, difficile à vérifier et qu'il n'est pas toujours possible d'assurer, ou bien de défaire puis de refaire des opérations dans certaines situations. Le premier objectif de la thèse est de présenter deux nouveaux algorithmes n'ayant pas ces défauts. Ils reposent sur la mise en œuvre d'un ordre global continu qui permet non seulement de s'affranchir de cette condition mais aussi de simplifier le processus d'intégration d'une opération. Dans l'un des algorithmes, SOCT4 dont nous donnons la preuve formelle, l'intégration est encore simplifiée en différant la diffusion des opérations alors que dans l'autre, SOCT5, le parallélisme dans la diffusion est privilégié. L'extension de ces algorithmes pour tenir compte de la présence de postes mobiles est abordée. Le deuxième objectif est d'adapter les algorithmes de type SOCT2 pour permettre à un utilisateur d'annuler une opération dans la mesure où les rares propositions non restrictives faites pour résoudre ce problème compromettent dans certains cas la convergence des copies. Pour cela, plutôt que de manipuler directement l'opération inverse, on considère l'annulation comme une opération spécifique dont la transposition en avant doit satisfaire deux conditions générales que l'étude met en évidence. Le bien fondé de cette démarche est validée par l'étude de cas critiques. système collaboratif réparti cohérence de copies respect de l'intention transformée opérationnelle transposition annulation mobilité

Search results