Global ETD Search

81	Automatic, adaptive, and applicative sentiment analysis Pak, Alexander 13 June 2012 (has links) (PDF) Sentiment analysis is a challenging task today for computational linguistics. Because of the rise of the social Web, both the research and the industry are interested in automatic processing of opinions in text. In this work, we assume a multilingual and multidomain environment and aim at automatic and adaptive polarity classification.We propose a method for automatic construction of multilingual affective lexicons from microblogging to cover the lack of lexical resources. To test our method, we have collected over 2 million messages from Twitter, the largest microblogging platform, and have constructed affective resources in English, French, Spanish, and Chinese.We propose a text representation model based on dependency parse trees to replace a traditional n-grams model. In our model, we use dependency triples to form n-gram like features. We believe this representation covers the loss of information when assuming independence of words in the bag-of-words approach.Finally, we investigate the impact of entity-specific features on classification of minor opinions and propose normalization schemes for improving polarity classification. The proposed normalization schemes gives more weight to terms expressing sentiments and lower the importance of noisy features.The effectiveness of our approach has been proved in experimental evaluations that we have performed across multiple domains (movies, product reviews, news, blog posts) and multiple languages (English, French, Russian, Spanish, Chinese) including official participation in several international evaluation campaigns (SemEval'10, ROMIP'11, I2B2'11). [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Sentiment analysis Opinion mining Computational linguistics
82	Etude de la paraphrase sous-phrastique en traitement automatique des langues Bouamor, Houda 11 June 2012 (has links) (PDF) La variabilité en langue est une source majeure de difficultés dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu'une même idée ou un même événement peut être exprimé avec des mots ou des groupes de mots différents ayant la même signification dans leur contexte respectif. Capturer automatiquement des équivalences sémantiques entre des unités de texte est une tâche complexe mais qui s'avère indispensable dans de nombreux contextes. L'acquisition a priori de listes d'équivalences met à disposition des ressources utiles pour, par exemple, améliorer le repérage d'une réponse à une question, autoriser des formulations différentes en évaluation de la traduction automatique, ou encore aider des auteurs à trouver des formulations plus adaptées. Dans cette thèse, nous proposons une étude détaillée de la tâche d'acquisition de paraphrases sous-phrastiques à partir de paires d'énoncés sémantiquement liés. Nous démontrons empiriquement que les corpus parallèles monolingues, bien qu'extrêmement rares, constituent le type de ressource le plus adapté pour ce genre d'étude. Nos expériences mettent en jeu cinq techniques d'acquisition, représentatives de différentes approches et connaissances, en anglais et en français. Afin d'améliorer la performance en acquisition, nous réalisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique à maximum d'entropie bi-classe. Un résultat important de notre étude est l'identification de paraphrases qui défient actuellement les techniques étudiées, lesquelles sont classées et quantifiées en anglais et français. Nous examinons également dans cette thèse l'impact de la langue, du type du corpus et la comparabilité des paires des énoncés utilisés sur la tâche d'acquisition de paraphrases sous- phrastiques. Nous présentons le résultat d'une analyse de la performance des différentes méthodes testées en fonction des difficultés d'alignement des paires de paraphrases d'énoncés. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractéristiques des paraphrases trouvées dans les différents types de corpus étudiés ainsi que celles qui défient les approches actuelles d'identification automatique. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Corpus monolingues Acquisition de paraphrase Classification automatique de paraphrase Typologie de paraphrase
83	Validation de réponses dans un système de questions réponses Grappy, Arnaud 08 November 2011 (has links) (PDF) Avec l'augmentation des connaissances disponibles sur Internet est apparue la difficulté d'obtenir une information. Les moteurs de recherche permettent de retourner des pages Web censés contenir l'information désirée à partir de mots clés. Toutefois il est encore nécessaire de trouver la bonne requête et d'examiner les documents retournés.Les systèmes de questions réponses ont pour but de renvoyer directement une réponse concise à partir d'une question posée en langue naturelle. La réponse est généralement accompagnée d'un passage de texte censé la justifier. Par exemple, pour la question " Quel est le réalisateur d'Avatar ? " la réponse " James Cameron " peut être renvoyée accompagnée de " James Cameron a réalisé Avatar. ". Cette thèse se focalise sur la validation de réponses qui permet de déterminer automatiquement si la réponse est valide. Une réponse est valide si elle est correcte (répond bien à la question) et justifiée par le passage textuel. Cette validation permet d'améliorer les systèmes de questions réponses en ne renvoyant à l'utilisateur que les réponses valides. Les approches permettant de reconnaître les réponses valides peuvent se décomposer en deux grandes catégories : -les approches utilisant un formalisme de représentation particulier de la question et du passage dans lequel les structures sont comparées ;-les approches suivant une approche par apprentissage qui combinent différents critères d'ordres lexicaux ou syntaxiques. Dans le but d'identifier les différents phénomènes sous tendant la validation de réponses, nous avons participé à la création d'un corpus annoté manuellement. Ces phénomènes sont de différentes natures telle que la paraphrase ou la coréférence. On peut aussi remarquer que les différentes informations sont réparties sur plusieurs phrases, voire sont manquantes dans les passages contenant la réponse. Une deuxième étude de corpus de questions a porté sur les différentes informations à vérifier afin de détecter qu'une réponse est valide. Cette étude a montré que les trois phénomènes les plus fréquents sont la vérification du type de la réponse, la date et le lieu contenus dans la question.Ces différentes études ont permis de mettre au point notre système de validation de réponses qui s'appuie sur une combinaison de critères. Certains critères traitent de la présence dans le passage des mots de la question ce qui permet de pointer la présence des informations de la question. Un traitement particulier a été effectué pour les informations de date en détectant une réponse comme n'étant pas valide si le passage ne contient pas la date contenue dans la question. D'autres critères, dont la proximité dans le passage des mots de la question et de la réponse, portent sur le lien entre les différents mots de la question dans le passage.Le second grand type de vérification permet de mesurer la compatibilité entre la réponse et la question. Un certain nombre de questions attendent une réponse étant d'un type particulier. La question de l'exemple précédent attend ainsi un réalisateur en réponse. Si la réponse n'est pas de ce type alors elle est incorrecte. Comme cette information peut ne pas se trouver dans le passage justificatif, elle est recherchée dans des documents autres à l'aide de la structure des pages Wikipédia, en utilisant des patrons syntaxiques ou grâce à des fréquences d'apparitions du type et de la réponse dans des documents. La vérification du type est particulièrement efficace puisqu'elle effectue 80 % de bonnes détections. La vérification de la validité des réponses est également pertinente puisque lors de la participation à une campagne d'évaluation, AVE 2008, le système s'est placé parmi les meilleurs toutes langues confondues. La dernière contribution a consisté à intégrer le module de validation dans un système de questions réponses, QAVAL. Dans ce cadre de nombreuses réponses sont extraites par QAVAL et ordonnées grâce au module de validation de réponses. Le système n'est plus utilisé afin de détecter les réponses valides mais pour fournir un score de confiance à chaque réponse. Le système QAVAL peut ainsi aussi bien être utilisé en effectuant des recherches dans des articles de journaux que dans des articles issus du Web. Les résultats sont assez bons puisqu'ils dépassent ceux obtenus par un simple ordonnancement des réponses de près de 50 %. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Systèmes de questions réponses Validation de réponses Implication textuelle
84	Approches supervisées et faiblement supervisées pour l'extraction d'événements et le peuplement de bases de connaissances Jean-Louis, Ludovic 15 December 2011 (has links) (PDF) La plus grande partie des informations disponibles librement sur le Web se présentent sous une forme textuelle, c'est-à-dire non-structurée. Dans un contexte comme celui de la veille, il est très utile de pouvoir présenter les informations présentes dans les textes sous une forme structurée en se focalisant sur celles jugées pertinentes vis-à-vis du domaine d'intérêt considéré. Néanmoins, lorsque l'on souhaite traiter ces informations de façon systématique, les méthodes manuelles ne sont pas envisageables du fait du volume important des données à considérer.L'extraction d'information s'inscrit dans la perspective de l'automatisation de ce type de tâches en identifiant dans des textes les informations concernant des faits (ou événements) afin de les stocker dans des structures de données préalablement définies. Ces structures, appelées templates (ou formulaires), agrègent les informations caractéristiques d'un événement ou d'un domaine d'intérêt représentées sous la forme d'entités nommées (nom de lieux, etc.).Dans ce contexte, le travail de thèse que nous avons mené s'attache à deux grandes problématiques : l'identification des informations liées à un événement lorsque ces informations sont dispersées à une échelle textuelle en présence de plusieurs occurrences d'événements de même type;la réduction de la dépendance vis-à-vis de corpus annotés pour la mise en œuvre d'un système d'extraction d'information.Concernant la première problématique, nous avons proposé une démarche originale reposant sur deux étapes. La première consiste en une segmentation événementielle identifiant dans un document les zones de texte faisant référence à un même type d'événements, en s'appuyant sur des informations de nature temporelle. Cette segmentation détermine ainsi les zones sur lesquelles le processus d'extraction doit se focaliser. La seconde étape sélectionne à l'intérieur des segments identifiés comme pertinents les entités associées aux événements. Elle conjugue pour ce faire une extraction de relations entre entités à un niveau local et un processus de fusion global aboutissant à un graphe d'entités. Un processus de désambiguïsation est finalement appliqué à ce graphe pour identifier l'entité occupant un rôle donné vis-à-vis d'un événement lorsque plusieurs sont possibles.La seconde problématique est abordée dans un contexte de peuplement de bases de connaissances à partir de larges ensembles de documents (plusieurs millions de documents) en considérant un grand nombre (une quarantaine) de types de relations binaires entre entités nommées. Compte tenu de l'effort représenté par l'annotation d'un corpus pour un type de relations donné et du nombre de types de relations considérés, l'objectif est ici de s'affranchir le plus possible du recours à une telle annotation tout en conservant une approche par apprentissage. Cet objectif est réalisé par le biais d'une approche dite de supervision distante prenant comme point de départ des exemples de relations issus d'une base de connaissances et opérant une annotation non supervisée de corpus en fonction de ces relations afin de constituer un ensemble de relations annotées destinées à la construction d'un modèle par apprentissage. Cette approche a été évaluée à large échelle sur les données de la campagne TAC-KBP 2010. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Extraction d'information Extraction de relations Extraction d'événements
85	Study and design of a manycore architecture with multithreaded processors for dynamic embedded applications Bechara, Charly 08 December 2011 (has links) (PDF) Embedded systems are getting more complex and require more intensive processing capabilities. They must be able to adapt to the rapid evolution of the high-end embedded applications that are characterized by their high computation-intensive workloads (order of TOPS: Tera Operations Per Second), and their high level of parallelism. Moreover, since the dynamism of the applications is becoming more significant, powerful computing solutions should be designed accordingly. By exploiting efficiently the dynamism, the load will be balanced between the computing resources, which will improve greatly the overall performance. To tackle the challenges of these future high-end massively-parallel dynamic embedded applications, we have designed the AHDAM architecture, which stands for "Asymmetric Homogeneous with Dynamic Allocator Manycore architecture". Its architecture permits to process applications with large data sets by efficiently hiding the processors' stall time using multithreaded processors. Besides, it exploits the parallelism of the applications at multiple levels so that they would be accelerated efficiently on dedicated resources, hence improving efficiently the overall performance. AHDAM architecture tackles the dynamism of these applications by dynamically balancing the load between its computing resources using a central controller to increase their utilization rate.The AHDAM architecture has been evaluated using a relevant embedded application from the telecommunication domain called "spectrum radio-sensing". With 136 cores running at 500 MHz, AHDAM architecture reaches a peak performance of 196 GOPS and meets the computation requirements of the application. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Multicore MPSoC Multithreaded processors Embedded systems Dynamic applications Simulation
86	An ontology-based approach to manage conflicts in collaborative design Lima Dutra, Moisés, Lima Dutra, Moisés 27 November 2009 (has links) (PDF) Today's complex design projects require teams of designers to work collaboratively by sharing their respective expertise in order to produce effective design solutions. Due to the increasing need for exchanging knowledge, modern design projects are more structured to work with distributed virtual teams that collaborate over computer networks to achieve overall optimization in design. Nevertheless, in a collaborative design process, the integration of multidisciplinary virtual teams - involving exchange and sharing of knowledge and expertise - frequently and inevitably generates conflicting situations. Different experts' viewpoints and perspectives, in addition to several ways of communicating and collaborating at the knowledge level, make all this process very hard to manage. In order to achieve an optimal scenario, some problems must first be solved, such as requirement specification and formalization, ontology integration, and conflict detection and resolution. Specifying and formalizing the knowledge demands a great effort towards obtaining representation patterns that aggregate several disjoint knowledge areas. Each expert should express himself so that the others can understand his information correctly. It is necessary, therefore, to use a flexible and sufficiently extensive data representation model to accomplish such a task. Some current models fall short of providing an effective solution to effective knowledge sharing and collaboration on design projects, because they fail to combine the geographical, temporal, and functional design aspects with a flexible and generic knowledge representation model. This work proposes an information model-driven collaborative design architecture that supports synchronous, generic, service-oriented, agent-based, and ontology-based teamwork. Particular representation models are transformed into ontology instances and merged together in order to accomplish the final product design. It is a synchronous approach because the concurrent processes are undertaken at the same time that the interactions among designers take place. It is generic because it provides the users with two approaches for ontology integration: the use of a predefined generic ontology and the harmonization process. Our proposal focuses on collaborative design conflict resolution by using Web Ontology Language (OWL) and Web Services, the former as a tool for knowledge representation and the latter as a technological support for communication. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Collaborative design Ontologies Web Services Synchronicity Genericness Reasoning and harmonization
87	Cycle de vie sémantique de conception de systèmes de stockage et manipulation de données Khouri, Selma, Khouri, Selma 12 October 2013 (has links) (PDF) Les ED deviennent des composants incontournables dans les entreprises et les organisations.Le thème de conception des ED a fait l'objet de recherches actives ces dernières années. Laprincipale limitation des approches proposées est le manque d'une vision globale s'inscrivantdans le cadre du cycle de conception des ED, même si la communauté reconnait toutes lesphases de ce cycle. Nos principales contributions dans cette thèse portent sur la proposition d'uneméthode de conception adaptée aux récentes évolutions qu'a connu le cycle de conception, etenglobant l'ensemble de ses phases. Le cycle de conception a connu une diversification importantedes modèles de stockage de données et des architectures de déploiement possibles offrant deschoix de conception variés. Ce cycle reconnait l'importance des besoins des utilisateurs dansle processus de conception, et l'importance d'accès et de représentation de la sémantique desdonnées. Notre première proposition présente une méthode de conception suivant une approcheà base d'ontologies de domaine, permettant de valoriser les besoins des utilisateurs en leur offrantune vue persistante au sein de l'ED. Cette vue permet d'anticiper diverses tâches de conceptionet de simuler les différents choix de conception. Notre deuxième proposition revisite le cycle deconception en exécutant la phase ETL (extraction-transformation-chargement des données) dèsla phase conceptuelle. Cette proposition permet de fournir un moyen de déploiement multiplesur différentes plateformes disponibles. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Cycle de conception Besoins des utilisateurs Phase ETL Déploiement
88	Intégration et exploitation de besoins en entreprise étendue fondées sur la sémantique Boukhari, Ilyes 14 January 2014 (has links) (PDF) L'ingénierie des besoins (IB) joue un rôle crucial dans le processus de développement d'un systèmed'information. Elle a pour but de fournir une spécification des besoins qui soit cohérente, non ambiguë,complète, vérifiable, etc. L'importance de la spécification des besoins augmente dans l'environnement distribuéoù se situent les systèmes complexes ce qui est en particulier le cas dans le contexte des entreprises étendues.Ces systèmes nécessitent, en effet, la collaboration d'un grand nombre de concepteurs qui peuvent provenir dedifférents domaines, départements, laboratoires de recherche, etc. En général, ces concepteurs sont libresd'utiliser le vocabulaire et les langages qu'ils préfèrent pour définir les besoins liés aux parties du système quileur sont affectées. Dans ce contexte, fournir une interface unique, uniforme et transparente à l'ensemble desbesoins définis sur un système est devenu nécessaire. Autrement dit, d'un point de vue technique, il devientcrucial de proposer une démarche d'intégration des besoins via un schéma global. Dans ce travail, nousproposons une approche ontologique d'intégration de besoins hétérogènes. Cette hétérogénéité concerne à lafois les vocabulaires et les langages de modélisation identifiés lors de l'élicitation des besoins. Contrairementaux travaux existants qui traitent le problème d'intégration des besoins d'une manière isolée sans prendre encompte le système cible (une base/entrepôt de données, une interface homme machine, etc.), nos propositionsapportent des solutions pour les phases de cycle de vie de conception du système cible. Pour illustrer cela, nousconsidérons la phase de conception physique d'un entrepôt de données. Durant cette phase, un ensemble destructures d'optimisation (les index, la fragmentation de données, les vues matérialisées, etc.) est sélectionné.Souvent cette sélection est effectuée à partir d'un ensemble de requêtes. Dans ce travail, nous proposons uneapproche de sélection dirigée par les besoins. Pour valider notre proposition, une implémentation dans unenvironnement de Base de Données à Base Ontologique nommé OntoDB est proposée. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Systèmes d'intégration BDBO OntoDB
89	Modélisation d'événements composites répétitifs, propriétés et relations temporelles Faucher, Cyril, Faucher, Cyril 13 December 2012 (has links) (PDF) La modélisation des événements et de leurs propriétés temporelles concerne des types variés d'utilisateurs et de communautés scientifiques. Nous nous plaçons dans le cadre du paradigme Objet et construisons un méta modèle opérationnel servant de représentation pivot, indépendante du métier pour représenter des événements composites avec leurs propriétés structurelles et temporelles. Le méta modèle PTOM (Periodic Temporal Occurrence Metamodel) prend en compte l'expression de contraintes structurelles sur les événements, ou géométriques, topologiques et relationnelles sur la temporalité de leurs occurrences. Il privilégie la représentation en intension (vs extension) des occurrences d'événements périodiques. PTOM étend la norme ISO 19108 et s'adapte aux standards EventsML G2 et iCalendar. Sur un plan théorique, nous étendons les algèbres d'intervalles d'ALLEN et de LIGOZAT, et proposons un système de relations topologiques entre intervalles non convexes (ALLEN*) dont nous étudions les propriétés. Ces résultats sont intégrés dans PTOM. La première application de PTOM est la spécification de la sémantique du calendrier grégorien. Les éléments calendaires sont réintroduits en tant qu'événements périodiques dans PTOM, ce qui renforce son pouvoir expressif. PTOM a été mis en œuvre lors d'un projet ANR sur des corpus d'événements journalistiques (agences de presse) concernant les loisirs et la culture. L'Ingénierie Dirigée par les Modèles a été utilisée pour la conception et l'exploitation de PTOM. Cela permet de gérer la complexité, d'assurer la maintenabilité et la cohérence de l'ensemble et enfin, de générer automatiquement des interfaces pour les pourvoyeurs ou utilisateurs de données. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Evénement Périodicité Relations d'ALLEN Propriétés temporelles IDM
90	Ontology centric design process : Sharing a conceptualization Taofifenua, Ofaina, Taofifenua, Ofaina 10 July 2012 (has links) (PDF) In the strongly competitive worldwide market of today, a car manufacturer has to offer to its customersrelevant, innovative, reliable, environment friendly and safe services. All this must be done at verycompetitive costs while complying with more and more stringent regulations and tighter deadlines. Thiswork addresses these challenges and aims at improving the design process for automotive safety criticalmechatronics systems. It shows that the use of formal and informal models can commit to a commonsemantic model, i.e., a system and safety ontology, that enables to ensure the consistency of the wholedesign process and compliance with standard ISO 26262. The concepts in this work have been appliedon a regenerative hybrid braking system integrated into an electrical vehicle. It demonstrated that therealized ontology enables to record the information produced during design and that using ontologieseffectively enables to detect semantic inconsistencies which improves design information quality, promotesreuse and ensures ISO 26262 compliance. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Ontology Systems engineering Iso 26262

Search results