Global ETD Search

51	Extraction automatique de protocoles de communication pour la composition de services Web / Automatic extraction of communication protocols for web services composition Musaraj, Kreshnik 13 December 2010 (has links) La gestion des processus-métiers, des architectures orientées-services et leur rétro-ingénierie s’appuie fortement sur l’extraction des protocoles-métier des services Web et des modèles des processus-métiers à partir de fichiers de journaux. La fouille et l’extraction de ces modèles visent la (re)découverte du comportement d'un modèle mis en œuvre lors de son exécution en utilisant uniquement les traces d'activité, ne faisant usage d’aucune information a priori sur le modèle cible. Notre étude préliminaire montre que : (i) une minorité de données sur l'interaction sont enregistrées par le processus et les architectures de services, (ii) un nombre limité de méthodes d'extraction découvrent ce modèle sans connaître ni les instances positives du protocole, ni l'information pour les déduire, et (iii) les approches actuelles se basent sur des hypothèses restrictives que seule une fraction des services Web issus du monde réel satisfont. Rendre possible l'extraction de ces modèles d'interaction des journaux d'activité, en se basant sur des hypothèses réalistes nécessite: (i) des approches qui font abstraction du contexte de l'entreprise afin de permettre une utilisation élargie et générique, et (ii) des outils pour évaluer le résultat de la fouille à travers la mise en œuvre du cycle de vie des modèles découverts de services. En outre, puisque les journaux d'interaction sont souvent incomplets, comportent des erreurs et de l’information incertaine, alors les approches d'extraction proposées dans cette thèse doivent être capables de traiter ces imperfections correctement. Nous proposons un ensemble de modèles mathématiques qui englobent les différents aspects de la fouille des protocoles-métiers. Les approches d’extraction que nous présentons, issues de l'algèbre linéaire, nous permettent d'extraire le protocole-métier tout en fusionnant les étapes classiques de la fouille des processus-métiers. D'autre part, notre représentation du protocole basée sur des séries temporelles des variations de densité de flux permet de récupérer l'ordre temporel de l'exécution des événements et des messages dans un processus. En outre, nous proposons la définition des expirations propres pour identifier les transitions temporisées, et fournissons une méthode pour les extraire en dépit de leur propriété d'être invisible dans les journaux. Finalement, nous présentons un cadre multitâche visant à soutenir toutes les étapes du cycle de vie des workflow de processus et des protocoles, allant de la conception à l'optimisation. Les approches présentées dans ce manuscrit ont été implantées dans des outils de prototypage, et validées expérimentalement sur des ensembles de données et des modèles de processus et de services Web. Le protocole-métier découvert, peut ensuite être utilisé pour effectuer une multitude de tâches dans une organisation ou une entreprise. / Business process management, service-oriented architectures and their reverse engineering heavily rely on the fundamental endeavor of mining business process models and Web service business protocols from log files. Model extraction and mining aim at the (re)discovery of the behavior of a running model implementation using solely its interaction and activity traces, and no a priori information on the target model. Our preliminary study shows that : (i) a minority of interaction data is recorded by process and service-aware architectures, (ii) a limited number of methods achieve model extraction without knowledge of either positive process and protocol instances or the information to infer them, and (iii) the existing approaches rely on restrictive assumptions that only a fraction of real-world Web services satisfy. Enabling the extraction of these interaction models from activity logs based on realistic hypothesis necessitates: (i) approaches that make abstraction of the business context in order to allow their extended and generic usage, and (ii) tools for assessing the mining result through implementation of the process and service life-cycle. Moreover, since interaction logs are often incomplete, uncertain and contain errors, then mining approaches proposed in this work need to be capable of handling these imperfections properly. We propose a set of mathematical models that encompass the different aspects of process and protocol mining. The extraction approaches that we present, issued from linear algebra, allow us to extract the business protocol while merging the classic process mining stages. On the other hand, our protocol representation based on time series of flow density variations makes it possible to recover the temporal order of execution of events and messages in the process. In addition, we propose the concept of proper timeouts to refer to timed transitions, and provide a method for extracting them despite their property of being invisible in logs. In the end, we present a multitask framework aimed at supporting all the steps of the process workflow and business protocol life-cycle from design to optimization.The approaches presented in this manuscript have been implemented in prototype tools, and experimentally validated on scalable datasets and real-world process and web service models.The discovered business protocols, can thus be used to perform a multitude of tasks in an organization or enterprise. Fouille de données Analyse de journaux d’interaction Inférence de modèles Extraction de connaissances Protocole-métier Workflow Service Web Data mining Interaction log analysis Model inference Knowledge extraction Business protocol Workflow Web service 004.6
52	Tracking domain knowledge based on segmented textual sources Kalledat, Tobias 11 May 2009 (has links) Die hier vorliegende Forschungsarbeit hat zum Ziel, Erkenntnisse über den Einfluss der Vorverarbeitung auf die Ergebnisse der Wissensgenerierung zu gewinnen und konkrete Handlungsempfehlungen für die geeignete Vorverarbeitung von Textkorpora in Text Data Mining (TDM) Vorhaben zu geben. Der Fokus liegt dabei auf der Extraktion und der Verfolgung von Konzepten innerhalb bestimmter Wissensdomänen mit Hilfe eines methodischen Ansatzes, der auf der waagerechten und senkrechten Segmentierung von Korpora basiert. Ergebnis sind zeitlich segmentierte Teilkorpora, welche die Persistenzeigenschaft der enthaltenen Terme widerspiegeln. Innerhalb jedes zeitlich segmentierten Teilkorpus können jeweils Cluster von Termen gebildet werden, wobei eines diejenigen Terme enthält, die bezogen auf das Gesamtkorpus nicht persistent sind und das andere Cluster diejenigen, die in allen zeitlichen Segmenten vorkommen. Auf Grundlage einfacher Häufigkeitsmaße kann gezeigt werden, dass allein die statistische Qualität eines einzelnen Korpus es erlaubt, die Vorverarbeitungsqualität zu messen. Vergleichskorpora sind nicht notwendig. Die Zeitreihen der Häufigkeitsmaße zeigen signifikante negative Korrelationen zwischen dem Cluster von Termen, die permanent auftreten, und demjenigen das die Terme enthält, die nicht persistent in allen zeitlichen Segmenten des Korpus vorkommen. Dies trifft ausschließlich auf das optimal vorverarbeitete Korpus zu und findet sich nicht in den anderen Test Sets, deren Vorverarbeitungsqualität gering war. Werden die häufigsten Terme unter Verwendung domänenspezifischer Taxonomien zu Konzepten gruppiert, zeigt sich eine signifikante negative Korrelation zwischen der Anzahl unterschiedlicher Terme pro Zeitsegment und den einer Taxonomie zugeordneten Termen. Dies trifft wiederum nur für das Korpus mit hoher Vorverarbeitungsqualität zu. Eine semantische Analyse auf einem mit Hilfe einer Schwellenwert basierenden TDM Methode aufbereiteten Datenbestand ergab signifikant unterschiedliche Resultate an generiertem Wissen, abhängig von der Qualität der Datenvorverarbeitung. Mit den in dieser Forschungsarbeit vorgestellten Methoden und Maßzahlen ist sowohl die Qualität der verwendeten Quellkorpora, als auch die Qualität der angewandten Taxonomien messbar. Basierend auf diesen Erkenntnissen werden Indikatoren für die Messung und Bewertung von Korpora und Taxonomien entwickelt sowie Empfehlungen für eine dem Ziel des nachfolgenden Analyseprozesses adäquate Vorverarbeitung gegeben. / The research work available here has the goal of analysing the influence of pre-processing on the results of the generation of knowledge and of giving concrete recommendations for action for suitable pre-processing of text corpora in TDM. The research introduced here focuses on the extraction and tracking of concepts within certain knowledge domains using an approach of horizontally (timeline) and vertically (persistence of terms) segmenting of corpora. The result is a set of segmented corpora according to the timeline. Within each timeline segment clusters of concepts can be built according to their persistence quality in relation to each single time-based corpus segment and to the whole corpus. Based on a simple frequency measure it can be shown that only the statistical quality of a single corpus allows measuring the pre-processing quality. It is not necessary to use comparison corpora. The time series of the frequency measure have significant negative correlations between the two clusters of concepts that occur permanently and others that vary within an optimal pre-processed corpus. This was found to be the opposite in every other test set that was pre-processed with lower quality. The most frequent terms were grouped into concepts by the use of domain-specific taxonomies. A significant negative correlation was found between the time series of different terms per yearly corpus segments and the terms assigned to taxonomy for corpora with high quality level of pre-processing. A semantic analysis based on a simple TDM method with significant frequency threshold measures resulted in significant different knowledge extracted from corpora with different qualities of pre-processing. With measures introduced in this research it is possible to measure the quality of applied taxonomy. Rules for the measuring of corpus as well as taxonomy quality were derived from these results and advice suggested for the appropriate level of pre-processing. Datenvorverarbeitung Text Data Mining Korpuskennzahlen Korpuslinguistik Computerlinguistik Vorverarbeitungsqualität Wissensextraktion Text Data Mining Corpus Measures Corpus Linguistics Computational Linguistics Data Pre-processing Pre-processing Quality Knowledge Extraction 330 Wirtschaft 17 Wirtschaft QP 345 ddc:330
53	Τεχνικές εξόρυξης γνώσης με χρήση σημασιολογιών από δεδομένα πλοήγησης χρηστών (web usage log mining) με σκοπό την εξατομίκευση δικτυακών τόπων / Knowledge extraction techniques using semantics of web usage log mining in order to personalize websites Θεοδωρίδης, Ιωάννης-Βασίλειος 06 May 2009 (has links) Η παρούσα Διπλωματική Εργασία μελετά το θέμα της προσωποποίησης - εξατομίκευσης δικτυακών τόπων. Αρχικά, παρουσιάζεται μια ανασκόπηση στη σχετική βιβλιογραφία όπου εντοπίζεται πληθώρα αναφορών και λύσεων -ακαδημαϊκών και εμπορικών- για το συγκεκριμένο θέμα. Στις περισσότερες από αυτές τις περιπτώσεις καταβάλλεται προσπάθεια για εξατομίκευση η οποία στηρίζεται σε δεδομένα που συλλέγονται από δηλώσεις ή ενέργειες του χρήστη, άμεσα ή έμμεσα. Όμως, η μελέτη των σχετικών άρθρων δείχνει ότι η μέχρι σήμερα επιτυχία των εγχειρημάτων αξιοποίησης δεδομένων χρήσης του ιστού (web usage data) είναι περιορισμένη. Το βασικό έλλειμμα που διαπιστώνεται είναι το γεγονός ότι η διαχείριση του περιεχομένου ενός δικτυακού τόπου συνήθως γίνεται με μηχανιστικό τρόπο, αποφεύγοντας τόσο την κατανόηση του περιεχομένου του όσο και της δομής του. Ακολούθως, στη Διπλωματική Εργασία γίνεται απόπειρα εξατομίκευσης δικτυακών τόπων με ημιαυτόματο τρόπο χρησιμοποιώντας τα αρχεία καταγραφής χρήσης ιστού ενώ ταυτόχρονα βασίζεται σε σημασιολογικές και εννοιολογικές αναλύσεις του περιεχομένου των δικτυακών τόπων. Με αυτήν τη μέθοδο υλοποιείται ένα εργαλείο που εξατομικεύει τον δικτυακό τόπο προτείνοντας στους χρήστες ιστοσελίδες με παραπλήσιο εννοιολογικό περιεχόμενο. Αυτό γίνεται δημιουργώντας την οντολογία του εκάστοτε δικτυακού τόπου και συνδυάζοντάς τη με τα δεδομένα πλοήγησης των χρηστών. / The present Diploma Dissertation attempts to study the personalization of websites. Initially, a thorough review of the relevant bibliography is presented, in which a plethora of academic and commercial reports and solutions is located regarding the subject of website personalization. In most cases, to achieve personalization, the researchers are based on data which are directly or indirectly collected by user statements or actions. However, the study of relative articles shows that there is limited success in the use of web usage data for personalization purposes. The fundamental problem lies in the fact that the comprehension of the content and the structure of a website is often neglected or even avoided. Further on, personalization of websites in a semi-automatic way is attempted using log files while it is simultaneously based in semantic and conceptual analysis of the website content. In this way, a tool is developed that personalizes websites by proposing web pages with similar conceptual content to the users. This is done by creating the ontology of the website and combining it with the users’ web usage data. Εξόρυξη γνώσης Οντολογία Εργαλείο 006.312 Website personalization Web usage log mining Knowledge extraction Website semantics Ontology Content based personalization Tool
54	Étude comparative du vocabulaire de description de la danse dans les archives et du vocabulaire de représentation de la danse dans la littérature Paquette-Bigras, Ève 03 1900 (has links) Notre recherche s’insère dans la mouvance des humanités numériques; nous y faisons dialoguer les arts et les sciences de l’information. Depuis quelques décennies, la danse est un sujet d’études et de recherche à part entière. Il devient donc nécessaire de mieux décrire la danse dans les archives, sachant que la description en amont influe grandement sur l’accès en aval. Les méthodes d’extraction automatique de connaissances nous semblent offrir de nouvelles possibilités. L’objectif de notre recherche est de contribuer au développement d’outils de gestion de l’information dans les archives de la danse en comparant un vocabulaire de description de la danse dans les archives et un vocabulaire de représentation de la danse dans la littérature, recueilli grâce à des méthodes d’extraction automatique de connaissances, pour en distinguer une possible complémentarité, particulièrement en ce qui a trait au vocabulaire de l’expérience esthétique. D’abord, nous analysons un vocabulaire de description de la danse dans les archives. Nous décrivons certains outils de description des archives de la danse et nous analysons le thésaurus de descripteurs Collier. Nous constatons que le vocabulaire de description de la danse dans les archives ne semble pas prendre en compte l’expérience esthétique. Ensuite, nous analysons un vocabulaire de représentation de la danse dans la littérature. Un vocabulaire structuré de l’expérience esthétique de la danse moderne est ainsi extrait d’un corpus de textes de l’écrivain français Stéphane Mallarmé et analysé. Puis nous comparons les deux vocabulaires afin d'en distinguer la complémentarité quant à la description de l’expérience esthétique. Nous formulons une première suggestion d’amélioration de certains thésaurus employés dans les archives de la danse : un thésaurus au vocabulaire essentiellement factuel, comme le thésaurus de descripteurs Collier, peut être enrichi de termes à propos de l’expérience esthétique. Le vocabulaire de représentation de la danse dans la littérature est jusqu’à un certain point complémentaire au vocabulaire de description de l’expérience esthétique de la danse dans les archives. Nous menons ainsi une première expérimentation qui justifie en partie la pertinence de certaines méthodes d’extraction de connaissances dans le développement et la maintenance de ressources documentaires pour le domaine des arts d’interprétation tels que la danse. / This research falls within the field of digital humanities; arts and information science engage in dialogue. In the last few decades, dance has become a distinct research subject. Dance description in archives needs to be improved, because the quality of the description impacts access to the documentation. Knowledge extraction seems to offer new opportunities in this regard. The goal of this research is to contribute to the development of information management tools by comparing a vocabulary for describing dance in archives with a vocabulary for representing dance in literature obtained through knowledge extraction. We look for possible complementarity, particularly in regard to the aesthetic experience. First, some tools for describing dance in archives are described, and the Collier Descriptor Thesaurus is analyzed. We observe that this vocabulary for describing dance in archives does not take into account aesthetic experience. Second, a vocabulary for representing dance in literature is analyzed. More specifically, a structured vocabulary of aesthetic experience of modern dance is drawn from a corpus of texts from the French writer Stéphane Mallarmé, and the vocabulary obtained is analyzed. Finally, the two vocabularies are compared to consider their complementarity. We conclude that some vocabularies for describing dance in archives, consisting mainly of factual terms, such as the Collier Descriptor Thesaurus, can be enriched with terms related to aesthetic experience. The vocabulary for representing dance in literature complements to a certain extent the vocabulary for describing dance in archives. Thus this initial experiment supports the relevance of knowledge extraction in information resources maintenance and development for performing arts such as dance. / Diese Arbeit beschäftigt sich mit dem Fachgebiet der Digital Humanities und verbindet dabei Kunst mit informationswissenschaftlichen Methoden. In den letzten Jahrzehnten ist Tanz ein eigenständiges Forschungsgebiet geworden. Da sich die Qualität der Beschreibung direkt auf den Zugang zu Dokumenten im Archiv auswirkt, bedarf die Beschreibung von Tanz in Archiven Verbesserung. Ziel der Forschung ist es zur Entwicklung von Informationsverwaltungs-Tools beizutragen, indem das Vokabular der Beschreibung von Tanz im Archiv mit Vokabular aus der Literatur, extrahiert aus textuellen Datenbanken, verglichen wird. Dabei liegt der Fokus auf der Komplementarität beider Quellen, besonders in Bezug auf die Beschreibung von ästhetischen Erfahrungen. Zunächst werden Tools für die Beschreibung von Tanz in Archiven beschrieben und der Collier Descriptor Thesaurus analysiert. Dabei zeigt sich, dass das Vokabular der Tanz-Beschreibung im Archiv ästhetische Erfahrung generell nicht berücksichtigt. Daraufhin wird das Vokabular der Tanz-Darstellung in der Literatur am Beispiel der Text-Sammlung des franzözischen Dichters Stéphane Mallarmé analysiert. Im Anschluss werden die zwei Wortschätze verglichen, um die Komplementarität beider Quellen zu beschreiben. Die Arbeit kommt zu dem Schluss, dass das Vokabular der Tanz-Beschreibung im Archiv hauptsächlich aus sachbezogenen Begriffen besteht (z.B. der Collier Descriptor Thesaurus), welche um Begriffe zur ästhetischen Erfahrung ergänzt werden können. Die Begriffe für die Tanz-Beschreibung in der Literatur komplementieren bis zu einem gewissen Grad das Vokabular der Tanz-Beschreibung im Archiv. Demzufolge bildet diese Arbeit eine Grundlage für weitere Forschung im Bereich der Wissensextraktion in textuellen Datenbanken im Fachgebiet darstellender Künste wie Tanz. Archives Arts Dance Danse Description des documents Digital humanities Document description Extraction automatique de connaissances Fouille de textes Humanités numériques Knowledge extraction Stéphane Mallarmé Text mining
55	Discover, model and combine energy leverages for large scale energy efficient infrastructures / Découvrir, modéliser et combiner des leviers énergétiques pour des infrastructures de calculs basse consommation Rais, Issam 28 September 2018 (has links) La consommation énergétique de nos entités de calculs à grande échelle est une problématique de plus en plus inquiétante. Il est d'autant plus inquiétant que nous nous dirigeons vers "L'exascale",machine qui calcule 10^18 opérations flottantes par secondes, soit 10 fois plus que les meilleurs machines publiques actuelles. En 2017, les data-center consommaient 7% de la demande globale et étaient responsable de 2% de l’émission globale de CO2. Avec la multiplication actuelle du nombre d'outils connectés par personne, réduire la consommation énergétique des data-centers et supercalculateurs à grande échelle est une problématique cruciale pour construire une société numérique durable.Il est donc urgent de voir la consommation énergétique comme une problématique phare de cescentres. De nombreuses techniques, ici nommé "levier", ont été développées dans le but de réduire la consommation électrique des centres de calculs, à différents niveaux : infrastructure, matériel, intergiciel et applicatif. Bien utiliser ces leviers est donc capitale pour s'approcher de l'efficience énergétique. Un grand nombre de leviers sont disponibles dans ces centres de calculs. Malgré leurs gains potentiels, il peut être compliqué de bien les utiliser mais aussi d'en combiner plusieurs en restant efficace en énergie.Dans cette thèse, nous avons abordé la découverte, compréhension et usage intelligent des leviers disponibles à grande échelle dans ces centres de calculs. Nous avons étudié des leviers de manière indépendante, puis les avons combinés à d'autres leviers afin de proposer une solution générique et dynamique à l'usage combiné des leviers. / Energy consumption is a growing concern on the verge of Exascale computing, a machine reaching 10^18 operations per seconds, 10 times the actual best public supercomputers, it became a crucial focus. Data centers consumed about 7% of total demand of electricity and are responsible of 2% of global carbon emission. With the multiplication of connected devices per person around the world, reducing the energy consumption of large scale computing system is a mandatory step to address in order to build a sustainable digital society.Several techniques, that we call leverage, have been developed in order to lower the electricalconsumption of computing facilities. To face this growing concern many solutions have beendeveloped at multiple levels of computing facilities: infrastructure, hardware, middle-ware, andapplication.It is urgent to embrace energy efficiency as a major concern of our modern computing facilities. Using these leverages is mandatory to better energy efficiency. A lot of leverages are available on large scale computing center. In spite of their potential gains, users and administrators don't fully use them or don't use them at all to better energy efficiency. Although, using these techniques, alone and combined, could be complicated and counter productive if not wisely used.This thesis defines and investigates the discovery, understanding and smart usage of leverages available on a large scale data center or supercomputer. We focus on various single leverages and understand them. We then combine them to other leverages and propose a generic solution to the dynamic usage of combined leverages. Leviers Efficacité énergétique Calculs parallèles Système de calcul grande échelle Technique de conservation d'énergie Performance Modélisation de leviers Extraction de connaissance Leverages Energy Efficiency Parallel computing Large scale systems Energy savings techniques Performance Models Knowledge Extraction
56	Aplicações de sistemas multiagentes na previsão espacial de demanda elétrica em sistemas de distribuição Trujillo, Joel David Melo [UNESP] 16 August 2010 (has links) (PDF) Made available in DSpace on 2014-06-11T19:22:32Z (GMT). No. of bitstreams: 0 Previous issue date: 2010-08-16Bitstream added on 2014-06-13T20:49:11Z : No. of bitstreams: 1 trujillo_jdm_me_ilha.pdf: 4931230 bytes, checksum: e375c9e238375d66c5b717105d849f34 (MD5) / Aeci / Neste trabalho apresentam-se dois métodos para serem aplicados na previsão espacial de demanda elétrica, os quais simulam as influências de cargas especiais nas vizinhanças e utilizam os sistemas multiagentes para caracterizar a área de serviço, mostrando assim, a dinâmica dos grupos sociais em uma cidade à procura dos recursos necessários para suas atividades. O primeiro sistema multiagente foi desenvolvido para obter a previsão espacial de demanda elétrica de toda área de serviço e o segundo sistema multiagente modela a influência de cargas especiais nas vizinhanças. Estes sistemas apresentam um caráter estocástico, para simular a estocasticidade dos usuários nos sistemas de distribuição. Os métodos apresentados consideram a disponibilidade atual de dados nas empresas do setor, usando só o banco de dados comercial da empresa de serviço elétrico e o conjunto de dados georreferenciados dos elementos da rede. Uma das contribuições deste trabalho é de utilizar um número real para representar a demanda elétrica esperada de cada subárea fornecendo, deste modo, um melhor dado de entrada para realizar o planejamento de expansão da rede elétrica. A metodologia proposta foi testada em um sistema real de uma cidade de médio porte. Como resultados são gerados mapas de cenários futuros de previsão espacial de demanda para a área de estudo, que mostram a localização espaço-temporal das novas cargas. Cada mapa mostra as subáreas onde a nova demanda é esperada, com um número real para o valor da quantidade desta demanda. Os resultados obtidos variam entre 5 a 10 % em diferentes simulações, quando comparadas com as fornecidas pelo departamento de planejamento da empresa elétrica que aplica uma metodologia manual, que utiliza o conhecimento e as decisões do planejador para determinar o crescimento da demanda. / This paper presents two methods to be applied in the spatial electric load forecasting, which simulate the influences of special loads in the vicinity and use the multi-agent systems to characterize the service area, thus showing the dynamics of social groups in a city seeking the necessary resources for their activities. The first multi-agent system was developed for the spatial electric load forecasting of the entire service area and the second multi-agent system models the influence of special load in the vicinity. These systems have a stochastic character, to simulate the stochasticity of users in distribution systems. The method presented in this work considers that the utilities have access only to basic information, using only the commercial consumer database and georeferenced data set of the network elements. One of the contributions of this work is to use a real number to represent the expected demand in each subarea providing thus a better input data to perform the expansion planning of the distribution systems grid. The proposed methodology was tested in a real system of a midsize city. As results are generated maps of forecast future scenarios of spatial demand for the study area, showing the location of the new space-time loads. Each map shows the subareas where the new demand is expected, with a real number to the value of the quantity of demand. The results vary between 5 to 10% in different simulations, when compared with those provided by the planning department electrical distribution utility that applies an electric manual, which uses the knowledge and decisions of the planner to determine the growth of demand. Solo – Uso Energia elétrica – Distribuição Previsão espacial Sistemas multiagentes Spatial electric Land use Knowledge extraction Distribution planning Agent Multi-agent systems
57	Extra??o e Representa??o de Conhecimento de S?ries Temporais de Demanda de Energia El?trica Usando TSKR Queiroz, Alynne Concei??o Saraiva de 24 September 2012 (has links) Made available in DSpace on 2014-12-17T14:56:08Z (GMT). No. of bitstreams: 1 AlynneCSQ_DISSERT.pdf: 5674522 bytes, checksum: 276b6f887cbd025afcc9fc319a3dbc2e (MD5) Previous issue date: 2012-09-24 / Conselho Nacional de Desenvolvimento Cient?fico e Tecnol?gico / The opening of the Brazilian market of electricity and competitiveness between companies in the energy sector make the search for useful information and tools that will assist in decision making activities, increase by the concessionaires. An important source of knowledge for these utilities is the time series of energy demand. The identification of behavior patterns and description of events become important for the planning execution, seeking improvements in service quality and financial benefits. This dissertation presents a methodology based on mining and representation tools of time series, in order to extract knowledge that relate series of electricity demand in various substations connected of a electric utility. The method exploits the relationship of duration, coincidence and partial order of events in multi-dimensionals time series. To represent the knowledge is used the language proposed by M?rchen (2005) called Time Series Knowledge Representation (TSKR). We conducted a case study using time series of energy demand of 8 substations interconnected by a ring system, which feeds the metropolitan area of Goi?nia-GO, provided by CELG (Companhia Energ?tica de Goi?s), responsible for the service of power distribution in the state of Goi?s (Brazil). Using the proposed methodology were extracted three levels of knowledge that describe the behavior of the system studied, representing clearly the system dynamics, becoming a tool to assist planning activities / A abertura do mercado brasileiro de energia el?trica e a competitividade entre as empresas do setor energ?tico fazem com que a busca por informa??es ?teis e ferramentas que venham a auxiliar na tomada de decis?es, aumente por parte das concession?rias. Uma importante fonte de conhecimento para essas concession?rias s?o as s?ries temporais de consumo de energia. A identifica??o de padr?es de comportamento e a descri??o de eventos se tornam necess?rias para a execu??o de atividades de planejamento, buscando melhorias na qualidade de atendimento e vantagens financeiras. A presente disserta??o apresenta uma metodologia baseada em ferramentas de minera??o e representa??o de s?ries temporais, com o objetivo de extrair conhecimento que relacionam s?ries de demanda de energia el?trica de diversas subesta??es interligadas de uma concession?ria. O m?todo utilizado explora rela??es de dura??o, coincid?ncia e ordem parcial de eventos em s?ries temporais multidimensionais. Para a representa??o do conhecimento ser? utilizada a linguagem proposta por M?rchen (2005) chamada Time Series Knowledge Representation (TSKR). Foi realizado um estudo de caso usando s?ries temporais de demanda de energia de 8 subesta??es interligadas por um sistema em anel, que alimenta a regi?o metropolitana de Goi?nia-GO, cedidas pela CELG (Companhia Energ?tica de Goi?s), permission?ria do servi?o de distribui??o de energia no estado de Goi?s (Brasil). Utilizando a metodologia proposta foram extra?dos tr?s n?veis de conhecimento que descrevem o comportamento do sistema estudado, representando a din?mica do sistema de forma clara, constituindo-se em uma ferramenta para auxiliar em atividades de planejamento CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
58	Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle / Knowledge Extraction from texts written in Arabic and French by a linguistico-computational method Ben Salamah, Janan 28 October 2017 (has links) Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiels. Notre approche est basée sur la constitution de plusieurs cartes sémantiques par analyse des données non structurées afin de formaliser les traces linguistiques textuelles exprimées par des catégories d'un point de vue de fouille. Nous avons mis en place un système expert permettant d‟annoter la présence des catégories en utilisant des groupes de règles. Deux algorithmes d'annotation AnnotEV et AnnotEC ont été appliqués, dans la plateforme SemanTAS. Le rappel et précision de notre système d'annotation est autour de 80%. Nous avons présenté les résultats aussi sous forme des fiches de synthèses. Nous avons validé l'aspect Multilingue de l'approche sur la langue française et arabe, et l'aspect généricité et scalabilité en testant sur plusieurs corpus de taille confédérale. / In this thesis, we proposed a multilingual generic approach for the automatic information extraction. Particularly, events extraction of price variation and temporal information extraction linked to temporal referential. Our approach is based on the constitution of several semantic maps by textual analysis in order to formalize the linguistic traces expressed by categories. We created a database for an expert system to identify and annotate information (categories and their characteristics) based on the contextual rule groups. Two algorithms AnnotEC and AnnotEV have been applied in the SemanTAS platform to validate our assumptions. We have obtained a satisfactory result; Accuracy and recall are around 80%. We presented extracted knowledge by a summary file. In order to approve the multilingual aspect of our approach, we have carried out experiments on French and Arabic. We confirmed the scalability level by the annotation of large corpus. Extraction de connaissance Extraction des événements Extraction des référentiels temporels Annotation d‟information Cartes Sémantiques Exploration Contextuelle Linguistico-Computationnelle Knowledge extraction Events extraction Extraction of temporal references Annotation Semantic Maps Contextual exploration Computational Linguistics
59	Étude comparative du vocabulaire de description de la danse dans les archives et du vocabulaire de représentation de la danse dans la littérature Paquette-Bigras, Ève 03 1900 (has links) Notre recherche s’insère dans la mouvance des humanités numériques; nous y faisons dialoguer les arts et les sciences de l’information. Depuis quelques décennies, la danse est un sujet d’études et de recherche à part entière. Il devient donc nécessaire de mieux décrire la danse dans les archives, sachant que la description en amont influe grandement sur l’accès en aval. Les méthodes d’extraction automatique de connaissances nous semblent offrir de nouvelles possibilités. L’objectif de notre recherche est de contribuer au développement d’outils de gestion de l’information dans les archives de la danse en comparant un vocabulaire de description de la danse dans les archives et un vocabulaire de représentation de la danse dans la littérature, recueilli grâce à des méthodes d’extraction automatique de connaissances, pour en distinguer une possible complémentarité, particulièrement en ce qui a trait au vocabulaire de l’expérience esthétique. D’abord, nous analysons un vocabulaire de description de la danse dans les archives. Nous décrivons certains outils de description des archives de la danse et nous analysons le thésaurus de descripteurs Collier. Nous constatons que le vocabulaire de description de la danse dans les archives ne semble pas prendre en compte l’expérience esthétique. Ensuite, nous analysons un vocabulaire de représentation de la danse dans la littérature. Un vocabulaire structuré de l’expérience esthétique de la danse moderne est ainsi extrait d’un corpus de textes de l’écrivain français Stéphane Mallarmé et analysé. Puis nous comparons les deux vocabulaires afin d'en distinguer la complémentarité quant à la description de l’expérience esthétique. Nous formulons une première suggestion d’amélioration de certains thésaurus employés dans les archives de la danse : un thésaurus au vocabulaire essentiellement factuel, comme le thésaurus de descripteurs Collier, peut être enrichi de termes à propos de l’expérience esthétique. Le vocabulaire de représentation de la danse dans la littérature est jusqu’à un certain point complémentaire au vocabulaire de description de l’expérience esthétique de la danse dans les archives. Nous menons ainsi une première expérimentation qui justifie en partie la pertinence de certaines méthodes d’extraction de connaissances dans le développement et la maintenance de ressources documentaires pour le domaine des arts d’interprétation tels que la danse. / This research falls within the field of digital humanities; arts and information science engage in dialogue. In the last few decades, dance has become a distinct research subject. Dance description in archives needs to be improved, because the quality of the description impacts access to the documentation. Knowledge extraction seems to offer new opportunities in this regard. The goal of this research is to contribute to the development of information management tools by comparing a vocabulary for describing dance in archives with a vocabulary for representing dance in literature obtained through knowledge extraction. We look for possible complementarity, particularly in regard to the aesthetic experience. First, some tools for describing dance in archives are described, and the Collier Descriptor Thesaurus is analyzed. We observe that this vocabulary for describing dance in archives does not take into account aesthetic experience. Second, a vocabulary for representing dance in literature is analyzed. More specifically, a structured vocabulary of aesthetic experience of modern dance is drawn from a corpus of texts from the French writer Stéphane Mallarmé, and the vocabulary obtained is analyzed. Finally, the two vocabularies are compared to consider their complementarity. We conclude that some vocabularies for describing dance in archives, consisting mainly of factual terms, such as the Collier Descriptor Thesaurus, can be enriched with terms related to aesthetic experience. The vocabulary for representing dance in literature complements to a certain extent the vocabulary for describing dance in archives. Thus this initial experiment supports the relevance of knowledge extraction in information resources maintenance and development for performing arts such as dance. / Diese Arbeit beschäftigt sich mit dem Fachgebiet der Digital Humanities und verbindet dabei Kunst mit informationswissenschaftlichen Methoden. In den letzten Jahrzehnten ist Tanz ein eigenständiges Forschungsgebiet geworden. Da sich die Qualität der Beschreibung direkt auf den Zugang zu Dokumenten im Archiv auswirkt, bedarf die Beschreibung von Tanz in Archiven Verbesserung. Ziel der Forschung ist es zur Entwicklung von Informationsverwaltungs-Tools beizutragen, indem das Vokabular der Beschreibung von Tanz im Archiv mit Vokabular aus der Literatur, extrahiert aus textuellen Datenbanken, verglichen wird. Dabei liegt der Fokus auf der Komplementarität beider Quellen, besonders in Bezug auf die Beschreibung von ästhetischen Erfahrungen. Zunächst werden Tools für die Beschreibung von Tanz in Archiven beschrieben und der Collier Descriptor Thesaurus analysiert. Dabei zeigt sich, dass das Vokabular der Tanz-Beschreibung im Archiv ästhetische Erfahrung generell nicht berücksichtigt. Daraufhin wird das Vokabular der Tanz-Darstellung in der Literatur am Beispiel der Text-Sammlung des franzözischen Dichters Stéphane Mallarmé analysiert. Im Anschluss werden die zwei Wortschätze verglichen, um die Komplementarität beider Quellen zu beschreiben. Die Arbeit kommt zu dem Schluss, dass das Vokabular der Tanz-Beschreibung im Archiv hauptsächlich aus sachbezogenen Begriffen besteht (z.B. der Collier Descriptor Thesaurus), welche um Begriffe zur ästhetischen Erfahrung ergänzt werden können. Die Begriffe für die Tanz-Beschreibung in der Literatur komplementieren bis zu einem gewissen Grad das Vokabular der Tanz-Beschreibung im Archiv. Demzufolge bildet diese Arbeit eine Grundlage für weitere Forschung im Bereich der Wissensextraktion in textuellen Datenbanken im Fachgebiet darstellender Künste wie Tanz. Archives Arts Dance Danse Description des documents Digital humanities Document description Extraction automatique de connaissances Fouille de textes Humanités numériques Knowledge extraction Stéphane Mallarmé Text mining
60	Automatic taxonomy evaluation Gao, Tianjian 12 1900 (has links) This thesis would not be made possible without the generous support of IATA. / Les taxonomies sont une représentation essentielle des connaissances, jouant un rôle central dans de nombreuses applications riches en connaissances. Malgré cela, leur construction est laborieuse que ce soit manuellement ou automatiquement, et l'évaluation quantitative de taxonomies est un sujet négligé. Lorsque les chercheurs se concentrent sur la construction d'une taxonomie à partir de grands corpus non structurés, l'évaluation est faite souvent manuellement, ce qui implique des biais et se traduit souvent par une reproductibilité limitée. Les entreprises qui souhaitent améliorer leur taxonomie manquent souvent d'étalon ou de référence, une sorte de taxonomie bien optimisée pouvant service de référence. Par conséquent, des connaissances et des efforts spécialisés sont nécessaires pour évaluer une taxonomie. Dans ce travail, nous soutenons que l'évaluation d'une taxonomie effectuée automatiquement et de manière reproductible est aussi importante que la génération automatique de telles taxonomies. Nous proposons deux nouvelles méthodes d'évaluation qui produisent des scores moins biaisés: un modèle de classification de la taxonomie extraite d'un corpus étiqueté, et un modèle de langue non supervisé qui sert de source de connaissances pour évaluer les relations hyperonymiques. Nous constatons que nos substituts d'évaluation corrèlent avec les jugements humains et que les modèles de langue pourraient imiter les experts humains dans les tâches riches en connaissances. / Taxonomies are an essential knowledge representation and play an important role in classification and numerous knowledge-rich applications, yet quantitative taxonomy evaluation remains to be overlooked and left much to be desired. While studies focus on automatic taxonomy construction (ATC) for extracting meaningful structures and semantics from large corpora, their evaluation is usually manual and subject to bias and low reproducibility. Companies wishing to improve their domain-focused taxonomies also suffer from lacking ground-truths. In fact, manual taxonomy evaluation requires substantial labour and expert knowledge. As a result, we argue in this thesis that automatic taxonomy evaluation (ATE) is just as important as taxonomy construction. We propose two novel taxonomy evaluation methods for automatic taxonomy scoring, leveraging supervised classification for labelled corpora and unsupervised language modelling as a knowledge source for unlabelled data. We show that our evaluation proxies can exert similar effects and correlate well with human judgments and that language models can imitate human experts on knowledge-rich tasks. Taxonomie Ontologie Apprentissage de taxonomie Évaluation d’ontologie Extraction de connaissances Représentation des connaissances Extraction de l’information Modélisation du langage Découverte d’hyperonymes Taxonomy Ontology Taxonomy learning Ontology evaluation Knowledge representation Knowledge extraction Information retrieval Information extraction Hypernym discovery Language modelling

Search results