Spelling suggestions: "subject:"data based"" "subject:"data cases""
41 |
Estimation de la volatilité des données financières à haute fréquence : une approche par le Modèle Score-GARCH / Estimate the volatility of high frequency financial data approach by the GARCH-Model Score.Mahamat, Hisseine Saad 24 November 2017 (has links)
Cette thèse a pour objectif principal d’estimer la volatilité des données financières à haute fréquence par le modèle Score-GARCH, dans le contexte de la crise financière récente (2007-2008). La contribution effective de notre thèse couvre trois axes majeurs. Premièrement, nous avons mis en évidence les faits stylisés observés empiriquement dans les données financières à haute fréquence, dans le cas de quatre actifs financiers de CAC40. Cette étude nous a permis d’analyser la dynamique et l’asymétrie des rendements des actifs financiers à haute fréquence. Deuxièmement, compte tenu des faits stylisés en relation avec le comportement de la volatilité, nous avons modélisé la volatilité des actifs financiers à haute fréquence par le modèle Score-GARCH, et nous l’avons comparé avec le modèles GARCH asymétriques classiques (modèles de référence). Le troisième axe propose des mesures du risque (VaR) de marché intra-journalier dans le contexte particulier des données à haute fréquence régulièrement espacées dans le temps (toutes les cinq minutes). / The main objective of this thesis is to estimate the volatility of high-frequency financial data by the Score-GARCH model in the context of the recent financial crisis (2007-2008). The actual contribution of our thesis covers three major axes. First, we have highlighted the stylized facts observed empirically in high-frequency financial data, in the case of four CAC40 financial assets. This study allowed us to analyze the dynamics and asymmetry of the returns of high-frequency financial assets. Second, given the stylized facts in relation to the behavior of volatility, we have modeled the volatility of high-frequency financial assets by the Score-GARCH model, and compared it with the classic asymmetric GARCH models (reference models ). The third axis proposes intraday market risk measures (VaR) in the particular context of high frequency data regularly spaced over time (every five minutes).
|
42 |
Statistical analysis of large scale surveys for constraining the Galaxy evolution / Analyse statistique des grands relevés pour contraindre l'évolution galactiqueMachado murtinheiras martins, Andre 09 December 2014 (has links)
La formation et l'évolution du disque épais de la Voie Lactée restent controversées. Nous avons utilisé un modèle de synthèse de la population de la Galaxie, le Modèle de la Galaxie de Besançon (Robin et al., 2003), qui peut être utilisé pour l'interprétation des données, étudier la structure galactique et tester différents scénarios de formation et évolution Galactique. Nous avons examiné ces questions en étudiant la forme et la distribution de métallicité du disque mince et du disque épais en utilisant l'approche de synthèse de la population. Nous avons imposé sur des simulations les erreurs d'observation et les biais afin de les rendre directement comparables aux observations. Nous avons corrigé les magnitudes et les couleurs des étoiles de la simulation, en utilisant un modèle d'extinction. Les modèles d'extinction disponibles ne reproduisent pas toujours la quantité exacte d'extinction le long de la ligne de visée. Un programme a été développé pour corriger la distribution de l'extinction en fonction de la distance le long de ces lignes. Les extinctions correctes ont ensuite été appliquées sur les simulations du modèle. Nous avons étudié la forme du disque mince en utilisant des données photométriques aux basses latitudes du sondage SDSS-SEGUE. Nous avons comparé qualitativement et quantitativement les observations et les simulations et nous avons essayé de contraindre la fonction de masse initiale. En utilisant la spectroscopie du relevé SEGUE, nous avons sélectionné les étoiles du turn-off de la séquence principale (MSTO) (Cheng et al 2012) et des géantes K pour étudier la distribution de métallicité du disque mince et du disque épais. Nous avons calculé une estimation de distance pour chaque étoile à partir de la relation entre les températures effectives et magnitudes absolues pour les catalogues observés et simulés. Ces deux catalogues ont les mêmes biais sur les distances, elles sont donc comparables. Nous avons développé un outil basé sur une méthode MCMC-ABC pour déterminer la distribution de la métallicité et étudier les corrélations entre les paramètres ajustés. Nous avons confirmé la présence d'un gradient de métallicité radiale de -0.079 ± 0.015 dex kpc−1 pour le disque mince. Nous avons obtenu une métallicité du disque épais au voisinage solaire de -0.47 ± 0.03 dex, compatible avec les résultats obtenus par les études précédentes. De plus, le disque épais ne montre pas de gradient, mais les données sont compatibles avec un gradient positif intérieur suivi d'un négatif extérieur. Nous avons ensuite appliqué les outils développés au relevé spectroscopique Gaia-ESO et calculé la distribution de métallicité des étoiles F/G/K dans le disque mince et épais en supposant une formation en deux époques du disque épais de la Voie Lactée. Nous avons obtenu une métallicité locale dans le disque épais de -0.23 ± 0.04 dex légèrement plus élevée que celle obtenue avec SEGUE mais en accord avec Adibekyan et al. (2013) et un gradient de métallicité radiale du disque épais en accord avec notre analyse précédente des données de SEGUE et la littérature. La métallicité locale est en accord avec la littérature au niveau de 3σ mais parce que les données GES sont préliminaires, une analyse plus approfondie avec plus de données et de meilleurs calibrations doit être faite. L'existence d'un gradient plat dans le disque épais peut être une conséquence d'une formation à partir d’un gaz turbulent et bien homogène, ou bien un fort mélange radial a brassé après coup les étoiles. / The formation and evolution of the thick disc of the Milky Way remain controversial. We made use of a population synthesis model of the Galaxy, the Besançon Galaxy Model (Robin et al. 2003), which can be used for data interpretation, study the Galactic structure and test different scenarios of Galaxy formation and evolution. We examined these questions by studying the shape and the metallicity distribution of the thin and thick disc using the population synthesis approach. We imposed on simulations observational errors and biases to make them directly comparable to observations. We corrected magnitudes and colors of stars, from the simulation, using an extinction model. The available extinction models do not always reproduce the exact quantity of extinction along the line of sight. A code to correct the distribution of extinction in distance along these lines have been developed and the corrected extinctions have been applied on model simulations. We studied the shape of the thin disc using photometric data at low latitudes from the SDSS-SEGUE survey. We compared qualitatively and quantitatively observations and simulations and try to constrain the Initial Mass Function. Using the spectroscopic survey SEGUE we selected Main Sequence Turnoff (MSTO) stars (Cheng et al 2012) and K giants to study the metallicity distribution of the thin and thick discs. We computed a distance for each star from the relation between effective temperatures and absolute magnitudes for the observed and simulated catalogs. These two catalogues have the same biases in distances, therefore are comparable. We developed a tool based on a MCMC-ABC method to determine the metallicity distribution and study the correlations between the fitted parameters. We confirmed a radial metallicity gradient of -0.079 ± 0.015 dex kpc−1 for the thin disc. We obtained a solar neighborhood metallicity of the thick disc of -0.47 ± 0.03 dex similar to previous studies and the thick disc shows no gradient but the data are compatible with an inner positive gradient followed by a outer negative one. Furthermore, we have applied the developed tools to the Gaia-ESO spectroscopic survey and computed the metallicity distribution of F/G/K stars in the thin and thick disc assuming a two epoch formation for the thick disc of the Milky Way. We obtained a local metallicity in the thick disc of -0.23 ± 0.04 dex slightly higher than the one obtained with SEGUE but in agreement with Adibekyan et al. (2013) and a radial metallicity gradient for the thick disc in agreement with our previous analysis of SEGUE data and the literature. The local metallicity is in fair agreement with literature at the 3σ level but because the GES data is an internal release under testing further analysis with more data and better calibrations have to be done. The existence of a flat gradient in the thick disc can be a consequence of an early formation from a highly turbulent homogeneous well mixed gas, unless it has suffered heavy radial mixing later on.
|
43 |
Trends and scientometrics in cyber security researchSlagarp, Jesper, Häggström, Elvira January 2022 (has links)
To look for scientific literature, there are specialized databases and search engines to simplify the process. In order to quickly assess the quality of a given paper, there are different indices meant to quantify the success and impact an author has had within the scientific community. However, these indices have some flaws and could potentially be exploited. In this thesis, we aim to gather publication data from cyber security conferences, identify unknown patterns and trends as well as to introduce a new index or metric that better captures the impact of authors in the field than current common indices. We found that the cyber security community is in a healthy state with no obvious exploitation of common indices. With one notable exception, there is near equal distribution between citations within sub-communities and outside of them. We also found that the majority of authors with several publications chose to publish for several different conferences, not just one of them. Furthermore, new and growing trends in cyber security research were found to be ”machine learning”, ”blockchain” and ”differential privacy”. As for the conferences, it appears that USENIX has overtaken CCS in recent years as the conference with the highest publication output. While no attempts to exploit the common indices were identified, we believe that the risk is still there. We also identify other flaws with the usage of the common metrics in the cyber security research field. As such, we suggest the adoption of the pure R-index with a normalized proportional counting as the score calculation method, since it takes the number and order of the authors into consideration, as well as that it does not discriminate against authors with few publications with many citations. / För att hitta vetenskaplig literatur finns det särskilda databaser och sökmotorer för att förenkla processen. För att snabbt kunna uppskatta kvaliteten hos en given vetenskaplig text finns det olika index menade att snabbt och enkelt kunna kvantifiera en författares inflytande och framgång inom vetenskapen. Det finns dock brister och sätt att utnyttja dessa index. I den här rapporten har vi som mål att samla in data från datasäkerhetskonferenser, identifiera okända mönster och trender samt att introducera ett nytt index som bättre fångar författares inflytande än nuvarande standarder. Vi fann att cyberäkerhet som forskningsområde är välmående och utan uppenbara utnyttjanden av de vanligaste indexen. Med ett enda undantag sker det nästan lika mycket citeringar mellan olika delgemenskaper som inom dem. Vi fann även att majoriteten av författare med flera publikationer valt att publicera i flera olika konferenser och inte bara en. Vidare fann vi att ”machine learning”, ”blockchain” och ”differential privacy” är nya och växande trender. Vad gäller konferenser visar det sig att USENIX har gått om CCS på senare år som den konferens med störst publikationsutflöde. Även om vi inte identifierade något missbruk tror vi att det fortfarande finns risk för det. Vi identifierade även andra brister med användningen av de vanligaste indexen i cybersäkerhetsforskningsområdet. Av dessa anledningar föreslår vi användningen av det så kallade ”pure R-index” med en normaliserad proportionell räkning som poängberäkningsmetod, eftersom att det tar antalet samt ordningen av författare i hänsyn, samt att det inte heller diskriminerar mot författare med få publikationer med många citeringar.
|
44 |
Modèle de structuration des relations lexicales fondé sur le formalisme des fonctions lexicalesJousse, Anne-Laure 04 1900 (has links)
Thèse réalisée en cotutelle avec l'Université Paris Diderot (Paris 7) / Cette thèse porte sur l’élaboration d’un modèle de structuration des relations lexicales, fondé sur les fonctions lexicales de la Théorie Sens-Texte [Mel’cuk, 1997]. Les relations lexicales considérées sont les dérivations sémantiques et les collocations telles qu’elles sont définies dans le cadre de la Lexicologie Explicative et Combinatoire [Mel’cuk et al., 1995]. En partant du constat que ces relations lexicales ne sont pas décrites ni présentées de façon satisfaisante dans les bases de données lexicales, nous posons la nécessité d’en créer un modèle de structuration.
Nous justifions l’intérêt de créer un système de fonctions lexicales puis détaillons les quatre perspectives du système que nous avons mises au point : une perspective sémantique, une perspective axée sur la combinatoire des éléments d’une relation lexicale, une perspective centrée sur leurs parties du discours, ainsi qu’une perspective mettant en avant l’élément sur lequel se focalise la relation. Le système intègre l’ensemble des fonctions lexicales, y compris les fonctions lexicales non standard, dont nous proposons une normalisation de l’encodage.
Le système a été implémenté dans la base de données lexicale du DiCo. Nous
présentons trois applications dans lesquelles il peut être exploité. Premièrement, il est possible d’en dériver des interfaces de consultation pour les bases de données lexicales de type DiCo. Le système peut également être directement consulté en tant qu’assistant à l’encodage des relations lexicales. Enfin, il sert de référence pour effectuer un certain nombre de calculs sur les informations lexicographiques, qui pourront, par la suite, être implémentés pour automatiser la rédaction de certains champs de fiches lexicographiques. / This thesis proposes a model for structuring lexical relations, based on the concept of lexical functions (LFs) proposed in Meaning-Text Theory [Mel’cuk, 1997]. The lexical relations taken into account include semantic derivations and collocations as defined within this theoretical framework, known as Explanatory and Combinatorial Lexicology [Mel’cuk et al., 1995]. Considering the assumption that lexical relations are neither encoded nor made available in lexical databases in an entirely satisfactory manner, we assume the necessity of designing a new model for structuring them.
First of all, we justify the relevance of devising a system of lexical functions rather than a simple classification. Next, we present the four perspectives developped in the system: a semantic perspective, a combinatorial one, another one targetting the parts of speech of the elements involved in a lexical relation, and, finally, a last one emphasizing which element of the relation is focused on. This system covers all LFs, even non-standard ones, for which we have proposed a normalization of the encoding.
Our system has already been implemented into the DiCo relational database. We
propose three further applications that can be developed from it. First, it can be used to build browsing interfaces for lexical databases such as the DiCo. It can also be directly consulted as a tool to assist lexicographers in encoding lexical relations by means of lexical functions. Finally, it constitutes a reference to compute lexicographic information which will, in future work, be implemented in order to automatically fill in some fields within the entries in lexical databases.
|
45 |
Ανάπτυξη τυπολογίας περιβαλλοντικών βάσεων δεδομένων για την ευρύτερη περιοχή της Ανατολικής ΜεσογείουΚανέλλος, Φώτιος 13 February 2015 (has links)
Η μελέτη και παρακολούθηση του Περιβάλλοντος με σκοπό την κατανόηση και προστασία του, προϋποθέτουν τη δυνατότητα καταγραφής, επεξεργασίας και αποθήκευσης πλήθους μετρήσεων καθώς και τη χρήση μαθηματικών μοντέλων. Για τον σκοπό αυτό έχουν αναπτυχθεί από διεθνείς οργανισμούς (Κυβερνητικούς και Μη) ειδικές Περιβαλλοντικές Βάσεις Δεδομένων που ανάλογα με τα ιδιαίτερα χαρακτηριστικά τους καταγράφουν τις τιμές διαφόρων περιβαλλοντικών μεταβλητών.
Για την αποτελεσματικότερη χρήση των ΠΒΔ και την συγκριτική αξιολόγησή τους αναπτύχθηκε ένας Τυπολογικός Πίνακας βασισμένος σε δώδεκα (12) παραμέτρους με σκοπό την κατάταξη των κυριότερων ΠΒΔ σε αυτόν. Ως εκ τούτου, επιλέχθηκαν δεκαεπτά (17) ΠΒΔ, που υποστηρίζονται είτε από διεθνείς ή από ελληνικούς φορείς, και περιλαμβάνουν την περιοχή της ανατολικής Μεσογείου.
Η ανάπτυξη του Τυπολογικού Πίνακα επιτρέπει την κατάταξη οποιασδήποτε άλλης ΠΒΔ σε αυτόν ενώ αποτελεί και ένα χρήσιμο εργαλείο στο σχεδιασμό μελλοντικών τέτοιων Βάσεων. Κάνοντας χρήση των φίλτρων του Πίνακα επιλέχθηκαν τρείς (3) μελέτες περιπτώσεων για την συγκριτική αξιολόγηση των αποτελεσμάτων δύο (2) ΠΒΔ που πληρούν όμοια κριτήρια.
Στα συμπεράσματα της εργασίας περιλαμβάνεται η διαπίστωση ότι παρά την ετερογένεια της πληροφορίας που παρατηρείται μεταξύ των ΠΒΔ, υπάρχουν οι προϋποθέσεις να εξαχθούν ασφαλείς και χρήσιμες παρατηρήσεις. / Over the past decades, an effort has been made by several Governments and Non-Governmental Organizations to develop and support Environmental Data Bases (EDBs) containing specific environmental parameters and characteristics. The aim was to study and monitor environmental variables in order to better understand and predict their structures and trends and thus protect the global ecosystem.
In order to achieve an effective way of using the various Environmental DBs a typological Table was developed in accordance to specific parameters. Priority was given to those EDBs that focus on the eastern part of Mediterranean.
This Typology allows every EDB to be classified according to specific spatio-temporal scales and parameters and simultaneously can offer a better approach for designing other EDBs in the future. Three (3) case studies were selected based on the Typological Table for comparative assessment of the EDBs.
In general the EDB are heterogeneous and do not follow the same data structure. However under some circumstances, interesting information can be extracted that expands and completes our knowledge about the Environment.
|
46 |
Modèle de structuration des relations lexicales fondé sur le formalisme des fonctions lexicalesJousse, Anne-Laure 04 1900 (has links)
Cette thèse porte sur l’élaboration d’un modèle de structuration des relations lexicales, fondé sur les fonctions lexicales de la Théorie Sens-Texte [Mel’cuk, 1997]. Les relations lexicales considérées sont les dérivations sémantiques et les collocations telles qu’elles sont définies dans le cadre de la Lexicologie Explicative et Combinatoire [Mel’cuk et al., 1995]. En partant du constat que ces relations lexicales ne sont pas décrites ni présentées de façon satisfaisante dans les bases de données lexicales, nous posons la nécessité d’en créer un modèle de structuration.
Nous justifions l’intérêt de créer un système de fonctions lexicales puis détaillons les quatre perspectives du système que nous avons mises au point : une perspective sémantique, une perspective axée sur la combinatoire des éléments d’une relation lexicale, une perspective centrée sur leurs parties du discours, ainsi qu’une perspective mettant en avant l’élément sur lequel se focalise la relation. Le système intègre l’ensemble des fonctions lexicales, y compris les fonctions lexicales non standard, dont nous proposons une normalisation de l’encodage.
Le système a été implémenté dans la base de données lexicale du DiCo. Nous
présentons trois applications dans lesquelles il peut être exploité. Premièrement, il est possible d’en dériver des interfaces de consultation pour les bases de données lexicales de type DiCo. Le système peut également être directement consulté en tant qu’assistant à l’encodage des relations lexicales. Enfin, il sert de référence pour effectuer un certain nombre de calculs sur les informations lexicographiques, qui pourront, par la suite, être implémentés pour automatiser la rédaction de certains champs de fiches lexicographiques. / This thesis proposes a model for structuring lexical relations, based on the concept of lexical functions (LFs) proposed in Meaning-Text Theory [Mel’cuk, 1997]. The lexical relations taken into account include semantic derivations and collocations as defined within this theoretical framework, known as Explanatory and Combinatorial Lexicology [Mel’cuk et al., 1995]. Considering the assumption that lexical relations are neither encoded nor made available in lexical databases in an entirely satisfactory manner, we assume the necessity of designing a new model for structuring them.
First of all, we justify the relevance of devising a system of lexical functions rather than a simple classification. Next, we present the four perspectives developped in the system: a semantic perspective, a combinatorial one, another one targetting the parts of speech of the elements involved in a lexical relation, and, finally, a last one emphasizing which element of the relation is focused on. This system covers all LFs, even non-standard ones, for which we have proposed a normalization of the encoding.
Our system has already been implemented into the DiCo relational database. We
propose three further applications that can be developed from it. First, it can be used to build browsing interfaces for lexical databases such as the DiCo. It can also be directly consulted as a tool to assist lexicographers in encoding lexical relations by means of lexical functions. Finally, it constitutes a reference to compute lexicographic information which will, in future work, be implemented in order to automatically fill in some fields within the entries in lexical databases. / Thèse réalisée en cotutelle avec l'Université Paris Diderot (Paris 7)
|
47 |
Tratamento temporal em mineração de dados educacionais para fidelização de estudantes / Tempory treatment in data mining educational for fidelization of studentsFazolin, Kleyton 22 August 2017 (has links)
O tratamento temporal tem se revelado importante em muitos problemas de mineração de dados em que a base de dados é formada por dados coletados historicamente [Romero e Ventura 2007]. Um exemplo desta situação ocorre em instituições de ensino, onde os dados históricos dos alunos - tais como o desempenho escolar e a situação financeira - vem sendo adquiridos paulatinamente ao longo do tempo [Romero e Ventura 2007]. Este trabalho apresenta uma proposta de criação de atributos temporais com o objetivo de auxiliar a previsão da evasão de alunos de Ensino Fundamental em escolas particulares, tratada como um problema de classificação. A fidelização e retenção de alunos em instituições de ensino se tornou um dos maiores desafios para a área de gestão destas instituições [Lin 2012]. Uma solução promissora para alcançar esse objetivo é o uso da mineração de dados educacionais, para a identificação de padrões que auxiliem nas tomadas de decisões. Para a realização dos experimentos, os dados de 15.753 alunos da Rede Educacional Adventista – uma das maiores redes educacionais do mundo [“Educação Adventista” 2016] – foram extraídos e utilizados. Após a aplicação dos algoritmos de classificação, verificou-se que o classificador baseado em instâncias KNN conseguiu a melhor acurácia antes do uso dos novos atributos temporais criados, porém o melhor algoritmo para efetuar previsão da evasão no contexto desta pesquisa foi a Árvore de Decisão J4.8, pois permite a interpretação dos fatores que levaram ao resultado final. Os resultados mostram que a abordagem é viável, tendo-se obtido uma acurácia de até 96,57% utilizando o algoritmo J48 e um aumento de 14,39% na acurácia do classificador KNN com o uso dos atributos temporais. / The creation of temporal attributes has proved important in many data mining problems in that the database is formed by data collected historically [Romero e Ventura 2007]. An example of this situation occurs in educational institutions, where the historical data of students – such as school performance and financial situation – has been gradually acquired over time [Romero e Ventura 2007]. This paper presents a proposal for the creation of temporal attributes with the purpose of helping to predict the avoidance of elementary school students in private schools, treated as a classification problem. The loyalty and retention of students in educational institutions has become one of the greatest challenges for the management area of these institutions [Lin 2012]. A promising solution to achieve this goal is the use of educational data mining to identify patterns that aid in decision making. For the experiments, the data of 15,753 students of the Adventist Educational Network – one of the largest educational networks in the world [“Educação Adventista” 2016]– were employed. After the application of the classification algorithms, it was verified that the instance-based KNN classifier obtained the best accuracy before the use of the time attributes created, but the best algorithm to predict the avoidance in the context of this research was the Decision Tree J4.8 algorithm, because it allows the interpretation of the factors that led to the final result. The results show that the approach is feasible, obtaining an accuracy of up to 97.87% in the experiments performed and a gain of up to 14.39% in the accuracy when using the KNN with temporal attributes.
|
48 |
Martha E. Williamsová (1934-2007), její dílo a význam pro obor informační vědy / Martha E. Williams (1934-2007), her work and her significance for information scienceDvořáková, Drahomíra January 2013 (has links)
The purpose of the thesis is to describe life and work of Martha E. Williams related to library and information science. The thesis introduces private life of Martha E. Williams, her professional development in the Illinois Institute of Technology Research Institute in Chicago and University of Illinois at Urbana-Champaign, and her activities in professional library associations and academic awards given to her. The core of the thesis is made of thorough analysis of individual works, activities and projects that Martha E. Williams conducted or significantly participated in. Martha E. Williams contributed to development of databases and information industry, worked as an editor of register of Computer-Readable database (CRDB) and of serial Annual Review of Information Science and Technology (ARIST). Furthemore, Martha E. Williams devoted her time systematically to transparency of information retrieval, database classification and evaluation, usage data, analysis of governmental and private databases and the role of libraries and information centers in the era of rapid expansion of databases.
|
49 |
Design and Implementation of a Data Model for the Prototype Monitor Assignment Support System.Neilan, Lourdes T. 1994 September 1900 (has links)
Thesis (Master').
|
Page generated in 0.079 seconds