Global ETD Search

201	Adaptive methods for risk calibration Weining, Wang 19 September 2012 (has links) Dieser Artikel enthält vier Kapitel. Das erste Kapitel ist berechtigt, '''' lokalen Quantil Regression"und seine Zusammenfassung: Quantil Regression ist eine Technik, bedingte Quantil Kurven zu schätzen. Es bietet ein umfassendes Bild über ein Antwort-Kontingent auf erklärenden Variablen. In einem Rahmen flexible Modellierung ist eine besondere Form der bedingten Quantil-Kurve nicht von vornherein festgelegt. Dies motiviert eine lokale parametrische anstatt einer globalen feste Modell passend Ansatz. Eine nichtparametrische Glättung Schätzung der bedingte Quantil Kurve erfordert, zwischen lokalen Krümmung und stochastische auszugleichen Variabilität. In den ersten Essay empfehlen wir eine lokale Modellauswahl Technik, die eine adaptive Schätzung der bedingte bietet Quantil-Regression-Kurve bei jedem Entwurf-Punkt. Theoretische Ergebnisse behaupten, dass das vorgeschlagene adaptive Verfahren als führt gut als Orakel die würde das Risiko der lokalen Abschätzung für die Aufgabenstellung minimieren. Wir veranschaulichen die Leistung der Trolle. / This article includes four chapters. The first chapter is entitled ``Local Quantile Regression", and its summary: Quantile regression is a technique to estimate conditional quantile curves. It provides a comprehensive picture of a response contingent on explanatory variables. In a flexible modeling framework, a specific form of the conditional quantile curve is not a priori fixed. This motivates a local parametric rather than a global fixed model fitting approach. A nonparametric smoothing estimate of the conditional quantile curve requires to balance between local curvature and stochastic variability. In the first essay, we suggest a local model selection technique that provides an adaptive estimate of the conditional quantile regression curve at each design point. Theoretical results claim that the proposed adaptive procedure performs as good as an oracle which would minimize the local estimation risk for the problem at hand. We illustrate the performance of the procedure by an extensive simulation study and consider a couple of applications: to tail dependence analysis for the Hong Kong stock market and to analysis of the distributions of the risk factors of temperature dynamics. Nonparametrics Semi-Parametrisierung lokale Adaptive Methoden Hidden Markov Modelle Nonparametrics Semi-parametrics Local Adaptive Methods Hidden Markov Models 330 Wirtschaft 17 Wirtschaft QC 020 ddc:330
202	Learning Data-Driven Models of Non-Verbal Behaviors for Building Rapport Using an Intelligent Virtual Agent Amini, Reza 25 March 2015 (has links) There is a growing societal need to address the increasing prevalence of behavioral health issues, such as obesity, alcohol or drug use, and general lack of treatment adherence for a variety of health problems. The statistics, worldwide and in the USA, are daunting. Excessive alcohol use is the third leading preventable cause of death in the United States (with 79,000 deaths annually), and is responsible for a wide range of health and social problems. On the positive side though, these behavioral health issues (and associated possible diseases) can often be prevented with relatively simple lifestyle changes, such as losing weight with a diet and/or physical exercise, or learning how to reduce alcohol consumption. Medicine has therefore started to move toward finding ways of preventively promoting wellness, rather than solely treating already established illness. Evidence-based patient-centered Brief Motivational Interviewing (BMI) interven- tions have been found particularly effective in helping people find intrinsic motivation to change problem behaviors after short counseling sessions, and to maintain healthy lifestyles over the long-term. Lack of locally available personnel well-trained in BMI, however, often limits access to successful interventions for people in need. To fill this accessibility gap, Computer-Based Interventions (CBIs) have started to emerge. Success of the CBIs, however, critically relies on insuring engagement and retention of CBI users so that they remain motivated to use these systems and come back to use them over the long term as necessary. Because of their text-only interfaces, current CBIs can therefore only express limited empathy and rapport, which are the most important factors of health interventions. Fortunately, in the last decade, computer science research has progressed in the design of simulated human characters with anthropomorphic communicative abilities. Virtual characters interact using humans’ innate communication modalities, such as facial expressions, body language, speech, and natural language understanding. By advancing research in Artificial Intelligence (AI), we can improve the ability of artificial agents to help us solve CBI problems. To facilitate successful communication and social interaction between artificial agents and human partners, it is essential that aspects of human social behavior, especially empathy and rapport, be considered when designing human-computer interfaces. Hence, the goal of the present dissertation is to provide a computational model of rapport to enhance an artificial agent’s social behavior, and to provide an experimental tool for the psychological theories shaping the model. Parts of this thesis were already published in [LYL+12, AYL12, AL13, ALYR13, LAYR13, YALR13, ALY14]. Rapport Modeling Non-Verbal Behaviors Intelligent Virtual Agents Data-Driven Behavior Modeling Modeling Rapport Modeling Rapport Using Machine Learning Artificial Intelligence and Robotics Computer Sciences Graphics and Human Computer Interfaces
203	Reconnaissance de comportements de navires dans une zone portuaire sensible par approches probabiliste et événementielle : application au Grand Port Maritime de Marseille / Ship behavior recognition in a sensitive port area using probabilistic and event-driven approaches : application to the Port of Marseilles Zouaoui-Elloumi, Salma 23 July 2012 (has links) Cette thèse s'est déroulée dans le cadre du projet SECMAR qui visait à sécuriser le Grand Port Maritime de Marseille. Notre objectif était d'aider les personnels du port à identifier les comportements menaçant des navires afin de pouvoir agir efficacement en cas de danger réel. A ce titre, nous avons développé un système d'analyse et de reconnaissance de comportements de navires formé de deux sous-modules complémentaires. Le premier est construit à partir de l'approche probabiliste Modèle de Markov Cachée et traite principalement des comportements nominaux des gros bateaux qui se caractérisent par un déplacement régulier et récurrent dans le port. Le second est construit à partir du langage réactif synchrone Esterel et prend en compte les comportements agressifs et transgressifs de tous types de navires, notamment ceux des petits bateaux qui circulent librement et aléatoirement dans le port. Le système global d'aide à la décision a permis une bonne reconnaissance en temps-réel des différents comportements de navires au cours de leurs évolutions dans le port. Au regard des résultats prometteurs que nous avons obtenu à travers ce module, il est envisageable de le généraliser à d'autres ports mondiaux ainsi qu'à d'autres domaines d'application, notamment le domaine aéroportuaire. / The overall aim of this thesis was to create a decision support system that identifies discrepancies in ship behavior. The thesis was a part of the SECMAR project that aimed to improve security at the Marseilles harbor by the creation of decision support system for port staff. For this purpose, we developed a recognition behavior system consisting of two complementary sub-systems.The first system was based on the probabilistic Hidden Markov model approach and deals with nominal behavior of large to medium size commercial ships showing regular and recurrent behavior. The second system was based on the reactive synchronous language Esterel and concerns aggressive and transgressive behavior of small ships that may navigate freely in the harbor. Real-time evaluations showed that the proposed decision support system efficiently captured and evaluated ship behaviors. The promising results of the system and its diversity in origin makes it suitable for applications in other harbors as well as other environment such as airports. Aide à la décision Approche probabiliste Approche événementielle Modèles de Markov Cachés Approche réactive synchrone Ship behavior recognition Decision support Probabilistic approach Event-driven approach Hidden Markov Models Reactive synchronous approach
204	Evaluation des risques sismiques par des modèles markoviens cachés et semi-markoviens cachés et de l'estimation de la statistique / Seismic hazard assessment through hidden Markov and semi-Markov modeling and statistical estimation Votsi, Irène 17 January 2013 (has links) Le premier chapitre présente les axes principaux de recherche ainsi que les problèmes traités dans cette thèse. Plus précisément, il expose une synthèse sur le sujet, en y donnant les propriétés essentielles pour la bonne compréhension de cette étude, accompagnée des références bibliographiques les plus importantes. Il présente également les motivations de ce travail en précisant les contributions originales dans ce domaine. Le deuxième chapitre est composé d’une recherche originale sur l’estimation du risque sismique, dans la zone du nord de la mer Egée (Grèce), en faisant usage de la théorie des processus semi-markoviens à temps continue. Il propose des estimateurs des mesures importantes qui caractérisent les processus semi-markoviens, et fournit une modélisation dela prévision de l’instant de réalisation d’un séisme fort ainsi que la probabilité et la grandeur qui lui sont associées. Les chapitres 3 et 4 comprennent une première tentative de modélisation du processus de génération des séismes au moyen de l’application d’un temps discret des modèles cachés markoviens et semi-markoviens, respectivement. Une méthode d’estimation non paramétrique est appliquée, qui permet de révéler des caractéristiques fondamentales du processus de génération des séismes, difficiles à détecter autrement. Des quantités importantes concernant les niveaux des tensions sont estimées au moyen des modèles proposés. Le chapitre 5 décrit les résultats originaux du présent travail à la théorie des processus stochastiques, c’est- à-dire l’étude et l’estimation du « Intensité du temps d’entrée en temps discret (DTIHT) » pour la première fois dans des chaînes semi-markoviennes et des chaînes de renouvellement markoviennes cachées. Une relation est proposée pour le calcul du DTIHT et un nouvel estimateur est présenté dans chacun de ces cas. De plus, les propriétés asymptotiques des estimateurs proposés sont obtenues, à savoir, la convergence et la normalité asymptotique. Le chapitre 6 procède ensuite à une étude de comparaison entre le modèle markovien caché et le modèle semi-markovien caché dans un milieu markovien et semi-markovien en vue de rechercher d’éventuelles différences dans leur comportement stochastique, déterminé à partir de la matrice de transition de la chaîne de Markov (modèle markovien caché) et de la matrice de transition de la chaîne de Markov immergée (modèle semi-markovien caché). Les résultats originaux concernent le cas général où les distributions sont considérées comme distributions des temps de séjour ainsi que le cas particulier des modèles qui sont applique´s dans les chapitres précédents où les temps de séjour sont estimés de manière non-paramétrique. L’importance de ces différences est spécifiée à l’aide du calcul de la valeur moyenne et de la variance du nombre de sauts de la chaîne de Markov (modèle markovien caché) ou de la chaîne de Markov immergée (modèle semi-markovien caché) pour arriver dans un état donné, pour la première fois. Enfin, le chapitre 7 donne des conclusions générales en soulignant les points les plus marquants et des perspectives pour développements futurs. / The first chapter describes the definition of the subject under study, the current state of science in this area and the objectives. In the second chapter, continuous-time semi-Markov models are studied and applied in order to contribute to seismic hazard assessment in Northern Aegean Sea (Greece). Expressions for different important indicators of the semi- Markov process are obtained, providing forecasting results about the time, the space and the magnitude of the ensuing strong earthquake. Chapters 3 and 4 describe a first attempt to model earthquake occurrence by means of discrete-time hidden Markov models (HMMs) and hidden semi-Markov models (HSMMs), respectively. A nonparametric estimation method is followed by means of which, insights into features of the earthquake process are provided which are hard to detect otherwise. Important indicators concerning the levels of the stress field are estimated by means of the suggested HMM and HSMM. Chapter 5 includes our main contribution to the theory of stochastic processes, the investigation and the estimation of the discrete-time intensity of the hitting time (DTIHT) for the first time referring to semi-Markov chains (SMCs) and hidden Markov renewal chains (HMRCs). A simple formula is presented for the evaluation of the DTIHT along with its statistical estimator for both SMCs and HMRCs. In addition, the asymptotic properties of the estimators are proved, including strong consistency and asymptotic normality. In chapter 6, a comparison between HMMs and HSMMs in a Markov and a semi-Markov framework is given in order to highlight possible differences in their stochastic behavior partially governed by their transition probability matrices. Basic results are presented in the general case where specific distributions are assumed for sojourn times as well as in the special case concerning the models applied in the previous chapters, where the sojourn time distributions are estimated non-parametrically. The impact of the differences is observed through the calculation of the mean value and the variance of the number of steps that the Markov chain (HMM case) and the EMC (HSMM case) need to make for visiting for the first time a particular state. Finally, Chapter 7 presents concluding remarks, perspectives and future work. Chaînes de Markov Systèmes à temps discret Modélisation Modèle semi-markovien caché Modèle Markovien caché Hidden Markov models Hidden semi-Markov models Semi-Markov models Stress field Earthquake forecasting Seismic hazard 510
205	Codage de sources avec information adjacente et connaissance incertaine des corrélations / Source coding with side information and uncertain correlation knowledge Dupraz, Elsa 03 December 2013 (has links) Dans cette thèse, nous nous sommes intéressés au problème de codage de sources avec information adjacente au décodeur seulement. Plus précisément, nous avons considéré le cas où la distribution jointe entre la source et l'information adjacente n'est pas bien connue. Dans ce contexte, pour un problème de codage sans pertes, nous avons d'abord effectué une analyse de performance à l'aide d'outils de la théorie de l'information. Nous avons ensuite proposé un schéma de codage pratique efficace malgré le manque de connaissance sur la distribution de probabilité jointe. Ce schéma de codage s'appuie sur des codes LDPC non-binaires et sur un algorithme de type Espérance-Maximisation. Le problème du schéma de codage proposé, c'est que les codes LDPC non-binaires utilisés doivent être performants. C'est à dire qu'ils doivent être construits à partir de distributions de degrés qui permettent d'atteindre un débit proche des performances théoriques. Nous avons donc proposé une méthode d'optimisation des distributions de degrés des codes LDPC. Enfin, nous nous sommes intéressés à un cas de codage avec pertes. Nous avons supposé que le modèle de corrélation entre la source et l'information adjacente était décrit par un modèle de Markov caché à émissions Gaussiennes. Pour ce modèle, nous avons également effectué une analyse de performance, puis nous avons proposé un schéma de codage pratique. Ce schéma de codage s'appuie sur des codes LDPC non-binaires et sur une reconstruction MMSE. Ces deux composantes exploitent la structure avec mémoire du modèle de Markov caché. / In this thesis, we considered the problem of source coding with side information available at the decoder only. More in details, we considered the case where the joint distribution between the source and the side information is not perfectly known. In this context, we performed a performance analysis of the lossless source coding scheme. This performance analysis was realized from information theory tools. Then, we proposed a practical coding scheme able to deal with the uncertainty on the joint probability distribution. This coding scheme is based on non-binary LDPC codes and on an Expectation-Maximization algorithm. For this problem, a key issue is to design efficient LDPC codes. In particular, good code degree distributions have to be selected. Consequently, we proposed an optimization method for the selection of good degree distributions. To finish, we considered a lossy coding scheme. In this case, we assumed that the correlation channel between the source and the side information is described by a Hidden Markov Model with Gaussian emissions. For this model, we performed again some performance analysis and proposed a practical coding scheme. The proposed scheme is based on non-binary LDPC codes and on MMSE reconstruction using an MCMC method. In our solution, these two components are able to exploit the memory induced by the Hidden Markov model. Compression Codes LDPC Evolution de densité Théorie de l'information Modèles de Markov cachés Compression Source coding with side information LDPC codes Density evolution Information theory Hidden Markov models
206	Inférence statistique dans les modèles mixtes à dynamique Markovienne / Statistical inference for Markovian mixed-effects models Delattre, Maud 04 July 2012 (has links) La première partie de cette thèse est consacrée a l'estimation par maximum de vraisemblance dans les modèles mixtes a dynamique markovienne. Nous considérons plus précisément des modèles de Markov cachés a effets mixtes et des modèles de diffusion à effets mixtes. Dans le Chapitre 2, nous combinons l'algorithme de Baum-Welch a l'algorithme SAEM pour estimer les paramètres de population dans les modèles de Markov cachés à effets mixtes. Nous proposons également des procédures spéciques pour estimer les paramètres individuels et les séquences d'états cachés. Nous étudions les propriétés de cette nouvelle méthodologie sur des données simulées et l'appliquons sur des données réelles de nombres de crises d'épilepsie. Dans le Chapitre 3, nous proposons d'abord des modèles de diffusion à effets mixtes pour la pharmacocinétique de population. Nous en estimons les paramètres en combinant l'algorithme SAEM a un filtre de Kalman étendu. Nous étudions ensuite les propriétés asymptotiques de l'estimateur du maximum de vraisemblance dans des modèles de diffusion observés sans bruit de mesure continûment sur un intervalle de temps fixé lorsque le nombre de sujets tend vers l'infini. Le Chapitre 4 est consacré à la sélection de covariables dans des modèles mixtes généraux. Nous proposons une version du BIC adaptée au contexte de double asymptotique ou le nombre de sujets et le nombre d'observations par sujet tendent vers l'infini. Nous présentons quelques simulations pour illustrer cette procédure. / The first part of this thesis deals with maximum likelihood estimation in Markovianmixed-effects models. More precisely, we consider mixed-effects hidden Markov models and mixed-effects diffusion models. In Chapter 2, we combine the Baum-Welch algorithm and the SAEM algorithm to estimate the population parameters in mixed-effects hidden Markov models. We also propose some specific procedures to estimate the individual parameters and the sequences of hidden states. We study the properties of the proposed methodologies on simulated datasets and we present an application to real daily seizure count data. In Chapter 3, we first suggest mixed-effects diffusion models for population pharmacokinetics. We estimate the parameters of these models by combining the SAEM algorithm with the extended Kalman filter. Then, we study the asymptotic properties of the maximum likelihood estimatein some mixed-effects diffusion models continuously observed on a fixed time interval when the number of subjects tends to infinity. Chapter 4 is dedicated to variable selection in general mixed-effects models. We propose a BIC adapted to the asymptotic context where both of the number of subjects and the number of observations per subject tend to infinity. We illustrate this procedure with some simulations. Maximum de vraisemblance Modèles à effets mixtes Modèles de Markov cachés Algorithme SAEM Sélection de modèles Pharmacologie Maximum likelihood Mixed-effects models Hidden Markov models Stochastic differential equations SAEM algorithm Model selection Pharmacology
207	Descoberta e caracterização de vírus emergentes e reergentes em áreas peri-florestais. / Discovering and characterizing emerging and re-emerging viruses in communities encroaching tropical hotspots. Paola, Nicholas Di 21 March 2018 (has links) A fragmentação e a invasão de florestas tropicais e a crescente concentração de assentamentos humanos aumentaram exponencialmente as chances de exposição a vírus emergentes e emergentes. Dado o grande potencial de espalhamento de patógenos em população humanas, a identificação e caracterização de agentes patogênicos circulantes podem melhorar a atenção primária e as capacidades de diagnóstico para um agente emergente futuro. As abordagens moleculares e metagenômicas que utilizam as tecnologias de sequenciação da próxima geração levaram a descoberta e caracterização de muitos vírus emergentes na última década. Além disso, as abordagens in silico também podem ajudar a identificar vírus emergentes usando apenas dados de sequenciamento publicamente disponíveis. Além disso, estimar a ascendência filogenética e até mesmo analisar as mudanças no uso de codons são ferramentas adicionais que podem melhorar a nossa compreensão de vírus emergentes ou reemergentes. Este projeto visou aplicar essas ferramentas em ambos os vírus que poderiam estar circulando no Brasil: Parvovírus B19 e vírus da Febre Amarela. Também exploramos as aplicações de modelos ocultos de Markov e índice de adaptação de codons usando dados publicamente disponíveis. Esperamos que este trabalho forneça uma prova de conceito para futuros projetos metagenômicos e demonstre a utilidade das várias técnicas moleculares e bioinformáticas no estudo de vírus emergentes. / Fragmentation and encroachment of tropical rainforests and the growing concentration of human settlements have exponentially increased chances of exposure to re-emerging and emerging viruses. Given the large potential for pathogens to spillover and spread in a population, identifying and characterizing circulating human pathogens could improve the readiness and diagnostic capabilities for a future emergence. Molecular and metagenomic approaches using next-generation sequencing technologies have led to the discovery and characterization of many emerging viruses over the last decade. In complement, in silico approaches can also help identify emerging viruses using only publicly available sequencing data. Moreover, estimating the phylogenetic ancestry and even analyzing changes in codon usage are additional tools that can improve our understanding of an emerging or re-emerging virus. This project aimed to apply these tools to two viruses that could be circulating in Brazil: Parvovirus B19 and Yellow Fever virus. We also explored the applications of Hidden Markov models and codon adaptation index using publicly available data. We expect this work to provide a proof-of-concept for future metagenomic projects, and demonstrate the utility for several molecular and bioinformatics techniques in the study of emerging viruses. Codon usage Emerging virus Evolução viral Filogenia Hidden Markov Models Modelos Ocultos de Markov Parvovirus B19 Parvovírus B19 Phylogeny Uso do codão Viral Evolution Vírus da febre amarela Vírus emergente Yellow Fever virus
208	Workflow and Activity Modeling for Monitoring Surgical Procedures / Modélisation des activités chirurgicales et de leur déroulement pour la reconnaissance des étapes opératoires Padoy, Nicolas 14 April 2010 (has links) Le bloc opératoire est au coeur des soins délivrés dans l'hôpital. Suite à de nombreux développements techniques et médicaux, il devient équipé de salles opératoires hautement technologiques. Bien que ces changements soient bénéfiques pour le traitement des patients, ils accroissent la complexité du déroulement des opérations. Ils impliquent également la présence de nombreux systèmes électroniques fournissant de l'information sur les processus chirurgicaux. Ce travail s'intéresse au développement de méthodes statistiques permettant de modéliser le déroulement des processus chirurgicaux et d'en reconnaitre les étapes, en utilisant des signaux présents dans le bloc opératoire. Nous introduisons et formalisons le problème consistant à reconnaitre les phases réalisées au sein d'un processus chirurgical, en utilisant une représentation des chirurgies par une suite temporelle et multi-dimensionnelle de signaux synchronisés. Nous proposons ensuite des méthodes pour la modélisation, la segmentation hors-ligne et la reconnaissance en-ligne des phases chirurgicales. La méthode principale, une variante de modèle de Markov caché étendue par des variables de probabilités de phases, est démontrée sur deux applications médicales. La première concerne les interventions endoscopiques, la cholécystectomie étant prise en exemple. Les phases endoscopiques sont reconnues en utilisant des signaux indiquant l'utilisation des instruments et enregistrés lors de chirurgies réelles. La deuxième application concerne la reconnaissance des activités génériques d'une salle opératoire. Dans ce cas, la reconnaissance utilise de l'information 4D provenant d'un système de reconstruction multi-vues / The department of surgery is the core unit of the patient care system within a hospital. Due to continuous technical and medical developments, such departments are equipped with increasingly high-tech surgery rooms. This provides higher benefits for patient treatment, but also increases the complexity of the procedures' workflow. This also induces the presence of multiple electronic systems providing rich and various information about the surgical processes. The focus of this work is the development of statistical methods that permit the modeling and monitoring of surgical processes, based on signals available in the surgery room. We introduce and formalize the problem of recognizing phases within a workflow, using a representation of interventions in terms of multidimensional time-series formed by synchronized signals acquired over time. We then propose methods for the modeling, offline segmentation and on-line recognition of surgical phases. The main method, a variant of hidden Markov models augmented by phase probability variables, is demonstrated on two medical applications. The first one is the monitoring of endoscopic interventions, using cholecystectomy as illustrative surgery. Phases are recognized using signals indicating tool usage and recorded from real procedures. The second application is the monitoring of a generic surgery room workflow. In this case, phase recognition is performed by using 4D information from surgeries performed in a mock-up operating room in presence of a multi-view reconstruction system Déroulement des Processus Chirurgicaux Analyse des Activités Chirurgicales Modèles de Markov Cachés Cholécystectomie Surgical Workflow Surgical Activity Analysis Context Aware Operating Rooms Hidden Markov Models Cholecystectomy
209	Modeling and Recognizing Network Scanning Activities with Finite Mixture Models and Hidden Markov Models / Modélisation et reconnaissance des activités de balayage du réseau à l'aide de modèles à mélange fini et de modèles de Markov cachés De Santis, Giulia 20 December 2018 (has links) Le travail accompli dans cette thèse a consisté à construire des modèles stochastiques de deux scanners de l'Internet qui sont ZMap et Shodan. Les paquets provenant de chacun des deux scanners ont été collectés par le Laboratoire de Haute Sécurité (LHS) hébergé à Inria Nancy Grand Est, et ont été utilisés pour construire par apprentissage des chaînes de Markov cachées (HMMs). La première partie du travail consistait à modéliser l'intensité des deux scanners considérés. Nous avons cherché à savoir si l'intensité de ZMap varie en fonction du service ciblé et si les intensités des deux scanners sont comparables. Les résultats ont montré que la réponse à la première question est positive (c'est-à-dire que l'intensité de ZMap varie en fonction des ports ciblés), alors que la réponse à la deuxième question est négative. En d'autres termes, nous avons obtenu un modèle pour chaque ensemble de logs. La partie suivante du travail consistait à étudier deux autres caractéristiques des mêmes scanners : leurs mouvements spatiotemporels. Nous avons créé des ensembles d'échantillons de logs avec chacune d'elle contient une seule exécution de ZMap et Shodan. Ensuite, nous avons calculé les différences d'adresses IP ciblées consécutivement par le même scanner (c.-à-d. dans chaque échantillon), et les timestamps correspondants. Les premiers ont été utilisés pour modéliser les mouvements spatiaux, tandis que les seconds pour les mouvements temporels. Une fois que les modèles de chaînes de Markov cachées sont construites, ils ont été appliqués pour identifier les scanners d'autres ensembles de logs. Dans les deux cas, nos modèles ne sont pas capables de détecter le service ciblé, mais ils détectent correctement le scanner qui génère de nouveaux logs, avec une précision de 95% en utilisant les mouvements spatiaux et de 98% pour les mouvements temporels / The work accomplished in this PhD consisted in building stochastic models of ZMap and Shodan, respectively, two Internet-wide scanners. More in detail, packets originated by each of the two considered scanners have been collected by the High Security Lab hosted in Inria, and have been used to learn Hidden Markov Models (HMMs). The rst part of the work consisted in modeling intensity of the two considered scanners. We investigated if the intensity of ZMap varies with respect to the targeted service, and if the intensities of the two scanners are comparable. Results showed that the answer to the first question is positive (i.e., intensity of ZMap varied with respect to the targeted ports), whereas the answer to the second question is negative. In other words, we obtained a model for each set of logs. The following part of the work consisted in investigating other two features of the same scanners: their spatial and temporal movements, respectively. More in detail, we created datasets containing logs of one single execution of ZMap and Shodan, respectively. Then, we computed di erences of IP addresses consecutively targeted by the same scanner (i.e., in each sample), and of the corresponding timestamps. The former have been used to model spatial movements, whereas the latter temporal ones. Once the Hidden Markov Models are available, they have been applied to detect scanners from other sets of logs. In both cases, our models are not able to detect the targeted service, but they correctly detect the scanner that originates new logs, with an accuracy of 95% when exploiting spatial movements, and of 98% when using temporal movements Activités du scanning des réseaux Modèles de Markov cachés Scanners des réseaux Zmap Shodan Sécurité de réseaux Analyse de données Network Scanning Activities Zmap Shodan Hidden Markov Models Network Scanners Network Security Data Analysis 005.8
210	Méthodes particulaires et vraisemblances pour l'inférence de modèles d'évolution avec dépendance au contexte / Sequential Monte Carlo methods and likelihoods for inference of context-dependent evolutionary models Huet, Alexis 27 June 2014 (has links) Cette thèse est consacrée à l'inférence de modèles stochastiques d'évolution de l'ADN avec dépendance au contexte, l'étude portant spécifiquement sur la classe de modèles stochastiques RN95+YpR. Cette classe de modèles repose sur un renforcement des taux d'occurrence de certaines substitutions en fonction du contexte local, ce qui introduit des phénomènes de dépendance dans l'évolution des différents sites de la séquence d'ADN. Du fait de cette dépendance, le calcul direct de la vraisemblance des séquences observées met en jeu des matrices de dimensions importantes, et est en général impraticable. Au moyen d'encodages spécifiques à la classe RN95+YpR, nous mettons en évidence de nouvelles structures de dépendance spatiales pour ces modèles, qui sont associées à l'évolution des séquences d'ADN sur toute leur histoire évolutive. Ceci rend notamment possible l'utilisation de méthodes numériques particulaires, développées dans le cadre des modèles de Markov cachés, afin d'obtenir des approximations consistantes de la vraisemblance recherchée. Un autre type d'approximation de la vraisemblance, basé sur des vraisemblances composites, est également introduit. Ces méthodes d'approximation de la vraisemblance sont implémentées au moyen d'un code en C++. Elles sont mises en œuvre sur des données simulées afin d'étudier empiriquement certaines de leurs propriétés, et sur des données génomiques, notamment à des fins de comparaison de modèles d'évolution / This thesis is devoted to the inference of context-dependent evolutionary models of DNA sequences, and is specifically focused on the RN95+YPR class of stochastic models. This class of models is based on the reinforcement of some substitution rates depending on the local context, which introduces dependence phenomena between sites in the evolution of the DNA sequence. Because of these dependencies, the direct computation of the likelihood of the observed sequences involves high-dimensional matrices, and is usually infeasible. Through encodings specific to the RN95+YpR class, we highlight new spatial dependence structures for these models, which are related to the evolution of DNA sequences throughout their evolutionary history. This enables the use of particle filter algorithms, developed in the context of hidden Markov models, in order to obtain consistent approximations of the likelihood. Another type of approximation of the likelihood, based on composite likelihoods, is also introduced. These approximation methods for the likelihood are implemented in a C++ program. They are applied on simulated data to empirically investigate some of their properties, and on genomic data, especially for comparison of evolutionary models Chaînes de Markov cachées Méthodes particulaires Filtre particulaire auxiliaire Vraisemblances composites Context-dependent evolutionary models Hidden Markov models Particle filter Auxiliary particule filter Composite likelihood methods 519.2

Search results