• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 92413
  • 58247
  • 33330
  • 15513
  • 5695
  • 3705
  • 1283
  • 1215
  • 1101
  • 1089
  • 1031
  • 967
  • 893
  • 710
  • Tagged with
  • 8973
  • 7954
  • 7348
  • 7104
  • 6420
  • 6143
  • 5758
  • 5194
  • 5036
  • 4587
  • 4492
  • 4392
  • 4209
  • 3533
  • 3482
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Customer Support Process Analysis : Using statistics and modeling to analyze a global customer support process / Analys av en supportprocess

Björch, Tobias, Strålberg, Fredrik January 2016 (has links)
A key challenge for a company with global support is to provide qualitative service to their customers. Management of global support centers has to consider customer requirements, service agreements, budget, resources and more. Therefore, management has a limited room for testing new approaches, especially in global operations. This thesis aims to use statistics, modeling and discrete event simulation to analyze a global support process. Analysis shall provide approximate results to support decision making. Model representation of the global support process uses non-parametric bootstrap, to replicate variability observed in the real-world system. Variability in the arrival process is considered by using bootstrap block resampling. To describe the observed global support process, data has been collected from the case company. The results from simulation are validated by comparison with the observed data. Simulation results validate the model representation and therefore potential process enhancements are tested. Further, discussion considers results from test of process enhancements and validity of the simulation model. / En utmaning för ett företag med en global support är att erbjuda kvalitativ service till deras kunder. Ledningen för globala supportcenter måste ta hänsyn till kunders önskemål, serviceavtal, budget, resurser med mera. Därför har ledningen ett begränsat handlingsutrymme för att testa nya tillvägagångssätt, speciellt inom globala verksamheter. Målet med det här arbetet är att med hjälp av statistik, modellering och diskret händelsestyrd simulering analysera en global supportprocess. Analysen ska bidra med approximativa resultat vilka kan användas som beslutsunderlag. Modellrepresenationen av den globala support processen tillämpar en icke-parametrisk återsampling för att replikera variabilitet i det observerade systemet. För att replikera variabilitet i ankomstprocessen används återsampling av block (bootstrap block resampling). För att beskriva den observerade globala supportprocessen används data inhämtad från företaget där arbetet utfördes. Resultat från simulering valideras genom jämförelser med observerat data. Simuleringsresultaten validerar modellrepresentationen och därför har potentiella processförbättringar testats. Vidare presenteras diskussion om validering av simuleringsmodellen samt resultat från tester av potentiella processförbättringar.
62

Invandrarna i våldtäktsstatistiken : En kartläggning av invandrares överrepresentattion som gärningsmän vid våldtäkter / The immigrants in the rape statistic : A mapping of immigrants overrepresentation

Futic, Dijana January 2006 (has links)
<p>Sammanfattning</p><p>Syftet med denna uppsats är att undersöka invandrares överrepresentation som gärningsmän i våldtäktsstatistiken. Avsikten är främst att kartlägga storleken på överrepresentationen, dess förklaringar och eventuella orsaker. Uppsatsen tar även upp gällande rätt inom området och lagstiftningen innan reformen i april 2005, dess förändringar och avsikten bakom förändringarna. Antalet våldtäkter tycks bli allt högre och det är mot denna bakgrund som lagstiftningen och lagstiftningsreformen som genomfördes i april 2005 presenteras och diskuteras.</p><p>Invandrares överrepresentation i våldtäkter är en fråga som inte får tillräcklig uppmärksamhet av samhällets aktörer. Brottsförebyggande rådet har givit ut två rapporter med en tidsintervall på tio år. Invandrares och invandrares barns brottslighet gavs ut 1996 och efterföljaren Brottslighet bland personer födda i Sverige och utlandet gavs ut nästan tio år senare, året 2005. Dessa rapporter är dessutom inte koncentrerade på våldtäktsbrottet utan behandlar alla typer brottslighet och lägger ytterst liten vikt vid orsakerna därtill.</p><p>I dagens samhälle pågår relativt mycket debatter rörande våldtäkter, brottet är uppmärksammat i media och forskning bedrivs. Detta krävs för förebyggandet av brottet, anmärkningsvärt är dock den nästan obefintliga uppmärksamhet som ges invandrares överrepresentation i våldtäktsstatistiken. Att påpeka överrepresentationen kan förknippas med främlingsfientlighet och inte mindre att konstatera att överrepresentationen är ett problem. Ämnet är tabu. Resultatet blir en ond cirkel med ett problem som inte diskuteras och därmed inte kan reduceras eller lösas varför problemet eskalerar. Detta leder oss till slutsatsen att invandrares överrepresentation måste belysas för att orsakerna ska kartläggas och förhoppningsvis leda till en ljusare utveckling.</p>
63

Invandrarna i våldtäktsstatistiken : En kartläggning av invandrares överrepresentattion som gärningsmän vid våldtäkter / The immigrants in the rape statistic : A mapping of immigrants overrepresentation

Futic, Dijana January 2006 (has links)
Sammanfattning Syftet med denna uppsats är att undersöka invandrares överrepresentation som gärningsmän i våldtäktsstatistiken. Avsikten är främst att kartlägga storleken på överrepresentationen, dess förklaringar och eventuella orsaker. Uppsatsen tar även upp gällande rätt inom området och lagstiftningen innan reformen i april 2005, dess förändringar och avsikten bakom förändringarna. Antalet våldtäkter tycks bli allt högre och det är mot denna bakgrund som lagstiftningen och lagstiftningsreformen som genomfördes i april 2005 presenteras och diskuteras. Invandrares överrepresentation i våldtäkter är en fråga som inte får tillräcklig uppmärksamhet av samhällets aktörer. Brottsförebyggande rådet har givit ut två rapporter med en tidsintervall på tio år. Invandrares och invandrares barns brottslighet gavs ut 1996 och efterföljaren Brottslighet bland personer födda i Sverige och utlandet gavs ut nästan tio år senare, året 2005. Dessa rapporter är dessutom inte koncentrerade på våldtäktsbrottet utan behandlar alla typer brottslighet och lägger ytterst liten vikt vid orsakerna därtill. I dagens samhälle pågår relativt mycket debatter rörande våldtäkter, brottet är uppmärksammat i media och forskning bedrivs. Detta krävs för förebyggandet av brottet, anmärkningsvärt är dock den nästan obefintliga uppmärksamhet som ges invandrares överrepresentation i våldtäktsstatistiken. Att påpeka överrepresentationen kan förknippas med främlingsfientlighet och inte mindre att konstatera att överrepresentationen är ett problem. Ämnet är tabu. Resultatet blir en ond cirkel med ett problem som inte diskuteras och därmed inte kan reduceras eller lösas varför problemet eskalerar. Detta leder oss till slutsatsen att invandrares överrepresentation måste belysas för att orsakerna ska kartläggas och förhoppningsvis leda till en ljusare utveckling.
64

Hur gymnasieelevers förståelse av statistik påverkas av uppgifter i läroböcker / How Upper Secondary School Students´ Understanding of Statistics is Affected by Problems in Textbooks

Mohammadi, Mohamad Hadi January 2021 (has links)
Statistik används alltmer i både vardagen och inom olika vetenskapsområden. Detta gör det viktigt att skolans matematik ge eleverna möjlighet till att utveckla sin kunskap om statistik. Men det finns undersökningar som visar svårigheter hos elever och studenter i att förstå olika statistikområden, bland annat standardavvikelse samt studier att problemlösning spelar en stor roll i elevernas matematikförståelse speciellt i svenska skolor där läroböcker har blivit någon form av styrinstrument. Därför studeras i denna studie hur gymnasieelevers förståelse av olika statistikområde påverkas av uppgifter i läroböcker.
65

Evaluating Erlang database structures for building statistics in telecommunications : Comparing non-relational and relational databases in Mnesia

Ptitsin, Anton, Jönsson, Lou January 2021 (has links)
Mobile subscriptions are steadily increasing, making it more relevant to collect data and make useful statistics. To handle these large data sets, robust databases must be built. Two important factors for databases are storing the information persistently and having an adequate read and write speed to the database. This thesis project will study the implementation to fulfill these factors along with the comparison between a non-relational database structure and a relational database structure. The system will be written in the database management system Mnesia in the programming language Erlang. This study was conducted at Mobile Arts AB in Stockholm, Sweden. The company requested a system with different modules to build a query language used to extract relevant statistics. Large amounts of data should be processed through the file processor and stored in a database efficiently. A system based on two different database structures was built and compared to achieve the most efficient system among the two database structures. To measure the performance of the system and to compare the database structures, benchmarks were executed to determine the most efficient method. The results show that the non-relational database has a faster input processing speed compared to the relational one, while the relational database structure was faster in output processing. The conclusion is that the non-relational database works better for the system of this thesis project. / Antalet mobilabonnemang ökar stadigt, vilket gör det mer relevant att samla in data samt bygga värdefull statistik. För att hantera stora datamängder måste stabila och robusta databaser byggas. Två viktiga faktorer för databaser är att kunna lagra informationen och att kunna skriva till och läsa från databasen snabbt. Detta arbete kommer studera implementationen för att uppfylla dessa faktorer samt jämföra icke-relationsdatabasstrukturen med relationsdatabasstrukturen. Systemet kommer skrivas i databas-hanteraren Mnesia, i programmerings-språket Erlang. Studien utfördes på Mobile ArtsABi Stockholm. Företaget efterfrågade ett system med flera moduler tillsammans med ett egetdefinierat frågespråk för att kunna bygga relevant statistik. Stora mängder data skulle processeras genom filprocessorn och lagras i databasen på ett effektivt sätt. Ett system med två olika databasstrukturer implementerades och jämfördes för att hitta det mest effektiva systemet mellan de två databasstrukturerna. Prestandamätningar på systemet utfördes för att mäta vilken databasstruktur som gav mest effektiva resultat. Resultatet visar att icke-relationsdatabasen är snabbare vad gäller inmatningshastighet jämfört med systemet med relationsdatabas, medan relationsdatabasen hade en snabbare utmatningshastighet. Slutsatsen är att icke-relationsdatabasen fungerar bättre till systemet för detta arbete.
66

Statistics of Electric and Magnetic Fields at the Earth’s Bow Shock / Statistik över elektriska och magnetiska fält vid jordens bogchock

Wong-Chan, Tsz-Kiu January 2023 (has links)
The interaction between the solar wind and Earth’s magnetic field creates the Earth’s bow shock. It is an ideal region for space probes like MMS, THEMIS or Clusters to study the collisionless shock phenomenon in space plasma. More specifically the project focuses on the topic of wave-particle interactions in the space plasma environment, which allows irreversible energy dissipation and entropy production at the event of a shock when there are a lack of collisions between particles. Research is still ongoing regarding the topic of wave-particle interactions in plasma and this project aims to contribute to our understanding of this topic. To do this, measurement data of a total of 249 shock crossing events from NASA’s Magnetospheric Multiscale (MMS) mission are used to conduct a statistical study. The study aims to analyse the correlation between the electric- and magnetic field measured close to shock-crossing events, and their respective macroscopic shock parameters in different shock regions, and at three different frequency bands for the attempt of further our understanding of the dynamics of collisionless shocks. Through scatter plots, negative correlations are found between both the electric- and magnetic field power, and the different macroscopic shock parameters at various shock regions and at various frequency ranges. This leads to the suggestion of potential dependencies between the occurrence of electrostatic and electromagnetic waves and those shock parameters. However, there is still room for improvement of the statistical method used for the correlation studies. / Interaktionen mellan solvinden och jordens magnetfält skapar jordens bogchock. Det är en idealisk region för rymdfarkoster som MMS, THEMIS eller Clusters att studera kollisionsfria chocker i rymdplasma. Mer specifikt fokuserar detta projekt på vågpartikelinteraktioner i rymdplasma, vilket möjliggör irreversibel energidissipation och entropiproduktion vid en chock när det råder brist på kollisioner mellan partiklar. Forskning pågår fortfarande inom området vågpartikelinteraktioner i plasma och detta projekt syftar till att bidra till vår förståelse av ämnet. För att göra detta används mätdata från totalt 249 chocker från NASA:s Magnetospheric Multiscale (MMS)-uppdrag för att genomföra en statistisk studie. Studien syftar till att analysera korrelationen mellan de elektriska och magnetiska fälten som mäts nära chocker och deras respektive makroskopiska chockparametrar i olika chockregioner och vid tre olika frekvensband, i ett försök att vidare förstå dynamiken hos kollisionslösa chocker. Genom spridningsdiagram hittas negativa korrelationer både mellan de elektriska och magnetiska fältstyrkan och de olika makroskopiska chockparametrarna vid olika chockregioner och frekvensband. Detta leder till förslaget om potentiella samband mellan förekomsten av elektrostatiska och elektromagnetiska vågor och dessa chockparametrarna. Det finns dock fortfarande utrymme för förbättring av den statistiska metoden som används för korrelationsstudierna.
67

Sur l'estimation semi paramétrique robuste pour statistique fonctionnelle / On the semiparametric robust estimation in functional statistic

Attaoui, Said 10 December 2012 (has links)
Dans cette thèse, nous nous proposons d'étudier quelques paramètres fonctionnels lorsque les données sont générées à partir d'un modèle de régression à indice simple. Nous étudions deux paramètres fonctionnels. Dans un premier temps nous supposons que la variable explicative est à valeurs dans un espace de Hilbert (dimension infinie) et nous considérons l'estimation de la densité conditionnelle par la méthode de noyau. Nous traitons les propriétés asymptotiques de cet estimateur dans les deux cas indépendant et dépendant. Pour le cas où les observations sont indépendantes identiquement distribuées (i.i.d.), nous obtenons la convergence ponctuelle et uniforme presque complète avec vitesse de l'estimateur construit. Comme application nous discutons l'impact de ce résultat en prévision non paramétrique fonctionnelle à partir de l'estimation de mode conditionnelle. La dépendance est modélisée via la corrélation quasi-associée. Dans ce contexte nous établissons la convergence presque complète ainsi que la normalité asymptotique de l'estimateur à noyau de la densité condtionnelle convenablement normalisée. Nous donnons de manière explicite la variance asymptotique. Notons que toutes ces propriétés asymptotiques ont été obtenues sous des conditions standard et elles mettent en évidence le phénomène de concentration de la mesure de probabilité de la variable fonctionnelle sur des petites boules. Dans un second temps, nous supposons que la variable explicative est vectorielle et nous nous intéressons à un modèle de prévision assez général qui est la régression robuste. A partir d'observations quasi-associées, on construit un estimateur à noyau pour ce paramètre fonctionnel. Comme résultat asymptotique on établit la vitesse de convergence presque complète uniforme de l'estimateur construit. Nous insistons sur le fait que les deux modèles étudiés dans cette thèse pourraient être utilisés pour l'estimation de l'indice simple lorsque ce dernier est inconnu, en utilisant la méthode d'M-estimation ou la méthode de pseudo-maximum de vraisemblance, qui est un cas particulier de la première méthode. / In this thesis, we propose to study some functional parameters when the data are generated from a model of regression to a single index. We study two functional parameters. Firstly, we suppose that the explanatory variable take its values in Hilbert space (infinite dimensional space) and we consider the estimate of the conditional density by the kernel method. We establish some asymptotic properties of this estimator in both independent and dependent cases. For the case where the observations are independent identically distributed (i.i.d.), we obtain the pointwise and uniform almost complete convergence with rateof the estimator. As an application we discuss the impact of this result in fuctional nonparametric prevision for the estimation of the conditional mode. In the dependent case we modelize the later via the quasi-associated correlation. Note that all these asymptotic properties are obtained under standard conditions and they highlight the phenomenon of concentration properties on small balls probability measure of the functional variable. Secondly we suppose that the explanatory variable takes values in the _nite dimensional space and we interest in a rather general prevision model whichis the robust regression. From the quasi-associated data, we build a kernel estimator for this functional parameter. As an asymptotic result we establish the uniform almost complete convergence rate of the estimator. We point out by the fact that these two models studied in this thesis could be used for the estimation of the single index of the model when the latter is unknown, by using the method of M-estimation or the pseudo-maximum likelihood method which is a particular case of the first method.
68

Apprentissage séquentiel : bandits, statistique et renforcement / Sequential Learning : Bandits, Statistics and Reinforcement

Maillard, Odalric-Ambrym 03 October 2011 (has links)
Cette thèse traite des domaines suivant en Apprentissage Automatique: la théorie des Bandits, l'Apprentissage statistique et l'Apprentissage par renforcement. Son fil rouge est l'étude de plusieurs notions d'adaptation, d'un point de vue non asymptotique : à un environnement ou à un adversaire dans la partie I, à la structure d'un signal dans la partie II, à la structure de récompenses ou à un modèle des états du monde dans la partie III. Tout d'abord nous dérivons une analyse non asymptotique d'un algorithme de bandit à plusieurs bras utilisant la divergence de Kullback-Leibler. Celle-ci permet d'atteindre, dans le cas de distributions à support fini, la borne inférieure de performance asymptotique dépendante des distributions de probabilité connue pour ce problème. Puis, pour un bandit avec un adversaire possiblement adaptatif, nous introduisons des modèles dépendants de l'histoire et traduisant une possible faiblesse de l'adversaire et montrons comment en tirer parti pour concevoir des algorithmes adaptatifs à cette faiblesse. Nous contribuons au problème de la régression en montrant l'utilité des projections aléatoires, à la fois sur le plan théorique et pratique, lorsque l'espace d'hypothèses considéré est de dimension grande, voire infinie. Nous utilisons également des opérateurs d'échantillonnage aléatoires dans le cadre de la reconstruction parcimonieuse lorsque la base est loin d'être orthogonale. Enfin, nous combinons la partie I et II : pour fournir une analyse non-asymptotique d'algorithmes d'apprentissage par renforcement; puis, en amont du cadre des Processus Décisionnel de Markov, pour discuter du problème pratique du choix d'un bon modèle d'états. / This thesis studies the following topics in Machine Learning: Bandit theory, Statistical learning and Reinforcement learning. The common underlying thread is the non-asymptotic study of various notions of adaptation : to an environment or an opponent in part I about bandit theory, to the structure of a signal in part II about statistical theory, to the structure of states and rewards or to some state-model of the world in part III about reinforcement learning. First we derive a non-asymptotic analysis of a Kullback-Leibler-based algorithm for the stochastic multi-armed bandit that enables to match, in the case of distributions with finite support, the asymptotic distribution-dependent lower bound known for this problem. Now for a multi-armed bandit with a possibly adaptive opponent, we introduce history-based models to catch some weakness of the opponent, and show how one can benefit from such models to design algorithms adaptive to this weakness. Then we contribute to the regression setting and show how the use of random matrices can be beneficial both theoretically and numerically when the considered hypothesis space has a large, possibly infinite, dimension. We also use random matrices in the sparse recovery setting to build sensing operators that allow for recovery when the basis is far from being orthogonal. Finally we combine part I and II to first provide a non-asymptotic analysis of reinforcement learning algorithms such as Bellman-residual minimization and a version of Least-squares temporal-difference that uses random projections and then, upstream of the Markov Decision Problem setting, discuss the practical problem of choosing a good model of states.
69

Statistique d’extrêmes de variables aléatoires fortement corrélées / Extreme value statistics of strongly correlated random variables

Perret, Anthony 22 June 2015 (has links)
La statistique des valeurs extrêmes est une question majeure dans divers contextes scientifiques. Cependant, bien que la description de la statistique d'un extremum global soit certainement une caractéristique importante, celle-ci ne se concentre que sur une seule variable parmi un grand nombre de variables aléatoires. Une question naturelle qui se pose alors est la suivante: ces valeurs extrêmes sont-elles isolées, loin des autres variables ou bien au contraire existe-t-il un grand nombre d'autres variables proches de ces valeurs extrêmes ? Ces questions ont suscité l'étude de la densité d'état de ces événements quasi-extrêmes. Il existe pour cette quantité peu de résultats pour des variables fortement corrélées, qui est pourtant le cas rencontré dans de nombreux modèles fondamentaux. Deux pistes de modèles physiques de variables fortement corrélées pouvant être étudiés analytiquement se démarquent alors: les positions d’une marche aléatoire et les valeurs propres de matrice aléatoire. Cette thèse est ainsi consacrée à l’étude de statistique d’extrêmes pour ces deux modèles de variables fortement corrélées. Dans une première partie, j’étudie le cas où la collection de variables aléatoires est la position au cours du temps d’un mouvement brownien, qui peut être contraint à être périodique, positif... Ce mouvement brownien est vu comme la limite d’un marcheur aléatoire classique après un grand nombre de pas. Il est alors possible d’interprèter ce problème comme celui d’une particule quantique dans un potentiel ce qui permet d’utiliser des méthodes puissantes issues de la mécanique quantique comme l’utilisation de propagateurs et de l’intégrale de chemin. Ces outils permettent de calculer la densité moyenne à partir du maximum pour les différents mouvements browniens contraints et même la distribution complète de cette quantité pour certains cas. Il est également possible de généraliser cette démarche à l’étude de plusieurs marches aléatoires indépendantes ou avec interaction. Cette démarche permet également d’effectuer une étude temporelle, ainsi que de généraliser à l’étude d’autres fonctionnelle du maximum. Dans la seconde partie, j’étudie le cas où la collection de variables aléatoires est composée des valeurs propres d’une matrice aléatoire. Ce travail se concentre sur l’études des matrices des ensembles gaussiens (GOE, GUE et GSE) ainsi qu’à l’étude des matrices de Wishart. L’étude du voisinage de la valeur propre maximale pour ces deux modèles est faite en utilisant une méthode fondée sur les propriétés des polynômes orthogonaux. Dans le cas des matrices gaussiennes unitaires GUE, j’ai obtenu une formule analytique pour la distribution à partir du maximum ainsi qu’une nouvelle expression de la statistique du gap entre les deux plus grandes valeurs propres en termes d’une fonction transcendante de Painlevé. Ces résultats, et plus particulièrement leurs généralisations aux cas GOE, sont alors appliqués à un modèle de verre de spin sphérique en champs moyen. Dans le cas des matrices de Wishart, l’analyse des polynômes orthogonaux dans le régime de double échelle m’a permis de retrouver les différentes statistiques de la valeur propre minimale et également de prouver une conjecture sur la première correction de taille finie pour des grandes matrices de la distribution de la valeur propre minimale dans la limite dite de «hard edge». / Extreme value statistics plays a keyrole in various scientific contexts. Although the description of the statistics of a global extremum is certainly an important feature, it focuses on the fluctuations of a single variable among many others. A natural question that arises is then the following: is this extreme value lonely at the top or, on the contrary, are there many other variables close to it ? A natural and useful quantity to characterize the crowding is the density of states near extremes. For this quantity, there exist very few exact results for strongly correlated variables, which is however the case encountered in many situations. Two physical models of strongly correlated variables have attracted much attention because they can be studied analytically : the positions of a random walker and the eigenvalues of a random matrix. This thesis is devoted to the study of the statistics near the maximum of these two ensembles of strongly correlated variables. In the first part, I study the case where the collection of random variables is the position of a Brownian motion, which may be constrained to be periodic or positive. This Brownian motion is seen as the limit of a classical random walker after a large number of steps. It is then possible to interpret this problem as a quantum particle in a potential which allows us to use powerful methods from quantum mechanics as propagators and path integral. These tools are used to calculate the average density from the maximum for different constrained Brownian motions and the complete distribution of this observable in certain cases. It is also possible to generalize this approach to the study of several random walks, independent or with interaction, as well as to the study of other functional of the maximum. In the second part, I study the case of the eigenvalues of random matrices, belonging to both Gaussian and Wishart ensembles. The study near the maximal eigenvalues for both models is performed using a method based on semi-classical orthogonal polynomials. In the case of Gaussian unitary matrices, I have obtained an analytical formula for the density near the maximum as well as a new expression for the distribution of the gap between the two largest eigenvalues. These results, and in particular their generalizations to different Gaussian ensembles, are then applied to the relaxational dynamics of a mean-field spin glass model. Finally, for the case of Wishart matrices I proposed a new derivation of the distribution of the smallest eigenvalue using orthogonal polynomials. In addition, I proved a conjecture on the first finite size correction of this distribution in the «hard edge» limit.
70

Statistique des comparaisons de génomes complets bactériens / Statistics of complete bacterial genome comparisons

Devillers, Hugo 22 February 2011 (has links)
La génomique comparative est l'étude des relations structurales et fonctionnelles entre des génomes appartenant à différentes souches ou espèces. Cette discipline offre ainsi la possibilité d'étudier et de comprendre les processus qui façonnent les génomes au cours de l'évolution. Dans le cadre de cette thèse, nous nous sommes intéressés à la génomique comparative des bactéries et plus particulièrement aux méthodes relatives à la comparaison des séquences complètes d'ADN des génomes bactériens. Ces dix dernières années, le développement d'outils informatiques permettant de comparer des génomes entiers à l'échelle de l'ADN est devenu une thématique de recherche à part entière. Actuellement, il existe de nombreux outils dédiés à cette tâche. Cependant, jusqu'à présent, la plupart des efforts ont été dirigés vers la réduction du temps de calcul et l'optimisation de la mémoire au détriment de l'évaluation de la qualité des résultats obtenus. Pour combler ce vide, nous avons travaillé sur différents problèmes statistiques soulevés par la comparaison de génomes complets bactériens. Notre travail se divise en deux axes de recherche. Dans un premier temps, nous nous sommes employés à évaluer la robustesse des alignements de génomes complets bactériens. Nous avons proposé une méthode originale fondée sur l'application de perturbations aléatoires sur les génomes comparés. Trois scores différents sont alors calculés pour estimer la robustesse des alignements de génomes à différentes échelles, allant des nucléotides aux séquences entières des génomes. Notre méthode a été expérimentée sur des données génomiques bactériennes réelles. Nos scores permettent d'identifier à la fois les alignements robustes et non robustes. Ils peuvent être employés pour corriger un alignement ou encore pour comparer plusieurs alignements obtenus à partir de différents outils. Dans un second temps, nous avons étudié le problème de la paramétrisation des outils de comparaisons de génomes entiers. En effet, la plupart des outils existants manquent à la fois de documentation et de valeurs par défaut fiables pour initialiser leurs paramètres. Conséquemment, il y a un besoin crucial de méthodes spécifiques pour aider les utilisateurs à définir des valeurs appropriées pour les paramètres de ces outils. Une grande partie des outils de comparaisons de génomes complets est fondée sur la détection des matches (mots communs exacts). Le paramètre essentiel pour ces méthodes est la longueur des matches à considérer. Au cours de cette thèse, nous avons développé deux méthodes statistiques pour estimer une valeur optimale pour la taille des matches. Notre première approche utilise un modèle de mélange de lois géométriques pour caractériser la distribution de la taille des matches obtenus lorsque l'on compare deux séquences génomiques. La deuxième approche est fondée sur une approximation de Poisson de la loi du comptage des matches entre deux chaînes de Markov. Ces méthodes statistiques nous permettent d'identifier facilement une taille optimale de matches à la fois pour des séquences simulées et pour des données génomiques réelles. Nous avons également montré que cette taille optimale dépend des caractéristiques des génomes comparés telles que leur taille, leur composition en base ou leur divergence relative. Cette thèse représente une des toutes premières études dont l'objectif est d'évaluer et d'améliorer la qualité des comparaisons des génomes complets. L'intérêt et les limites de nos différentes approches sont discutés et plusieurs perspectives d'évolution sont proposées. / Comparative genomics is the study of the structural and functional relationships between genomes belonging to different strains or species. This discipline offers great opportunities to investigate and to understand the processes that shape genomes across the evolution. In this thesis, we focused on the comparative genomics of bacteria and more precisely, on methods dedicated to the comparison of the complete DNA sequences of bacterial genomes. This last decade, the design of specific computerized methods to compare complete genomes at the DNA scale has become a subject of first concern. Now, there exist many tools and methods dedicated to this task. However, until now, most of the efforts were directed to reduce execution time and memory usage at the expense of the evaluation of the quality of the results. To fill this gap, we worked on different statistical issues related to the comparison of complete bacterial genomes. Our work was conducted into two directions. In the first one, we investigated the assessment of the robustness of complete bacterial genome alignments. We proposed an original method based on random perturbations of the compared genomes. Three different scores were derived to estimate the robustness of genome alignments at different scales, from nucleotides to the complete genome sequences. Our method was trained on bacterial genomic data. Our scores allow us to identify robust and non robust genome alignments. They can be used to correct an alignment or to compare alignments performed with different tools. Secondly, we studied the problem of the parametrization of comparison tools. Briefly, most of the existing tools suffer from a lack of information and of reliable default values to set their parameters. Consequently, there is a crucial need of methods to help users to define reliable parameter values for these tools. Most of the comparison tools are rooted on the detection of word matches. The key parameter for all these tools is the length of the matches to be considered. During this thesis, we developed two statistical methods to estimate an optimal length for these matches. Our first approach consisted in using a mixture model of geometric distributions to characterize the distribution of the length of matches retrieved from the comparison of two genomic sequences. The second approach is rooted on a Poisson approximation of the number of matches between two Markov chains. These statistical methods allow us to easily identify an optimal length for the matches from both simulated and real genomic data. We also showed that this optimal length depends on the characteristics of the compared genomes such as their length, their nucleotide composition, and their relative divergence. This thesis represents one of the earliest attempts to statistically evaluate and to improve the quality of complete genome comparisons. The interest and limitations of our different methods are discussed and some perspectives are proposed.

Page generated in 0.1605 seconds