Spelling suggestions: "subject:"aux dde fausses découverte"" "subject:"aux dde fausses découvert""
1 |
Sur les intervalles de confiance bayésiens pour des espaces de paramètres contraints et le taux de fausses découvertesBahamyirou, Asma January 2015 (has links)
Ce mémoire traite deux problèmes : en premier lieu, l'estimation paramétrique par intervalle dans un contexte où il y a des contraintes sur le paramètre et, en deuxième lieu la probabilité de fausses découvertes lorsqu'on réalise simultanément plusieurs tests d'hypothèses. Dans le premier chapitre, nous faisons un rappel sur les notions de base de l'inférence statistique à savoir l'estimation ponctuelle et par intervalle. Dans le deuxième chapitre, nous abordons la théorie de l'estimation par intervalle de confiance bayésien décrit dans [10]. Des résultats nouveaux sont présentés dans ce chapitre. Des travaux partiels (voir [7]), montrent que la probabilité de recouvrement fréquentiste est faible aux frontières de l'intervalle. Comparé à ces derniers, nous avons montré sous certaines conditions que cette probabilité n'ira jamais au delà d'une borne supérieure qui semble éloignée de la crédibilité. Finalement, au Chapitre 4, nous traitons des estimateurs de la probabilité de fausses découvertes. Des améliorations significatives ont été faites dans ce cadre.
|
2 |
Contributions à l'analyse statistique des données de puces à ADNNeuvial, Pierre 30 September 2009 (has links) (PDF)
Cette thèse traite de questions statistiques soulevées par l'analyse de données génomiques de grande dimension, dans le cadre de la recherche contre le cancer. La première partie est consacrée à l'étude des propriétés asymptotiques de procédures de tests multiples visant à contrôler l'espérance (FDR) du taux de fausses découvertes (FDP) parmi les hypothèses rejetées. On introduit un formalisme flexible qui permet de calculer la loi asymptotique du FDP et les conditions de régularité associées pour une vaste famille de procédures de tests multiples, et de comparer la puissance de ces procédures. On s'intéresse ensuite aux liens en termes de contrôle du FDR entre les bornes intrinsèques à trois problèmes de tests multiples: la détection, l'estimation, et la sélection. On relie en particulier la vitesse de convergence dans le problème d'estimation à la régularité de la loi des probabilités critiques au voisinage de 1. La seconde partie est dédiée au développement de méthodes d'analyse des données de puces à ADN en cancérologie. On propose une méthode de pré-traitement des données de puces à ADN combinant une régression robuste et un modèle de mélange avec contrainte spatiale, qui permet d'éliminer les biais spatiaux en préservant le signal biologique. On développe ensuite une méthode d'inférence de régulations entre gènes à partir de données d'expression de gènes, qui repose sur des techniques d'apprentissage informatique et de tests multiples. Enfin, on construit un test génomique permettant de déterminer, pour une patiente traitée pour un cancer du sein, si un second cancer survenant sur le même sein est ou non une récidive du premier.
|
3 |
Détection des changements de points multiples et inférence du modèle autorégressif à seuil / Detection of abrupt changes and autoregressive modelsElmi, Mohamed Abdillahi 30 March 2018 (has links)
Cette thèse est composée de deux parties: une première partie traite le problème de changement de régime et une deuxième partie concerne le processusautorégressif à seuil dont les innovations ne sont pas indépendantes. Toutefois, ces deux domaines de la statistique et des probabilités se rejoignent dans la littérature et donc dans mon projet de recherche. Dans la première partie, nous étudions le problème de changements derégime. Il existe plusieurs méthodes pour la détection de ruptures mais les principales méthodes sont : la méthode de moindres carrés pénalisés (PLS)et la méthode de derivée filtrée (FD) introduit par Basseville et Nikirov. D’autres méthodes existent telles que la méthode Bayésienne de changementde points. Nous avons validé la nouvelle méthode de dérivée filtrée et taux de fausses découvertes (FDqV) sur des données réelles (des données du vent sur des éoliennes et des données du battement du coeur). Bien naturellement, nous avons donné une extension de la méthode FDqV sur le cas des variables aléatoires faiblement dépendantes.Dans la deuxième partie, nous étudions le modèle autorégressif à seuil (en anglais Threshold Autoregessive Model (TAR)). Le TAR est étudié dans la littérature par plusieurs auteurs tels que Tong(1983), Petrucelli(1984, 1986), Chan(1993). Les applications du modèle TAR sont nombreuses par exemple en économie, en biologie, l'environnement, etc. Jusqu'à présent, le modèle TAR étudié concerne le cas où les innovations sont indépendantes. Dans ce projet, nous avons étudié le cas où les innovations sont non corrélées. Nous avons établi les comportements asymptotiques des estimateurs du modèle. Ces résultats concernent la convergence presque sûre, la convergence en loi et la convergence uniforme des paramètres. / This thesis has two parts: the first part deals the change points problem and the second concerns the weak threshold autoregressive model (TAR); the errors are not correlated.In the first part, we treat the change point analysis. In the litterature, it exists two popular methods: The Penalized Least Square (PLS) and the Filtered Derivative introduced by Basseville end Nikirov.We give a new method of filtered derivative and false discovery rate (FDqV) on real data (the wind turbines and heartbeats series). Also, we studied an extension of FDqV method on weakly dependent random variables.In the second part, we spotlight the weak threshold autoregressive (TAR) model. The TAR model is studied by many authors such that Tong(1983), Petrucelli(1984, 1986). there exist many applications, for example in economics, biological and many others. The weak TAR model treated is the case where the innovations are not correlated.
|
4 |
Contrôle des fausses découvertes lors de la sélection de variables en grande dimension / Control of false discoveries in high-dimensional variable selectionBécu, Jean-Michel 10 March 2016 (has links)
Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables. / In the regression framework, many studies are focused on the high-dimensional problem where the number of measured explanatory variables is very large compared to the sample size. If variable selection is a classical question, usual methods are not applicable in the high-dimensional case. So, in this manuscript, we develop the transposition of statistical tests to the high dimension. These tests operate on estimates of regression coefficients obtained by penalized linear regression, which is applicable in high-dimension. The main objective of these tests is the false discovery control. The first contribution of this manuscript provides a quantification of the uncertainty for regression coefficients estimated by ridge regression in high dimension. The Ridge regression penalizes the coefficients on their l2 norm. To do this, we devise a statistical test based on permutations. The second contribution is based on a two-step selection approach. A first step is dedicated to the screening of variables, based on parsimonious regression Lasso. The second step consists in cleaning the resulting set by testing the relevance of pre-selected variables. These tests are made on adaptive-ridge estimates, where the penalty is constructed on Lasso estimates learned during the screening step. A last contribution consists to the transposition of this approach to group-variables selection.
|
5 |
Predicting stock market trends using time-series classification with dynamic neural networksMocanu, Remus 09 1900 (has links)
L’objectif de cette recherche était d’évaluer l’efficacité du paramètre de classification pour prédire suivre les tendances boursières. Les méthodes traditionnelles basées sur la prévision, qui ciblent l’immédiat pas de temps suivant, rencontrent souvent des défis dus à des données non stationnaires, compromettant le modèle précision et stabilité. En revanche, notre approche de classification prédit une évolution plus large du cours des actions avec des mouvements sur plusieurs pas de temps, visant à réduire la non-stationnarité des données. Notre ensemble de données, dérivé de diverses actions du NASDAQ-100 et éclairé par plusieurs indicateurs techniques, a utilisé un mélange d'experts composé d'un mécanisme de déclenchement souple et d'une architecture basée sur les transformateurs. Bien que la méthode principale de cette expérience ne se soit pas révélée être aussi réussie que nous l'avions espéré et vu initialement, la méthodologie avait la capacité de dépasser toutes les lignes de base en termes de performance dans certains cas à quelques époques, en démontrant le niveau le plus bas taux de fausses découvertes tout en ayant un taux de rappel acceptable qui n'est pas zéro. Compte tenu de ces résultats, notre approche encourage non seulement la poursuite des recherches dans cette direction, dans lesquelles un ajustement plus précis du modèle peut être mis en œuvre, mais offre également aux personnes qui investissent avec l'aide de l'apprenstissage automatique un outil différent pour prédire les tendances boursières, en utilisant un cadre de classification et un problème défini différemment de la norme. Il est toutefois important de noter que notre étude est basée sur les données du NASDAQ-100, ce qui limite notre l’applicabilité immédiate du modèle à d’autres marchés boursiers ou à des conditions économiques variables. Les recherches futures pourraient améliorer la performance en intégrant les fondamentaux des entreprises et effectuer une analyse du sentiment sur l'actualité liée aux actions, car notre travail actuel considère uniquement indicateurs techniques et caractéristiques numériques spécifiques aux actions. / The objective of this research was to evaluate the classification setting's efficacy in predicting stock market trends. Traditional forecasting-based methods, which target the immediate next time step, often encounter challenges due to non-stationary data, compromising model accuracy and stability. In contrast, our classification approach predicts broader stock price movements over multiple time steps, aiming to reduce data non-stationarity. Our dataset, derived from various NASDAQ-100 stocks and informed by multiple technical indicators, utilized a Mixture of Experts composed of a soft gating mechanism and a transformer-based architecture. Although the main method of this experiment did not prove to be as successful as we had hoped and seen initially, the methodology had the capability in surpassing all baselines in certain instances at a few epochs, demonstrating the lowest false discovery rate while still having an acceptable recall rate. Given these results, our approach not only encourages further research in this direction, in which further fine-tuning of the model can be implemented, but also offers traders a different tool for predicting stock market trends, using a classification setting and a differently defined problem. It's important to note, however, that our study is based on NASDAQ-100 data, limiting our model's immediate applicability to other stock markets or varying economic conditions. Future research could enhance performance by integrating company fundamentals and conducting sentiment analysis on stock-related news, as our current work solely considers technical indicators and stock-specific numerical features.
|
Page generated in 0.0747 seconds