Global ETD Search

1	Méthodes d'apprentissage statistique pour le ranking : théorie, algorithmes et applications / Statistical learning methods for ranking : theory, algorithms and applications Robbiano, Sylvain 19 June 2013 (has links) Le ranking multipartite est un problème d'apprentissage statistique qui consiste à ordonner les observations qui appartiennent à un espace de grande dimension dans le même ordre que les labels, de sorte que les observations avec le label le plus élevé apparaissent en haut de la liste. Cette thèse vise à comprendre la nature probabiliste du problème de ranking multipartite afin d'obtenir des garanties théoriques pour les algorithmes de ranking. Dans ce cadre, la sortie d'un algorithme de ranking prend la forme d'une fonction de scoring, une fonction qui envoie l'espace des observations sur la droite réelle et l'ordre finale est construit en utilisant l'ordre induit par la droite réelle. Les contributions de ce manuscrit sont les suivantes : d'abord, nous nous concentrons sur la caractérisation des solutions optimales de ranking multipartite. Le deuxième thème de recherche est la conception d'algorithmes pour produire des fonctions de scoring. Nous proposons deux méthodes, la première utilisant une procédure d'agrégation, la deuxième un schema d'approximation. Enfin, nous revenons au problème de ranking binaire afin d'établir des vitesse minimax adaptives de convergences. / Multipartite ranking is a statistical learning problem that consists in ordering observations that belong to a high dimensional feature space in the same order as the labels, so that the observations with the highest label appear at the top of the list. This work aims to understand the probabilistic nature of the multipartite ranking problem in order to obtain theoretical guarantees for ranking algorithms. In this context, the output of a ranking algorithm takes the form of a scoring function, a function that maps the space of the observation to the real line which order is induced using the values on the real line. The contributions of this manuscript are the following : First, we focus on the characterization of optimal solutions to multipartite ranking. The second research theme is the design of algorithms to produce scoring functions. We offer two methods, the first using an aggregation procedure, the second an approximation scheme. Finally, we return to the binary ranking problem to establish adaptive minimax rate of convergence. Ranking multipartite Surface ROC Tau de Kendall Ranking multipartite Surface ROC Kendall rank correlation coefficient
2	Evaluation statistique des outils diagnostiques et pronostiques à l'aide des surfaces ROC / Statistical evaluation of diagnostic and pronostic tools using the ROC surfaces. Nze Ossima, Arnaud Davin 03 July 2014 (has links) Dans le diagnostic médical, la surface ROC est l'outil statistique utilisée pour évaluer la précision d'un test diagnostic dans la discrimination de trois états d'une maladie, et le volume sous la surface ROC est l'indice utilisé pour la quantification de la performance du test. Dans certaines situations, différents facteurs peuvent affecter les résultats du test et ainsi les mesures de précision. Dans le cas des études longitudinales, le statut du patient peut changer au cours du temps. Dans ce manuscrit, nous avons développé des méthodes statistiques permettant d'évaluer les capacités discriminatoires des outils diagnostics et pronostics. Nous avons d'abord proposé une méthode semi-paramétrique pour estimer la surface ROC sous des modèles de rapport de densité. La construction de la méthode proposée est basée sur le modèle logit à catégories adjacentes et l'approche de vraisemblance empirique. Nous avons décrit la méthode bootstrap pour l'inférence des estimateurs obtenus. Ensuite, nous avons présenté une méthode d'estimation des surfaces ROC appelée famille de Lehmann des surfaces ROC. Cette méthode est basée sur la famille d'alternatives de Lehmann ou modèle à hasards proportionnels. Elle a l'avantage de prendre en compte les covariables qui peuvent affecter la précision d'un test diagnostic. En outre, nous avons développé une surface ROC covariable-spécifique basée sur la règle de Bayes. Pour cela, nous avons proposé un estimateur semi-paramétrique pour les surfaces ROC covariable-spécifique via des procédures de régression logistique polytomique et un modèle semi-paramétrique de localisation. Enfin, dans le cas où le statut du patient peut évoluer à travers différents stades d'une maladie, une méthode des surfaces ROC dépendant du temps a été développée. L'estimateur obtenu utilise l'approche "Inverse Probability of Censoring Weighting" (IPCW). Des simulations et des exemples sont fournis afin d'illustrer la performance des estimateurs proposés. / In diagnostic medical, the receiver operating characteristic (ROC) surface is the statistical tool used to assess the accuracy of a diagnostic test in discriminating three disease states, and the volume under the ROC surface is the used index for the quantification of the performance of the test. In some situations, various factors can affect the test results and subsequently the accuracy measures. In the case of longitudinal studies, the patient's status may change over time. In this manuscript, we developed statistical methods to assess the discriminatory capabilities of diagnostic and pronostic tools. We first proposed a semiparametric method for estimating ROC surface under density ratio models. The construction of the proposed method is based on the adjacent-category logit model and the empirical likelihood approach. We described the bootstrap method for inference of the obtained estimators. Next, we presented a method for estimating ROC surfaces called Lehmann family ROC surfaces. This method is based on the family of Lehmann alternatives or proportional hazards model. It has the advantage of taking into account covariates that may affect the accuracy of a diagnostic test. Moreover, we have developed a covariate-specific ROC surface based on the Bayes rule. For that, we proposed semiparametric estimator for covariate-specific ROC surfaces via polytomous logistic regression procedures and a semiparametric location model. Finally, in the case where patient's status may evolve through different stages of disease a method of time-dependent ROC surfaces was developed. The proposed estimator uses the "Inverse Probability of Censoring Weighting" (IPCW) approach. Simulations and examples are provided to illustrate the performance of the proposed estimators. Courbe ROC Surface ROC Test diagnostique Discrimination Pronostic ROC curve ROC surface Diagnostic test Discrimination Pronostic
3	Méthodes d'apprentissage statistique pour le ranking théorie, algorithmes et applications Robbiano, Sylvain 19 June 2013 (has links) (PDF) Le ranking multipartite est un problème d'apprentissage statistique qui consiste à ordonner les observations qui appartiennent à un espace de grande dimension dans le même ordre que les labels, de sorte que les observations avec le label le plus élevé apparaissent en haut de la liste. Cette thèse vise à comprendre la nature probabiliste du problème de ranking multipartite afin d'obtenir des garanties théoriques pour les algorithmes de ranking. Dans ce cadre, la sortie d'un algorithme de ranking prend la forme d'une fonction de scoring, une fonction qui envoie l'espace des observations sur la droite réelle et l'ordre final est construit en utilisant l'ordre induit par la droite réelle. Les contributions de ce manuscrit sont les suivantes : d'abord, nous nous concentrons sur la caractérisation des solutions optimales de ranking multipartite. Une nouvelle condition sur les rapports de vraisemblance est introduite et jugée nécessaire et suffisante pour rendre le problème de ranking multipartite bien posé. Ensuite, nous examinons les critères pour évaluer la fonction de scoring et on propose d'utiliser une généralisation de la courbe ROC nommée la surface ROC pour cela ainsi que le volume induit par cette surface. Pour être utilisée dans les applications, la contrepartie empirique de la surface ROC est étudiée et les résultats sur sa consistance sont établis. Le deuxième thème de recherche est la conception d'algorithmes pour produire des fonctions de scoring. La première procédure est basée sur l'agrégation des fonctions de scoring apprises sur des sous-problèmes de ranking binaire. Dans le but d'agréger les ordres induits par les fonctions de scoring, nous utilisons une approche métrique basée sur le de Kendall pour trouver une fonction de scoring médiane. La deuxième procédure est une méthode récursive, inspirée par l'algorithme TreeRank qui peut être considéré comme une version pondérée de CART. Une simple modification est proposée pour obtenir une approximation de la surface ROC optimale en utilisant une fonction de scoring constante par morceaux. Ces procédures sont comparées aux algorithmes de l'état de l'art pour le ranking multipartite en utilisant des jeux de données réelles et simulées. Les performances mettent en évidence les cas où nos procédures sont bien adaptées, en particulier lorsque la dimension de l'espace des caractéristiques est beaucoup plus grand que le nombre d'étiquettes. Enfin, nous revenons au problème de ranking binaire afin d'établir des vitesses minimax adaptatives de convergence. Ces vitesses sont montrées pour des classes de distributions contrôlées par la complexité de la distribution a posteriori et une condition de faible bruit. La procédure qui permet d'atteindre ces taux est basée sur des estimateurs de type plug-in de la distribution a posteriori et une méthode d'agrégation utilisant des poids exponentiels. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Ranking Multipartite Surface ROC tau de Kendall Arbres de Décision Agrégation Vitesses Minimax

1

Page generated in 0.0319 seconds