Global ETD Search

1	Learning algorithms for sparse classification / Algorithmes d'estimation pour la classification parcimonieuse Sanchez Merchante, Luis Francisco 07 June 2013 (has links) Cette thèse traite du développement d'algorithmes d'estimation en haute dimension. Ces algorithmes visent à résoudre des problèmes de discrimination et de classification, notamment, en incorporant un mécanisme de sélection des variables pertinentes. Les contributions de cette thèse se concrétisent par deux algorithmes, GLOSS pour la discrimination et Mix-GLOSS pour la classification. Tous les deux sont basés sur le résolution d'une régression régularisée de type "optimal scoring" avec une formulation quadratique de la pénalité group-Lasso qui encourage l'élimination des descripteurs non-significatifs. Les fondements théoriques montrant que la régression de type "optimal scoring" pénalisée avec un terme "group-Lasso" permet de résoudre un problème d'analyse discriminante linéaire ont été développés ici pour la première fois. L'adaptation de cette théorie pour la classification avec l'algorithme EM n'est pas nouvelle, mais elle n'a jamais été détaillée précisément pour les pénalités qui induisent la parcimonie. Cette thèse démontre solidement que l'utilisation d'une régression de type "optimal scoring" pénalisée avec un terme "group-Lasso" à l'intérieur d'une boucle EM est possible. Nos algorithmes ont été testés avec des bases de données réelles et artificielles en haute dimension avec des résultats probants en terme de parcimonie, et ce, sans compromettre la performance du classifieur. / This thesis deals with the development of estimation algorithms with embedded feature selection the context of high dimensional data, in the supervised and unsupervised frameworks. The contributions of this work are materialized by two algorithms, GLOSS for the supervised domain and Mix-GLOSS for unsupervised counterpart. Both algorithms are based on the resolution of optimal scoring regression regularized with a quadratic formulation of the group-Lasso penalty which encourages the removal of uninformative features. The theoretical foundations that prove that a group-Lasso penalized optimal scoring regression can be used to solve a linear discriminant analysis bave been firstly developed in this work. The theory that adapts this technique to the unsupervised domain by means of the EM algorithm is not new, but it has never been clearly exposed for a sparsity-inducing penalty. This thesis solidly demonstrates that the utilization of group-Lasso penalized optimal scoring regression inside an EM algorithm is possible. Our algorithms have been tested with real and artificial high dimensional databases with impressive resuits from the point of view of the parsimony without compromising prediction performances. Algorithmes d'estimation Classification parcimonieuse Discrimination Variables pertinentes Algorithmes GLOSS Linear discriminant analysis Feature selection Regularization Variational approach Clustering Optimal scoring Group Lasso Sparsity
2	Validation du contenu d'un système d'information clientèle dédié aux victimes d'un traumatisme cranio-cérébral à partir d'une analyse de dossiers médicaux Labelle, Josée 04 1900 (has links) Mémoire numérisé par la Direction des bibliothèques de l’Université de Montréal / L'utilisation des systèmes d'information clientèle (SIC) fait l'objet de préoccupations majeures en réadaptation actuellement. L'identification du contenu d'un tel système pour mieux répondre aux besoins des cliniciens est une étape difficile à réaliser. L'objectif de cette étude est de déterminer la concordance entre la liste des variables du SIC TCC-Québec sélectionnées initialement à partir d'une consultation d'experts cliniciens et de chercheurs soutenue par une recension des écrits et les variables trouvées dans des dossiers médicaux. J Les dossiers de 82 usagers hospitalisés au cours des années 1997 et 1998, provenant de six établissements représentatifs des institutions qui utiliseront ce système, font l'objet d'une analyse. La collecte des données a consisté à identifier la présence des variables (n=231) du système lié à t'histoire personnelle, aux déficiences et aux incapacités sensori-motrices dans tes dossiers consultés. Pour assurer ta qualité des données extraites des dossiers, une procédure d'extraction standardisée et fidèle a été appliquée. Le pourcentage des variables trouvées dans les dossiers et le nombre de dossiers dans lequel chacune des variables est documentée ont été calculés selon les deux types de milieux cliniques (traumatologie et réadaptation) et selon les régions géographiques. Les résultats démontrent qu'il existe un écart important entre ce que les experts suggèrent d'inclure dans te système et ce qui est documenté en réalité en clinique. Malgré une légère variation de ['écart selon le type de milieu clinique (traumatologie et réadaptation) et selon les régions impliquées, cet écart demeure important pour les six centres étudiés, touchant une variable sur deux. De plus, vingt-trois pourcent des variables de la liste se trouvent dans plus de 70% des dossiers analysés. Ces résultats ont permis de formuler des recommandations sur les variables de ce système les plus pertinentes à retenir en regard des besoins informationnels des cliniciens et de la réalité clinique pour favoriser l'utilisation clinique du système. J De plus, au cours de l'étude de validation de contenu, il s'est avéré nécessaire de vérifier préalablement la fidélité intra et inter-évaluateurs de l'extraction des données à partir des dossiers médicaux. L'extraction des données a été effectuée par deux cliniciens à partir de 15 dossiers provenant de deux établissements d'un continuum de services pour la clientèle visée. Les résultats ont démontré une très bonne fidélité intra-évaluateur (k moy .65) et une fidélité inter-évaluateurs modérée (k moy .56). Les valeurs des kappa variaient de .33 à .86 et de .31 à .84 pour la fidélité intra et inter-évaluateurs, respectivement. Cette étude de fidélité a permis de repérer les sources d'erreurs potentielles, lors de l'extraction des données à partir de dossiers médicaux et de leur entrée dans une base de données. Conséquemment, ceci a permis de faire les ajustements nécessaires à la procédure et à la grille d'extraction des données, permettant d'effectuer avec confiance l'étude de validation du contenu du SIC à partir des dossiers médicaux. Systèmes d'information clientèle (SIC) Concordance des variables Analyse de dossiers médicaux Validation de contenu Fidélité de l'extraction des données Besoins des cliniciens Variables pertinentes Ajustements méthodologiques

Search results

Learning algorithms for sparse classification / Algorithmes d'estimation pour la classification parcimonieuse

Validation du contenu d'un système d'information clientèle dédié aux victimes d'un traumatisme cranio-cérébral à partir d'une analyse de dossiers médicaux