• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 678
  • 322
  • 49
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 1050
  • 347
  • 218
  • 207
  • 203
  • 167
  • 144
  • 142
  • 116
  • 100
  • 90
  • 84
  • 77
  • 76
  • 73
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
101

Allotment of aircraft spare parts using genetic algorithms

Batchoun, Pascale January 2000 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
102

Développement d'algorithmes et d'outils logiciels pour l'assistance technique et le suivi en réadaptation

Schweitzer, Frédéric 05 August 2022 (has links)
Ce mémoire présente deux projets de développement portant sur des algorithmes et des outils logiciels offrant des solutions pratiques à des problématiques courantes rencontrées en réadaptation. Le premier développement présenté est un algorithme de correspondance de séquence qui s'intègre à des interfaces de contrôle couramment utilisées en pratique. L'implémentation de cet algorithme offre une solution flexible pouvant s'adapter à n'importe quel utilisateur de technologies d'assistances. Le contrôle de tels appareils représente un défi de taille puisqu'ils ont, la plupart du temps, une dimensionnalité élevée (c-à-d. plusieurs degrés de liberté, modes ou commandes) et sont maniés à l'aide d'interfaces basées sur de capteurs de faible dimensionnalité offrant donc très peu de commandes physiques distinctes pour l'utilisateur. L'algorithme proposé se base donc sur de la reconnaissance de courts signaux temporels ayant la possibilité d'être agencés en séquences. L'éventail de combinaisons possibles augmente ainsi la dimensionnalité de l'interface. Deux applications de l'algorithme sont développées et testées. La première avec une interface de contrôle par le souffle pour un bras robotisé et la seconde pour une interface de gestes de la main pour le contrôle du clavier-souris d'un ordinateur. Le second développement présenté dans ce mémoire porte plutôt sur la collecte et l'analyse de données en réadaptation. Que ce soit en milieux cliniques, au laboratoires ou au domicile, nombreuses sont les situations où l'on souhaite récolter des données. La solution pour cette problématique se présente sous la forme d'un écosystème d'applications connectées incluant serveur et applications web, mobiles et embarquée. Ces outils logiciels sont développés sur mesure et offrent un procédé unique, peu coûteux, léger et rapide pour la collecte, la visualisation et la récupération de données. Ce manuscrit détaille une première version en décrivant l'architecture employée, les technologies utilisées et les raisons qui ont mené à ces choix tout en guidant les futures itérations. / This Master's thesis presents two development projects about algorithms and software tools providing practical solutions to commonly faced situations in rehabilitation context. The first project is the development of a sequence matching algorithm that can be integrated to the most commonly used control interfaces. The implementation of this algorithm provides a flexible solution that can be adapted to any assistive technology user. The control of such devices represents a challenge since their dimensionality is high (i.e., many degrees of freedom, modes, commands) and they are controlled with interfaces based on low-dimensionality sensors. Thus, the number of actual physical commands that the user can perform is low. The proposed algorithm is based on short time signals that can be organized into sequences. The multiple possible combinations then contribute to increasing the dimensionality of the interface. Two applications of the algorithm have been developed and tested. The first is a sip-and-puff control interface for a robotic assistive arm and the second is a hand gesture interface for the control of a computer's mouse and keyboard. The second project presented in this document addresses the issue of collecting and analyzing data. In a rehabilitation's clinical or laboratory environment, or at home, there are many situations that require gathering data. The proposed solution to this issue is a connected applications ecosystem that includes a web server and mobile, web and embedded applications. This custom-made software offers a unique, inexpensive, lightweight and fast workflow to visualize and retrieve data. The following document describes a first version by elaborating on the architecture, the technologies used, the reasons for those choices, and guide the next iterations.
103

Empirical analysis of imbalance countering strategies in binary classification

Gingras, Jonathan 31 January 2021 (has links)
De nos jours, les algorithmes de classification binaire sont utilisés dans des tâches touchant plusieurs champs d’applications comme les fraudes en-ligne, le dépistage bio-médical ou bien la toxicité en-ligne. Malgré le nombre de données qui est souvent disponible pour ces applications, qui viennent habituellement de source réelles, une particularité y est fréquemment observée: la représentation débalancée des classes. Cette imbalance demeure un problème d’envergure pour les algorithmes de classification, car la vaste majorité d’entre eux ne sont pas conçus avec cette représentation inégale à l’esprit. De plus, dans les paramètres expérimentaux, les données sur lesquelles ils sont appliqués sont souvent bien balancées, à cause de la finalité-même de ces expérimentations. Dans le présent mémoire, une revue des stratégies et techniques existantes pour contrer l’imbalance binaire est proposée, dans laquelle un point de vue par modification de données ainsi qu’un point de vue par modification algorithmique seront adressés. Le premier sujet des présents travaux consiste en les approches de pré-traitement et leurs effets sur les métriques de classification, dans lequel des expérimentations contrôlées (présentant différents niveaux de débalancement) et des applications d’entreprises sont présentées et analysées. Le second sujet consiste en le paradigme sensible-au-coût appliqué à l’optimisation directe de la métrique de la F-mesure en utilisant un réseau de neurones, dans lequel des expérimentations sur un jeu de données très débalancé sont présentées et discutées, le tout accompagné d’une comparaison avec différents paramètres usuels. À la lecture du présent document, le lecteur aura une bonne idée des techniques de prétraitement existantes et ce qu’on peut en retirer d’un point de vue expérimental selon des ensembles de données variés. Également, l’application du paradigme sensible-au-coût par optimisation de la F-mesure donnera un aperçu positif quant au point de vue algorithmique dans un contexte de données très débalancées. / Nowadays, binary classification algorithms are used in detection-related tasks touching many fields of application such as online frauds, biomedical screening, or online toxicity. Despite the amount of data that’s usually available for those applications, which habitually comes from real-world data sources, a particularity is frequently observed in it: the imbalanced representation of the classes. This imbalance remains a significant problem for binary classification algorithms, because the vast majority of these algorithms are not designed with this unequal representation in mind. Moreover, in experimental setups, the data on which they are usually applied is more than often well-balanced, because of the very purpose of these experiments. In the current thesis, a review of the existing strategies and techniques to face the binary imbalance problem is proposed in which both a data-modification point of view and a algorithmmodification point of view are addressed. The first subject of this work are data prepocessing approaches and their effects on classification metrics, in which both controlled experimental setups (showing different levels of imbalance), and enterprise data applications are presented and analyzed. The second subject is the cost-sensitive paradigm applied to the direct optimization of the F-measure metric using a neural network, in which experimentations on a highly imbalanced data set are presented and discussed, as well as comparisons with different common settings. After reading the current document, the reader will be well aware of the existing preprocessing techniques and what they can be achieve in an experimental context using various data sets. Moreover, the application of the cost-sensitive paradigm by optimization of the F-measure will give positive insight regarding the algorithmic point of view in a context of very imbalanced data.
104

Détection de doublons parmi des informations non structurées provenant de sources de données différentes

Beauchemin, David 03 February 2021 (has links)
Ce mémoire rend compte de l’exploration de deux approches de détection des doublons entre les descriptions d’entreprises d’une base de données interne et celles d’une source externe non structurée en assurance commerciale. Puisqu’il est coûteux et fastidieux pour un assureur de recueillir les informations nécessaires au calcul d’une prime d’assurance, notre motivation est de les aider à minimiser la quantité de ressources nécessaires à leur acquisition en leur permettant d’utiliser des sources de données externes. Dans ce mémoire, nous avons d’abord observé que l’utilisation d’algorithmes de similarité permet de détecter la majorité des doublons entre les sources de données à partir du nom. Nos expérimentations indiquent que lorsqu’on utilise le nom comme source de comparaison entre les entités, une très grande majorité de ces doublons peut être identifiée. Des expérimentations similaires, mais avec l’adresse, nous ont permis d’observer qu’il était aussi possible d’identifier les doublons d’entreprises par cet attribut, mais dans une moins grande proportion. Par la suite, nous avons entraîné des modèles d’apprentissage automatique afin de coupler les entreprises en double par le nom et l’adresse conjointement. C’est avec ces modèles que nous avons observé les meilleurs résultats. Dans une tentative finale d’améliorer davantage nos résultats, nous avons assoupli notre hypothèse initiale, qui impliquait d’utiliser l’entité la plus probable d’être le doublon d’une entreprise, pour utiliser les N entités les plus probables, ce qui a permis de maximiser le rappel à 91,07 %. / This thesis reports the exploration of two approaches to detecting duplicates between the companies descriptions in an internal database and those in an unstructured external source in commercial insurance. Since it is costly and tedious for an insurer to collect the information required to calculate an insurance premium, our motivation is to help them minimize the amount of resources necessary by extracting that information directly from external databases. In this thesis, we first observed that the use of similarity algorithms allows us to detect most of the duplicates between databases using the name. Our experiments indicate that when the name is used as a source of comparison between the entities, a vast majority of these duplicates can be identified. Similar experiments, but using the address this time, allowed us to observe that it was also possible to identify duplicate companies by this feature, but to a lesser extent. Subsequently, we trained machine learning models to match duplicate companies using the name and the address at the same time. It is with these models that we observed the best results. In a final attempt to further improve our results, we used the N most likely entities to be a duplicate of a company, instead of only the first one, thus maximizing the recall to 91.07%.
105

Développement d'un algorithme mathématique pour l'évaluation de la précision d'implantation des électrodes de stimulation cérébrale profonde et de la relation des contacts avec le noyau sous-thalamique

Touzin, Michèle 18 April 2018 (has links)
La stimulation cérébrale profonde (SCP) du noyau sous-thalamique (NST) est devenue un traitement reconnu dans la maladie de Parkinson (MP) de stade avancé. Le principal facteur influençant la réponse à la SCP est l'emplacement des contacts de l'électrode par rapport au NST. Cette étude rétrospective vise à évaluer à la fois la précision de l'acte chirurgical ainsi que la localisation des contacts actifs, par rapport aux bordures du NST. L'objectif de la chirurgie au CHA-HEJ est d'implanter une électrode à quatre contacts au sein du NST et plus précisément, placer deux contacts à l'intérieur du NST ainsi qu'un au dessus et un en dessous. Pour vingt-trois patients ayant subi une chirurgie de SCP-NST bilatérale, la cible théorique a été calculée selon différentes façons à savoir, à partir des noyaux rouges, du point situé entre les commissures antérieure et postérieure (ACPC) et des données d'électrophysiologie obtenues lors d'une seule et unique trajectoire de microenregistrement peropératoire (MER). Une fusion des images par résonnance magnétique nucléaire (IRM) préopératoires et postopératoires a été effectuée. Une première étape consistait à évaluer la précision de l'acte chirurgical en mesurant la distance entre la cible théorique et l'artefact ferromagnétique représentant la position finale de l'électrode. À l'aide d'un algorithme basé sur des notions pythagoriciennes et trigonométriques, une deuxième étape consistait à déterminer la localisation de chacun des contacts des électrodes, par reconstruction tridimensionnelle, et ce, dans le référentiel ACPC. Finalement, la localisation des contacts actifs utilisés en clinique a été étudiée en fonction des bordures du NST déterminées par MER. Les résultats ont montré que la différence moyenne entre la cible théorique et la cible finale est de 0,77 mm (±0,59) en X et 0,78 mm (±0,59) en Y (p<0,05). Pour 22/35 électrodes (62,9 %), la cible théorique et la cible finale se chevauchent. Différents facteurs pouvant affecter la précision d'implantation ont été étudiés tels que le genre, le déplacement cérébral « brain shift » et la largeur du troisième ventricule en fonction de l'évolution de la maladie et en aucun cas, ces facteurs n'ont eu d'impact significatif (p> 0.05). La localisation de l'ensemble des contacts en fonction des bordures du NST a été déterminée et ils sont majoritairement situés à l'intérieur du NST. En dépit de la stratégie chirurgicale utilisée, cette distribution tend vers le haut. Par ailleurs, la plupart des contacts actifs se situent à l'intérieur du NST et aucun n'est localisé en dessous du NST. Le point de stimulation moyen a également été déterminé par reconstruction (AP(x)=-2,33±0,99, LAT(y)=ll, 67±l, 81, VERT(z)=-2,39±l, 76) et il est situé au niveau de la bordure supérieure du NTS moyen. En conclusion, la procédure chirurgicale utilisée dans notre milieu démontre un bon degré de précision et les contacts actifs les plus souvent utilisés en clinique sont ceux qui se situent dans la région dorsale du NST, région décrite par la littérature comme la plus efficace pour le traitement des symptômes de la MP.
106

Algorithmes d'apprentissage automatique inspirés de la théorie PAC-Bayes

Germain, Pascal 16 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2008-2009 / Dans un premier temps, ce mémoire présente un théorème PAC-Bayes général, duquel il est possible d'obtenir simplement plusieurs bornes PAC-Bayes connues. Ces bornes permettent de calculer une garantie sur le risque d'un classificateur à partir de ses performances sur l'ensemble de données d'entraînement. Par l'interprétation du comportement de deux bornes PAC-Bayes, nous énonçons les caractéristiques propres aux classificateurs qu'elles favorisent. Enfin, une spécialisation de ces bornes à la famille des classificateurs linéaires est détaillée. Dans un deuxième temps, nous concevons trois nouveaux algorithmes d'apprentissage automatique basés sur la minimisation, par la méthode de descente de gradient conjugué, de l'expression mathématique de diverses formulations des bornes PAC-Bayes. Le dernier algorithme présenté utilise une fraction de l'ensemble d'entraînement pour l'acquisition de connaissances a priori. Ces algorithmes sont aptes à construire des classificateurs exprimés par vote de majorité ainsi que des classificateurs linéaires exprimés implicitement à l'aide de la stratégie du noyau. Finalement, une étude empirique élaborée compare les trois algorithmes entre eux et révèle que certaines versions de ces algorithmes construisent des classificateurs compétitifs avec ceux obtenus par AdaBoost et les SVM. / At first, this master thesis presents a general PAC-Bayes theorem, from which we can easily obtain some well-known PAC-Bayes bounds. Those bounds allow us to compute a guarantee on the risk of a classifier from its achievements on the training set. We analyze the behavior of two PAC-Bayes bounds and we determine peculiar characteristics of classifiers favoured by those bounds. Then, we present a specialization of those bounds to the linear classifiers family. Secondly, we conceive three new machine learning algorithms based on the minimization, by conjugate gradient descent, of various mathematical expressions of the PAC-Bayes bounds. The last algorithm uses a part of the training set to capture a priori knowledges. One can use those algorithms to construct majority vote classifiers as well as linear classifiers implicitly represented by the kernel trick. Finally, an elaborated empirical study compares the three algorithms and shows that some versions of those algorithms are competitive with both AdaBoost and SVM.
107

Application de l'algorithme EM au modèle des risques concurrents avec causes de panne masquées

Michaud, Isabelle 11 April 2018 (has links)
Dans un modèle de durées de vie avec des risques concurrents, les systèmes peuvent tomber en panne dans le temps. Ces pannes sont dues à une cause parmi plusieurs possibles et il arrive parfois que celle-ci soit inconnue. C'est alors qu'on peut faire appel à l'algorithme EM pour calculer les estimateurs du maximum de vraisemblance. Cette technique utilise la fonction de vraisemblance des données complètes pour trouver les estimateurs même si les données observées sont incomplètes. Pour les systèmes ayant leur cause de panne inconnue, on peut en prendre un échantillon pour une inspection plus approfondie qui dévoilera les vraies causes de panne. Cette étape peut améliorer l'estimation des probabilités de masque et des fonc- tions de risque spécifiques aux causes de panne. Après avoir expliqué la théorie de l'algorithme EM, le modèle des risques concurrents, ainsi que les travaux réalisés sur le sujet, on étudie l'impact qu'a sur les estimateurs le fait de ne pas envoyer un échantillon des systèmes masqués à un examen approfondi qui permettrait de trouver la vraie cause de panne.
108

Estimation haute-résolution de la position de cibles en mouvement à partir du suivi du sous-espace sources et d'un estimateur statistique de 2e ordre

Isabel, Marc-André 27 November 2020 (has links)
En 1995, la technologie LIDAR fait émergence en télédétection et entraîne avec elle une nouvelle forme de concurrence dans un domaine jusqu'alors dominé par les systèmes RADAR. Contrairement à ces derniers, l'émetteur d'un LIDAR opère à des fréquences au-delà des ondes radios, habituellement dans l'infrarouge, ce qui fait qu'une détection non cohérente doit être employée et que seule l'enveloppe des signaux est récupérée, formant ainsi des signaux réels. Alors que de multiples algorithmes ont été développés au l des années pour faire le traitement des signaux captés par l'antenne-réseau d'un RADAR, aucun n'était reconnu jusqu'à présent comme étant particulièrement performant lorsque utilisé avec des signaux réels. En 2015, dans le cadre d'un projet de recherche visant à améliorer la distance et la précision de la détection des objets à l'aide d'un LIDAR, une adaptation [1] du très populaire algorithme MUSIC développé par Schmidt fut réalisée a n de pouvoir l'utiliser selon le principe du temps de vol plutôt que pour les directions d'arrivée. Cette adaptation ouvrit la voie à l'utilisation d'algorithmes statistiques, à l'origine conçus pour les signaux avec information de phase, pour des signaux réels. Malheureusement, l'application directe de ces algorithmes requiert un temps d'exécution considérable et ce, en particulier lors de la formation, du traitement et de la décomposition propre de la matrice ReXX. Par conséquent, des optimisations doivent être considérées pour être en mesure d'en faire l'implantation dans du matériel à faible coût lorsqu'il est question d'opération en temps réel. Parmi ces optimisations, c'est l'utilisation de méthodes de suivi fondées sur la notion de sous-espace qui fait l'objet de cet ouvrage. Ces algorithmes reposent sur l'idée qu'il est possible d'oublier, de façon graduelle, les données du passé au pro t des nouvelles données sans avoir à passer par la formation de la matrice ReXX à chaque fois. Ainsi, les résultats démontrent qu'une réduction de 25% à 95% du temps d'exécution est possible dans un contexte d'utilisation conjointe, mais moins fréquente, avec une méthode à complexité algorithmique plus élevée. Par ailleurs, les résultats des essais réalisés par [1] ne couvrent que les cibles stationnaires. Par conséquent, ce projet vise à étendre cette étude aux cibles en mouvement. Les résultats obtenus permettent de démontrer l'efficacité des méthodes de suivi du sous-espace pour de tels cas. / In 1995, LIDAR systems emerged as a new alternative to the well-known RADAR systems for remote sensing applications. However, unlike RADAR, the operating frequency of LIDAR systems is above the radio frequencies and usually in the infrared which means that a non-coherent detection has to be used to retrieve the signal's enveloppe. While several signal processing algorithms have been developped for RADAR phased arrays, none of these algorithms are known, to this day, to be e cient when dealing with real, phaseless signals. In 2015, as part of a research project to enhance the detection precision and maximal distance of a LIDAR system, an adaptation [1] of the so-called MUSIC algorithm developped by Schmidt was realised to be used with the time-of- ight principle instead of the direction of arrival principle. Unfortunately, the direct application of the adapted algorithm was time consuming, especially the creation, processing and eigendecomposition stages of the ReXX matrix. As so, optimizations are required to allow its implementation into a low-cost system for real-time purposes. Among those optimizations, the use of subspace tracking methods will be studied in this thesis. Subspace tracking algorithms are based on the idea that instead of having to create ReXX at each data update, one can use the known data while adding the new data with a forgetting factor. The result of these optimizations is that a decrease of 25% to 95% in execution time is observed when subspace tracking is used together with a higher complexity method to initialize its parameters. The study realised by [1] was mostly done for stationary objects. This thesis aims to extend that study to non stationary objects. Results show that using subspace tracking methods is even more efficient in these cases.
109

Développement d'algorithmes d'estimation de la pose d'objets saisis par un préhenseur robotique

Côté, Marianne 24 April 2018 (has links)
Les préhenseurs robotiques sont largement utilisés en industrie et leur déploiement pourrait être encore plus important si ces derniers étaient plus intelligents. En leur conférant des capacités tactiles et une intelligence leur permettant d’estimer la pose d’un objet saisi, une plus vaste gamme de tâches pourraient être accomplies par les robots. Ce mémoire présente le développement d’algorithmes d’estimation de la pose d’objets saisis par un préhenseur robotique. Des algorithmes ont été développés pour trois systèmes robotisés différents, mais pour les mêmes considérations. Effectivement, pour les trois systèmes la pose est estimée uniquement à partir d’une saisie d’objet, de données tactiles et de la configuration du préhenseur. Pour chaque système, la performance atteignable pour le système minimaliste étudié est évaluée. Dans ce mémoire, les concepts généraux sur l’estimation de la pose sont d’abord exposés. Ensuite, un préhenseur plan à deux doigts comprenant deux phalanges chacun est modélisé dans un environnement de simulation et un algorithme permettant d’estimer la pose d’un objet saisi par le préhenseur est décrit. Cet algorithme est basé sur les arbres d’interprétation et l’algorithme de RANSAC. Par la suite, un système expérimental plan comprenant une phalange supplémentaire par doigt est modélisé et étudié pour le développement d’un algorithme approprié d’estimation de la pose. Les principes de ce dernier sont similaires au premier algorithme, mais les capteurs compris dans le système sont moins précis et des adaptations et améliorations ont dû être appliquées. Entre autres, les mesures des capteurs ont été mieux exploitées. Finalement, un système expérimental spatial composé de trois doigts comprenant trois phalanges chacun est étudié. Suite à la modélisation, l’algorithme développé pour ce système complexe est présenté. Des hypothèses partiellement aléatoires sont générées, complétées, puis évaluées. L’étape d’évaluation fait notamment appel à l’algorithme de Levenberg-Marquardt.
110

On the generalization properties of VC classes and application to decision trees

Leboeuf, Jean-Samuel 01 May 2023 (has links)
Titre de l'écran-titre (visionné le 27 février 2023) / La théorie « Vapnik-Chervonenkis » (VC) est un sous-domaine de la théorie de l'apprentissage automatique qui offre un moyen de comprendre la notion de généralisation d'un algorithme d'apprentissage en bornant le taux d'erreur des prédicteurs par l'utilisation d'outils combinatoires, tels que la dimension VC et la fonction de croissance. Bien que des pistes de recherche récentes indiquent que la théorie VC n'est pas le bon cadre pour comprendre la généralisation dans les réseaux de neurones profonds (Zhang et al., 2021), elle reste pertinente pour les modèles interprétables basés sur des décisions à seuil ferme, comme les arbres de décision et les formules booléennes. Pourtant, les bornes de généralisation pour les classes VC n'ont pas connu d'améliorations substantielles depuis près d'une décennie, et les propriétés combinatoires des arbres de décision, nécessaires à l'application de ces bornes, sont encore mal comprises. Dans cette thèse, nous abordons ces deux problèmes de deux manières distinctes, présentées en deux parties différentes. Dans la première partie, nous améliorons significativement les bornes de généralisation pour les classes VC à l'aide de deux idées majeures. Premièrement, nous évitons d'utiliser les inégalités de concentration en inversant la queue de l'hypergéométrique pour obtenir une borne supérieure non-uniforme, très serrée et indépendante de la distribution, sur le risque pour les classes VC. Ensuite, l'utilisation de l'inversion de la queue de l'hypergéométrique permet d'optimiser l'astuce de l'échantillon fantôme pour obtenir des gains supplémentaires non négligeables. Ces améliorations sont ensuite utilisées pour dériver une borne de déviation relative, une borne pour les classificateurs multiclasses à marge, ainsi qu'une borne inférieure. Dans nos dérivations, nous prenons soin d'introduire aussi peu d'approximations que possible afin de réduire au minimum les facteurs constants de la borne. Des comparaisons numériques montrent que la nouvelle borne est presque toujours informative et qu'elle est plus serrée que toute autre borne VC courante pour toutes des tailles raisonnables de jeux de données. Ensuite, dans la deuxième partie, nous revisitons les arbres de décision binaires du point de vue des partitions des données. Nous introduisons la notion de fonction de partitionnement, et nous la relions à la fonction de croissance et à la dimension VC. Nous considérons trois types d'attributs : à valeur réelle, catégorique ordinale et catégorique nominale, chacune avec des règles de décision différentes. Pour chaque type d'attribut, nous bornons supérieurement la fonction de partitionnement des souches de décision avant d'étendre les bornes aux arbres de décision généraux (avec n'importe quelle structure fixe) en utilisant une approche récursive. Parmi les nouveaux résultats les plus notables, nous obtenons que la dimension VC exacte des souches de décision sur des exemples de *ℓ* attributs à valeurs réelles est donnée par le plus grand entier *d* tel que *2ℓ* ≥ (*d* [au-dessus de] [⌊*d/2*⌋]). De plus, nous montrons que la dimension VC d'une structure d'arbre binaire avec *L*[indice *T*] feuilles sur des exemples de *ℓ* attributs à valeurs réelles est de l'ordre de *O*(*L*[indice *T*] log(*L*[indice *T*]ℓ)). Enfin, nous élaborons un algorithme d'élagage basé sur ces résultats qui surpasse les populaires algorithmes d'élagage *cost-complexity* (C4.5) et *reduced-error* (ID3) sur de nombreux jeux de données, avec l'avantage qu'aucune validation croisée n'est nécessaire. / Vapnik-Chervonenkis (VC) theory is a subfield of theoretical machine learning that offers a way to understand the notion of generalization of a learning algorithm by bounding the error rate of predictors through the use of combinatorial tools, such as the VC dimension and the growth function. Although recent research avenues indicate that VC theory is not the right framework to understand generalization in deep neural networks (Zhang et al., 2021), it is still relevant for interpretable models based on hard threshold decisions, such as decision trees and Boolean formulas. Yet, generalization bounds for VC classes have not seen any substantial improvement for nearly a decade now, and the combinatorial properties of decision trees, needed for these bounds to apply, are still poorly understood. In this thesis, we tackle both of these problems in two distinct ways, presented in two different parts. In the first part, we significantly improve the generalization bounds for VC classes by using two main ideas. First, we avoid making use of concentration inequalities by considering the hypergeometric tail inversion to obtain a very tight non-uniform distribution-independent risk upper bound for VC classes. Second, the use of the hypergeometric tail inversion allows us to optimize the ghost sample trick to procure further non-negligible gains. These improvements are then used to derive a relative deviation bound, a multiclass margin bound, as well as a lower bound. In our derivations, we are careful to introduce as few approximations as possible in order to bring to a minimum the constant factors of the bounds. Numerical comparisons show that the new bound is nearly never vacuous and is tighter than other common VC bounds for all reasonable data set sizes. Then, in the second part, we revisit binary decision trees from the perspective of partitions of the data. We introduce the notion of partitioning function, and we relate it to the growth function and to the VC dimension. We consider three types of features: real-valued, categorical ordinal and categorical nominal, all with different split rules. For each feature type, we upper bound the partitioning function of the class of decision stumps before extending the bounds to the class of general decision tree (of any fixed structure) using a recursive approach. Amongst the most notable new results, we find that the exact VC dimension of decision stumps on examples of *ℓ* real-valued features is given by the largest integer *d* such that *2ℓ* ≥ (*d* [above] [⌊*d/2*⌋]). Furthermore, we show that the VC dimension of a binary tree structure with *L*[subscript *T*] leaves on examples of *ℓ* real-valued features is of order *L*[subscript *T*] log(*L*[subscript *T*]*ℓ*). Finally, we elaborate a pruning algorithm based on these results that outperforms cost-complexity (C4.5) and reduced-error pruning algorithms on a number of data sets, with the advantage that no cross-validation is required.

Page generated in 0.039 seconds