Spelling suggestions: "subject:"algorithme""
101 |
Allotment of aircraft spare parts using genetic algorithmsBatchoun, Pascale January 2000 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
102 |
Estimation haute-résolution de la position de cibles en mouvement à partir du suivi du sous-espace sources et d'un estimateur statistique de 2e ordreIsabel, Marc-André 27 November 2020 (has links)
En 1995, la technologie LIDAR fait émergence en télédétection et entraîne avec elle une nouvelle forme de concurrence dans un domaine jusqu'alors dominé par les systèmes RADAR. Contrairement à ces derniers, l'émetteur d'un LIDAR opère à des fréquences au-delà des ondes radios, habituellement dans l'infrarouge, ce qui fait qu'une détection non cohérente doit être employée et que seule l'enveloppe des signaux est récupérée, formant ainsi des signaux réels. Alors que de multiples algorithmes ont été développés au l des années pour faire le traitement des signaux captés par l'antenne-réseau d'un RADAR, aucun n'était reconnu jusqu'à présent comme étant particulièrement performant lorsque utilisé avec des signaux réels. En 2015, dans le cadre d'un projet de recherche visant à améliorer la distance et la précision de la détection des objets à l'aide d'un LIDAR, une adaptation [1] du très populaire algorithme MUSIC développé par Schmidt fut réalisée a n de pouvoir l'utiliser selon le principe du temps de vol plutôt que pour les directions d'arrivée. Cette adaptation ouvrit la voie à l'utilisation d'algorithmes statistiques, à l'origine conçus pour les signaux avec information de phase, pour des signaux réels. Malheureusement, l'application directe de ces algorithmes requiert un temps d'exécution considérable et ce, en particulier lors de la formation, du traitement et de la décomposition propre de la matrice ReXX. Par conséquent, des optimisations doivent être considérées pour être en mesure d'en faire l'implantation dans du matériel à faible coût lorsqu'il est question d'opération en temps réel. Parmi ces optimisations, c'est l'utilisation de méthodes de suivi fondées sur la notion de sous-espace qui fait l'objet de cet ouvrage. Ces algorithmes reposent sur l'idée qu'il est possible d'oublier, de façon graduelle, les données du passé au pro t des nouvelles données sans avoir à passer par la formation de la matrice ReXX à chaque fois. Ainsi, les résultats démontrent qu'une réduction de 25% à 95% du temps d'exécution est possible dans un contexte d'utilisation conjointe, mais moins fréquente, avec une méthode à complexité algorithmique plus élevée. Par ailleurs, les résultats des essais réalisés par [1] ne couvrent que les cibles stationnaires. Par conséquent, ce projet vise à étendre cette étude aux cibles en mouvement. Les résultats obtenus permettent de démontrer l'efficacité des méthodes de suivi du sous-espace pour de tels cas. / In 1995, LIDAR systems emerged as a new alternative to the well-known RADAR systems for remote sensing applications. However, unlike RADAR, the operating frequency of LIDAR systems is above the radio frequencies and usually in the infrared which means that a non-coherent detection has to be used to retrieve the signal's enveloppe. While several signal processing algorithms have been developped for RADAR phased arrays, none of these algorithms are known, to this day, to be e cient when dealing with real, phaseless signals. In 2015, as part of a research project to enhance the detection precision and maximal distance of a LIDAR system, an adaptation [1] of the so-called MUSIC algorithm developped by Schmidt was realised to be used with the time-of- ight principle instead of the direction of arrival principle. Unfortunately, the direct application of the adapted algorithm was time consuming, especially the creation, processing and eigendecomposition stages of the ReXX matrix. As so, optimizations are required to allow its implementation into a low-cost system for real-time purposes. Among those optimizations, the use of subspace tracking methods will be studied in this thesis. Subspace tracking algorithms are based on the idea that instead of having to create ReXX at each data update, one can use the known data while adding the new data with a forgetting factor. The result of these optimizations is that a decrease of 25% to 95% in execution time is observed when subspace tracking is used together with a higher complexity method to initialize its parameters. The study realised by [1] was mostly done for stationary objects. This thesis aims to extend that study to non stationary objects. Results show that using subspace tracking methods is even more efficient in these cases.
|
103 |
Développement d'algorithmes d'estimation de la pose d'objets saisis par un préhenseur robotiqueCôté, Marianne 24 April 2018 (has links)
Les préhenseurs robotiques sont largement utilisés en industrie et leur déploiement pourrait être encore plus important si ces derniers étaient plus intelligents. En leur conférant des capacités tactiles et une intelligence leur permettant d’estimer la pose d’un objet saisi, une plus vaste gamme de tâches pourraient être accomplies par les robots. Ce mémoire présente le développement d’algorithmes d’estimation de la pose d’objets saisis par un préhenseur robotique. Des algorithmes ont été développés pour trois systèmes robotisés différents, mais pour les mêmes considérations. Effectivement, pour les trois systèmes la pose est estimée uniquement à partir d’une saisie d’objet, de données tactiles et de la configuration du préhenseur. Pour chaque système, la performance atteignable pour le système minimaliste étudié est évaluée. Dans ce mémoire, les concepts généraux sur l’estimation de la pose sont d’abord exposés. Ensuite, un préhenseur plan à deux doigts comprenant deux phalanges chacun est modélisé dans un environnement de simulation et un algorithme permettant d’estimer la pose d’un objet saisi par le préhenseur est décrit. Cet algorithme est basé sur les arbres d’interprétation et l’algorithme de RANSAC. Par la suite, un système expérimental plan comprenant une phalange supplémentaire par doigt est modélisé et étudié pour le développement d’un algorithme approprié d’estimation de la pose. Les principes de ce dernier sont similaires au premier algorithme, mais les capteurs compris dans le système sont moins précis et des adaptations et améliorations ont dû être appliquées. Entre autres, les mesures des capteurs ont été mieux exploitées. Finalement, un système expérimental spatial composé de trois doigts comprenant trois phalanges chacun est étudié. Suite à la modélisation, l’algorithme développé pour ce système complexe est présenté. Des hypothèses partiellement aléatoires sont générées, complétées, puis évaluées. L’étape d’évaluation fait notamment appel à l’algorithme de Levenberg-Marquardt.
|
104 |
On the generalization properties of VC classes and application to decision treesLeboeuf, Jean-Samuel 13 December 2023 (has links)
Titre de l'écran-titre (visionné le 27 février 2023) / La théorie « Vapnik-Chervonenkis » (VC) est un sous-domaine de la théorie de l'apprentissage automatique qui offre un moyen de comprendre la notion de généralisation d'un algorithme d'apprentissage en bornant le taux d'erreur des prédicteurs par l'utilisation d'outils combinatoires, tels que la dimension VC et la fonction de croissance. Bien que des pistes de recherche récentes indiquent que la théorie VC n'est pas le bon cadre pour comprendre la généralisation dans les réseaux de neurones profonds (Zhang et al., 2021), elle reste pertinente pour les modèles interprétables basés sur des décisions à seuil ferme, comme les arbres de décision et les formules booléennes. Pourtant, les bornes de généralisation pour les classes VC n'ont pas connu d'améliorations substantielles depuis près d'une décennie, et les propriétés combinatoires des arbres de décision, nécessaires à l'application de ces bornes, sont encore mal comprises. Dans cette thèse, nous abordons ces deux problèmes de deux manières distinctes, présentées en deux parties différentes. Dans la première partie, nous améliorons significativement les bornes de généralisation pour les classes VC à l'aide de deux idées majeures. Premièrement, nous évitons d'utiliser les inégalités de concentration en inversant la queue de l'hypergéométrique pour obtenir une borne supérieure non-uniforme, très serrée et indépendante de la distribution, sur le risque pour les classes VC. Ensuite, l'utilisation de l'inversion de la queue de l'hypergéométrique permet d'optimiser l'astuce de l'échantillon fantôme pour obtenir des gains supplémentaires non négligeables. Ces améliorations sont ensuite utilisées pour dériver une borne de déviation relative, une borne pour les classificateurs multiclasses à marge, ainsi qu'une borne inférieure. Dans nos dérivations, nous prenons soin d'introduire aussi peu d'approximations que possible afin de réduire au minimum les facteurs constants de la borne. Des comparaisons numériques montrent que la nouvelle borne est presque toujours informative et qu'elle est plus serrée que toute autre borne VC courante pour toutes des tailles raisonnables de jeux de données. Ensuite, dans la deuxième partie, nous revisitons les arbres de décision binaires du point de vue des partitions des données. Nous introduisons la notion de fonction de partitionnement, et nous la relions à la fonction de croissance et à la dimension VC. Nous considérons trois types d'attributs : à valeur réelle, catégorique ordinale et catégorique nominale, chacune avec des règles de décision différentes. Pour chaque type d'attribut, nous bornons supérieurement la fonction de partitionnement des souches de décision avant d'étendre les bornes aux arbres de décision généraux (avec n'importe quelle structure fixe) en utilisant une approche récursive. Parmi les nouveaux résultats les plus notables, nous obtenons que la dimension VC exacte des souches de décision sur des exemples de *ℓ* attributs à valeurs réelles est donnée par le plus grand entier *d* tel que $2\ell\geq \bigl(\begin{smallmatrix}
d \\\left \lfloor \frac{d}{2}\right \rfloor
\end{smallmatrix}\bigr)$. De plus, nous montrons que la dimension VC d'une structure d'arbre binaire avec $L_T$ feuilles sur des exemples de *ℓ* attributs à valeurs réelles est de l'ordre de $\mathscr{O}(L_T\,log(L_T\ell))$. Enfin, nous élaborons un algorithme d'élagage basé sur ces résultats qui surpasse les populaires algorithmes d'élagage *cost-complexity* (C4.5) et *reduced-error* (ID3) sur de nombreux jeux de données, avec l'avantage qu'aucune validation croisée n'est nécessaire. / Vapnik-Chervonenkis (VC) theory is a subfield of theoretical machine learning that offers a way to understand the notion of generalization of a learning algorithm by bounding the error rate of predictors through the use of combinatorial tools, such as the VC dimension and the growth function. Although recent research avenues indicate that VC theory is not the right framework to understand generalization in deep neural networks (Zhang et al., 2021), it is still relevant for interpretable models based on hard threshold decisions, such as decision trees and Boolean formulas. Yet, generalization bounds for VC classes have not seen any substantial improvement for nearly a decade now, and the combinatorial properties of decision trees, needed for these bounds to apply, are still poorly understood. In this thesis, we tackle both of these problems in two distinct ways, presented in two different parts. In the first part, we significantly improve the generalization bounds for VC classes by using two main ideas. First, we avoid making use of concentration inequalities by considering the hypergeometric tail inversion to obtain a very tight non-uniform distribution-independent risk upper bound for VC classes. Second, the use of the hypergeometric tail inversion allows us to optimize the ghost sample trick to procure further non-negligible gains. These improvements are then used to derive a relative deviation bound, a multiclass margin bound, as well as a lower bound. In our derivations, we are careful to introduce as few approximations as possible in order to bring to a minimum the constant factors of the bounds. Numerical comparisons show that the new bound is nearly never vacuous and is tighter than other common VC bounds for all reasonable data set sizes. Then, in the second part, we revisit binary decision trees from the perspective of partitions of the data. We introduce the notion of partitioning function, and we relate it to the growth function and to the VC dimension. We consider three types of features: real-valued, categorical ordinal and categorical nominal, all with different split rules. For each feature type, we upper bound the partitioning function of the class of decision stumps before extending the bounds to the class of general decision tree (of any fixed structure) using a recursive approach. Amongst the most notable new results, we find that the exact VC dimension of decision stumps on examples of *ℓ* real-valued features is given by the largest integer *d* such that $2\ell\geq \bigl(\begin{smallmatrix}
d \\\left \lfloor d\over2\right \rfloor
\end{smallmatrix}\bigr)$. Furthermore, we show that the VC dimension of a binary tree structure with $L_T$ leaves on examples of *ℓ* real-valued features is of order $(L_T\,log(L_T\ell))$). Finally, we elaborate a pruning algorithm based on these results that outperforms cost-complexity (C4.5) and reduced-error pruning algorithms on a number of data sets, with the advantage that no cross-validation is required.
|
105 |
Inférence de la structure d'interactions de données bruitéesLizotte, Simon 12 November 2023 (has links)
La science des réseaux est notamment à la recherche de modèles mathématiques capables de reproduire le comportement de systèmes complexes empiriques. Cependant, la représentation usuelle, le graphe, est parfois inadéquate étant donné sa limitation à encoder uniquement les relations par paires. De nombreux travaux récents suggèrent que l'utilisation de l'hypergraphe, une généralisation décrivant les interactions d'ordre supérieur (plus de deux composantes), permet d'expliquer des phénomènes auparavant incompris avec le graphe. Or, la structure de ces réseaux complexes est rarement ou difficilement observée directement. De fait, on mesure plutôt une quantité intermédiaire, comme la fréquence de chaque interaction, pour ensuite reconstruire la structure originale. Bien que de nombreuses méthodes de reconstruction de graphes aient été développées, peu d'approches permettent de retrouver les interactions d'ordre supérieur d'un système complexe. Dans ce mémoire, on développe une nouvelle approche de reconstruction pouvant déceler les interactions connectant trois noeuds parmi des observations dyadiques bruitées. Basée sur l'inférence bayésienne, cette méthode génère la distribution des hypergraphes les plus plausibles pour un jeu de données grâce à un algorithme de type Metropolis-Hastings-within-Gibbs, une méthode de Monte-Carlo par chaînes de Markov. En vue d'évaluer la pertinence d'un modèle d'interactions d'ordre supérieur pour des observations dyadiques, le modèle d'hypergraphe développé est comparé à un second modèle bayésien supposant que la structure sous-jacente est un graphe admettant deux types d'interactions par paires. Les résultats obtenus pour des hypergraphes synthétiques et empiriques indiquent que la corrélation intrinsèque à la projection d'interactions d'ordre supérieur améliore le processus de reconstruction lorsque les observations associées aux interactions dyadiques et triadiques sont semblables. / Network science is looking for mathematical models capable of reproducing the behavior of empirical complex systems. However, the usual representation, the graph, is sometimes inadequate given its limitation to encode only pairwise relationships. Many recent works suggest that the use of the hypergraph, a generalization describing higher-order interactions (more than two components), allows to explain phenomena previously not understood with graphs. However, the structure of these complex networks is seldom or hardly observed directly. Instead, we measure an intermediate quantity, such as the frequency of each interaction, and then reconstruct the original structure. Although many graph reconstruction methods have been developed, few approaches recover the higher-order interactions of a complex system. In this thesis, we develop a new reconstruction approach which detects interactions connecting three vertices among noisy dyadic observations. Based on Bayesian inference, this method generates the distribution of the most plausible hypergraphs for a dataset using a Metropolis-Hastings-within-Gibbs algorithm, a Markov chain Monte Carlo method. In order to evaluate the relevance of a higher-order interaction model for dyadic observations, the developed hypergraph model is compared to a second Bayesian model assuming that the underlying structure is a graph admitting two types of pairwise interactions. Results for synthetic and empirical hypergraphs indicate that the intrinsic correlation to the projection of higher-order interactions improves the reconstruction process when observations associated with dyadic and triadic interactions are similar.
|
106 |
Développement d'un algorithme permettant la prédiction des métastases à partir de mutations germinales et celles du clone fondateur chez des patients atteints du cancerMilanese, Jean-Sébastien 24 April 2018 (has links)
Avec les constantes avancées du séquençage de nouvelle génération (NGS), la quantité de données disponibles devient massive. En parallèle, les méthodes de détection au cancer demeurent très spécifiques et peu efficaces. De plus, le taux de survie des patients est directement relié à la progression tumorale et par conséquent, aux méthodes de détection. Malgré des avancées technologiques très importantes dans les dernières années, le taux de mortalité du cancer ne cesse d’augmenter. L’importance de développer des nouvelles méthodes de détection applicables à tous les types de cancer devient une nécessité. Jusqu’à présent, il n’existe aucun modèle permettant d’utiliser le séquençage de nouvelle génération qui permet la prédiction de caractéristiques cancéreuse (ex : récurrence, résistance, etc.). Les sections suivantes démontrent la création d’un modèle utilisant des mutations somatiques et germinales pour prédire la récurrence et son applicabilité au travers de tous les types de cancers (et même différentes maladies). En utilisant des signatures géniques (combinaisons de gènes) spécifiques à chaque cancer, nous avons été en mesure d’obtenir une précision de 90% (et plus) pour le groupe où le cancer est récurrent. De nos connaissances, ceci est la première tentative de développement de modèle permettant de prédire le pronostic du patient en utilisant le NGS. Ceci amène un nouvel aspect pour la médecine personnalisée et spécialement pour le dépistage du cancer. / With the constant progress in neext generation sequencing, the quantity of data available for investigation becomes massive. In parallel, cancer detection methods and treatments remain very specific and barely accurate. Moreover, the patients survival rate are directly linked with tumoral progression and therefore, to cancer detection methods. Despite continual technological advances in recent years, the global cancer mortality rate keeps rising. The creation of new detection methods accessible to all cancer types becomes a necessity. As of now, there is no model available that using sequencing data to predict cancer traits (ex: recurrence, resistance, etc.). The following sections demonstrate the creation of such model using somatic and germline mutations to predict recurrence and its applicability across all cancer types (and even across different diseases). By using gene signatures specific to each cancer types, we were able to obtain an accuracy of 90% (and more) for the cohort where the cancer was recurrent. To our knowledge, this is the first attempt to develop a model that can predict the patient’s prognosis using genome sequencing data. This will affect future studies and improve personalized medicine as well as cancer detection methods.
|
107 |
Application de l'algorithme EM au modèle des risques concurrents avec causes de panne masquéesMichaud, Isabelle 11 April 2018 (has links)
Dans un modèle de durées de vie avec des risques concurrents, les systèmes peuvent tomber en panne dans le temps. Ces pannes sont dues à une cause parmi plusieurs possibles et il arrive parfois que celle-ci soit inconnue. C'est alors qu'on peut faire appel à l'algorithme EM pour calculer les estimateurs du maximum de vraisemblance. Cette technique utilise la fonction de vraisemblance des données complètes pour trouver les estimateurs même si les données observées sont incomplètes. Pour les systèmes ayant leur cause de panne inconnue, on peut en prendre un échantillon pour une inspection plus approfondie qui dévoilera les vraies causes de panne. Cette étape peut améliorer l'estimation des probabilités de masque et des fonc- tions de risque spécifiques aux causes de panne. Après avoir expliqué la théorie de l'algorithme EM, le modèle des risques concurrents, ainsi que les travaux réalisés sur le sujet, on étudie l'impact qu'a sur les estimateurs le fait de ne pas envoyer un échantillon des systèmes masqués à un examen approfondi qui permettrait de trouver la vraie cause de panne.
|
108 |
Empirical analysis of imbalance countering strategies in binary classificationGingras, Jonathan 02 February 2024 (has links)
De nos jours, les algorithmes de classification binaire sont utilisés dans des tâches touchant plusieurs champs d’applications comme les fraudes en-ligne, le dépistage bio-médical ou bien la toxicité en-ligne. Malgré le nombre de données qui est souvent disponible pour ces applications, qui viennent habituellement de source réelles, une particularité y est fréquemment observée: la représentation débalancée des classes. Cette imbalance demeure un problème d’envergure pour les algorithmes de classification, car la vaste majorité d’entre eux ne sont pas conçus avec cette représentation inégale à l’esprit. De plus, dans les paramètres expérimentaux, les données sur lesquelles ils sont appliqués sont souvent bien balancées, à cause de la finalité-même de ces expérimentations. Dans le présent mémoire, une revue des stratégies et techniques existantes pour contrer l’imbalance binaire est proposée, dans laquelle un point de vue par modification de données ainsi qu’un point de vue par modification algorithmique seront adressés. Le premier sujet des présents travaux consiste en les approches de pré-traitement et leurs effets sur les métriques de classification, dans lequel des expérimentations contrôlées (présentant différents niveaux de débalancement) et des applications d’entreprises sont présentées et analysées. Le second sujet consiste en le paradigme sensible-au-coût appliqué à l’optimisation directe de la métrique de la F-mesure en utilisant un réseau de neurones, dans lequel des expérimentations sur un jeu de données très débalancé sont présentées et discutées, le tout accompagné d’une comparaison avec différents paramètres usuels. À la lecture du présent document, le lecteur aura une bonne idée des techniques de prétraitement existantes et ce qu’on peut en retirer d’un point de vue expérimental selon des ensembles de données variés. Également, l’application du paradigme sensible-au-coût par optimisation de la F-mesure donnera un aperçu positif quant au point de vue algorithmique dans un contexte de données très débalancées. / Nowadays, binary classification algorithms are used in detection-related tasks touching many fields of application such as online frauds, biomedical screening, or online toxicity. Despite the amount of data that’s usually available for those applications, which habitually comes from real-world data sources, a particularity is frequently observed in it: the imbalanced representation of the classes. This imbalance remains a significant problem for binary classification algorithms, because the vast majority of these algorithms are not designed with this unequal representation in mind. Moreover, in experimental setups, the data on which they are usually applied is more than often well-balanced, because of the very purpose of these experiments. In the current thesis, a review of the existing strategies and techniques to face the binary imbalance problem is proposed in which both a data-modification point of view and a algorithmmodification point of view are addressed. The first subject of this work are data prepocessing approaches and their effects on classification metrics, in which both controlled experimental setups (showing different levels of imbalance), and enterprise data applications are presented and analyzed. The second subject is the cost-sensitive paradigm applied to the direct optimization of the F-measure metric using a neural network, in which experimentations on a highly imbalanced data set are presented and discussed, as well as comparisons with different common settings. After reading the current document, the reader will be well aware of the existing preprocessing techniques and what they can be achieve in an experimental context using various data sets. Moreover, the application of the cost-sensitive paradigm by optimization of the F-measure will give positive insight regarding the algorithmic point of view in a context of very imbalanced data.
|
109 |
Avoir raison a posteriori : analyse d'erreurs commises dans la littérature (PAC-)bayésienneVignault, Louis-Philippe 01 October 2024 (has links)
Étant donné les progrès majeurs de l'intelligence artificielle (IA) au cours des dernières années, de plus en plus de domaines d'application adoptent les outils proposés par l'IA afin d'accomplir une multitude de tâches. Considérant l'importance de ces tâches dans des domaines comme la santé et l'énergie, il est nécessaire d'être en mesure de garantir le bon fonctionnement des algorithmes d'IA. Plusieurs résultats proposés dans la littérature visent à garantir la bonne performance de certains algorithmes. Toutefois, l'existence d'erreurs au sein de la littérature scientifique est inévitable dû aux milliers d'articles qui sont publiés chaque année. Bien que plusieurs de ces erreurs aient des conséquences mineures, certaines, en revanche, peuvent avoir un impact considérable sur l'état des connaissances scientifiques ainsi qu'en pratique. Par conséquent, il est important d'identifier et de comprendre ces erreurs dès qu'elles sont identifiées. Dans ce mémoire, nous abordons deux erreurs identifiées dans la littérature liée à l'usage de la statistique bayésienne dans une approche visant à identifier ces erreurs, comprendre leur nature tant au niveau de la théorique que de l'intuition et explorer les implications de ces erreurs pour la recherche en IA. La première erreur concerne l'optimalité $\mathcal{C}$-borne dans le cadre de la classification binaire. Nous parvenons à démontrer que pour des problèmes bruités, cette borne ne peut pas atteindre la valeur théorique optimale et utilisons cette analyse afin de démontrer théoriquement la meilleure valeur que peut produire cette borne selon le problème de classification. La seconde erreur concerne la garantie théorique de la convergence de l'algorithme ADD-GP-UCB dans le cadre de l'optimisation bayésienne. Bien que cette erreur ait été soulevée par le passé, celle-ci n'a jamais été proprement abordée dans la littérature. Nous parvenons ainsi à démontrer l'invalidité de la preuve tout en explicitant une multitude de raisonnements fallacieux identifiés dans la littérature concernant cet algorithme. / Given the significant progress of artificial intelligence (AI) in recent years, an increasing number of application domains are adopting AI tools to perform a multitude of tasks. Considering the importance of these tasks in areas such as health and energy, it is necessary to ensure the proper behavior of these AI algorithms. Several results proposed in the literature aim to guarantee the proper performance of certain algorithms. However, due to the thousands of articles published each year, errors in scientific literature are inevitable. Although many of these errors are of minor consequences, some can have a significant impact regarding general scientific knowledge as well as in practice. Therefore, it is important to address and understand these errors as soon as they are identified. In this paper, we address two errors identified in the literature related to the use of Bayesian statistics. Our approach aims to identify these errors, understand their nature both on a theoretical and an intuitive level, and explore their implications in the field of AI. The first error concerns the optimality of the $\mathcal{C}$-bound, a bound used in the context of binary classification. We demonstrate that in a noisy setting, this bound cannot reach an optimal value. Our analysis leads to the proof of the best value the $\mathcal{C}$-bound can achieve for a given classification problem. The second error concerns the convergence of the ADD-GP-UCB algorithm in the context of Bayesian optimization. Although this error has been raised in the past, it has never been properly addressed in the literature. We manage to demonstrate that the proposed proof is invalid while also shining light on a multitude of fallacious statements found in the literature concerning this algorithm.
|
110 |
Détection de doublons parmi des informations non structurées provenant de sources de données différentesBeauchemin, David 02 February 2024 (has links)
Ce mémoire rend compte de l’exploration de deux approches de détection des doublons entre les descriptions d’entreprises d’une base de données interne et celles d’une source externe non structurée en assurance commerciale. Puisqu’il est coûteux et fastidieux pour un assureur de recueillir les informations nécessaires au calcul d’une prime d’assurance, notre motivation est de les aider à minimiser la quantité de ressources nécessaires à leur acquisition en leur permettant d’utiliser des sources de données externes. Dans ce mémoire, nous avons d’abord observé que l’utilisation d’algorithmes de similarité permet de détecter la majorité des doublons entre les sources de données à partir du nom. Nos expérimentations indiquent que lorsqu’on utilise le nom comme source de comparaison entre les entités, une très grande majorité de ces doublons peut être identifiée. Des expérimentations similaires, mais avec l’adresse, nous ont permis d’observer qu’il était aussi possible d’identifier les doublons d’entreprises par cet attribut, mais dans une moins grande proportion. Par la suite, nous avons entraîné des modèles d’apprentissage automatique afin de coupler les entreprises en double par le nom et l’adresse conjointement. C’est avec ces modèles que nous avons observé les meilleurs résultats. Dans une tentative finale d’améliorer davantage nos résultats, nous avons assoupli notre hypothèse initiale, qui impliquait d’utiliser l’entité la plus probable d’être le doublon d’une entreprise, pour utiliser les N entités les plus probables, ce qui a permis de maximiser le rappel à 91,07 %. / This thesis reports the exploration of two approaches to detecting duplicates between the companies descriptions in an internal database and those in an unstructured external source in commercial insurance. Since it is costly and tedious for an insurer to collect the information required to calculate an insurance premium, our motivation is to help them minimize the amount of resources necessary by extracting that information directly from external databases. In this thesis, we first observed that the use of similarity algorithms allows us to detect most of the duplicates between databases using the name. Our experiments indicate that when the name is used as a source of comparison between the entities, a vast majority of these duplicates can be identified. Similar experiments, but using the address this time, allowed us to observe that it was also possible to identify duplicate companies by this feature, but to a lesser extent. Subsequently, we trained machine learning models to match duplicate companies using the name and the address at the same time. It is with these models that we observed the best results. In a final attempt to further improve our results, we used the N most likely entities to be a duplicate of a company, instead of only the first one, thus maximizing the recall to 91.07%.
|
Page generated in 0.1059 seconds