• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Algorithme de fourmis artificielles pour la construction incrémentale et la visualisation interactive de grands graphes de voisinage

Lavergne, Julien 05 December 2008 (has links)
Nous nous intéressons dans cette thèse à la résolution d'un problème de classification non supervisée d'un grand volume de données (i.e. 1 million). Nous proposons une méthode de construction incrémentale de grands graphes de voisinage par des fourmis artificielles qui s'inspire du comportement d'auto-assemblage de fourmis réelles se fixant progressivement à un support puis successivement aux fourmis déjà fixées afin de créer une structure vivante. La connexion entre fourmis (données) se fait à partir d'une mesure de similarité entre les données. Nous permettons également l'exploration visuelle et interactive de nos graphes en réponse aux besoins d'extraction de connaissances de l'expert du domaine. Ce dernier peut visualiser la forme globale d'un graphe et explorer localement les relations de voisinage avec une navigation guidée par le contenu. Nos travaux s'inscrivent pleinement en classification interactive ainsi qu'en fouille de textes avec une immersion en réalité virtuelle. / We present in this work a new incremental algorithm for building proximity graphs for large data sets in order to solve a clustering problem. It is inspired from the self-assembly behavior observed in real ants where ants progressively become attached to an existing support and then successively to other attached ants. Each artificial ant represents one data. The way ants move and build a graph depends on the similarity between the data. A graph, built with our method, is well suitable for visualization and interactively exploration depending on the needs of the domain expert. He can visualize the global shape of the graph and locally explore the neighborhood relations with a content-based navigation. Finally, we present different applications of our work as the interactive clustering, the automatic graph construction of documents and an immersion in a virtual reality environment for discovering knowledge in data.
2

Contribution à la sélection de variables par les machines à vecteurs support pour la discrimination multi-classes / Contribution to Variables Selection by Support Vector Machines for Multiclass Discrimination

Aazi, Fatima Zahra 20 December 2016 (has links)
Les avancées technologiques ont permis le stockage de grandes masses de données en termes de taille (nombre d’observations) et de dimensions (nombre de variables).Ces données nécessitent de nouvelles méthodes, notamment en modélisation prédictive (data science ou science des données), de traitement statistique adaptées à leurs caractéristiques. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement aux données dont le nombre de variables est élevé comparé au nombre d’observations.Pour ces données, une réduction du nombre de variables initiales, donc de dimensions, par la sélection d’un sous-ensemble optimal, s’avère nécessaire, voire indispensable.Elle permet de réduire la complexité, de comprendre la structure des données et d’améliorer l’interprétation des résultats et les performances du modèle de prédiction ou de classement en éliminant les variables bruit et/ou redondantes.Nous nous intéressons plus précisément à la sélection de variables dans le cadre de l’apprentissage supervisé et plus spécifiquement de la discrimination à catégories multiples dite multi-classes. L’objectif est de proposer de nouvelles méthodes de sélection de variables pour les modèles de discrimination multi-classes appelés Machines à Vecteurs Support Multiclasses (MSVM).Deux approches sont proposées dans ce travail. La première, présentée dans un contexte classique, consiste à sélectionner le sous-ensemble optimal de variables en utilisant le critère de "la borne rayon marge" majorante du risque de généralisation des MSVM. Quant à la deuxième approche, elle s’inscrit dans un contexte topologique et utilise la notion de graphes de voisinage et le critère de degré d’équivalence topologique en discrimination pour identifier les variables pertinentes qui constituent le sous-ensemble optimal du modèle MSVM.L’évaluation de ces deux approches sur des données simulées et d’autres réelles montre qu’elles permettent de sélectionner, à partir d’un grand nombre de variables initiales, un nombre réduit de variables explicatives avec des performances similaires ou encore meilleures que celles obtenues par des méthodes concurrentes. / The technological progress has allowed the storage of large amounts of data in terms of size (number of observations) and dimensions (number of variables). These data require new methods, especially for predictive modeling (data science), of statistical processing adapted to their characteristics. In this thesis, we are particularly interested in the data with large numberof variables compared to the number of observations.For these data, reducing the number of initial variables, hence dimensions, by selecting an optimal subset is necessary, even imperative. It reduces the complexity, helps to understand the data structure, improves the interpretation of the results and especially enhances the performance of the forecasting model by eliminating redundant and / or noise variables.More precisely, we are interested in the selection of variables in the context of supervised learning, specifically of multiclass discrimination. The objective is to propose some new methods of variable selection for multiclass discriminant models called Multiclass Support Vector Machines (MSVM).Two approaches are proposed in this work. The first one, presented in a classical context, consist in selecting the optimal subset of variables using the radius margin upper bound of the generalization error of MSVM. The second one, proposed in a topological context, uses the concepts of neighborhood graphs and the degree of topological equivalence in discriminationto identify the relevant variables and to select the optimal subset for an MSVM model.The evaluation of these two approaches on simulated and real data shows that they can select from a large number of initial variables, a reduced number providing equal or better performance than those obtained by competing methods.

Page generated in 0.0853 seconds