Spelling suggestions: "subject:"préparation dess données (informatique)"" "subject:"préparation dess données (nformatique)""
1 |
Classification de courriels au moyen de diverses méthodes d'apprentissage et conception d'un outil de préparation des données textuelles basé sur la programmation modulaire : PDTPMZiri, Oussama 01 1900 (has links) (PDF)
Les technologies numériques de l'information et de la communication sont de plus en plus utilisées. Certes, ces technologies offrent des moyens de communication pratiques, mais elles soulèvent des préoccupations concernant la protection de la vie privée et le respect en ligne. Les utilisations malveillantes des courriels ne cessent de croître et la quantité de spams a rendu pratiquement impossible d'analyser les courriels manuellement. Vu ces problématiques, le besoin de techniques automatisées, capables d'analyser des données est devenu primordial. Plusieurs applications se basant sur l'apprentissage automatique se sont établies pour analyser des données textuelles de grand volume. Les techniques du « Text Mining » analysent des données textuelles en utilisant des méthodes d'apprentissage automatique afin d'extraire les principales tendances. Cependant, les techniques de « Text Mining » ne sont capables d'être utilisées que si les données sont déjà préparées et bien structurées. Cette recherche a deux objectifs : 1) Concevoir un outil original de préparation de données qui offre et regroupe des fonctionnalités primordiales dans l'étape de préparation de données textuelles. Nous n'avons pas trouvé ces fonctionnalités dans d'autres outils de préparation de données (Sato, Alceste, WordStat, NLTK) ce qui a créé un besoin de concevoir notre logiciel. Nous l'avons appelé outil de Préparation de Données Textuelles basé sur la Programmation Modulaire, PDTPM. 2) Application des méthodes d'apprentissage automatiques dédiées au « Text Mining » pour classifier un ensemble de courriels et détecter les spams. Pour le premier objectif, après avoir étudié le processus de préparation de données, l'étude propose un outil de Préparation de Données Textuelles. Cette plateforme permet de considérer en entrée un ensemble de données textuelles brutes et de générer en sortie ces données sous une forme bien structurée qui consiste en une matrice de données documents-mots. En ce qui concerne le deuxième objectif de notre recherche, nous explorons des courriels d'une base de données publique, Lingspam, pour les classifier au moyen de méthodes d'apprentissage automatique en spams et courriels légitimes.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : text mining, apprentissage automatique, préparation des données textuelles, détection de spams, filtrage de courriels.
|
2 |
Leveraging unlabeled data for semantic segmentation of 3D mobile LiDAR point cloud using a label-efficient learning approachMahmoudi Kouhi, Reza 05 August 2024 (has links)
La segmentation sémantique des vastes nuages de points en cartographie mobile est cruciale pour l'urbanisme, la conception d'infrastructures et la navigation autonome. Cependant, leur nature irrégulière et massive présente des défis majeurs pour une segmentation précise. Cette thèse aborde ces défis en proposant de nouvelles méthodologies concernant la préparation des données, l'apprentissage contrastif auto-supervisé et les approches de pseudo-étiquetage. Les objectifs de recherche de cette thèse sont doubles : (1) concevoir une approche de préparation des données qui puisse alimenter de manière optimale des réseaux neuronaux avec des sous-ensembles de points, tout en préservant les informations spatiales et représentatives des caractéristiques du nuage de points, et (2) concevoir et mettre en œuvre des méthodes d'apprentissage efficaces en termes d'étiquetage qui exploitent les ensembles massifs de données non étiquetées afin de réaliser la segmentation sémantique précise des nuages de points dans le contexte de la cartographie mobile à grande échelle. L'atteinte du premier objectif est adressé dans le chapitre 2 qui présente de nouvelles méthodes de préparation des données adaptées aux nuages de points LiDAR 3D à grande échelle en extérieur. Après avoir mené des expérimentations et évaluations approfondies, incluant des comparaisons avec les méthodes de l'état de l'art, les méthodes proposées démontrent de meilleures performances en termes de précision et robustesse du réseau. Le chapitre 3 se concentre sur la réalisation du deuxième objectif en introduisant CLOUDSPAM, une approche d'apprentissage contrastif spécifiquement adaptée aux ensembles de données de cartographie mobile. En exploitant des techniques d'augmentation des données, un pré-entraînement auto-supervisé et des ensembles fusionnés de données hétérogènes, CLOUDSPAM surmonte les défis liés au manque de paires positives et négatives et aux contraintes de gestion de la mémoire. Les expérimentations réalisées mettent en évidence l'efficacité de CLOUDSPAM pour la segmentation sémantique de divers jeux de données, même lorsque les données étiquetées sont limitées. Bien que CLOUDSPAM soit efficace et comparable à l'état de l'art, il présente certaines limites liées à l'apprentissage contrastif auto-supervisé. Le chapitre 4 présente une solution complète pour aborder ces limitations. Celle-ci exploite des pseudo-étiquettes générées par un réseau pré-entraîné, ainsi que des banques de mémoire par classe et un module de purification de segments. Dans son ensemble, cette thèse apporte une contribution significative à l'avancement de SOTA en matière de segmentation sémantique des nuages de points en cartographie mobile à grande échelle. / Semantic segmentation of large-scale mobile mapping point clouds is essential for various applications in urban planning, infrastructure design, and autonomous navigation. However, the irregular and unstructured nature of point clouds along with the massiveness of mobile mapping point clouds poses significant challenges for accurate segmentation. This thesis addresses these challenges by proposing novel methodologies in data preparation, self-supervised contrastive learning, and pseudo-labeling approaches. The research objectives of this thesis are twofold: (1) to develop a comprehensive approach for data preparation that optimally feeds subsets of point clouds into deep neural networks, preserving spatial information and representative of the point cloud's characteristics, and (2) to design and implement label-efficient learning methods that leverage massive unlabeled data to achieve accurate semantic segmentation of large-scale mobile mapping point clouds. In pursuit of the first objective, Chapter 2 presents novel data preparation methods tailored for large-scale outdoor 3D LiDAR point clouds. Through comprehensive experimentation and evaluation, including comparisons with existing approaches, the proposed methods demonstrate improved performance in deep neural network-based semantic segmentation tasks. Chapter 3 focuses on achieving the second objective by introducing CLOUDSPAM, a contrastive learning approach specifically adapted for mobile mapping datasets. Leveraging data augmentation techniques, self-supervised pretraining, and merged heterogeneous datasets, CLOUDSPAM addresses challenges related to limited positive and negative pairs and memory constraints. Rigorous experimentation showcases the effectiveness of CLOUDSPAM in enhancing semantic segmentation performance across various datasets, even in scenarios with limited labeled data. While CLOUDSPAM is effective and is comparable with the state-of-the-art, it still has some limitations due to uncertainties related to self-supervised contrastive learning. Chapter 4 presents a comprehensive solution to address these limitations. A teacher-student pseudo-labeling approach for semantic segmentation is proposed. This approach leverages pseudo-labels generated by a pre-trained teacher network, along with class-wise memory banks and a segment purification module, to improve segmentation accuracy and robustness. Overall, this thesis makes significant contributions to advancing the state-of-the-art in semantic segmentation of large-scale mobile mapping point clouds.
|
3 |
La mise en registre automatique des surfaces acquises à partir d'objets déformablesCao, Van Toan 24 April 2018 (has links)
La mise en registre 3D (opération parfois appelée alignement) est un processus de transformation d’ensembles de données 3D dans un même système de coordonnées afin d’en aligner les éléments communs. Deux ensembles de données alignés ensemble peuvent être les scans partiels des deux vues différentes d’un même objet. Ils peuvent aussi être deux modèles complets, générés à des moments différents, d’un même objet ou de deux objets distincts. En fonction des ensembles de données à traiter, les méthodes d’alignement sont classées en mise en registre rigide ou non-rigide. Dans le cas de la mise en registre rigide, les données sont généralement acquises à partir d’objets rigides. Le processus de mise en registre peut être accompli en trouvant une seule transformation rigide globale (rotation, translation) pour aligner l’ensemble de données source avec l’ensemble de données cible. Toutefois, dans le cas non-rigide, où les données sont acquises à partir d’objets déformables, le processus de mise en registre est plus difficile parce qu’il est important de trouver à la fois une transformation globale et des déformations locales. Dans cette thèse, trois méthodes sont proposées pour résoudre le problème de mise en registre non-rigide entre deux ensembles de données (représentées par des maillages triangulaires) acquises à partir d’objets déformables. La première méthode permet de mettre en registre deux surfaces se chevauchant partiellement. La méthode surmonte les limitations des méthodes antérieures pour trouver une grande déformation globale entre deux surfaces. Cependant, cette méthode est limitée aux petites déformations locales sur la surface afin de valider le descripteur utilisé. La seconde méthode est s’appuie sur le cadre de la première et est appliquée à des données pour lesquelles la déformation entre les deux surfaces est composée à la fois d’une grande déformation globale et de petites déformations locales. La troisième méthode, qui se base sur les deux autres méthodes, est proposée pour la mise en registre d’ensembles de données qui sont plus complexes. Bien que la qualité que elle fournit n’est pas aussi bonne que la seconde méthode, son temps de calcul est accéléré d’environ quatre fois parce que le nombre de paramètres optimisés est réduit de moitié. L’efficacité des trois méthodes repose sur des stratégies via lesquelles les correspondances sont déterminées correctement et le modèle de déformation est exploité judicieusement. Ces méthodes sont mises en oeuvre et comparées avec d’autres méthodes sur diverses données afin d’évaluer leur robustesse pour résoudre le problème de mise en registre non-rigide. Les méthodes proposées sont des solutions prometteuses qui peuvent être appliquées dans des applications telles que la mise en registre non-rigide de vues multiples, la reconstruction 3D dynamique, l’animation 3D ou la recherche de modèles 3D dans des banques de données. / Three-dimensional registration (sometimes referred to as alignment or matching) is the process of transforming many 3D data sets into the same coordinate system so as to align overlapping components of these data sets. Two data sets aligned together can be two partial scans from two different views of the same object. They can also be two complete models of an object generated at different times or even from two distinct objects. Depending on the generated data sets, the registration methods are classified into rigid registration or non-rigid registration. In the case of rigid registration, the data is usually acquired from rigid objects. The registration process can be accomplished by finding a single global rigid transformation (rotation, translation) to align the source data set with the target data set. However, in the non-rigid case, in which data is acquired from deformable objects, the registration process is more challenging since it is important to solve for both the global transformation and local deformations. In this thesis, three methods are proposed to solve the non-rigid registration problem between two data sets (presented in triangle meshes) acquired from deformable objects. The first method registers two partially overlapping surfaces. This method overcomes some limitations of previous methods to solve large global deformations between two surfaces. However, the method is restricted to small local deformations on the surface in order to validate the descriptor used. The second method is developed from the framework of the first method and is applied to data for which the deformation between the two surfaces consists of both large global deformation and small local deformations. The third method, which exploits both the first and second method, is proposed to solve more challenging data sets. Although the quality of alignment that is achieved is not as good as the second method, its computation time is accelerated approximately four times since the number of optimized parameters is reduced by half. The efficiency of the three methods is the result of the strategies in which correspondences are correctly determined and the deformation model is adequately exploited. These proposed methods are implemented and compared with other methods on various types of data to evaluate their robustness in handling the non-rigid registration problem. The proposed methods are also promising solutions that can be applied in applications such as non-rigid registration of multiple views, 3D dynamic reconstruction, 3D animation or 3D model retrieval.
|
Page generated in 0.1514 seconds