• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 55
  • 33
  • 6
  • Tagged with
  • 100
  • 100
  • 65
  • 60
  • 25
  • 22
  • 22
  • 22
  • 21
  • 21
  • 19
  • 19
  • 18
  • 17
  • 17
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Recommandation de paramètres de soudures basées sur l'apprentissage automatique dans un contexte d'industrie 4.0

Picherit, Tom 09 November 2023 (has links)
Titre de l'écran-titre (visionné le 1er novembre 2023) / Les performances du procédé de soudage à l'arc sous gaz métallique dépendent de nombreux paramètres et choisir les bons peut être complexe, même pour un expert. Généralement un ensemble de paramètres valide se trouve par essais et erreurs. Cette méthode nécessite donc beaucoup de temps et de matériel. Nous proposons ici d'utiliser des techniques d'apprentissage supervisé, pour aider les experts dans leur prise de décision. C'est dans cet objectif que nous avons d'abord créé un jeu de données à partir d'un historique de fiches de procédures de soudure numérisées. Ensuite, nous proposons un système de recommandation en deux parties. La première étape est dédiée à l'identification, par classification, du nombre de passes de soudure. La seconde indique les sept valeurs de paramètres restantes pour chaque passe : couche, ampérage, tension, vitesse de fil, fréquence, coupure et vitesse de soudage. Le système de recommandation est capable de fournir de bons résultats pour tous les différents paramètres mentionnés ci-dessus, même si les données sont bruitées en raison de la nature heuristique du processus des experts. Parmi les 11 algorithmes testés pour chaque partie, le meilleur modèle de classification est CatBoost avec 81,94% en score F1 pondéré. Les meilleurs modèles de régression sont, quant à eux, Extra Trees ou un algorithme de boosting, avec un pourcentage d'erreur absolu moyen dans les normes attendues. Ce système de recommandation est donc, pour les experts soudeurs, un outil de soutien leur permettant de gagner du temps et des ressources lors de l'étape de recherche des paramètres. Nous nous sommes appuyés sur différentes études, à la fois pour mettre en forme ce système de recommandation, mais aussi pour en analyser les limites. Premièrement, nous exposons les résultats obtenus sur la recommandation du nombre de passes en considérant ce sous-problème comme un problème de régression. Deuxièmement, en considérant des sous-ensembles de données, la conclusion suivante s'impose : regrouper les soudures par nombre total de passes ou par type de joint, ne permet pas de développer un système plus performant. En effet, le débalancement des observations, pour chaque passe, limite la phase d'apprentissage de nos modèles sur celles les plus élevées. De même, l'augmentation de la taille du jeu de données ne garantit pas l'amélioration des prédictions du nombre de passes. Cependant, elle suggère des perspectives intéressantes pour l'ampérage, le voltage, la vitesse de fil, la fréquence, la coupure et la vitesse de soudure. Troisièmement, notre modèle est comparé avec deux autres solutions de recommandations alternatives et nous introduisons la notion de chaleur transmise. Nous montrons qu'une suite de régressions en chaîne et que le calcul de la vitesse de soudure, à partir de la prédiction de la chaleur transmise, ne permet pas d'augmenter les performances du système. Pour terminer, une méthodologie est mise au point, afin de tester en contexte industriel notre système de recommandation. Nous échangeons des éléments à prendre en compte pour insérer cette expérience dans l'entreprise, sans entraver le travail des experts, et en récoltant des informations précises pour faire avancer la recherche. Dans ce but et pour compléter, nous proposons un prototype d'interface graphique qui intègre notre système de recommandations. / In gas metal arc welding, a weld quality and performance depends on many parameters. Selecting the right ones can be complex, even for an expert. One generally proceeds through trial and error to find a good set of parameters. Therefore, the current experts' method is not optimized and can require a lot of time and materials. We propose using supervised learning techniques to help experts in their decision-making. To that extent, we first created a dataset from a history of digitized welding procedure sheets. Then, a two-part recommendation system is proposed. The first step is dedicated to identify, through classification, the number of weld passes. The second one suggests the seven remaining parameter values for each pass: layer, amperage, voltage, wire feed rate, frequency offset, trimming and welding speed. After extracting data from historical Welding Procedure Specification forms, we tested 11 different supervised learning algorithms. The recommendation system is able to provide good results for all the different settings mentioned above even if the data is noisy due to the heuristic nature of the experts' process. The best classification model is CatBoost with an 81.94% F1-Weighted-Score and the best regression models are Extra Trees or a boosting algorithm with a reduced mean absolute percentage error compared to our baseline. This recommendation system is therefore, for expert welders, a support tool allowing them to save time and resources during the parameter research stage. We relied on various studies, both to shape this recommendation system, but also to analyze its limits. Firstly, we expose results obtained for the number of passes' recommendation considering this step as a regression problem. Secondly, by working on subsets of data, the following conclusion is obvious: grouping the welds by total number of passes or by type of joint does not make it possible to develop a more efficient system. Indeed, the imbalance of the observations of passes per weld limits the learning phase of our models on the highest ones. Similarly, increasing the dataset size does not guarantee improved pass count predictions but does suggest interesting insights for amperage, voltage, wire speed, frequency, trimming and welding speed. Thirdly, our model is compared with two other alternative solutions and we introduce the notion of heat input. We show that a series of chained regressors and the calculation of the welding speed, from the prediction of the heat input, does not make it possible to increase the performance of the system. Finally, a methodology is developed in order to test our recommendation system in an industrial context. We detail the aspects to be considered to insert this experience into the company without hindering the work of the experts while collecting precise information for further work. For this purpose, we also propose a graphical interface prototype that integrates the recommendation system.
22

Minimisation de fonctions de perte calibrée pour la classification des images / Minimization of calibrated loss functions for image classification

Bel Haj Ali, Wafa 11 October 2013 (has links)
La classification des images est aujourd'hui un défi d'une grande ampleur puisque ça concerne d’un côté les millions voir des milliards d'images qui se trouvent partout sur le web et d’autre part des images pour des applications temps réel critiques. Cette classification fait appel en général à des méthodes d'apprentissage et à des classifieurs qui doivent répondre à la fois à la précision ainsi qu'à la rapidité. Ces problèmes d'apprentissage touchent aujourd'hui un grand nombre de domaines d'applications: à savoir, le web (profiling, ciblage, réseaux sociaux, moteurs de recherche), les "Big Data" et bien évidemment la vision par ordinateur tel que la reconnaissance d'objets et la classification des images. La présente thèse se situe dans cette dernière catégorie et présente des algorithmes d'apprentissage supervisé basés sur la minimisation de fonctions de perte (erreur) dites "calibrées" pour deux types de classifieurs: k-Plus Proches voisins (kNN) et classifieurs linéaires. Ces méthodes d'apprentissage ont été testées sur de grandes bases d'images et appliquées par la suite à des images biomédicales. Ainsi, cette thèse reformule dans une première étape un algorithme de Boosting des kNN et présente ensuite une deuxième méthode d'apprentissage de ces classifieurs NN mais avec une approche de descente de Newton pour une convergence plus rapide. Dans une seconde partie, cette thèse introduit un nouvel algorithme d'apprentissage par descente stochastique de Newton pour les classifieurs linéaires connus pour leur simplicité et leur rapidité de calcul. Enfin, ces trois méthodes ont été utilisées dans une application médicale qui concerne la classification de cellules en biologie et en pathologie. / Image classification becomes a big challenge since it concerns on the one hand millions or billions of images that are available on the web and on the other hand images used for critical real-time applications. This classification involves in general learning methods and classifiers that must require both precision as well as speed performance. These learning problems concern a large number of application areas: namely, web applications (profiling, targeting, social networks, search engines), "Big Data" and of course computer vision such as the object recognition and image classification. This thesis concerns the last category of applications and is about supervised learning algorithms based on the minimization of loss functions (error) called "calibrated" for two kinds of classifiers: k-Nearest Neighbours (kNN) and linear classifiers. Those learning methods have been tested on large databases of images and then applied to biomedical images. In a first step, this thesis revisited a Boosting kNN algorithm for large scale classification. Then, we introduced a new method of learning these NN classifiers using a Newton descent approach for a faster convergence. In a second part, this thesis introduces a new learning algorithm based on stochastic Newton descent for linear classifiers known for their simplicity and their speed of convergence. Finally, these three methods have been used in a medical application regarding the classification of cells in biology and pathology.
23

Ensemble multi-label learning in supervised and semi-supervised settings / Apprentissage multi-label ensembliste dans le context supervisé et semi-supervisé

Gharroudi, Ouadie 21 December 2017 (has links)
L'apprentissage multi-label est un problème d'apprentissage supervisé où chaque instance peut être associée à plusieurs labels cibles simultanément. Il est omniprésent dans l'apprentissage automatique et apparaît naturellement dans de nombreuses applications du monde réel telles que la classification de documents, l'étiquetage automatique de musique et l'annotation d'images. Nous discutons d'abord pourquoi les algorithmes multi-label de l'etat-de-l'art utilisant un comité de modèle souffrent de certains inconvénients pratiques. Nous proposons ensuite une nouvelle stratégie pour construire et agréger les modèles ensemblistes multi-label basés sur k-labels. Nous analysons ensuite en profondeur l'effet de l'étape d'agrégation au sein des approches ensemblistes multi-label et étudions comment cette agrégation influece les performances de prédictive du modèle enfocntion de la nature de fonction cout à optimiser. Nous abordons ensuite le problème spécifique de la selection de variables dans le contexte multi-label en se basant sur le paradigme ensembliste. Trois méthodes de sélection de caractéristiques multi-label basées sur le paradigme des forêts aléatoires sont proposées. Ces méthodes diffèrent dans la façon dont elles considèrent la dépendance entre les labels dans le processus de sélection des varibales. Enfin, nous étendons les problèmes de classification et de sélection de variables au cadre d'apprentissage semi-supervisé. Nous proposons une nouvelle approche de sélection de variables multi-label semi-supervisée basée sur le paradigme de l'ensemble. Le modèle proposé associe des principes issues de la co-training en conjonction avec une métrique interne d'évaluation d'importnance des varaibles basée sur les out-of-bag. Testés de manière satisfaisante sur plusieurs données de référence, les approches développées dans cette thèse sont prometteuses pour une variété d'ap-plications dans l'apprentissage multi-label supervisé et semi-supervisé. Testés de manière satisfaisante sur plusieurs jeux de données de référence, les approches développées dans cette thèse affichent des résultats prometteurs pour une variété domaine d'applications de l'apprentissage multi-label supervisé et semi-supervisé / Multi-label learning is a specific supervised learning problem where each instance can be associated with multiple target labels simultaneously. Multi-label learning is ubiquitous in machine learning and arises naturally in many real-world applications such as document classification, automatic music tagging and image annotation. In this thesis, we formulate the multi-label learning as an ensemble learning problem in order to provide satisfactory solutions for both the multi-label classification and the feature selection tasks, while being consistent with respect to any type of objective loss function. We first discuss why the state-of-the art single multi-label algorithms using an effective committee of multi-label models suffer from certain practical drawbacks. We then propose a novel strategy to build and aggregate k-labelsets based committee in the context of ensemble multi-label classification. We then analyze the effect of the aggregation step within ensemble multi-label approaches in depth and investigate how this aggregation impacts the prediction performances with respect to the objective multi-label loss metric. We then address the specific problem of identifying relevant subsets of features - among potentially irrelevant and redundant features - in the multi-label context based on the ensemble paradigm. Three wrapper multi-label feature selection methods based on the Random Forest paradigm are proposed. These methods differ in the way they consider label dependence within the feature selection process. Finally, we extend the multi-label classification and feature selection problems to the semi-supervised setting and consider the situation where only few labelled instances are available. We propose a new semi-supervised multi-label feature selection approach based on the ensemble paradigm. The proposed model combines ideas from co-training and multi-label k-labelsets committee construction in tandem with an inner out-of-bag label feature importance evaluation. Satisfactorily tested on several benchmark data, the approaches developed in this thesis show promise for a variety of applications in supervised and semi-supervised multi-label learning
24

Exctraction de chroniques discriminantes / Discriminant chronicle mining

Dauxais, Yann 13 April 2018 (has links)
De nombreuses données sont enregistrées dans le cadre d'applications variées et leur analyse est un challenge abordé par de nombreuses études. Parmi ces différentes applications, cette thèse est motivée par l'analyse de parcours patients pour mener des études de pharmaco-épidémiologie. La pharmaco-épidémiologie est l'étude des usages et effets de produits de santé au sein de populations définies. Le but est donc d'automatiser ce type d'étude en analysant des données. Parmi les méthodes d'analyses de données, les approches d'extraction de motifs extraient des descriptions de comportements, appelées motifs, caractérisant ces données. L'intérêt principal de telles approches est de donner un aperçu des comportements décrivant les données. Dans cette thèse, nous nous intéressons à l'extraction de motifs temporels discriminants au sein de séquences temporelles, c'est-à-dire une liste d'évènements datés. Les motifs temporels sont des motifs représentant des comportements par leur dimension temporelle. Les motifs discriminants sont des motifs représentant les comportements apparaissant uniquement pour une sous-population bien définie. Alors que les motifs temporels sont essentiels pour décrire des données temporelles et que les motifs discriminants le sont pour décrire des différences de comportement, les motifs temporels discriminants ne sont que peu étudiés. Dans cette thèse, le modèle de chronique discriminante est proposé pour combler le manque d'approches d'extraction de motifs temporels discriminants. Une chronique est un motif temporelle représentable sous forme de graphe dont les nœuds sont des évènements et les arêtes sont des contraintes temporelles numériques. Le modèle de chronique a été choisi pour son expressivité concernant la dimension temporelle. Les chroniques discriminantes sont, de ce fait, les seuls motifs temporels discriminants représentant numériquement l'information temporelle. Les contributions de cette thèse sont : (i) un algorithme d'extraction de chroniques discriminantes (DCM), (ii) l'étude de l'interprétabilité du modèle de chronique au travers de sa généralisation et (iii) l'application de DCM sur des données de pharmaco-épidémiologie. L'algorithme DCM est dédié à l'extraction de chroniques discriminantes et basé sur l'algorithme d'extraction de règles numériques Ripperk . Utiliser Ripperk permet de tirer avantage de son efficacité et de son heuristique incomplète évitant la génération de motifs redondants. La généralisation de cet algorithme permet de remplacer Ripperk par n'importe quel algorithme de machine learning. Les motifs extraits ne sont donc plus forcément des chroniques mais une forme généralisée de celles-ci. Un algorithme de machine learning plus expressif extrait des chroniques généralisées plus expressives mais impacte négativement leur interprétabilité. Le compromis entre ce gain en expressivité, évalué au travers de la précision de classification, et cette perte d'interprétabilité, est comparé pour plusieurs types de chroniques généralisées. L'intérêt des chroniques discriminantes à représenter des comportements et l'efficacité de DCM est validée sur des données réelles et synthétiques dans le contexte de classification à base de motifs. Des chroniques ont finalement été extraites à partir des données de pharmaco-épidémiologie et présentées aux cliniciens. Ces derniers ont validés l'intérêt de celles-ci pour décrire des comportements d'épidémiologie discriminants. / Data are recorded for a wide range of application and their analysis is a great challenge addressed by many studies. Among these applications, this thesis was motivated by analyzing care pathway data to conduct pharmaco-epidemiological studies. Pharmaco-epidemiology is the study of the uses and effects of healthcare products in well defined populations. The goal is then to automate this study by analyzing data. Within the data analysis approaches, pattern mining approaches extract behavior descriptions, called patterns, characterizing the data. Patterns are often easily interpretable and give insights about hidden behaviors described by the data. In this thesis, we are interested in mining discriminant temporal patterns from temporal sequences, i.e. a list of timestamped events. Temporal patterns represent expressively behaviors through their temporal dimension. Discriminant patterns are suitable adapted for representing behaviors occurring specifically in small subsets of a whole population. Surprisingly, if temporal patterns are essential to describe timestamped data and discriminant patterns are crucial to identify alternative behaviors that differ from mainstream, discriminant temporal patterns received little attention up to now. In this thesis, the model of discriminant chronicles is proposed to address the lack of interest in discriminant temporal pattern mining approaches. A chronicle is a temporal pattern representable as a graph whose nodes are events and vertices are numerical temporal constraints. The chronicle model was choosen because of its high expressiveness when dealing with temporal sequences and also by its unique ability to describe numerically the temporal dimension among other discriminant pattern models. The contribution of this thesis, centered on the discriminant chronicle model, is threefold: (i) a discriminant chronicle model mining algorithm (DCM), (ii) the study of the discriminant chronicle model interpretability through its generalization and (iii) the DCM application on a pharmaco-epidemiology case study. The DCM algorithm is an efficient algorithm dedicated to extract discriminant chronicles and based on the Ripperk numerical rule learning algorithm. Using Ripperk allows to take advantage to its efficiency and its incomplete heuristic dedicated to avoid redundant patterns. The DCM generalization allows to swap Ripperk with alternative machine learning algorithms. The extracted patterns are not chronicles but a generalized form of chronicles. More expressive machine learning algorithms extract more expressive generalized chronicles but impact negatively their interpretability. The trade-off between this expressiveness gain, evaluated by classification accuracy, and this interpretability loss, is compared for several types of generalized chronicles. The interest of the discriminant chronicle model and the DCM efficiency is validated on synthetic and real datasets in pattern-based classification context. Finally, chronicles are extracted from a pharmaco-epidemiology dataset and presented to clinicians who validated them to be interesting to describe epidemiological behaviors.
25

Préparation non paramétrique des données pour la fouille de données multi-tables / Non-parametric data preparation for multi-relational data mining

Lahbib, Dhafer 06 December 2012 (has links)
Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Afin de prendre en compte les variables explicatives secondaires (appartenant aux tables secondaires), la plupart des approches existantes opèrent par mise à plat, obtenant ainsi une représentation attribut-valeur classique. Par conséquent, on perd la représentation initiale naturellement compacte mais également on risque d'introduire des biais statistiques. Dans cette thèse, nous nous intéressons à évaluer directement les variables secondaires vis-à-vis de la variable cible, dans un contexte de classification supervisée. Notre méthode consiste à proposer une famille de modèles non paramétriques pour l'estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte les variables secondaires dans un classifieur de type Bayésien Naïf. L'approche repose sur un prétraitement supervisé des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Dans un premier temps, ce prétraitement est effectué de façon univariée, c'est-à-dire, en considérant une seule variable secondaire à la fois. Dans un second temps, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre variables secondaires. Des modèles en grilles de données sont utilisés pour obtenir des critères Bayésiens permettant d'évaluer les prétraitements considérés. Des algorithmes combinatoires sont proposés pour optimiser efficacement ces critères et obtenir les meilleurs modèles.Nous avons évalué notre approche sur des bases de données multi-tables synthétiques et réelles. Les résultats montrent que les critères d'évaluation ainsi que les algorithmes d'optimisation permettent de découvrir des variables secondaires pertinentes. De plus, le classifieur Bayésien Naïf exploitant les prétraitements effectués permet d'obtenir des taux de prédiction importants. / In multi-relational data mining, data are represented in a relational form where the individuals of the target table are potentially related to several records in secondary tables in one-to-many relationship. In order take into account the secondary variables (those belonging to a non target table), most of the existing approaches operate by propositionalization, thereby losing the naturally compact initial representation and eventually introducing statistical bias. In this thesis, our purpose is to assess directly the relevance of secondary variables w.r.t. the target one, in the context of supervised classification.We propose a family of non parametric models to estimate the conditional density of secondary variables. This estimation provides an extension of the Naive Bayes classifier to take into account such variables. The approach relies on a supervised pre-processing of the secondary variables, through discretization in the numerical case and a value grouping in the categorical one. This pre-processing is achieved in two ways. In the first approach, the partitioning is univariate, i.e. by considering a single secondary variable at a time. In a second approach, we propose an itemset based multivariate partitioning of secondary variables in order to take into account any correlations that may occur between these variables. Data grid models are used to define Bayesian criteria, evaluating the considered pre-processing. Combinatorial algorithms are proposed to efficiently optimize these criteria and find good models.We evaluated our approach on synthetic and real world multi-relational databases. Experiments show that the evaluation criteria and the optimization algorithms are able to discover relevant secondary variables. In addition, the Naive Bayesian classifier exploiting the proposed pre-processing achieves significant prediction rates.
26

Managing the empirical hardness of the ontology reasoning using the predictive modelling / Modélisation prédictive et apprentissage automatique pour une meilleure gestion de la complexité empirique du raisonnement autour des ontologies

Alaya Mili, Nourhene 13 October 2016 (has links)
Multiples techniques d'optimisation ont été implémentées afin de surmonter le compromis entre la complexité des algorithmes du raisonnement et l'expressivité du langage de formulation des ontologies. Cependant les compagnes d'évaluation des raisonneurs continuent de confirmer l'aspect imprévisible et aléatoire des performances de ces logiciels à l'égard des ontologies issues du monde réel. Partant de ces observations, l'objectif principal de cette thèse est d'assurer une meilleure compréhension du comportement empirique des raisonneurs en fouillant davantage le contenu des ontologies. Nous avons déployé des techniques d'apprentissage supervisé afin d'anticiper des comportements futurs des raisonneurs. Nos propositions sont établies sous forme d'un système d'assistance aux utilisateurs d'ontologies, appelé "ADSOR". Quatre composantes principales ont été proposées. La première est un profileur d'ontologies. La deuxième est un module d'apprentissage capable d'établir des modèles prédictifs de la robustesse des raisonneurs et de la difficulté empirique des ontologies. La troisième composante est un module d'ordonnancement par apprentissage, pour la sélection du raisonneur le plus robuste étant donnée une ontologie. Nous avons proposé deux approches d'ordonnancement; la première fondée sur la prédiction mono-label et la seconde sur la prédiction multi-label. La dernière composante offre la possibilité d'extraire les parties potentiellement les plus complexes d'une ontologie. L'identification de ces parties est guidée par notre modèle de prédiction du niveau de difficulté d'une ontologie. Chacune de nos approches a été validée grâce à une large palette d'expérimentations. / Highly optimized reasoning algorithms have been developed to allow inference tasks on expressive ontology languages such as OWL (DL). Nevertheless, reasoning remains a challenge in practice. In overall, a reasoner could be optimized for some, but not all ontologies. Given these observations, the main purpose of this thesis is to investigate means to cope with the reasoner performances variability phenomena. We opted for the supervised learning as the kernel theory to guide the design of our solution. Our main claim is that the output quality of a reasoner is closely depending on the quality of the ontology. Accordingly, we first introduced a novel collection of features which characterise the design quality of an OWL ontology. Afterwards, we modelled a generic learning framework to help predicting the overall empirical hardness of an ontology; and to anticipate a reasoner robustness under some online usage constraints. Later on, we discussed the issue of reasoner automatic selection for ontology based applications. We introduced a novel reasoner ranking framework. Correctness and efficiency are our main ranking criteria. We proposed two distinct methods: i) ranking based on single label prediction, and ii) a multi-label ranking method. Finally, we suggested to extract the ontology sub-parts that are the most computationally demanding ones. Our method relies on the atomic decomposition and the locality modules extraction techniques and employs our predictive model of the ontology hardness. Excessive experimentations were carried out to prove the worthiness of our approaches. All of our proposals were gathered in a user assistance system called "ADSOR".
27

Sur quelques problèmes d'apprentissage supervisé et non supervisé

Laloë, Thomas 27 November 2009 (has links) (PDF)
L'objectif de cette Thèse est d'apporter une contribution au problème de l'apprentissage statistique, notamment en développant des méthodes pour prendre en compte des données fonctionnelles. Dans la première partie, nous développons une approche de type plus proches voisins pour la régression fonctionnelle. Dans la deuxième, nous étudions les propriétés de la méthode de quantification dans des espaces de dimension infinie. Nous appliquons ensuite cette méthode pour réaliser une étude comportementale de bancs d'anchois. Enfin, la dernière partie est dédiée au problème de l'estimation des ensembles de niveaux de la fonction de régression dans un cadre multivarié.
28

Architectures de circuits nanoélectroniques neuro-inspirée.

Chabi, Djaafar 09 March 2012 (has links) (PDF)
Les nouvelles techniques de fabrication nanométriques comme l'auto-assemblage ou la nanoimpression permettent de réaliser des matrices régulières (crossbars) atteignant des densités extrêmes (jusqu'à 1012 nanocomposants/cm2) tout en limitant leur coût de fabrication. Cependant, il est attendu que ces technologies s'accompagnent d'une augmentation significative du nombre de défauts et de dispersions de caractéristiques. La capacité à exploiter ces crossbars est alors conditionnée par le développement de nouvelles techniques de calcul capables de les spécialiser et de tolérer une grande densité de défauts. Dans ce contexte, l'approche neuromimétique qui permet tout à la fois de configurer les nanodispositifs et de tolérer leurs défauts et dispersions de caractéristiques apparaît spécialement pertinente. L'objectif de cette thèse est de démontrer l'efficacité d'une telle approche et de quantifier la fiabilité obtenue avec une architecture neuromimétique à base de crossbar de memristors, ou neurocrossbar (NC). Tout d'abord la thèse introduit des algorithmes permettant l'apprentissage de fonctions logiques sur un NC. Par la suite, la thèse caractérise la tolérance du modèle NC aux défauts et aux variations de caractéristiques des memristors. Des modèles analytiques probabilistes de prédiction de la convergence de NC ont été proposés et confrontés à des simulations Monte-Carlo. Ils prennent en compte l'impact de chaque type de défaut et de dispersion. Grâce à ces modèles analytiques il devient possible d'extrapoler cette étude à des circuits NC de très grande taille. Finalement, l'efficacité des méthodes proposées est expérimentalement démontrée à travers l'apprentissage de fonctions logiques par un NC composé de transistors à nanotube de carbone à commande optique (OG-CNTFET).
29

Vision cognitive : apprentissage supervisé pour la segmentation d'images et de videos

Martin, Vincent 19 December 2007 (has links) (PDF)
Dans cette thèse, nous abordons le problème de la segmentation d'image dans le cadre de la vision cognitive. Plus précisément, nous étudions deux problèmes majeurs dans les systèmes de vision : la sélection d'un algorithme de segmentation et le réglage de ses paramètres selon le contenu de l'image et les besoins de l'application. Nous proposons une méthodologie reposant sur des techniques d'apprentissage pour faciliter la configuration des algorithmes et adapter en continu la tâche de segmentation. Notre première contribution est une procédure d'optimisation générique pour l'extraction automatiquement des paramètres optimaux des algorithmes. L'évaluation de la qualité de la segmentation est faite suivant une segmentation de référence. De cette manière, la tâche de l'utilisateur est réduite à fournir des données de référence pour des images d'apprentissage, comme des segmentations manuelles. Une seconde contribution est une stratégie pour le problème de sélection d'algorithme. Cette stratégie repose sur un jeu d'images d'apprentissage représentatif du problème. La première partie utilise le résultat de l'étape d'optimisation pour classer les algorithmes selon leurs valeurs de performance pour chaque image. La seconde partie consiste à identifier différentes situations à partir du jeu d'images d'apprentissage (modélisation du contexte) et à associer un algorithme paramétré avec chaque situation identifiée. Une troisième contribution est une approche sémantique pour la segmentation d'image. Dans cette approche, nous combinons le résultat des segmentations optimisées avec un processus d'étiquetage des régions. Les labels des régions sont donnés par des classificateurs de régions eux-mêmes entrainés à partir d'exemples annotés par l'utilisateur. Une quatrième contribution est l'implémentation de l'approche et le développement d'un outil graphique dédié à l'extraction, l'apprentissage, et l'utilisation de la connaissance pour la segmentation (modélisation et apprentissage du contexte pour la sélection dynamique d'algorithme de segmentation, optimisation automatique des paramètres, annotations des régions et apprentissage des classifieurs). Nous avons testé notre approche sur deux applications réelles : une application biologique (comptage d'insectes sur des feuilles de rosier) et une application de vidéo surveillance. Pour la première application, la segmentation des insectes obtenue par notre approche est de meilleure qualité qu'une segmentation non-adaptative et permet donc au système de vision de compter les insectes avec une meilleure précision. Pour l'application de vidéo surveillance, la principale contribution de l'approche proposée se situe au niveau de la modélisation du contexte, permettant d'adapter le choix d'un modèle de fond suivant les caractéristiques spatio-temporelles de l'image. Notre approche permet ainsi aux applications de vidéo surveillance d'élargir leur champ d'application aux environnements fortement variables comme les très longues séquences (plusieurs heures) en extérieur. Afin de montrer le potentiel et les limites de notre approche, nous présentons les résultats, une évaluation quantitative et une comparaison avec des segmentations non-adaptative.
30

Outil d'aide au diagnostic du cancer à partir d'extraction d'informations issues de bases de données et d'analyses par biopuces

Hedjazi, Lyamine 08 December 2011 (has links) (PDF)
Le cancer est l'une des causes les plus fréquentes de décès dans le monde. Actuellement, le cancer du sein est le plus répandu dans les cancers féminins. Malgré les avancées significatives faites ces dernières décennies en vue d'améliorer la gestion du cancer, des outils plus précis sont toujours nécessaires pour aider les oncologues à choisir le traitement nécessaire à des fins de guérison ou de prévention de récidive tout en réduisant les effets néfastes des ces traitements ainsi que leurs coûts élevés. Ce travail porte sur l'utilisation de techniques d'apprentissage automatique pour développer de tels outils de gestion du cancer du sein. Les facteurs cliniques, tels que l'âge du patient et les variables histo-pathologiques, constituent encore la base quotidienne de prise de décision pour la gestion du cancer du sein. Cependant, avec l'émergence de la technologie à haut débit, le profil d'expression génique suscite un intérêt croissant pour construire des outils plus précis de prédiction du cancer du sein. Néanmoins, plusieurs challenges doivent être relevés pour le développement de tels outils, principalement: (1) la dimensionnalité des données issues de la technologie des puces, (2) le faible rapport signal sur bruit dans la mesure de biopuces, (3) l'incertitude d'appartenance des patients aux différents groupes du cancer, et (4) l'hétérogénéité des données présentes habituellement dans les bases de données cliniques. Dans ce travail, nous proposons quelques approches pour surmonter de manière appropriée de tels challenges. Une première approche aborde le problème de haute dimensionnalité des données en utilisant les capacités d'apprentissage dit normé ℓ1 pour la conception d'un algorithme de sélection de variables intégré à la méthode SVM (machines à vecteurs supports), algorithme basé sur une technique de gradient. Une deuxième approche permet de gérer simultanément tous les problèmes, en particulier l'intégration de plusieurs sources de données (cliniques, pu ces à ADN, ...) pour construire des outils prédictifs plus précis. Pour cela, un principe unifié est proposé pour surmonter le problème de l'hétérogénéité des données. Pour tenir compte de l'incertitude d'appartenance et augmenter l'interprétabilité du modèle, ce principe est proposé dans le cadre de la logique floue. Par ailleurs, afin d'atténuer le problème du bruit de niveau élevé, une approche symbolique est proposée suggérant l'utilisation de la représentation par intervalle pour modéliser les mesures bruitées. Nous avons conçu en particulier, basée sur ce principe, une approche floue supervisée de pondération de variables. Le processus de pondération repose essentiellement sur la définition d'une marge d'appartenance pour chaque échantillon. Il optimise une fonction objective basée sur la marge d'appartenance afin d'éviter la recherche combinatoire. Une extension de cette approche au cas non supervisé est effectuée pour développer un algorithme de regroupement automatique basé sur la pondération des règles floues. L'efficacité de toutes les approches a été évaluée par des études expérimentales extensives, et comparée avec des méthodes bien connues de l'état de l'art. Enfin, un dernier travail est consacré à des applications des approches proposées dans le domaine du cancer du sein. En particulier, des modèles prédictifs et pronostiques ont été extraits à partir des données de puces à ADN et/ou des données cliniques, et leurs performances comparées avec celles d'approches génétiques et cliniques existantes.

Page generated in 0.4837 seconds