• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 17
  • 13
  • 2
  • Tagged with
  • 33
  • 33
  • 12
  • 11
  • 10
  • 10
  • 10
  • 8
  • 8
  • 7
  • 7
  • 6
  • 6
  • 6
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Reconstruction spatio-temporelle de la ville de Reims à partir de documents anciens / Spatio-temporal reconstruction of the city of Reims relying on old documents

Younes, Lara 04 December 2014 (has links)
Ces travaux de thèse constituent la première étape d'une réflexion sur la conception d'un système participatif visant la reconstruction et la visualisation de l'espace urbain de la ville de Reims au cours du temps. Dans ces travaux, nous abordons les problèmes de reconnaissance, de reconstruction et géoréférencement spatio-temporel. Ce projet s'appuie sur l'exploitation des sources historiques iconographiques et contextuelles hétérogènes et éparses, dont une collection de cartes postales anciennes et le cadastre actuel géoréférencé.Dans l'objectif d'un travail participatif, il s'avère nécessaire de procurer une aide efficace à l'utilisateur lorsqu'il apporte de nouvelles connaissances dans le système. Une solution robuste doit être apportée en raison de multiples évolutions ou déformations du modèle urbain à travers le temps. Nous avons développé une solution répondant à ce besoin. Elle s'appuie sur des briques de traitement complémentaires, en interaction avec l'utilisateur et s'insère naturellement dans une approche incrémentale de reconstruction. Nous proposons une solution permettant d'extraire, de reconstruire en 3D et de visualiser des bâtiments multi-façades présents dans les cartes postales sans disposer des dimensions réelles des bâtiments. La construction du modèle repose sur l'identification de façades 2D. Elle est obtenue au travers de l'analyse du contenu de l'image. Cette phase d'identification permet de procéder à la reconstruction de modèles 3D, d'extraire des textures 2D associées à ces modèles ainsi que d'enrichir dynamiquement notre système. Les caractéristiques retrouvées dans les images infèrent une estimation sur leur datation, et l'alignement des modèles reconstruits avec le cadastre sur le géoréférencement des bâtiments. Le système ainsi construit constitue une amorce pour la conception d'un système d'information géographique participatif 3D+T permettant aux citoyens de Reims de s'approprier l'histoire de leur ville. / This thesis is the first step toward the design of a Volunteered system for the reconstruction and visualization of urban space in the city of Reims through time. In this work, we address the problems of spatio-temporal recognition, reconstruction and georeferencing. This project relies on the use of heterogeneous and sparse iconographic and contextual historical data, particularly a collection of old postcards and the current cadastral map.With the aim of a Volunteered work, it is necessary to provide useful help to the user when bringing new knowledge into the system. A robust solution is required due to multiple changes of the urban model through time. We have developed a solution to meet those needs. This process fits in an incremental approach of reconstruction and will be completed by a user. We propose to extract, reconstruct and visualize 3D multi-façade buildings from old postcards with no knowledge on their real dimensions. The construction of the models is based on 2D façades identification. It can be obtained through image analysis. This identification allows the reconstruction of 3D models, the extraction of their associated 2D façades textures and the enhancement of the system. The features found in the images infer an estimate of their dating, and the alignment of the models with the cadastral map allows there georeferencing. The system thus constructed is a primer for the design of a Volunteered 3D+T GIS for Reims citizens to capture the history of their city.
12

Représentations d'images basées sur un principe de voisins partagés pour la classification fine / Spatially consistent nearest neighbor representations for fine-grained classification

Leveau, Valentin 09 November 2016 (has links)
Dans cette thèse, nous nous sommes intéressés au problème de la classification à « grain fin » qui est une tâche de classification particulière où les classes peuvent être visuellement distinguables seulement à partir de détails subtils et où le contexte agit souvent comme une source de bruit. Ce travail est principalement motivé par le besoin de concevoir des représentations d'images plus « fines » pour adresser de telles tâches de classification qui nécessitent un encodage d’informations discriminantes très fines et localisées. L'originalité principale de notre approche est d’intégrer dans une représentation globale de haute dimension une mesure de consistance géométrique locale entre l’image à représenter et les images d’une base de référence (que nous considérons comme un vocabulaire visuel possiblement constitué d’un grand nombre d’images). Ceci nous permet d’encoder dans une représentation vectorielle des motifs très localisés et géométriquement consistant avec l’image (contrairement aux méthodes de codage traditionnelles comme les Bag-of-Visual-Word, les vecteurs de Fisher ou les vecteurs VLAD). Plus en détails : Nous proposons dans un premier temps une approche de classification d'instances d'entités visuelles basée sur un classificateur par plus proches voisins qui agrège les similarités entre l'image requête et celles de la base d'apprentissage. Les similarités sont calculées avec prise en compte de la consistance géométrique locale entre les descripteurs locaux de la requête et ceux des images de la base d'apprentissage. Cette base pouvant être constituée de nombreux descripteurs locaux, nous proposons de passer notre méthode à l’échelle en utilisant des méthodes de recherche approximatives de plus proches voisins. Par la suite, nous avons mis au point un nouveau noyau de similarité entre des images basé sur les descripteurs locaux qu'elles partagent dans une base de référence. Nous avons nommé ce noyau Shared Nearest Neighbors Kernel (SNN Kernel), qui peut être utilisé comme n'importe quel autre noyau dans les machines à noyau. Nous avons dérivé, à partir de ce dernier, une représentation explicite globale des images à décrire. Cette représentation encode la similarité de l'image considérée avec les différentes régions visuelles des images de la base correspondant au vocabulaire visuel. Nous avons également rendu possible l'intégration de l'information de consistance géométrique dans nos représentations à l'aide de l'algorithme RANSAC amélioré que nous avons proposé dans notre contribution précédente. La classification des images se fait ensuite par un modèle linéaire appris sur ces représentations. Finalement, nous proposons, comme troisième contribution, une stratégie permettant de considérablement réduire, jusqu'à deux ordres de grandeur, la dimension de la représentation d'image sur-complète précédemment présentée tout en conservant une performance de classification compétitive aux méthodes de l’état de l’art. Nous avons validé nos approches en conduisant une série d’expérimentations sur plusieurs tâches de classification impliquant des objets rigides comme FlickrsLogos32 ou Vehicles29, mais aussi sur des tâches impliquant des concepts visuels plus finement discriminables comme la base FGVC-Aircrafts, Oxford-Flower102 ou CUB-Birds200. Nous avons aussi démontré des résultats significatifs sur des tâches de classification audio à grain fin comme la tâche d'identification d'espèce d'oiseau de LifeCLEF2015 en proposant une extension temporelle de notre représentation d'image. Finalement, nous avons montré que notre technique de réduction de dimension permet d’obtenir un vocabulaire visuel très interprétable composé des régions d'image les plus représentatives pour les concepts visuels représentés dans la base d’apprentissage. / This thesis focuses on the issue of fine-grained classification which is a particular classification task where classes may be visually distinguishable only from subtle localized details and where background often acts as a source of noise. This work is mainly motivated by the need to devise finer image representations to address such fine-grained classification tasks by encoding enough localized discriminant information such as spatial arrangement of local features.To this aim, the main research line we investigate in this work relies on spatially localized similarities between images computed thanks to efficient approximate nearest neighbor search techniques and localized parametric geometry. The main originality of our approach is to embed such spatially consistent localized similarities into a high-dimensional global image representation that preserves the spatial arrangement of the fine-grained visual patterns (contrary to traditional encoding methods such as BoW, Fisher or VLAD Vectors). In a nutshell, this is done by considering all raw patches of the training set as a large visual vocabulary and by explicitly encoding their similarity to the query image. In more details:The first contribution proposed in this work is a classification scheme based on a spatially consistent k-nn classifier that relies on pooling similarity scores between local features of the query and those of the similar retrieved images in the vocabulary set. As this set can be composed of a lot of local descriptors, we propose to scale up our approach by using approximate k-nearest neighbors search methods. Then, the main contribution of this work is a new aggregation-based explicit embedding derived from a newly introduced match kernel based on shared nearest neighbors of localized feature vectors combined with local geometric constraints. The originality of this new similarity-based representation space is that it directly integrates spatially localized geometric information in the aggregation process.Finally, as a third contribution, we proposed a strategy to drastically reduce, by up to two orders of magnitude, the high-dimensionality of the previously introduced over-complete image representation while still providing competitive image classification performance.We validated our approaches by conducting a series of experiments on several classification tasks involving rigid objects such as FlickrsLogos32 or Vehicles29 but also on tasks involving finer visual knowledge such as FGVC-Aircrafts, Oxford-Flower102 or CUB-Birds200. We also demonstrated significant results on fine-grained audio classification tasks such as the LifeCLEF 2015 bird species identification challenge by proposing a temporal extension of our image representation. Finally, we notably showed that our dimensionality reduction technique used on top of our representation resulted in highly interpretable visual vocabulary composed of the most representative image regions for different visual concepts of the training base.
13

Oculométrie Numérique Economique : modèle d'apparence et apprentissage par variétés / Eye Tracking system : appearance based model and manifold learning

Liang, Ke 13 May 2015 (has links)
L'oculométrie est un ensemble de techniques dédié à enregistrer et analyser les mouvements oculaires. Dans cette thèse, je présente l'étude, la conception et la mise en œuvre d'un système oculométrique numérique, non-intrusif permettant d'analyser les mouvements oculaires en temps réel avec une webcam à distance et sans lumière infra-rouge. Dans le cadre de la réalisation, le système oculométrique proposé se compose de quatre modules: l'extraction des caractéristiques, la détection et le suivi des yeux, l'analyse de la variété des mouvements des yeux à partir des images et l'estimation du regard par l'apprentissage. Nos contributions reposent sur le développement des méthodes autour de ces quatre modules: la première réalise une méthode hybride pour détecter et suivre les yeux en temps réel à partir des techniques du filtre particulaire, du modèle à formes actives et des cartes des yeux (EyeMap); la seconde réalise l'extraction des caractéristiques à partir de l'image des yeux en utilisant les techniques des motifs binaires locaux; la troisième méthode classifie les mouvements oculaires selon la variété générée par le Laplacian Eigenmaps et forme un ensemble de données d'apprentissage; enfin, la quatrième méthode calcul la position du regard à partir de cet ensemble d'apprentissage. Nous proposons également deux méthodes d'estimation:une méthode de la régression par le processus gaussien et un apprentissage semi-supervisé et une méthode de la catégorisation par la classification spectrale (spectral clustering). Il en résulte un système complet, générique et économique pour les applications diverses dans le domaine de l'oculométrie. / Gaze tracker offers a powerful tool for diverse study fields, in particular eye movement analysis. In this thesis, we present a new appearance-based real-time gaze tracking system with only a remote webcam and without infra-red illumination. Our proposed gaze tracking model has four components: eye localization, eye feature extraction, eye manifold learning and gaze estimation. Our research focuses on the development of methods on each component of the system. Firstly, we propose a hybrid method to localize in real time the eye region in the frames captured by the webcam. The eye can be detected by Active Shape Model and EyeMap in the first frame where eye occurs. Then the eye can be tracked through a stochastic method, particle filter. Secondly, we employ the Center-Symmetric Local Binary Patterns for the detected eye region, which has been divided into blocs, in order to get the eye features. Thirdly, we introduce manifold learning technique, such as Laplacian Eigen-maps, to learn different eye movements by a set of eye images collected. This unsupervised learning helps to construct an automatic and correct calibration phase. In the end, as for the gaze estimation, we propose two models: a semi-supervised Gaussian Process Regression prediction model to estimate the coordinates of eye direction; and a prediction model by spectral clustering to classify different eye movements. Our system with 5-points calibration can not only reduce the run-time cost, but also estimate the gaze accurately. Our experimental results show that our gaze tracking model has less constraints from the hardware settings and it can be applied efficiently in different real-time applications.
14

Segmentation et classification des signaux non-stationnaires : application au traitement des sons cardiaque et à l'aide au diagnostic / Segmentation and classification of non-stationary signals : Application on heart sounds analysis and auto-diagnosis domain

Moukadem, Ali 16 December 2011 (has links)
Cette thèse dans le domaine du traitement des signaux non-stationnaires, appliqué aux bruits du cœur mesurés avec un stéthoscope numérique, vise à concevoir un outil automatisé et « intelligent », permettant aux médecins de disposer d’une source d’information supplémentaire à celle du stéthoscope traditionnel. Une première étape dans l’analyse des signaux du cœur, consiste à localiser le premier et le deuxième son cardiaque (S1 et S2) afin de le segmenter en quatre parties : S1, systole, S2 et diastole. Plusieurs méthodes de localisation des sons cardiaques existent déjà dans la littérature. Une étude comparative entre les méthodes les plus pertinentes est réalisée et deux nouvelles méthodes basées sur la transformation temps-fréquence de Stockwell sont proposées. La première méthode, nommée SRBF, utilise des descripteurs issus du domaine temps-fréquence comme vecteur d’entré au réseau de neurones RBF qui génère l’enveloppe d’amplitude du signal cardiaque, la deuxième méthode, nommée SSE, calcule l’énergie de Shannon du spectre local obtenu par la transformée en S. Ensuite, une phase de détection des extrémités (onset, ending) est nécessaire. Une méthode d’extraction des signaux S1 et S2, basée sur la transformée en S optimisée, est discutée et comparée avec les différentes approches qui existent dans la littérature. Concernant la classification des signaux cardiaques, les méthodes décrites dans la littérature pour classifier S1 et S2, se basent sur des critères temporels (durée de systole et diastole) qui ne seront plus valables dans plusieurs cas pathologiques comme par exemple la tachycardie sévère. Un nouveau descripteur issu du domaine temps-fréquence est évalué et validé pour discriminer S1 de S2. Ensuite, une nouvelle méthode de génération des attributs, basée sur la décomposition modale empirique (EMD) est proposée.Des descripteurs non-linéaires sont également testés, dans le but de classifier des sons cardiaques normaux et sons pathologiques en présence des souffles systoliques. Des outils de traitement et de reconnaissance des signaux non-stationnaires basés sur des caractéristiques morphologique, temps-fréquences et non linéaire du signal, ont été explorés au cours de ce projet de thèse afin de proposer un module d’aide au diagnostic, qui ne nécessite pas d’information à priori sur le sujet traité, robuste vis à vis du bruit et applicable dans des conditions cliniques. / This thesis in the field of biomedical signal processing, applied to the heart sounds, aims to develop an automated and intelligent module, allowing medical doctors to have an additional source of information than the traditional stethoscope. A first step in the analysis of heart sounds is the segmentation process. The heart sounds segmentation process segments the PCG (PhonoCardioGram) signal into four parts: S1 (first heart sound), systole, S2 (second heart sound) and diastole. It can be considered one of the most important phases in the auto-analysis of PCG signals. The proposed segmentation module in this thesis can be divided into three main blocks: localization of heart sounds, boundaries detection of the localized heart sounds and classification block to distinguish between S1and S2. Several methods of heart sound localization exist in the literature. A comparative study between the most relevant methods is performed and two new localization methods of heart sounds are proposed in this study. Both of them are based on the S-transform, the first method uses Radial Basis Functions (RBF) neural network to extract the envelope of the heart sound signal after a feature extraction process that operates on the S-matrix. The second method named SSE calculates the Shannon Energy of the local spectrum calculated by the S-transform for each sample of the heart sound signal. The second block contains a novel approach for the boundaries detection of S1 and S2 (onset & ending). The energy concentrations of the S-transform of localized sounds are optimized by using a window width optimization algorithm. Then the SSE envelope is recalculated and a local adaptive threshold is applied to refine the estimated boundaries. For the classification block, most of the existing methods in the literature use the systole and diastole duration (systole regularity) as a criterion to discriminate between S1 and S2. These methods do not perform well for all types of heart sounds, especially in the presence of high heart rate or in the presence of arrhythmic pathologies. To deal with this problem, two feature extraction methods based on Singular Value Decomposition (SVD) technique are examined. The first method uses the S-Transform and the second method uses the Intrinsic Mode Functions (IMF) calculated by the Empirical Mode Decomposition (EMD) technique. The features are applied to a KNN classifier to estimate the performance of each feature extraction method. Nonlinear features are also tested in order to classify the normal and pathological heart sounds in the presence of systolic murmurs. Processing and recognition signal processing tools based on morphological, time-frequency and nonlinear signal features, were explored in this thesis in order to propose an auto-diagnosis module, robust against noise and applicable in clinical conditions.
15

Architecture de Sécurité sur la Voix sur IP

Abdelnur, Humberto 30 March 2009 (has links) (PDF)
Les solutions voix sur IP (VoIP) sont actuellement en plein essor et gagnent tous le jours de nouveaux marché en raison de leur faible coût et d'une palette de services riche. Comme la voix sur IP transite par l'Internet ou utilise ses protocoles, elle devient la cible de multiples attaques qui peuvent mettre son usage en péril. Parmis les menaces les plus dangereuses on trouve les bugs et les failles dans les implantations logicielles des équipements qui participent à la livraison de ces services. Cette thése comprend trois contributions à l'amélioration de la sécurité des logiciels. La première est une architecture d'audit de sécurité pour les services VoIP intégrant découverte, gestion des données et attaques à des fins de test. La seconde contribution consiste en la livraison d'une approche autonome de discrimination de signatures de messages permettant l'automatisation de la fonction de fingerprinting passif utilisée pour identifier de façon unique et non ambigüe la source d'un message. La troisième contribution porte sur la détection dynamique de vulnérabilités dans des états avancés d'une interaction protocolaire avec un équipement cible. L'expérience acquise dans la recherche de vulnérabilités dans le monde de la VoIP avec nos algorithmes est également partagée dans cette thèse.
16

Modèle du corps humain pour le suivi de gestes en monoculaire

Noriega, Philippe 11 October 2007 (has links) (PDF)
L'estimation de la pose du corps humain ou son suivi grâce à la vision par ordinateur se heurte à la diffi culté d'explorer un espace de grande dimension. Les approches par apprentissage et particulièrement celles qui font appel aux régressions vers des espaces de dimension réduits comme les LLE [RS00] ou les GPLVM [Law03] permettent de résoudre cette diffi culté dans le cas de gestes cycliques [UFF06] sans parvenir à généraliser le suivi pour des poses quelconques. D'autres techniques procèdent directement par la comparaison de l'image test avec une base d'apprentissage. Dans cet esprit, le PSH [SVD03] permet d'identi fier rapidement un ensemble de poses similaires dans une grande base de données. Cependant, même en intégrant des techniques d'extrapolation qui permettent de générer d'autres poses à partir de celles apprises, les approches uniquement basées sur l'apprentissage ne parviennent généralement pas à couvrir de façon assez dense l'espace des poses [TSDD06]. D'autres voies consistent à mettre en oeuvre une méthode déterministe ou stochastique. Les méthodes déterministes [PF03] fournissent souvent une solution sous-optimale en restant piégées sur un optimum local du fait des ambiguïtés issues de la vision monoculaire. Les approches stochastiques tentent d'explorer la probabilité a posteriori mais là encore, la grande dimension de l'espace des poses, notamment dans le cas des méthodes à base de simulation par échantillonnage, exige de multiplier le nombre des tirages a n d'avoir une chance d'explorer le mode dominant. Une solution intéressante consiste à utiliser un modèle de corps à membres indépendants [SBR+04] pour restreindre l'exploration aux sous espaces dé nis par les paramètres de chacun des membres. L'infl uence d'un membre sur les autres s'exprime grâce à la propagation des croyances [KFL01] pour fournir une solution cohérente. Dans ce travail de thèse, cette dernière solution est retenue en l'associant au fi ltre à particules pour générer un espace discret où s'e ectue la propagation des croyances [BCMC06]. Ce procédé est préférable à la modélisation paramétrique des messages par un échantillonneur de Gibbs, un procédé coûteux en ressources dérivé de l'algorithme PAMPAS [Isa03]. Parallèlement à cette solution, le développement d'un suivi robuste du haut du corps, même en 2D [NB07b], exige une fusion de plusieurs indices extraits de l'image. La vraisemblance des hypothèses émises vis-à-vis de l'image est évaluée à partir d'indices tirés des gradients et de la couleur combinés avec une soustraction de fond [NB06] et une détection du mouvement. L'interprétation de la profondeur pour le passage en 3D constitue une di fficulté majeure du suivi monoculaire. La fusion d'indices évoquée précédemment devient insu sante pour contraindre la pose. Cependant, du fait des contraintes articulaires, l'espace réel des poses occupe un sous-espace très réduit dans l'espace théorique. Le codage de ces contraintes dans l'étape de propagation des croyances associé à la fusion d'indices permet alors d'aboutir à de bonnes performances, même dans les cas d'environnements non contraints (lumière, vêtements...) [NB07a]. Une meilleure gestion des occultations est mise en oeuvre en ajoutant un terme de compatibilité des hypothèses basé sur l'apprentissage. Avec le modèle utilisé [SBR+04], ce sont des membres indépendants plutôt que des poses complètes qui sont stockées dans la base d'apprentissage. Ceci permet d'obtenir une couverture satisfaisante de l'espace des poses avec un nombre raisonnable d'exemples appris. La propagation des croyances assure un assemblage cohérent des membres pour arriver au résultat et le processus de sélection des exemples dans la base peut-être accéléré grâce au PSH [SVD03].
17

Analyse automatique des crises d'épilepsie du lobe temporal à partir des EEG de surface

Caparos, Matthieu 09 October 2006 (has links) (PDF)
L'objectif de la thèse est le développement d'une méthode de caractérisation des crises d'épilepsie du lobe temporal à partir des EEG de surface et plus particulièrement de la zone épileptogène (ZE) à l'origine des crises.<br />Des travaux récents validés en stéréoélectroencéphalographie (SEEG) ont démontré une évolution des synchronisations entre structures cérébrales permettant une caractérisation de la dynamique des crises du lobe temporal.<br />L'originalité des travaux consiste à étendre les méthodes développées en SEEG, à l'étude des signaux EEG de surface. Du point de vue médical, ce travail s'inscrit dans le cadre de l'aide au diagnostic préchirugical.<br />Des méthodes de mesure de relation, telles que la cohérence, la Directed Transfer Function (DTF), la corrélation linéaire (r²) ou la corrélation non-linéaire (h²), ont été adaptées pour répondre à cette problématique. Différents critères, définis à partir d'indications cliniques, ont permis la mise en évidence des avantages du coefficient de corrélation non-linéaire dans l'étude de l'épilepsie par les EEG de surface.<br />L'exploitation de l'évolution du coefficient de corrélation non-linéaire est à la base de trois applications de traitement automatique du signal EEG :<br />– La première est la détermination de la latéralisation de la ZE au départ d'une crise. Cette information constitue l'étape préliminaire lors de la recherche de la localisation de la ZE.<br />– La recherche d'une signature épileptique constitue la seconde application. La signature est extraite par un algorithme de mise en correspondance et de mesure de similarités en intra-patients.<br />– Une classification des crises du lobe temporal constitue la troisième application. Elle est réalisée en extrayant un ensemble de caractéristiques des signatures trouvées par l'algorithme de l'étape 2.<br />La base de données qui contient quarante-trois patients et quatre-vingt-sept crises (deux crises par patient, trois pour l'un d'entre eux) garantit une certaine significativité statistique.<br />En ce qui concerne les résultats, un taux de bonne latéralisation de l'ordre de 88% est obtenu. Ce taux est très intéressant, car dans la littérature, il peut être quelques fois atteint, mais en exploitant des données multimodalités et avec des méthodes non-automatiques. A l'issue de la classification, 85% des crises mésiales ont été correctement classifiées ainsi que 58% des crises mésio-latérales.
18

Analyse d'images pour une recherche d'images basée contenu dans le domaine transformé.

Bai, Cong 21 February 2013 (has links) (PDF)
Cette thèse s'inscrit dans la recherche d'images basée sur leur contenu. La recherche opère sur des images eprésentéesdans un domaine transformé et où sont construits directement les vecteurs de caractéristiques ou indices. Deux types detransformations sont explorés : la transformée en cosinus discrète ou Discrete Cosine Transform (DCT) et la transforméen ondelettes discrète ou Discrete Wavelet Transform (DWT), utilisés dans les normes de compression JPEG et JPEG2000. Basés sur les propriétés des coefficients de la transformation, différents vecteurs de caractéristiquessont proposés. Ces vecteurs sont mis en oeuvre dans la reconnaissance de visages et de textures couleur.Dans le domaine DCT, sont proposés quatre types de vecteurs de caractéristiques dénommés "patterns" : Zigzag-Pattern,Sum-Pattern, Texture-Pattern et Color-Pattern. Le premier type est l'amélioration d'une approche existante. Les trois derniers intègrent la capacité de compactage des coefficients DCT, sachant que certains coefficients représentent une information de directionnalité. L'histogramme de ces vecteurs est retenu comme descripteur de l'image. Pour une réduction de la dimension du descripteur lors de la construction de l'histogramme il est défini, soit une adjacence sur des patterns proches puis leur fusion, soit une sélection des patterns les plus fréquents. Ces approches sont évaluées sur des bases de données d'images de visages ou de textures couramment utilisées. Dans le domaine DWT, deux types d'approches sont proposés. Dans le premier, un vecteur-couleur et un vecteur-texture multirésolution sont élaborés. Cette approche se classe dans le cadre d'une caractérisation séparée de la couleur et de la texture. La seconde approche se situe dans le contexte d'une caractérisation conjointe de la couleur et de la texture. Comme précédemment, l'histogramme des vecteurs est choisi comme descripteur en utilisant l'algorithme K-means pour construire l'histogramme à partir de deux méthodes. La première est le procédé classique de regroupement des vecteurs par partition. La seconde est un histogramme basé sur une représentation parcimonieuse dans laquelle la valeur des bins représente le poids total des vecteurs de base de la représentation.
19

Image-based detection and classification of allergenic pollen / Détection et classification des pollens allergisants basée sur l'image

Lozano Vega, Gildardo 18 June 2015 (has links)
Le traitement médical des allergies nécessite la caractérisation des pollens en suspension dans l’air. Toutefois, cette tâche requiert des temps d’analyse très longs lorsqu’elle est réalisée de manière manuelle. Une approche automatique améliorerait ainsi considérablement les applications potentielles du comptage de pollens. Les dernières techniques d’analyse d’images permettent la détection de caractéristiques discriminantes. C’est pourquoi nous proposons dans cette thèse un ensemble de caractéristiques pertinentes issues d’images pour la reconnaissance des principales classes de pollen allergènes. Le cœur de notre étude est l’évaluation de groupes de caractéristiques capables de décrire correctement les pollens en termes de forme, texture, taille et ouverture. Les caractéristiques sont extraites d’images acquises classiquement sous microscope, permettant la reproductibilité de la méthode. Une étape de sélection des caractéristiques est appliquée à chaque groupe pour évaluer sa pertinence.Concernant les apertures présentes sur certains pollens, une méthode adaptative de détection, localisation et comptage pour différentes classes de pollens avec des apparences variées est proposée. La description des apertures se base sur une stratégie de type Sac-de-Mots appliquée à des primitives issues des images. Une carte de confiance est construite à partir de la confiance donnée à la classification des régions de l’image échantillonnée. De cette carte sont extraites des caractéristiques propres aux apertures, permettant leur comptage. La méthode est conçue pour être étendue de façon modulable à de nouveaux types d’apertures en utilisant le même algorithme mais avec un classifieur spécifique.Les groupes de caractéristiques ont été testés individuellement et conjointement sur les classes de pollens les plus répandues en Allemagne. Nous avons montré leur efficacité lors d’une classification de type SVM, notamment en surpassant la variance intra-classe et la similarité inter-classe. Les résultats obtenus en utilisant conjointement tous les groupes de caractéristiques ont abouti à une précision de 98,2 %, comparable à l’état de l’art. / The correct classification of airborne pollen is relevant for medical treatment of allergies, and the regular manual process is costly and time consuming. An automatic processing would increase considerably the potential of pollen counting. Modern computer vision techniques enable the detection of discriminant pollen characteristics. In this thesis, a set of relevant image-based features for the recognition of top allergenic pollen taxa is proposed and analyzed. The foundation of our proposal is the evaluation of groups of features that can properly describe pollen in terms of shape, texture, size and apertures. The features are extracted on typical brightfield microscope images that enable the easy reproducibility of the method. A process of feature selection is applied to each group for the determination of relevance.Regarding apertures, a flexible method for detection, localization and counting of apertures of different pollen taxa with varying appearances is proposed. Aperture description is based on primitive images following the Bag-of-Words strategy. A confidence map is built from the classification confidence of sampled regions. From this map, aperture features are extracted, which include the count of apertures. The method is designed to be extended modularly to new aperture types employing the same algorithm to build individual classifiers.The feature groups are tested individually and jointly on of the most allergenic pollen taxa in Germany. They demonstrated to overcome the intra-class variance and inter-class similarity in a SVM classification scheme. The global joint test led to accuracy of 98.2%, comparable to the state-of-the-art procedures.
20

Contributions à la fusion des informations : application à la reconnaissance des obstacles dans les images visible et infrarouge / Contributions to the Information Fusion : application to Obstacle Recognition in Visible and Infrared Images

Apatean, Anca Ioana 15 October 2010 (has links)
Afin de poursuivre et d'améliorer la tâche de détection qui est en cours à l'INSA, nous nous sommes concentrés sur la fusion des informations visibles et infrarouges du point de vue de reconnaissance des obstacles, ainsi distinguer entre les véhicules, les piétons, les cyclistes et les obstacles de fond. Les systèmes bimodaux ont été proposées pour fusionner l'information à différents niveaux: des caractéristiques, des noyaux SVM, ou de scores SVM. Ils ont été pondérés selon l'importance relative des capteurs modalité pour assurer l'adaptation (fixe ou dynamique) du système aux conditions environnementales. Pour évaluer la pertinence des caractéristiques, différentes méthodes de sélection ont été testés par un PPV, qui fut plus tard remplacée par un SVM. Une opération de recherche de modèle, réalisée par 10 fois validation croisée, fournit le noyau optimisé pour SVM. Les résultats ont prouvé que tous les systèmes bimodaux VIS-IR sont meilleurs que leurs correspondants monomodaux. / To continue and improve the detection task which is in progress at INSA laboratory, we focused on the fusion of the information provided by visible and infrared cameras from the view point of an Obstacle Recognition module, this discriminating between vehicles, pedestrians, cyclists and background obstacles. Bimodal systems have been proposed to fuse the information at different levels:of features, SVM's kernels, or SVM’s matching-scores. These were weighted according to the relative importance of the modality sensors to ensure the adaptation (fixed or dynamic) of the system to the environmental conditions. To evaluate the pertinence of the features, different features selection methods were tested by a KNN classifier, which was later replaced by a SVM. An operation of modelsearch, performed by 10 folds cross-validation, provides the optimized kernel for the SVM. The results have proven that all bimodal VIS-IR systems are better than their corresponding monomodal ones.

Page generated in 0.5559 seconds