• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 58
  • 32
  • 10
  • Tagged with
  • 99
  • 33
  • 30
  • 28
  • 27
  • 25
  • 17
  • 17
  • 16
  • 16
  • 14
  • 14
  • 13
  • 13
  • 12
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Analyse acoustique de la voix émotionnelle de locuteurs lors d'une interaction humain-robot

Tahon, Marie 15 November 2012 (has links) (PDF)
Mes travaux de thèse s'intéressent à la voix émotionnelle dans un contexte d'interaction humain-robot. Dans une interaction réaliste, nous définissons au moins quatre grands types de variabilités : l'environnement (salle, microphone); le locuteur, ses caractéristiques physiques (genre, âge, type de voix) et sa personnalité; ses états émotionnels; et enfin le type d'interaction (jeu, situation d'urgence ou de vie quotidienne). A partir de signaux audio collectés dans différentes conditions, nous avons cherché, grâce à des descripteurs acoustiques, à imbriquer la caractérisation d'un locuteur et de son état émotionnel en prenant en compte ces variabilités.Déterminer quels descripteurs sont essentiels et quels sont ceux à éviter est un défi complexe puisqu'il nécessite de travailler sur un grand nombre de variabilités et donc d'avoir à sa disposition des corpus riches et variés. Les principaux résultats portent à la fois sur la collecte et l'annotation de corpus émotionnels réalistes avec des locuteurs variés (enfants, adultes, personnes âgées), dans plusieurs environnements, et sur la robustesse de descripteurs acoustiques suivant ces quatre variabilités. Deux résultats intéressants découlent de cette analyse acoustique: la caractérisation sonore d'un corpus et l'établissement d'une liste "noire" de descripteurs très variables. Les émotions ne sont qu'une partie des indices paralinguistiques supportés par le signal audio, la personnalité et le stress dans la voix ont également été étudiés. Nous avons également mis en oeuvre un module de reconnaissance automatique des émotions et de caractérisation du locuteur qui a été testé au cours d'interactions humain-robot réalistes. Une réflexion éthique a été menée sur ces travaux.
12

Influence des cations d'échange dans les zéolithes type faujasites sur la sélectivité d'adsorption des isomères du xylène / Influence of exchanged cations on faujasite zeolites on adsorption selectivity of xylenes isomers

Khabzina, Yoldes 23 January 2015 (has links)
Depuis plusieurs années, IFPEN développe des adsorbants à base de zéolithe faujasite pour le procédé de séparation des xylènes. Dans ce cadre, cette thèse a permis de rationaliser les origines de la sélectivité des isomères du xylène dans les zéolithes faujasites. Pour ce faire, une nouvelle approche est proposée. L'objectif est d'établir un modèle à la fois explicatif et prédictif qui permet de relier la sélectivité à un certain nombre de paramètres caractéristiques du système, appelés descripteurs. Après la proposition d'un plan d'expériences contenant une soixantaine d'adsorbants, leur préparation et leur test étaient effectués en utilisant des outils adéquats automatisés et parallélisés. L'analyse statistique descriptive faite sur l'ensemble des 43 propriétés d'adsorption évaluées a révélé l'existence de 4 différentes classes d'adsorbants. L'étape de construction du modèle était précédée par l'identification et le calcul des descripteurs. Ceux qui sont retenus caractérisent, essentiellement, l'état de confinement responsable de la sélectivité au sein de la zéolithe. On cite la taille des cations des sites II, l'occupation des sites III ou encore la saturation des sites II. Deux méthodes statistiques étaient utilisées pour construire les relations structures-propriétés. Tout d'abord, la régression linéaire multiple avec comme variables explicatives les 3 descripteurs cités. Le modèle explicatif retenu prédit avec un coefficient de corrélation R² de 0,78. Aussi, l'analyse discriminante était utilisée. Ces mêmes 3 descripteurs ont servi à prédire l'affectation des adsorbants dans les 4 classes identifiées avec un pourcentage de prédiction total de 76% / For several years, IFPEN develops based faujasite adsorbents for the xylene separation process. In this context, this thesis allowed to streamline the selectivity origins of xylene isomers in faujasite zeolites. To do it, a new approach is proposed. The objective is to establish, at the same time, an explanatory and predictive model which allows to relate the selectivity to a number of characteristic parameters of the system, called descriptors. After the proposal of an experimental design containing about sixty adsorbents, their preparation and their test were made by using automated and paralleled adequate tools. A descriptive statistical analysis made on 43 evaluated adsorption properties revealed the existence of 4 various classes of adsorbents. The stage of the model construction was preceded by the identification and the calculation of descriptors. Those who are retained characterize, essentially, the confinement state responsible for the selectivity within the zeolite. We quote the sites II cations size, the sites III occupation or still the sites II saturation. Two statistical methods were used to build the structures-properties relationship. First, a multiple linear regression with, as predictive variables, the 3 quoted descriptors. The retained explanatory model predicts with a correlation coefficient R² = 0,78. So, the discriminant analysis was used. The same 3 descriptors served to predict the affectation of adsorbents in the 4 identified classes with a total prediction percentage of 76 %
13

Improvements brought to graphical user interfaces for insurance illustration systems

Eid, Imad January 2000 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
14

Segmentation d'image par intégration itérative de connaissances / Image segmentation by iterative knowledge integration

Chaibou salaou, Mahaman Sani 02 July 2019 (has links)
Le traitement d’images est un axe de recherche très actif depuis des années. L’interprétation des images constitue une de ses branches les plus importantes de par ses applications socio-économiques et scientifiques. Cependant cette interprétation, comme la plupart des processus de traitements d’images, nécessite une phase de segmentation pour délimiter les régions à analyser. En fait l’interprétation est un traitement qui permet de donner un sens aux régions détectées par la phase de segmentation. Ainsi, la phase d’interprétation ne pourra analyser que les régions détectées lors de la segmentation. Bien que l’objectif de l’interprétation automatique soit d’avoir le même résultat qu’une interprétation humaine, la logique des techniques classiques de ce domaine ne marie pas celle de l’interprétation humaine. La majorité des approches classiques d’interprétation d’images séparent la phase de segmentation et celle de l’interprétation. Les images sont d’abord segmentées puis les régions détectées sont interprétées. En plus, au niveau de la segmentation les techniques classiques parcourent les images de manière séquentielle, dans l’ordre de stockage des pixels. Ce parcours ne reflète pas nécessairement le parcours de l’expert humain lors de son exploration de l’image. En effet ce dernier commence le plus souvent par balayer l’image à la recherche d’éventuelles zones d’intérêts. Dans le cas échéant, il analyse les zones potentielles sous trois niveaux de vue pour essayer de reconnaitre de quel objet s’agit-il. Premièrement, il analyse la zone en se basant sur ses caractéristiques physiques. Ensuite il considère les zones avoisinantes de celle-ci et enfin il zoome sur toute l’image afin d’avoir une vue complète tout en considérant les informations locales à la zone et celles de ses voisines. Pendant son exploration, l’expert, en plus des informations directement obtenues sur les caractéristiques physiques de l’image, fait appel à plusieurs sources d’informations qu’il fusionne pour interpréter l’image. Ces sources peuvent inclure les connaissent acquises grâce à son expérience professionnelle, les contraintes existantes entre les objets de ce type d’images, etc. L’idée de l’approche présentée ici est que simuler l’activité visuelle de l’expert permettrait une meilleure compatibilité entre les résultats de l’interprétation et ceux de l’expert. Ainsi nous retenons de cette analyse trois aspects importants du processus d’interprétation d’image que nous allons modéliser dans l’approche proposée dans ce travail : 1. Le processus de segmentation n’est pas nécessairement séquentiel comme la plus part des techniques de segmentations qu’on rencontre, mais plutôt une suite de décisions pouvant remettre en cause leurs prédécesseurs. L’essentiel étant à la fin d’avoir la meilleure classification des régions. L’interprétation ne doit pas être limitée par la segmentation. 2. Le processus de caractérisation d’une zone d’intérêt n’est pas strictement monotone i.e. que l’expert peut aller d’une vue centrée sur la zone à vue plus large incluant ses voisines pour ensuite retourner vers la vue contenant uniquement la zone et vice-versa. 3. Lors de la décision plusieurs sources d’informations sont sollicitées et fusionnées pour une meilleure certitude. La modélisation proposée de ces trois niveaux met particulièrement l’accent sur les connaissances utilisées et le raisonnement qui mène à la segmentation des images. / Image processing has been a very active area of research for years. The interpretation of images is one of its most important branches because of its socio-economic and scientific applications. However, the interpretation, like most image processing processes, requires a segmentation phase to delimit the regions to be analyzed. In fact, interpretation is a process that gives meaning to the regions detected by the segmentation phase. Thus, the interpretation phase can only analyze the regions detected during the segmentation. Although the ultimate objective of automatic interpretation is to produce the same result as a human, the logic of classical techniques in this field does not marry that of human interpretation. Most conventional approaches to this task separate the segmentation phase from the interpretation phase. The images are first segmented and then the detected regions are interpreted. In addition, conventional techniques of segmentation scan images sequentially, in the order of pixels appearance. This way does not necessarily reflect the way of the expert during the image exploration. Indeed, a human usually starts by scanning the image for possible region of interest. When he finds a potential area, he analyzes it under three view points trying to recognize what object it is. First, he analyzes the area based on its physical characteristics. Then he considers the region's surrounding areas and finally he zooms in on the whole image in order to have a wider view while considering the information local to the region and those of its neighbors. In addition to information directly gathered from the physical characteristics of the image, the expert uses several sources of information that he merges to interpret the image. These sources include knowledge acquired through professional experience, existing constraints between objects from the images, and so on.The idea of the proposed approach, in this manuscript, is that simulating the visual activity of the expert would allow a better compatibility between the results of the interpretation and those ofthe expert. We retain from the analysis of the expert's behavior three important aspects of the image interpretation process that we will model in this work: 1. Unlike what most of the segmentation techniques suggest, the segmentation process is not necessarily sequential, but rather a series of decisions that each one may question the results of its predecessors. The main objective is to produce the best possible regions classification. 2. The process of characterizing an area of interest is not a one way process i.e. the expert can go from a local view restricted to the region of interest to a wider view of the area, including its neighbors and vice versa. 3. Several information sources are gathered and merged for a better certainty, during the decision of region characterisation. The proposed model of these three levels places particular emphasis on the knowledge used and the reasoning behind image segmentation.
15

Contributions à la reconnaissance de visages à partir d'une seule image et dans un contexte non-contrôlé

Vu, Ngoc-Son 19 November 2010 (has links) (PDF)
Bien qu'ayant suscité des recherches depuis 30 ans, le problème de la reconnaissance de visages en contexte de vidéosurveillance, sachant qu'une seule image par individu est disponible pour l'enrôlement, n'est pas encore résolu. Dans ce contexte, les deux dés les plus diciles à relever consistent à développer des algorithmes robustes aux variations d'illumination et aux variations de pose. De plus, il y a aussi une contrainte forte sur la complexité en temps et en occupation mémoire des algorithmes à mettre en oeuvre dans de tels systèmes. Le travail développé dans cette thèse apporte plusieurs avancées innovantes dans ce contexte de reconnaissance faciale en vidéosurveillance. Premièrement, une méthode de normalisation des variations d'illumination visant à simuler les performances de la rétine est proposée en tant que pré-traitement des images faciales. Deuxièmement, nous proposons un nouveau descripteur appelé POEM (Patterns of Oriented Edge Magnitudes) destiné à représenter les structures locales d'une image. Ce descripteur est discriminant, robuste aux variations extérieures (variations de pose, d'illumination, d'expression, d'âge que l'on rencontre souvent avec les visages). Troisièmement, un modèle statistique de reconnaissance de visages en conditions de pose variables, centré sur une modélisation de la manière dont l'apparence du visage évolue lorsque le point de vue varie, est proposé. Enn, une nouvelle approche visant à modéliser les relations spatiales entre les composantes du visage est présentée. A l'exception de la dernière approche, tous les algorithmes proposés sont très rapides à calculer et sont donc adaptés à la contrainte de traitement temps réel des systèmes de vidéosurveillance.
16

Méthodes d'apprentissage pour l'estimation de la pose de la tête dans des images monoculaires

Bailly, Kévin 09 July 2010 (has links) (PDF)
Cette thèse s'inscrit dans le cadre de PILE, un projet médical d'analyse du regard, des gestes, et des productions vocales d'enfants en bas âge. Dans ce contexte, nous avons conçu et développé des méthodes de détermination de l'orientation de la tête, pierre angulaire des systèmes d'estimation de la direction du regard. D'un point de vue méthodologique, nous avons proposé BISAR (Boosted Input Selection Algorithm for Regression), une méthode de sélection de caractéristiques adaptée aux problèmes de régression. Elle consiste à sélectionner itérativement les entrées d'un réseau de neurones incrémental. Chaque entrée est associée à un descripteur sélectionné à l'aide d'un critère original qui mesure la dépendance fonctionnelle entre un descripteur et les valeurs à prédire. La complémentarité des descripteurs est assurée par un processus de boosting qui modifie, à chaque itération, la distribution des poids associés aux exemples d'apprentissage. Cet algorithme a été validé expérimentalement au travers de deux méthodes d'estimation de la pose de la tête. La première approche apprend directement la relation entre l'apparence d'un visage et sa pose. La seconde aligne un modèle de visage dans une image, puis estime géométriquement l'orientation de ce modèle. Le processus d'alignement repose sur une fonction de coût qui évalue la qualité de l'alignement. Cette fonction est apprise par BISAR à partir d'exemples de modèles plus ou moins bien alignés. Les évaluations de ces méthodes ont donné des résultats équivalents ou supérieurs aux méthodes de l'état de l'art sur différentes bases présentant de fortes variations de pose, d'identité, d'illumination et de conditions de prise de vues.
17

Descripteurs couleur locaux invariants aux conditions d'acquisition

Song, Xiaohu 08 December 2011 (has links) (PDF)
La mise au point de descripteurs locaux discriminants est aujourd'hui une priorité dans de nombreuses applications comme la reconnaissance d'objets, le suivi d'objets, la reconstruction 3D ou l'estimation de mouvement. La problématique réside dans le fait que ces descripteurs doivent être invariants aux conditions d'acquisition tout en conservant un pouvoir discriminant important. Dans ce contexte, nous nous sommes intéressés à l'invariance des descripteurs locaux de la littérature. Nous les avons notamment catégorisés en fonction des hypothèses sur lesquelles repose leur invariance. Ensuite, nous avons proposé des descripteurs locaux qui exploitent l'information de couleur dans les images. Nous avons montré que cette information peut être très pertinente lorsqu'elle est combinée à une information spatiale, à condition que son degré d'invariance soit contrôlé et adapté aux applications considérées. Ainsi, nous avons proposé un ensemble de descripteurs locaux couleur avec des degrés d'invariance différents. Ainsi, nous introduisons tout d'abord deux nouveaux descripteurs qui caractérisent les distributions spatiales des couleurs dans les régions analysées. L'idée originale consiste à appliquer des transformations affines entre les coordonnées spatiales des pixels et leurs coordonnées couleur. En effet, chaque pixel étant caractérisé par 5 valeurs, 2 coordonnées spatiales xy dans l'image et 3 composantes couleur RVB, nous proposons de rechercher une transformation affine qui permet de transformer les coordonnées xy de tous les pixels de la région concernée en coordonnées RVB de ces pixels. Nous montrons que l'application de cette transformation aux coordonnées xy fournit des coordonnées dans l'espace RVB qui a un double avantage. D'une part, les coordonnées d'un seul pixel dépendent à la fois de toutes les couleurs présentes dans la région mais aussi de leur répartition spatiale. Quelques coordonnées permettent donc de résumer efficacement le contenu de la région. D'autre part, ces coordonnées présente une invariance totale à toute transformation affine appliquée dans l'espace image 2D(invariance géométrique) et comme elles sont homogènes à des coordonnées couleur, nous pouvons leur procurer une invariance photométrique en leur appliquant des transformations affines particulières. Nous montrons que le degré d'invariance peut être contrôlé en fonction des besoins de l'application. Ces coordonnées nous permettent de définir le descripteur IVC (Image Vers Couleur). De manière similaire, nous évaluons une transformation affine de l'espace couleur à l'espace image et appliquons cette transformation aux coordonnées couleur. Les coordonnées obtenues par cette transformation sont invariantes à toute transformation affine appliquée dans l'espace couleur, elles présentent donc un degré d'invariance élevé aux variations photométriques. Ces coordonnées nous permettent de constituer le descripteur CVI (Couleur Vers Image). Nous montrons que ces deux descripteurs fournissent de très bons résultats dans le cadre de la reconnaissance d'objet et présentent une telle complémentarité que le descripteur obtenu par concaténation de IVC et CVI fournit de meilleurs résultats que la plupart des descripteurs couleur parus dans la littérature. Ensuite, nous proposons un descripteur qui présente un degré d'invariance plus élevé que les deux précédents puisqu'il n'est pas sensible aux transformations non-linéaires des couleurs modélisées par des fonctions croissantes appliquées indépendamment sur chaque composante couleur. Pour cela, nous exploitons les mesures de rang des pixels dans les images. De plus, nous utilisons les corrélations entre mesures de rang obtenues pour différentes composantes couleur. Ceci nous a permis de proposer un descripteur lui aussi très compact qui présente un degré d'invariance photométrique assez élevé. Enfin, nous abordons le problème de la caractérisation locale d'images par auto-similarités
18

Méthodes d'automatisation de la détection des lésions vasculaires dans des images de tomodensitométrie

Zuluaga Valencia, Maria Alejandra 12 January 2011 (has links) (PDF)
Les travaux de cette thèse sont consacrés à la détection et le diagnostic des lésions vasculaires, particulièrement dans le cas la maladie coronaire. La maladie coronaire continue à être la première cause de mortalité dans les pays industrialisés. En général, l'identification des lésions vasculaires est abordée en essayant de modéliser les anormalités (lésions). Le principal inconvénient de cette approche est que les lésions sont très hétérogènes, ce qui rend difficile la détection de nouvelles lésions qui n'ont pas été prises en compte par le modèle. Dans cette thèse, nous proposons de ne pas modéliser directement les lésions, mais de supposer que les lésions sont des événements anormaux qui se manifestent comme points avec une faible densité de probabilité. Nous proposons l'utilisation de deux méthodes de classification basées sur les Machines à Vecteurs de Support (SVM) pour résoudre le problème de détection du niveau de densité. Le principal avantage de ces deux méthodes est que la phase d'apprentissage ne requiert pas de données étiquetées représentant les lésions. La première méthode est complètement non supervisée, alors que la seconde exige des étiquettes seulement pour les cas qu'on appelle sains ou normaux. L'utilisation des algorithmes de classification sélectionnés nécessite des descripteurs tels que les anomalies soient représentées comme des points avec une densité de probabilité faible. A cette fin, nous avons développé une métrique basée sur l'intensité de l'image, que nous avons appelée concentric rings. Cette métrique est sensible à la quasi-symétrie des profils d'intensité des vaisseaux sains, mais aussi aux écarts par rapport à cette symétrie, observés dans des cas pathologiques. De plus, nous avons sélectionné plusieurs autres descripteurs candidats à utiliser comme entrée pour les classifieurs. Des expériences sur des données synthétiques et des données de CT cardiaques démontrent que notre métrique a une bonne performance dans la détection d'anomalies, lorsqu'elle est utilisée avec les classifeurs retenus. Une combinaison de plusieurs descripteurs candidats avec la métrique concentric rings peut améliorer la performance de la détection. Nous avons défini un schéma non supervisé de sélection de descripteurs qui permet de déterminer un sous-ensemble optimal de descripteurs. Nous avons confronté les résultats de détection réalisée en utilisant le sous-ensemble de descripteurs sélectionné par notre méthode avec les performances obtenues avec des sous-ensembles sélectionnés par des méthodes supervisées existantes. Ces expériences montrent qu'une combinaison de descripteurs bien choisis améliore effectivement les performances des classifieurs et que les meilleurs résultats s'obtiennent avec le sous-ensemble sélectionné par notre méthode, en association avec les algorithmes de détection retenus. Finalement, nous proposons de réaliser un recalage local entre deux images représentant différentes phases du cycle cardiaque, afin de confronter les résultats de détection dans ces images (phases). L'objectif ici est non seulement d'attirer l'attention du praticien sur les anomalies détectées comme lésions potentielles, mais aussi de l'aider à conforter son diagnostic en visualisant automatiquement la même région reconstruite à différents instants du cycle cardiaque.
19

Reconnaissance et localisation de symboles dans les documents graphiques : approches basées sur le treillis de concepts / Graphics Recognition and Spotting in Graphical Documents : Approaches Based On the Galois Lattice Structure

Boumaiza, Ameni 20 May 2013 (has links)
Omniprésents, la relation homme-machine est encore une définition ardue à cerner. Les ordinateurs réalisent dans le temps des tâches récurrentes. Ils aident ainsi l'homme à manipuler d'énormes quantités de données, souvent même plus rapidement et plus précisément que lui. Malgré cela, la capacité des ordinateurs demeure limitée lorsqu'il s'agit d'extraire automatiquement des informations d'images ou de vidéos, qui représentent pourtant des volumes de données extrêmement importants. La vision par ordinateur est un domaine qui inclut des méthodes d'acquisition, de traitement, d'analyse et de compréhension des images afin de produire de l'information numérique ou symbolique. Un axe de recherche contribuant au développement de ce domaine consiste à reproduire les capacités de la vision humaine par voie électronique afin de percevoir et de comprendre une image. Il s'agit de développer des algorithmes qui reproduisent une des capacités les plus étonnantes du cerveau humain à savoir la déduction des propriétés du monde purement externe au moyen de la lumière qui nous revient des divers objets qui nous entourent. Nos travaux de thèse s'inscrivent dans cet axe de recherche. Nous proposons plusieurs contributions originales s'inscrivant dans le cadre de résolution des problèmes de la reconnaissance et de la localisation des symboles graphiques en contexte. L'originalité des approches proposées réside dans la proposition d'une alliance intéressante entre l'Analyse Formelle de Concepts et la vision par ordinateur. Pour ce faire, nous nous sommes confrontés à l'étude du domaine de l'AFC et plus précisément l'adaptation de la structure du treillis de concepts et son utilisation comme étant l'outil majeur de nos travaux. La principale particularité de notre travail réside dans son aspect générique vu que les méthodes proposées peuvent être alliées à divers outils autre que le treillis de concepts en gardant les mêmes stratégies adoptées et en suivant une procédure semblable. Notre incursion dans le domaine de l'Analyse Formelle de Concepts et plus précisément notre choix de la structure du treillis de Galois appelé aussi treillis de concepts est motivé par les nombreux avantages présentés par cet outil. Le principal avantage du treillis de concepts est l'aspect symbolique qu'il offre. Il présente un espace de recherche concis, précis et souple facilitant ainsi la prise de décision. Nos contributions sont inscrites dans le cadre de la reconnaissance et de localisation de symboles dans les documents graphiques. Nous proposons des chaînes de traitement s'inscrivant dans le domaine de la vision par ordinateur / Computer vision is a field that includes methods for the acquisition, processing, analysis and understanding of images to produce numerical or symbolic information. A research contributing to the development of this area is to replicate the capabilities of human vision to perceive and understand images. Our thesis is part of this research axis. We propose several original contributions belonging to the context of graphics recognition and spotting context. The originality of the proposed approaches is the proposal of an interesting alliance between the Formal Concept Analysis and the Computer Vision fields. We face the study of the FCA field and more precisely the adaptation of the structure of concept lattice and its use as the main tool of our work. The main feature of our work lies in its generic aspect because the proposed methods can be combined with various other tools keeping the same strategies and following a similar procedure. Our foray into the area of the Formal Concept Analysis and more precisely our choice of the structure of the Galois lattice, also called concept lattice is motivated by the many advantages offered by this tool. The main advantage of concept lattice is the symbolic aspect. It is a concise, accurate and flexible search space thus facilitating decision making. Our contributions are recorded as part of the recognition and localization of symbols in graphic documents. We propose to recognize and spot symbols in graphical documents (technical drawings for example) using the alliance between the bag of words representation and the Galois lattice formalism. We opt for various methods belonging to the computer vision field
20

Contributions to generic visual object categorization / Catégorisation automatique d'images

Fu, Huanzhang 14 December 2010 (has links)
Cette thèse de doctorat est consacrée à un sujet de recherche très porteur : la Catégorisation générique d’objets Visuels (VOC). En effet, les applications possibles sont très nombreuses, incluant l’indexation d’images et de vidéos, la vidéo surveillance, le contrôle d’accès de sécurité, le soutien à la conduite automobile, etc. En raison de ses nombreux verrous scientifiques, ce sujet est encore considéré comme l’un des problèmes les plus difficiles en vision par ordinateur et en reconnaissance de formes. Dans ce contexte, nous avons proposé dans ce travail de thèse plusieurs contributions, en particulier concernant les deux principaux éléments des méthodes résolvant les problèmes de VOC, notamment la sélection des descripteurs et la représentation d’images. Premièrement, un algorithme nomme "Embedded Sequential Forward feature Selection"(ESFS) a été proposé pour VOC. Son but est de sélectionner les descripteurs les plus discriminants afin d’obtenir une bonne performance pour la catégorisation. Il est principalement basé sur la méthode de recherche sous-optimale couramment utilisée "Sequential Forward Selection" (SFS), qui repose sur le principe simple d’ajouter progressivement les descripteurs les plus pertinents. Cependant, ESFS non seulement ajoute progressivement les descripteurs les plus pertinents à chaque étape mais de plus les fusionne d’une manière intégrée grâce à la notion de fonctions de masses combinées empruntée à la théorie de l’évidence qui offre également l’avantage d’obtenir un coût de calcul beaucoup plus faible que celui de SFS original. Deuxièmement, nous avons proposé deux nouvelles représentations d’images pour modéliser le contenu visuel d’une image : la Représentation d’Image basée sur la Modélisation Polynomiale et les Mesures Statistiques, appelées respectivement PMIR et SMIR. Elles permettent de surmonter l’inconvénient principal de la méthode populaire "bag of features" qui est la difficulté de fixer la taille optimale du vocabulaire visuel. Elles ont été testées avec nos descripteurs bases région ainsi que les descripteurs SIFT. Deux stratégies différentes de fusion, précoce et tardive, ont également été considérées afin de fusionner les informations venant des "canaux «différents représentés par les différents types de descripteurs. Troisièmement, nous avons proposé deux approches pour VOC en s’appuyant sur la représentation sparse. La première méthode est reconstructive (R_SROC) alors que la deuxième est reconstructive et discriminative (RD_SROC). En effet, le modèle de représentation sparse a été utilisé originalement dans le domaine du traitement du signal comme un outil puissant pour acquérir, représenter et compresser des signaux de grande dimension. Ainsi, nous avons proposé une adaptation de ces principes intéressants au problème de VOC. R_SROC repose sur l’hypothèse intuitive que l’image peut être représentée par une combinaison linéaire des images d’apprentissage de la même catégorie. [...] / This thesis is dedicated to the active research topic of generic Visual Object Categorization(VOC), which can be widely used in many applications such as videoindexation and retrieval, video monitoring, security access control, automobile drivingsupport etc. Due to many realistic difficulties, it is still considered to be one ofthe most challenging problems in computer vision and pattern recognition. In thiscontext, we have proposed in this thesis our contributions, especially concerning thetwo main components of the methods addressing VOC problems, namely featureselection and image representation.Firstly, an Embedded Sequential Forward feature Selection algorithm (ESFS)has been proposed for VOC. Its aim is to select the most discriminant features forobtaining a good performance for the categorization. It is mainly based on thecommonly used sub-optimal search method Sequential Forward Selection (SFS),which relies on the simple principle to add incrementally most relevant features.However, ESFS not only adds incrementally most relevant features in each stepbut also merges them in an embedded way thanks to the concept of combinedmass functions from the evidence theory which also offers the benefit of obtaining acomputational cost much lower than the one of original SFS.Secondly, we have proposed novel image representations to model the visualcontent of an image, namely Polynomial Modeling and Statistical Measures basedImage Representation, called PMIR and SMIR respectively. They allow to overcomethe main drawback of the popular "bag of features" method which is the difficultyto fix the optimal size of the visual vocabulary. They have been tested along withour proposed region based features and SIFT. Two different fusion strategies, earlyand late, have also been considered to merge information from different "channels"represented by the different types of features.Thirdly, we have proposed two approaches for VOC relying on sparse representation,including a reconstructive method (R_SROC) as well as a reconstructiveand discriminative one (RD_SROC). Indeed, sparse representation model has beenoriginally used in signal processing as a powerful tool for acquiring, representingand compressing the high-dimensional signals. Thus, we have proposed to adaptthese interesting principles to the VOC problem. R_SROC relies on the intuitiveassumption that an image can be represented by a linear combination of trainingimages from the same category. Therefore, the sparse representations of images arefirst computed through solving the ℓ1 norm minimization problem and then usedas new feature vectors for images to be classified by traditional classifiers such asSVM. To improve the discrimination ability of the sparse representation to betterfit the classification problem, we have also proposed RD_SROC which includes adiscrimination term, such as Fisher discrimination measure or the output of a SVMclassifier, to the standard sparse representation objective function in order to learna reconstructive and discriminative dictionary. Moreover, we have also proposedChapter 0. Abstractto combine the reconstructive and discriminative dictionary and the adapted purereconstructive dictionary for a given category so that the discrimination power canfurther be increased.The efficiency of all the methods proposed in this thesis has been evaluated onpopular image datasets including SIMPLIcity, Caltech101 and Pascal2007.

Page generated in 0.0445 seconds