Spelling suggestions: "subject:"classification d'image"" "subject:"1classification d'image""
1 |
Représentations optimales pour la recherche dans les bases d'images patrimoniales / Optimal representation for searching the image databases heritageNegrel, Romain 03 December 2014 (has links)
Depuis plusieurs décennies, le développement des technologies de numérisation et de stockage ont permis la mise en œuvre de nombreux projets de numérisation du patrimoine culturel.L'approvisionnement massif et continu de ces bases de données numériques du patrimoine culturel entraîne de nombreux problèmes d'indexation.En effet, il n'est plus possible d'effectuer une indexation manuelle de toutes les données.Pour indexer et rendre accessible facilement les données, des méthodes d'indexation automatique et d'aide à l'indexation se sont développées depuis plusieurs années.Cependant, les méthodes d'indexation automatique pour les documents non-textuels (image, vidéo, son, modèle 3D, …) sont encore complexes à mettre en œuvre pour de grands volumes de données.Dans cette thèse, nous nous intéressons en particulier à l'indexation automatique d'images.Pour effectuer des tâches d'indexation automatique ou d'aide à l'indexation, il est nécessaire de construire une méthode permettant d'évaluer la similarité entre deux images.Nos travaux sont basés sur les méthodes à signatures d'image ; ces méthodes consistent à résumer le contenu visuel de chaque image dans une signature (vecteur unique), puis d'utiliser ces signatures pour calculer la similarité entre deux images.Pour extraire les signatures, nous utilisons la chaîne d'extraction suivante : en premier, nous extrayons de l'image un grande nombre de descripteurs locaux ; puis nous résumons l'ensemble de ces descripteurs dans une signature de grande dimension ; enfin nous réduisons fortement la dimension de la signature.Les signatures de l'état de l'art basées sur cette chaîne d'extraction permettent d'obtenir de très bonnes performance en indexation automatique et en aide à l'indexation.Cependant, les méthodes de l'état de l'art ont généralement de forts coûts mémoires et calculatoires qui rendent impossible leurs mise en œuvre sur des grands volumes de données.Dans cette thèse, notre objectif est double : d'une part nous voulons améliorer les signatures d'images pour obtenir de très bonnes performances dans les problèmes d'indexation automatique ; d'autre part, nous voulons réduire les coûts de la chaîne de traitement, pour permettre le passage à l'échelle.Nous proposons des améliorations d'une signature d'image de l'état de l'art nommée VLAT (Vectors of Locally Aggregated Tensors).Ces améliorations permettent de rendre la signature plus discriminante tout en réduisant sa dimension.Pour réduire la dimension des signatures, nous effectuons une projection linéaire de la signature dans un espace de petite dimension.Nous proposons deux méthodes pour obtenir des projecteurs de réduction de dimension tout en conservant les performances des signatures d'origine.Notre première méthode consiste à calculer les projecteurs qui permettent d'approximer le mieux possible les scores de similarités entre les signatures d'origine.La deuxième méthode est basée sur le problème de recherche de quasi-copies ; nous calculons les projecteurs qui permettent de respecter un ensemble de contraintes sur le rang des images dans la recherche par rapport à l'image requête.L'étape la plus coûteuse de la chaîne d'extraction est la réduction de dimension de la signature à cause de la grande dimension des projecteurs.Pour les réduire, nous proposons d'utiliser des projecteurs creux en introduisant une contrainte de parcimonie dans nos méthodes de calcul des projecteurs.Comme il est généralement complexe de résoudre un problème d'optimisation avec une contrainte de parcimonie stricte, nous proposons pour chacun des problèmes une méthode pour obtenir une approximation des projecteurs creux recherchés.L'ensemble de ces travaux font l'objet d'expériences montrant l'intérêt pratique des méthodes proposées par comparaison avec les méthodes de l'état de l'art. / In the last decades, the development of scanning and storing technologies resulted in the development of many projects of cultural heritage digitization.The massive and continuous flow of numerical data in cultural heritage databases causes many problems for indexing.Indeed, it is no longer possible to perform a manual indexing of all data.To index and ease the access to data, many methods of automatic and semi-automatic indexing have been proposed in the last years.The current available methods for automatic indexing of non-textual documents (images, video, sound, 3D model, ...) are still too complex to implement for large volumes of data.In this thesis, we focus on the automatic indexing of images.To perform automatic or semi-automatic indexing, it is necessary to build an automatic method for evaluating the similarity between two images.Our work is based on image signature methods ; these methods involve summarising the visual content of each image in a signature (single vector), and then using these signatures to compute the similarity between two images.To extract the signatures, we use the following pipeline: First, we extract a large number of local descriptors of the image; Then we summarize all these descriptors in a large signature; Finally, we strongly reduce the dimensionality of the resulting signature.The state of the art signatures based on this pipeline provide very good performance in automatic indexing.However, these methods generally incur high storage and computational costs that make their implementation impossible on large volumes of data.In this thesis, our goal is twofold : First, we wish to improve the image signatures to achieve very good performance in automatic indexing problems ; Second, we want to reduce the cost of the processing chain to enable scalability.We propose to improve an image signature of the state of the art named VLAT (Vectors of Locally Aggregated Tensors).Our improvements increase the discriminative power of the signature.To reduce the size of the signatures, we perform linear projections of the signatures in a lower dimensional space.We propose two methods to compute the projectors while maintaining the performance of the original signatures.Our first approach is to compute the projectors that best approximate the similarities between the original signatures.The second method is based on the retrieval of quasi-copies; We compute the projectors that meet the constraints on the rank of retrieved images with respect to the query image.The most expensive step of the extraction pipeline is the dimentionality reduction step; these costs are due to the large dimentionality of the projectors.To reduce these costs, we propose to use sparse projectors by introducing a sparsity constraint in our methods.Since it is generally complex to solve an optimization problem with a strict sparsity constraint, we propose for each problem a method for approximating sparse projectors.This thesis work is the subject of experiments showing the practical value of the proposed methods in comparison with existing methods
|
2 |
Enhanced image and video representation for visual recognition / Représentations d'image et de vidéo pour la reconnaissance visuelleJain, Mihir 09 April 2014 (has links)
L'objectif de cette thèse est d'améliorer les représentations des images et des vidéos dans le but d'obtenir une reconnaissance visuelle accrue, tant pour des entités spécifiques que pour des catégories plus génériques. Les contributions de cette thèse portent, pour l'essentiel, sur des méthodes de description du contenu visuel. Nous proposons des méthodes pour la recherche d'image par le contenu ou par des requêtes textuelles, ainsi que des méthodes pour la reconnaissance et la localisation d'action dans des vidéos. En recherche d'image, les contributions se fondent sur des méthodes `a base de plongements de Hamming. Tout d'abord, une méthode de comparaison asymétrique vecteur-`a-code est proposée pour améliorer la méthode originale, symétrique et utilisant une comparaison code-`a-code. Une méthode de classification fondée sur l'appariement de descripteurs locaux est ensuite proposée. Elle s'appuie sur une classification opérée dans un espace de similarités associées au plongement de Hamming. En reconnaissance d'action, les contributions portent essentiellement sur des meilleures manières d'exploiter et de représenter le mouvement. Finalement, une méthode de localisation est proposée. Elle utilise une partition de la vidéo en super-voxels, qui permet d'effectuer un échantillonnage 2D+t de suites de boîtes englobantes autour de zones spatio-temporelles d'intérêt. Elle s'appuie en particulier sur un critère de similarité associé au mouvement. Toutes les méthodes proposées sont évaluées sur des jeux de données publics. Ces expériences montrent que les méthodes proposées dans cette thèse améliorent l'état de l'art au moment de leur publication. / The subject of this thesis is about image and video representations for visual recognition. This thesis first focuses on image search, both for image and textual queries, and then considers the classification and the localization of actions in videos. In image retrieval, images similar to the query image are retrieved from a large dataset. On this front, we propose an asymmetric version of the Hamming Embedding method, where the comparison of query and database descriptors relies on a vector-to-binary code comparison. For image classification, where the task is to identify if an image contains any instance of the queried category, we propose a novel approach based on a match kernel between images, more specifically based on Hamming Embedding similarity. We also present an effective variant of the SIFT descriptor, which leads to a better classification accuracy. Action classification is improved by several methods to better employ the motion inherent to videos. This is done by dominant motion compensation, and by introducing a novel descriptor based on kinematic features of the visual flow. The last contribution is devoted to action localization, whose objective is to determine where and when the action of interest appears in the video. A selective sampling strategy produces 2D+t sequences of bounding boxes, which drastically reduces the candidate locations. The method advantageously exploits a criterion that takes in account how motion related to actions deviates from the background motion. We thoroughly evaluated all the proposed methods on real world images and videos from challenging benchmarks. Our methods outperform the previously published related state of the art and remains competitive with the subsequently proposed methods.
|
3 |
EXTENSION DU MODELE PAR SAC DE MOTS VISUELS POUR LA CLASSIFICATION D'IMAGESAvila, Sandra 14 June 2013 (has links) (PDF)
L'information visuelle, représentée sous la forme d'images ou de vidéos numériques, est devenue si omniprésente dans le monde numérique d'aujourd'hui, qu'elle ne peut plus être considérée comme un "citoyen de seconde zone", par rapport à l'information textuelle. Néanmoins, contrairement aux documents textuels, les images sont constituées de pixels ne portant pas d'information sémantique directement accessible, ajoutant ainsi une difficulté à la tâche d'interprétation. Dans ce contexte, la classification d'images est devenue une tâche critique. En particulier, l'identification automatique d'objets complexes et de concepts sémantiques dans les images, a suscité de nombreux travaux récents, aussi bien en Recherche d'Information, Vision par Ordinateur, Traitement d'Image qu'en Intelligence Artificielle. Dans cette thèse, nous traitons le problème de la représentation des images. Notre objectif est la détection de concepts à partir d'une analyse du contenu visuel des images et des vidéos. Pour cela, nous introduisons une nouvelle représentation qui enrichit le modèle classique par sacs de mots visuels. S'appuyant sur la quantification de descripteurs locaux, et l'agrégation de ces descripteurs quantifiés en un vecteur de caractéristique unique, le modèle par sacs de mots visuels a émergé comme l'approche la plus efficace pour la classification d'images. Nous proposons BossaNova, une nouvelle représentation d'images permettant de conserver plus d'information lors de l'opération d'agrégation (pooling) en exploitant la distribution des distances entre les descripteurs locaux et les mots visuels. L'évaluation expérimentale sur plusieurs bases de données de classification d'images, telles que ImageCLEF Photo Annotation, MIRFLICKR, PASCAL VOC et 15-Scenes, a montré l'intérêt de Bossanova vis-à-vis des techniques traditionnelles, même sans utiliser de combinaisons complexes de multiples descripteurs locaux.
|
4 |
Contribution des matériaux de couverture à la contamination métallique des eaux de ruissellement / Contribution of roofing materials to the metal contamination of runoffSainte, Pauline 28 April 2009 (has links)
Ce travail de thèse a visé le développement d’un outil d’évaluation des flux métalliques annuels émis par les matériaux de couvertures à l’échelle d’un bassin versant, dans le contexte architectural et météorologique de l’Île-de-France. La méthodologie mise en place pour tendre vers ce but repose sur (1) l’évaluation des émissions annuelles de métaux par différents matériaux métalliques de couverture classiquement utilisés dans la région grâce à une approche expérimentale sur bancs d’essais, (2) l’établissement d’un cadre méthodologique pour la modélisation des flux métalliques émis à l’échelle annuelle par les toitures d’un bassin versant qui se base d’une part sur la modélisation des émissions métalliques par les matériaux à différentes échelles spatiales et temporelles (en fonction de la pluviométrie, de la géométrie du toit…) à partir des données obtenues sur les bancs d’essais, et d’autre part sur la quantification des surfaces métalliques des toitures d’un bassin versant. La première partie du travail a donc consisté à développer et à exploiter, sur deux sites différents, des bancs d’essais expérimentaux d’1/2 m², testant 12 matériaux métalliques issus de 5 familles (zinc, cuivre, plomb acier, aluminium), sous différentes mises en oeuvre (panneaux, gouttières, crochets de fixation). 13 espèces métalliques ont été quantifiées dans les eaux de ruissellement collectées ce qui a permis (1) d’acquérir une importante base de données de taux de ruissellement annuels par les différents matériaux, mettant en évidence que les taux de ruissellement annuels obtenus peuvent être assez importants, de l’ordre de plusieurs grammes par m² et par an pour les éléments constitutifs des matériaux, (2) de hiérarchiser ces matériaux en fonction de leur potentiel polluant, à travers la définition d’un indice de contamination métallique se basant sur les émissions de Cd, Cu, Ni, Pb et Zn et permettant de tenir compte des différences de toxicité des métaux. Une modélisation des émissions métalliques par les matériaux à différentes échelles de temps a été réalisée, conduisant à la conclusion que la hauteur de pluie, ainsi que la durée d’exposition sont des paramètres fondamentaux. Il est apparu que la hauteur de pluie seule est suffisante pour modéliser les émissions métalliques par les matériaux à des échelles de temps longues mais ne suffit pas à modéliser ces émissions sur quelques semaines. Un modèle plus complexe, basé sur une hypothèse d’accumulation / dissolution de produits de corrosion à la surface des matériaux donne des résultats satisfaisant à ces échelles de temps plus courtes. L’extrapolation spatiale des résultats de ruissellement obtenus sur les bancs d’essais s’est basé sur d’autres expérimentations, d’abord sur bancs d’essais conduisant à la conclusion que la longueur d’écoulement n’a pas d’influence sur la masse de métal entraînée dans le ruissellement, qui peut être calculée à partir de la hauteur de pluie, de la surface projetée et de l’inclinaison du panneau (qui s’avère négligeable quand elle est inférieure à 50°); puis à l’échelle de toits réels pour une étape de validation. Dans la seconde partie de ce travail, la quantification des surfaces de rampants à l’échelle d’un bassin versant a été effectuée grâce à un outil de classification d’image basé sur l’analyse de la radiométrie des matériaux à partir d’une photo aérienne. Les résultats obtenus sont encourageants, avec environ 75 à 80% des toits qui bien classés à l’issue de la classification. Les principales erreurs reposent sur des confusions de l’outil entre des matériaux de radiométries voisines (ardoise / zinc par exemple, qui peuvent être proches en fonction du degré d’ensoleillement)... / This thesis aimed to develop a tool for the evaluation of annual metallic flows emitted from roofing materials at the scale of a watershed in the architectural and meteorological context of Paris conurbation. The methodology used in this work is based on (1) the assessment of annual metallic emissions from different metallic materials typically used for roofing in the region considered through an experimental test bed, (2) the establishment of a methodological framework for modelling the metallic flow emitted from the roofs of catchment area, which is based both on the modelling of metal emissions from the materials at different spatial and temporal scales (depending on rainfall, geometry of the roof ...) from data obtained on the test bed, and on the quantification of metallic surface areas of roofs in the catchment area. The first part of the work has been based on the exploitation of experimental test beds of 1 / 2 m², testing 12 metallic materials from 5 families (zinc, copper, lead, steel, aluminium) in various implemented (panels, gutters, fixing brackets, exposed on two different sites. 13 metallic species were quantified in the collected runoff which allowed (1) to acquire a large database of annual runoff rates by different materials, highlighting that the annual runoff rates obtained can be fairly important, with an order of magnitude of several grams per square meter per year for the constitutive elements of materials, (2)to classify these materials according to their polluting potential, through the definition of an index of metal contamination taking into consideration the emissions of Cd, Cu, Ni, Pb and Zn and the differences in toxicity of metals. A modelling of metal emissions from the materials at different time scales has been conducted, leading to the conclusion that the rainfall quantity and the duration of exposure are fundamental parameters. It appeared that the rainfall value is sufficient to model metallic emission from materials for long time scales but not enough to model these emissions on a few weeks period. A more complex model, based on an assumption of accumulation / dissolution of corrosion products on the surface of the material gives satisfactory results for these time-scales periods. The spatial extrapolation of results obtained on the test bed scale was based on other experiments, first on test beds, leading to the conclusion that the length of flow has no influence on the mass of metal entrained in the runoff, which can be calculated from the rainfall quantity, the projected area and inclination of the panel (which is negligible when it is below 50 °), and then at the real roof scale for a validation step. In the second part of this work, quantification of surface areas of roofs at the scale of the catchment was conducted using a classification tool image analysis based on the radiometry of materials. The results are encouraging, with about 75 to 80% of roofs ranked on the basis of classification. The main errors are due to confusions between materials presenting nearby radiometry (slate / zinc, for example, which can be close depending on the amount of sunshine). Exploratory work was conducted for the consideration of singular elements - usually realized in metal -, from the use of unified technical documents. The evaluation of metal surfaces concerned has proved difficult to implement in an automatic way because of the small size of these elements, not visible on an aerial photo
|
5 |
Contribution des matériaux de couverture à la contamination métallique des eaux de ruissellementSainte, Pauline 28 April 2009 (has links) (PDF)
Ce travail de thèse a visé le développement d'un outil d'évaluation des flux métalliques annuels émis par les matériaux de couvertures à l'échelle d'un bassin versant, dans le contexte architectural et météorologique de l'Île-de-France. La méthodologie mise en place pour tendre vers ce but repose sur (1) l'évaluation des émissions annuelles de métaux par différents matériaux métalliques de couverture classiquement utilisés dans la région grâce à une approche expérimentale sur bancs d'essais, (2) l'établissement d'un cadre méthodologique pour la modélisation des flux métalliques émis à l'échelle annuelle par les toitures d'un bassin versant qui se base d'une part sur la modélisation des émissions métalliques par les matériaux à différentes échelles spatiales et temporelles (en fonction de la pluviométrie, de la géométrie du toit...) à partir des données obtenues sur les bancs d'essais, et d'autre part sur la quantification des surfaces métalliques des toitures d'un bassin versant. La première partie du travail a donc consisté à développer et à exploiter, sur deux sites différents, des bancs d'essais expérimentaux d'1/2 m², testant 12 matériaux métalliques issus de 5 familles (zinc, cuivre, plomb acier, aluminium), sous différentes mises en oeuvre (panneaux, gouttières, crochets de fixation). 13 espèces métalliques ont été quantifiées dans les eaux de ruissellement collectées ce qui a permis (1) d'acquérir une importante base de données de taux de ruissellement annuels par les différents matériaux, mettant en évidence que les taux de ruissellement annuels obtenus peuvent être assez importants, de l'ordre de plusieurs grammes par m² et par an pour les éléments constitutifs des matériaux, (2) de hiérarchiser ces matériaux en fonction de leur potentiel polluant, à travers la définition d'un indice de contamination métallique se basant sur les émissions de Cd, Cu, Ni, Pb et Zn et permettant de tenir compte des différences de toxicité des métaux. Une modélisation des émissions métalliques par les matériaux à différentes échelles de temps a été réalisée, conduisant à la conclusion que la hauteur de pluie, ainsi que la durée d'exposition sont des paramètres fondamentaux. Il est apparu que la hauteur de pluie seule est suffisante pour modéliser les émissions métalliques par les matériaux à des échelles de temps longues mais ne suffit pas à modéliser ces émissions sur quelques semaines. Un modèle plus complexe, basé sur une hypothèse d'accumulation / dissolution de produits de corrosion à la surface des matériaux donne des résultats satisfaisant à ces échelles de temps plus courtes. L'extrapolation spatiale des résultats de ruissellement obtenus sur les bancs d'essais s'est basé sur d'autres expérimentations, d'abord sur bancs d'essais conduisant à la conclusion que la longueur d'écoulement n'a pas d'influence sur la masse de métal entraînée dans le ruissellement, qui peut être calculée à partir de la hauteur de pluie, de la surface projetée et de l'inclinaison du panneau (qui s'avère négligeable quand elle est inférieure à 50°); puis à l'échelle de toits réels pour une étape de validation. Dans la seconde partie de ce travail, la quantification des surfaces de rampants à l'échelle d'un bassin versant a été effectuée grâce à un outil de classification d'image basé sur l'analyse de la radiométrie des matériaux à partir d'une photo aérienne. Les résultats obtenus sont encourageants, avec environ 75 à 80% des toits qui bien classés à l'issue de la classification. Les principales erreurs reposent sur des confusions de l'outil entre des matériaux de radiométries voisines (ardoise / zinc par exemple, qui peuvent être proches en fonction du degré d'ensoleillement)...
|
6 |
Apprentissage de Modèles pour la Classification et la Recherche d'ImagesMensink, Thomas 26 October 2012 (has links) (PDF)
Nous assistons actuellement à une explosion de la quantité des données visuelles. Par exemple, plusieurs millions de photos sont partagées quotidiennement sur les réseaux sociaux. Les méthodes d'interprétation d'images vise à faciliter l'accès à ces données visuelles, d'une manière sémantiquement compréhensible. Dans ce manuscrit, nous définissons certains buts détaillés qui sont intéressants pour les taches d'interprétation d'images, telles que la classification ou la recherche d'images, que nous considérons dans les trois chapitres principaux. Tout d'abord, nous visons l'exploitation de la nature multimodale de nombreuses bases de données, pour lesquelles les documents sont composés d'images et de descriptions textuelles. Dans ce but, nous définissons des similarités entre le contenu visuel d'un document, et la description textuelle d'un autre document. Ces similarités sont calculées en deux étapes, tout d'abord nous trouvons les voisins visuellement similaires dans la base multimodale, puis nous utilisons les descriptions textuelles de ces voisins afin de définir une similarité avec la description textuelle de n'importe quel document. Ensuite, nous présentons une série de modèles structurés pour la classification d'images, qui encodent explicitement les interactions binaires entre les étiquettes (ou labels). Ces modèles sont plus expressifs que des prédicateurs d'étiquette indépendants, et aboutissent à des prédictions plus fiables, en particulier dans un scenario de prédiction interactive, où les utilisateurs fournissent les valeurs de certaines des étiquettes d'images. Un scenario interactif comme celui-ci offre un compromis intéressant entre la précision, et l'effort d'annotation manuelle requis. Nous explorons les modèles structurés pour la classification multi-étiquette d'images, pour la classification d'image basée sur les attributs, et pour l'optimisation de certaines mesures de rang spécifiques. Enfin, nous explorons les classifieurs par k plus proches voisins, et les classifieurs par plus proche moyenne, pour la classification d'images à grande échelle. Nous proposons des méthodes d'apprentissage de métrique efficaces pour améliorer les performances de classification, et appliquons ces méthodes à une base de plus d'un million d'images d'apprentissage, et d'un millier de classes. Comme les deux méthodes de classification permettent d'incorporer des classes non vues pendant l'apprentissage à un coût presque nul, nous avons également étudié leur performance pour la généralisation. Nous montrons que la classification par plus proche moyenne généralise à partir d'un millier de classes, sur dix mille classes à un coût négligeable, et les performances obtenus sont comparables à l'état de l'art.
|
7 |
Classification d'images et localisation d'objets par des méthodes de type noyau de FisherCinbis, Ramazan Gokberk 22 July 2014 (has links) (PDF)
Dans cette thèse, nous proposons des modèles et des méthodes dédiés à des taches de compréhension de l'image. En particulier, nous nous penchons sur des approches de type noyau de Fisher pour la classification d'images et la localisation d'objets. Nos études se répartissent en trois chapitres. En premier lieu, nous proposons de nouveaux descripteurs d'images construits sur des modèles non-iid de l'image. Notre point de départ est l'observation que les régions locales d'une image sont souvent supposées indépendentes et identiquement distribuées (iid) dans les modèles de type sacs-de-mots (SdM). Nous introduisons des modèles non-iid en traitant les paramètres du SdM comme des variables latentes, ce qui rend interdépendantes toutes les régions locales. En utilisant le noyau de Fisher, nous encodons une image par le gradient de sa log-vraisemblance par rapport aux hyper-paramètres du modèle. Notre représentation implique naturellement une invariance à certaines transformations, ce qui explique pourquoi de telles approches ont été courronnées de succès. En utilisant l'inférence variationnelle, nous étendons le modèle de base pour inclure un mélange de gaussiennes sur les descripteurs locaux, et un modèle latent de sujets pour capturer la structure co-occurente des mots visuels. Dans un second temps, nous présentons un système de détection d'objet reposant sur la représentation haute-dimension d'images par le vecteur de Fisher. Pour des raisons de complexité en temps et en espace, nous utilisons une méthode récente à base de segmentation pour engendrer des hypothèses de détection indépendantes des classes, ainsi que des techniques de compression. Notre principale contribution est une méthode pour produire des masques de segmentation potentiels, afin de supprimer le bruit du descripteur dû à l'arrière plan. Nous montrons que repondérer les descripteurs locaux de l'image en fonction de ces masques améliore significativement la performance en détection. Troisièmement, nous proposons une approche semi-supervisée pour la localisation d'objets. L'entrainement supervisé usuel de détecteurs d'objets nécessite l'annotation de boites englobantes des instances de ces objets. Ce processus coûteux est évité en apprentissage semi-supervisé, lequel ne nécessite que des étiquettes binaires indiquant la présence ou l'absence des objets. Nous suivons une approche d'apprentissage à instance multiple en alterne itérativement entre entrainer un détecteur et inférer les positions des objets. Notre contribution principale est une procédure multi-état d'apprentissage à instance multiple, qui évite à l'apprentissage de se focaliser prématurément sur des positions d'objets erronnées. Nous montrons que cette procédure est particulièrement importante lorsque des représentations haute-dimensions comme le vecteur de Fisher sont utilisées. Pour finir, nous présentons dans l'appendice de cette thèse notre travail sur l'identification de personnes dans des vidéos télévision non-contrôlées. Nous montrons qu'une distance adaptée au casting peut être apprise sans étiqueter d'exemple d'apprentissage, mais en utilisant des paires de visages au sein d'un même chemin et sur plusieurs chemins se chevauchant temporellement. Nous montrons que la métrique apprise améliore l'identification de chemins de visages, la reconnaissance et les performances en regroupement.
|
8 |
Enhanced image and video representation for visual recognitionJain, Mihir 09 April 2014 (has links) (PDF)
L'objectif de cette thèse est d'améliorer les représentations des images et des vidéos dans le but d'obtenir une reconnaissance visuelle accrue, tant pour des entités spécifiques que pour des catégories plus génériques. Les contributions de cette thèse portent, pour l'essentiel, sur des méthodes de description du contenu visuel. Nous proposons des méthodes pour la recherche d'image par le contenu ou par des requêtes textuelles, ainsi que des méthodes pour la reconnaissance et la localisation d'action dans des vidéos. En recherche d'image, les contributions se fondent sur des méthodes à base de plongements de Hamming. Tout d'abord, une méthode de comparaison asymétrique vecteur-à-code est proposée pour améliorer la méthode originale, symétrique et utilisant une comparaison code-à-code. Une méthode de classification fondée sur l'appariement de descripteurs locaux est ensuite proposée. Elle s'appuie sur une classification opérée dans un espace de similarités associées au plongement de Hamming. En reconnaissance d'action, les contributions portent essentiellement sur des meilleures manières d'exploiter et de représenter le mouvement. Finalement, une méthode de localisation est proposée. Elle utilise une partition de la vidéo en super-voxels, qui permet d'effectuer un échantillonnage 2D+t de suites de boîtes englobantes autour de zones spatio-temporelles d'intérêt. Elle s'appuie en particulier sur un critère de similarité associé au mouvement. Toutes les méthodes proposées sont évaluées sur des jeux de données publics. Ces expériences montrent que les méthodes proposées dans cette thèse améliorent l'état de l'art au moment de leur publication.
|
9 |
Contributions à l'apprentissage grande échelle pour la classification d'imagesAkata, Zeynep 06 January 2014 (has links) (PDF)
La construction d'algorithmes classifiant des images à grande échelle est devenue une tache essentielle du fait de la difficulté d'effectuer des recherches dans les immenses collections de données visuelles inetiquetées présentes sur Internet. Nous visons à classifier des images en fonction de leur contenu pour simplifier la gestion de telles bases de données. La classification d'images à grande échelle est un problème complèxe, de par l'importance de la taille des ensembles de données, tant en nombre d'images qu'en nombre de classes. Certaines de ces classes sont dites "fine-grained" (sémantiquement proches les unes des autres) et peuvent même ne contenir aucun représentant étiqueté. Dans cette thèse, nous utilisons des représentations état de l'art d'images et nous concentrons sur des méthodes d'apprentissage efficaces. Nos contributions sont (1) un banc d'essai d'algorithmes d'apprentissage pour la classification à grande échelle et (2) un nouvel algorithme basé sur l'incorporation d'étiquettes pour apprendre sur des données peu abondantes. En premier lieu, nous introduisons un banc d'essai d'algorithmes d'apprentissage pour la classification à grande échelle, dans le cadre entièrement supervisé. Il compare plusieurs fonctions objectifs pour apprendre des classifieurs linéaires, tels que "un contre tous", "multiclasse", "ranking", "ranking pondéré moyen" par descente de gradient stochastique. Ce banc d'essai se conclut en un ensemble de recommandations pour la classification à grande échelle. Avec une simple repondération des données, la stratégie "un contre tous" donne des performances meilleures que toutes les autres. Par ailleurs, en apprentissage en ligne, un pas d'apprentissage assez petit s'avère suffisant pour obtenir des résultats au niveau de l'état de l'art. Enfin, l'arrêt anticipé de la descente de gradient stochastique introduit une régularisation qui améliore la vitesse d'entraînement ainsi que la capacité de régularisation. Deuxièmement, face à des milliers de classes, il est parfois difficile de rassembler suffisamment de données d'entraînement pour chacune des classes. En particulier, certaines classes peuvent être entièrement dénuées d'exemples. En conséquence, nous proposons un nouvel algorithme adapté à ce scénario d'apprentissage dit "zero-shot". notre algorithme utilise des données parallèles, comme les attributs, pour incorporer les classes dans un espace euclidien. Nous introduisons par ailleurs une fonction pour mesurer la compatibilité entre image et étiquette. Les paramètres de cette fonction sont appris en utilisant un objectif de type "ranking". Notre algorithme dépasse l'état de l'art pour l'apprentissage "zero-shot", et fait preuve d'une grande flexibilité en permettant d'incorporer d'autres sources d'information parallèle, comme des hiérarchies. Il permet en outre une transition sans heurt du cas "zero-shot" au cas où peu d'exemples sont disponibles.
|
10 |
Contributions à l'apprentissage grande échelle pour la classification d'images / Contributions to large-scale learning for image classificationAkata, Zeynep 06 January 2014 (has links)
La construction d'algorithmes classifiant des images à grande échelle est devenue une t^ache essentielle du fait de la difficulté d'effectuer des recherches dans les immenses collections de données visuelles non-etiquetées présentes sur Internet. L'objetif est de classifier des images en fonction de leur contenu pour simplifier la gestion de telles bases de données. La classification d'images à grande échelle est un problème complexe, de par l'importance de la taille des ensembles de données, tant en nombre d'images qu'en nombre de classes. Certaines de ces classes sont dites "fine-grained" (sémantiquement proches les unes des autres) et peuvent même ne contenir aucun représentant étiqueté. Dans cette thèse, nous utilisons des représentations à l'état de l'art d'images et nous concentrons sur des méthodes d'apprentissage efficaces. Nos contributions sont (1) un banc d'essai d'algorithmes d'apprentissage pour la classification à grande échelle et (2) un nouvel algorithme basé sur l'incorporation d'étiquettes pour apprendre sur des données peu abondantes. En premier lieu, nous introduisons un banc d'essai d'algorithmes d'apprentissage pour la classification à grande échelle, dans un cadre entièrement supervisé. Il compare plusieurs fonctions objectifs pour apprendre des classifieurs linéaires, tels que "un contre tous", "multiclasse", "classement", "classement avec pondération" par descente de gradient stochastique. Ce banc d'essai se conclut en un ensemble de recommandations pour la classification à grande échelle. Avec une simple repondération des données, la stratégie "un contre tous" donne des performances meilleures que toutes les autres. Par ailleurs, en apprentissage en ligne, un pas d'apprentissage assez petit s'avère suffisant pour obtenir des résultats au niveau de l'état de l'art. Enfin, l'arrêt prématuré de la descente de gradient stochastique introduit une régularisation qui améliore la vitesse d'entraînement ainsi que la capacité de régularisation. Deuxièmement, face à des milliers de classes, il est parfois difficile de rassembler suffisamment de données d'entraînement pour chacune des classes. En particulier, certaines classes peuvent être entièrement dénuées d'exemples. En conséquence, nous proposons un nouvel algorithme adapté à ce scénario d'apprentissage dit "zero-shot". Notre algorithme utilise des données parallèles, comme les attributs, pour incorporer les classes dans un espace euclidien. Nous introduisons par ailleurs une fonction pour mesurer la compatibilité entre image et étiquette. Les paramètres de cette fonction sont appris en utilisant un objectif de type "ranking". Notre algorithme dépasse l'état de l'art pour l'apprentissage "zero-shot", et fait preuve d'une grande flexibilité en permettant d'incorporer d'autres sources d'information parallèle, comme des hiérarchies. Il permet en outre une transition sans heurt du cas "zero-shot" au cas où peu d'exemples sont disponibles. / Building algorithms that classify images on a large scale is an essential task due to the difficulty in searching massive amount of unlabeled visual data available on the Internet. We aim at classifying images based on their content to simplify the manageability of such large-scale collections. Large-scale image classification is a difficult problem as datasets are large with respect to both the number of images and the number of classes. Some of these classes are fine grained and they may not contain any labeled representatives. In this thesis, we use state-of-the-art image representations and focus on efficient learning methods. Our contributions are (1) a benchmark of learning algorithms for large scale image classification, and (2) a novel learning algorithm based on label embedding for learning with scarce training data. Firstly, we propose a benchmark of learning algorithms for large scale image classification in the fully supervised setting. It compares several objective functions for learning linear classifiers such as one-vs-rest, multiclass, ranking and weighted average ranking using the stochastic gradient descent optimization. The output of this benchmark is a set of recommendations for large-scale learning. We experimentally show that, online learning is well suited for large-scale image classification. With simple data rebalancing, One-vs-Rest performs better than all other methods. Moreover, in online learning, using a small enough step size with respect to the learning rate is sufficient for state-of-the-art performance. Finally, regularization through early stopping results in fast training and a good generalization performance. Secondly, when dealing with thousands of classes, it is difficult to collect sufficient labeled training data for each class. For some classes we might not even have a single training example. We propose a novel algorithm for this zero-shot learning scenario. Our algorithm uses side information, such as attributes to embed classes in a Euclidean space. We also introduce a function to measure the compatibility between an image and a label. The parameters of this function are learned using a ranking objective. Our algorithm outperforms the state-of-the-art for zero-shot learning. It is flexible and can accommodate other sources of side information such as hierarchies. It also allows for a smooth transition from zero-shot to few-shots learning.
|
Page generated in 0.132 seconds