• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 108
  • 54
  • 15
  • Tagged with
  • 178
  • 73
  • 68
  • 52
  • 49
  • 41
  • 39
  • 38
  • 33
  • 29
  • 28
  • 27
  • 27
  • 26
  • 26
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Indexation de la vidéo portée : application à l’étude épidémiologique des maladies liées à l’âge / Indexing of activities in wearable videos : application to epidemiological studies of aged dementia

Karaman, Svebor 12 December 2011 (has links)
Le travail de recherche de cette thèse de doctorat s'inscrit dans le cadre du suivi médical des patients atteints de démences liées à l'âge à l'aide des caméras videos portées par les patients. L'idée est de fournir aux médecins un nouvel outil pour le diagnostic précoce de démences liées à l'âge telles que la maladie d'Alzheimer. Plus précisément, les Activités Instrumentales du Quotidien (IADL: Instrumental Activities of Daily Living en anglais) doivent être indexées automatiquement dans les vidéos enregistrées par un dispositif d'enregistrement portable.Ces vidéos présentent des caractéristiques spécifiques comme de forts mouvements ou de forts changements de luminosité. De plus, la tâche de reconnaissance visée est d'un très haut niveau sémantique. Dans ce contexte difficile, la première étape d'analyse est la définition d'un équivalent à la notion de « plan » dans les contenus vidéos édités. Nous avons ainsi développé une méthode pour le partitionnement d'une vidéo tournée en continu en termes de « points de vue » à partir du mouvement apparent.Pour la reconnaissance des IADL, nous avons développé une solution selon le formalisme des Modèles de Markov Cachés (MMC). Un MMC hiérarchique à deux niveaux a été introduit, modélisant les activités sémantiques ou des états intermédiaires. Un ensemble complexe de descripteurs (dynamiques, statiques, de bas niveau et de niveau intermédiaire) a été exploité et les espaces de description joints optimaux ont été identifiés expérimentalement.Dans le cadre de descripteurs de niveau intermédiaire pour la reconnaissance d'activités nous nous sommes particulièrement intéressés aux objets sémantiques que la personne manipule dans le champ de la caméra. Nous avons proposé un nouveau concept pour la description d'objets ou d'images faisant usage des descripteurs locaux (SURF) et de la structure topologique sous-jacente de graphes locaux. Une approche imbriquée pour la construction des graphes où la même scène peut être décrite par plusieurs niveaux de graphes avec un nombre de nœuds croissant a été introduite. Nous construisons ces graphes par une triangulation de Delaunay sur des points SURF, préservant ainsi les bonnes propriétés des descripteurs locaux c'est-à-dire leur invariance vis-à-vis de transformations affines dans le plan image telles qu'une rotation, une translation ou un changement d'échelle.Nous utilisons ces graphes descripteurs dans le cadre de l'approche Sacs-de-Mots-Visuels. Le problème de définition d'une distance, ou dissimilarité, entre les graphes pour la classification non supervisée et la reconnaissance est nécessairement soulevé. Nous proposons une mesure de dissimilarité par le Noyau Dépendant du Contexte (Context-Dependent Kernel: CDK) proposé par H. Sahbi et montrons sa relation avec la norme classique L2 lors de la comparaison de graphes triviaux (les points SURF).Pour la reconnaissance d'activités par MMC, les expériences sont conduites sur le premier corpus au monde de vidéos avec caméra portée destiné à l'observation des d'IADL et sur des bases de données publiques comme SIVAL et Caltech-101 pour la reconnaissance d'objets. / The research of this PhD thesis is fulfilled in the context of wearable video monitoring of patients with aged dementia. The idea is to provide a new tool to medical practitioners for the early diagnosis of elderly dementia such as the Alzheimer disease. More precisely, Instrumental Activities of Daily Living (IADL) have to be indexed in videos recorded with a wearable recording device.Such videos present specific characteristics i.e. strong motion or strong lighting changes. Furthermore, the tackled recognition task is of a very strong semantics. In this difficult context, the first step of analysis is to define an equivalent to the notion of “shots” in edited videos. We therefore developed a method for partitioning continuous video streams into viewpoints according to the observed motion in the image plane.For the recognition of IADLs we developed a solution based on the formalism of Hidden Markov Models (HMM). A hierarchical HMM with two levels modeling semantic activities or intermediate states has been introduced. A complex set of features (dynamic, static, low-level, mid-level) was proposed and the most effective description spaces were identified experimentally.In the mid-level features for activities recognition we focused on the semantic objects the person manipulates in the camera view. We proposed a new concept for object/image description using local features (SURF) and the underlying semi-local connected graphs. We introduced a nested approach for graphs construction when the same scene can be described by levels of graphs with increasing number of nodes. We build these graphs with Delaunay triangulation on SURF points thus preserving good properties of local features i.e. the invariance with regard to affine transformation of image plane: rotation, translation and zoom.We use the graph features in the Bag-of-Visual-Words framework. The problem of distance or dissimilarity definition between graphs for clustering or recognition is obviously arisen. We propose a dissimilarity measure based on the Context Dependent Kernel of H. Sahbi and show its relation with the classical entry-wise norm when comparing trivial graphs (SURF points).The experiments are conducted on the first corpus in the world of wearable videos of IADL for HMM based activities recognition, and on publicly available academic datasets such as SIVAL and Caltech-101 for object recognition.
92

Video inpainting and semi-supervised object removal / Inpainting de vidéos et suppression d'objets semi-supervisée

Le, Thuc Trinh 06 June 2019 (has links)
De nos jours, l'augmentation rapide de les vidéos crée une demande massive d'applications d'édition de vidéos. Dans cette thèse, nous résolvons plusieurs problèmes relatifs au post-traitement vidéo. Nous nous concentrons sur l'application de suppression d'objets en vidéo. Pour mener à bien cette tâche, nous l'avons divisé en deux problèmes: (1) une étape de segmentation des objets vidéo pour sélectionner les objets à supprimer et (2) une étape d'inpainting vidéo pour remplir les zones endommagées. Pour le problème de la segmentation vidéo, nous concevons un système adapté aux applications de suppression d’objets avec différentes exigences en termes de précision et d’efficacité. Notre approche repose sur la combinaison de réseaux de neurones convolutifs (CNN) pour la segmentation et de la méthode classique de suivi des masks. Nous adoptons des réseaux de segmentation d’images et les appliquons à la casse vidéo en effectuant une segmentation image par image. En exploitant à la fois les formations en ligne et hors ligne avec uniquement une annotation de première image, les réseaux sont en mesure de produire une segmentation extrêmement précise des objets vidéo. En outre, nous proposons un module de suivi de masque pour assurer la continuité temporelle et un module de liaison de masque pour assurer la cohérence de l'identité entre les trames. De plus, nous présentons un moyen simple d’apprendre la couche de dilatation dans le masque, ce qui nous aide à créer des masques appropriés pour l’application de suppression d’objets vidéo.Pour le problème d’inpainting vidéo, nous divisons notre travail en deux catégories basées sur le type de fond. En particulier, nous présentons une méthode simple de propagation de pixels guidée par le mouvement pour traiter les cas d’arrière-plan statiques. Nous montrons que le problème de la suppression d'objets avec un arrière-plan statique peut être résolu efficacement en utilisant une technique simple basée sur le mouvement. Pour traiter le fond dynamique, nous introduisons la méthode d’inpainting vidéo en optimisant une fonction d’énergie globale basée sur des patchs. Pour augmenter la vitesse de l'algorithme, nous avons proposé une extension parallèle de l'algorithme 3D PatchMatch. Pour améliorer la précision, nous intégrons systématiquement le flux optique dans le processus global. Nous nous retrouvons avec une méthode d’inpainting vidéo capable de reconstruire des objets en mouvement ainsi que de reproduire des textures dynamiques tout en fonctionnant dans des délais raisonnables.Enfin, nous combinons les méthodes de segmentation des objets vidéo et d’inpainting vidéo dans un système unifié pour supprimer les objets non souhaités dans les vidéos. A notre connaissance, il s'agit du premier système de ce type. Dans notre système, l'utilisateur n'a qu'à délimiter approximativement dans le premier cadre les objets à modifier. Ce processus d'annotation est facilité par l'aide de superpixels. Ensuite, ces annotations sont affinées et propagées dans la vidéo par la méthode de segmentation des objets vidéo. Un ou plusieurs objets peuvent ensuite être supprimés automatiquement à l’aide de nos méthodes d’inpainting vidéo. Il en résulte un outil de montage vidéo informatique flexible, avec de nombreuses applications potentielles, allant de la suppression de la foule à la correction de scènes non physiques. / Nowadays, the rapid increase of video creates a massive demand for video-based editing applications. In this dissertation, we solve several problems relating to video post-processing and focus on objects removal application in video. To complete this task, we divided it into two problems: (1) A video objects segmentation step to select which objects to remove and (2) a video inpainting step to filling the damaged regions.For the video segmentation problem, we design a system which is suitable for object removal applications with different requirements in terms of accuracy and efficiency. Our approach relies on the combination of Convolutional Neural Networks (CNNs) for segmentation and the classical mask tracking method. In particular, we adopt the segmentation networks for image case and apply them to video case by performing frame-by-frame segmentation. By exploiting both offline and online training with first frame annotation only, the networks are able to produce highly accurate video object segmentation. Besides, we propose a mask tracking module to ensure temporal continuity and a mask linking module to ensure the identity coherence across frames. Moreover, we introduce a simple way to learn the dilation layer in the mask, which helps us create suitable masks for video objects removal application.For the video inpainting problem, we divide our work into two categories base on the type of background. In particular, we present a simple motion-guided pixel propagation method to deal with static background cases. We show that the problem of objects removal with a static background can be solved efficiently using a simple motion-based technique. To deal with dynamic background, we introduce video inpainting method by optimization a global patch-based energy function. To increase the speed of the algorithm, we proposed a parallel extension of the 3D PatchMatch algorithm. To improve accuracy, we systematically incorporate the optical flow in the overall process. We end up with a video inpainting method which is able to reconstruct moving objects as well as reproduce dynamic textures while running in a reasonable time.Finally, we combine the video objects segmentation and video inpainting methods into a unified system to removes undesired objects in videos. To the best of our knowledge, this is the first system of this kind. In our system, the user only needs to approximately delimit in the first frame the objects to be edited. These annotation process is facilitated by the help of superpixels. Then, these annotations are refined and propagated through the video by the video objects segmentation method. One or several objects can then be removed automatically using our video inpainting methods. This results in a flexible computational video editing tool, with numerous potential applications, ranging from crowd suppression to unphysical scenes correction.
93

Stratégies de récupération et de sélection de l'information lexicale au cours du vieillissement sain : .Evaluation multimodale des mécanismes de réorganisation cérébrale et impact des activités sociales sur les performances de dénomination orale d'objets / Lexical retrieval and selection strategies in normal aging. : A multimodal assessment of cerebral reorganization mechanisms and of the effect of social activities on object naming performance

Hoyau, Elena 30 November 2018 (has links)
Lors du vieillissement sain, et malgré une augmentation de la fréquence d’apparition du manque du mot, les personnes âgées manifestent une préservation des performances de dénomination orale d’objets (DO), suggérant la mise en place de stratégies efficaces de récupération et de sélection de l’information lexicale. Dans ce travail de thèse, nous avons utilisé une approche méthodologique multimodale afin d’évaluer la nature de ces stratégies. Nous nous sommes plus spécifiquement intéressés aux mécanismes de réorganisation cérébrale ainsi qu’aux activités sociales comme facteur de réserve cognitive. Ce travail de thèse se décompose en cinq études et aborde une perspective homogène (effet de l’âge) et hétérogène (effet des performances) du vieillissement. Nos résultats mettent en évidence l’existence de différents mécanismes de compensation associés au vieillissement sain. Tout d’abord, nous observons que les personnes âgées sont plus lentes que les jeunes adultes lors de la DO, mais obtiennent un taux de précision similaire. D’après la perspective homogène, le maintien des performances de DO s’expliquerait par le recrutement d’une stratégie de nature sémantique. Au niveau cérébral, nous observons une augmentation de l’asymétrie intra-hémisphérique gauche des régions temporo-pariétales chez les personnes âgées, ainsi qu’un transfert de la connectivité normalement observée du gyrus frontal inférieur (GFI) gauche avec le gyrus temporal latéral au gyrus temporal médial gauche. D’après la perspective hétérogène, le maintien des performances de DO s’expliquerait par l’utilisation d’une stratégie de nature exécutive, reflétée par une réduction de l’asymétrie inter-hémisphérique frontale chez les personnes âgées dont les temps de réponse de DO sont courts. Par ailleurs, nous proposons que l’encodage lexico-phonologique module également le taux de précision de DO, via la connectivité effective entre le GFI gauche et le gyrus temporal supérieur gauche. Enfin, nous observons une relation significative entre la fréquence de participation aux activités sociales, notamment collectives, et les performances de DO. Cette relation est partiellement médiée au niveau cérébral par l’activité du gyrus frontal supérieur médian gauche, via un mécanisme de réserve neurale. Sur la base de nos résultats, nous proposons un modèle neurocognitif des stratégies de récupération et de sélection de l’information lexicale, utilisant une approche multimodale et plurifactorielle du vieillissement sain. / Despite increased difficulties to find words in the daily life, older adults show preserved object naming performances when compared to younger ones. This suggests a supplementary recruitment of compensatory strategies in order to retrieve and select words. In this research work, we have used a multimodal methodological approach to evaluate the nature of these strategies, by using an object naming task. Specifically, we have evaluated these strategies in terms of mechanisms of cerebral reorganization. We were also interested to know how these strategies are modulated by the frequency of social activities, considered as a factor of cognitive reserve. This thesis work is composed of five studies performed under a homogeneous (effect of age) and a heterogeneous (effect of performance) perspective. Based on results, we suggest that aging is associated with multiple compensatory mechanisms to maintain a correct level of performance. Specifically, according to the homogeneous perspective, we consider that preserved object naming performances in older adults might be explained by the use of a semantic strategy. Indeed, in older compared to younger adults and at a cerebral level, we observed increased left hemispheric asymmetry with significant recruitment of the temporo-parietal regions. In addition, the inferior frontal gyrus (IFG) that is connected to the lateral temporal cortex in younger adults, seems to “switch” its connectivity toward the left medial temporal gyrus in older adults. In addition, according to the heterogeneous perspective, preserved object naming performances in older adults can be also explained by the use of an executive strategy, reflected by reduced inter-hemispheric asymmetry of frontal regions, specifically in more performant older adults (with shorter response latencies). Furthermore, we suggest that lexico-phonological processes mediate naming accuracy as reflected by the increased connectivity from the left IFG to the left superior temporal gyrus. A final result that we report in this work indicates that the frequency of participation to group social activities correlates to naming performance in older adults. This relation is partially mediated by the left superior medial frontal gyrus and is assimilated to a neural reserve mechanism. Overall, based on our findings, we propose a neurocognitive model of lexical retrieval and selection strategies in normal aging, based on a multimodal dataset and a multifactorial approach.
94

Apprentissage statistique de classes sémantiques pour l'interprétation d'images aériennes / Learning of semantic classes for aerial image analysis

Randrianarivo, Hicham 15 December 2016 (has links)
Ce travail concerne l'interprétation du contenu des images aériennes optiques panchromatiques très haute résolution. Deux méthodes pour la classification du contenu de ces images ont été développées. Une méthode basée sur la détection des instances des différentes catégories d'objets et une autre méthode basée sur la segmentation sémantique des superpixels de l'image utilisant un modèle de contexte entre les différentes instances des superpixels. La méthode de détection des objets dans une image très haute résolution est basée sur l'apprentissage d'un mélange de modèle d'apparence de la catégorie d'objets à détecter puis d'une fusion des hypothèses renvoyées par les différents modèles. Nous proposons une méthode de partitionnement en sous catégories visuelles basée sur une procédure en deux étapes des exemples d'apprentissages de la base en fonction des métadonnées disponibles et de l'apparence des exemples d'apprentissage. Cette phase de partitionnement permet d'apprendre des modèles d'apparence où chacun est spécialisés dans la reconnaissance d'une sous-partie de la base et dont la fusion permet la généralisation de la détection à l'ensemble des objets de la classe. Les performances du détecteur ainsi obtenu sont évaluées sur plusieurs bases d'images aériennes très haute résolution à des résolution différentes et en plusieurs endroits du monde. La méthode de segmentation sémantique contextuelle développée utilise une combinaison de la description visuelle d'un superpixel extrait d'une image et des informations de contexte extraient entre un superpixel et ses voisins. La représentation du contexte entre les superpixels est obtenu en utilisant une représentation par modèle graphique entre les superpixels voisins. Les noeuds du graphes étant la représentation visuelle d'un superpixel et les arêtes la représentation contextuelle entre deux voisins. Enfin nous présentons une méthode de prédiction de la catégorie d'un superpixel en fonction des décisions données par les voisins pour rendre les prédictions plus robustes. La méthode a été testé sur une base d'image aérienne très haute résolution. / This work is about interpretation of the content of very high resolution aerial optical panchromatic images. Two methods are proposed for the classification of this kind of images. The first method aims at detecting the instances of a class of objects and the other method aims at segmenting superpixels extracted from the images using a contextual model of the relations between the superpixels. The object detection method in very high resolution images uses a mixture of appearance models of a class of objects then fuses the hypothesis returned by the models. We develop a method that clusters training samples into visual subcategories based on a two stages procedure using metadata and visual information. The clustering part allows to learn models that are specialised in recognizing a subset of the dataset and whose fusion lead to a generalization of the object detector. The performances of the method are evaluate on several dataset of very high resolution images at several resolutions and several places. The method proposed for contextual semantic segmentation use a combination of visual description of a superpixel extract from the image and contextual information gathered between a superpixel and its neighbors. The contextual representation is based on a graph where the nodes are the superpixels and the edges are the relations between two neighbors. Finally we predict the category of a superpixel using the predictions made by of the neighbors using the contextual model in order to make the prediction more reliable. We test our method on a dataset of very high resolution images.
95

Construction et Présentation des Vidéos Interactives

Hammoud, Riad 27 February 2001 (has links) (PDF)
L'arrivée de la norme MPEG-7 pour les vidéos exige la création de structures de haut niveau représentant leurs contenus. Le travail de cette thèse aborde l'automatisation de la fabrication d'une partie de ces structures. Comme point de départ, nous utilisons des outils de segmentation des objets en mouvement. Nos objectifs sont alors : retrouver des objets similaires dans la vidéo, utiliser les similarités entre plans caméras pour construire des regroupements de plans en scènes. Une fois ces structures construites, il est facile de fournir aux utilisateurs finaux des outils de visualisation de la vidéo permettant des navigations interactives : par exemple sauter au prochain plan ou scène contenant un personnage. La difficulté principale réside dans la grande variabilité des objets observés : changements de points de vues, d'échelles, occultations, etc. La contribution principale de cette thèse est la modélisation de la variabilité des observations par un mélange de densités basée sur la théorie du mélange gaussien. Cette modélisation permet de capturer les différentes apparences intra-plan de l'objet suivi et de réduire considérablement le nombre des descripteurs de bas niveaux à indexer par objet suivi. Autour de cette contribution se greffent des propositions qui peuvent être vues comme des mises en oeuvre de cette première pour différentes applications : mise en correspondance des objets suivis représentés par des mélanges gaussiens, fabrication initiale des catégories de tous les objets présents dans une vidéo par une technique de classification non supervisée, extraction de vues caractéristiques et utilisation de la détection d'objets similaires pour regrouper des plans en scènes.
96

Extraction et analyse d'objets-clés pour la structuration d'images et de vidéos

Huart, Jérémy 14 February 2007 (has links) (PDF)
La description synthétique du contenu d'une image ou d'une vidéo est à l'heure actuelle une problématique majeure. Nous nous intéressons aux objets qui les composent pour leur pouvoir de représentativité. Après un état de l'art, ce document présente une méthode de segmentation locale par pyramide de graphes irrégulière permettant d'extraire, à partir de critères bas niveaux, des régions d'intérêt assimilables à des objets sémantiques. Cette méthode est utilisée pour détourer avec précision des objets dans des images fixes, dans un environnement interactif puis totalement automatique. Une estimation de mouvement permet d'étendre le procédé aux vidéos en extrayant dans chaque image les entités mobiles. Un filtrage et une classification de ces entités permet de ne retenir que les plus représentatives de chaque objet réel du plan. Ces représentants sont appelés objet-clé et vues-clés. La qualité des résultats expérimentaux permet de proposer de nombreuses applications en aval.
97

Création et utilisation de vocabulaires visuels pour la catégorisation d'images et la segmentation de classes d'objets

Larlus, Diane 28 November 2008 (has links) (PDF)
Cette thèse s'intéresse à l'interprétation d'images fixes et en particulier à la reconnaissance de classes d'objets. Les différentes approches considérées sont toutes des variations du modèle par sac-de-mots, utilisant des représentations locales, quantifiées à l'aide d'un vocabulaire visuel. <br>Nous nous intéresserons tout d'abord à l'étude de différentes méthodes de création du vocabulaire visuel et à l'évaluation de ces vocabulaires dans le contexte de la catégorisation d'images. <br>Dans un deuxième temps, nous étudierons la segmentation de classes d'objets et verrons en particulier comment combiner les propriétés de régularisation très locales permises par un champ de Markov avec un modèle d'apparence basé sur des régions qui représentent chacune un objet et qui sont considérées comme des collections de mots visuels.
98

Filtering of thin objects : applications to vascular image analysis / Filtrage d'objets fins : applications à l'analyse d'images vasculaires

Tankyevych, Olena 19 October 2010 (has links)
Le but de ce travail est de filtrer les objets fins et curvilinéaires dans les images numériques. Leur détection est en soit difficile du fait de leur finesse spatiale. De plus, le bruit, les artefacts de l'acquisition et les occlusions induites par d'autres objets introduisent des déconnexions. De ce fait, la reconnection des objets fins est également nécessaire. Dans ce but, une méthode hybride à base de dérivés secondes et de filtrage linéaire morphologique est proposée dans le cadre de la théorie espace-échelle. La théorie des filtres morphologiques spatialement variants et des algorithmes sont présentés. Du point de vue applicatif, notre travail est motivé par le diagnostic, la planification du traitement et le suivi des maladies vasculaires. La première application étudie les malformations artero-veineuses (MAV) dans le cerveau. L'analyse de telles données est rendue difficile par la petite taille, la complexité des vaisseaux couplés à diverses sources de bruit et à leur topologie, sans compter les artefacts d'acquisition et l'hétérogénéité du signal sanguin. Ainsi, nous nous sommes intéressés à l'amélioration et la segmentation des images angiographiques cérébrales dans le but d'aider à l'étude des MAVs cérébrales. La seconde application concerne le traitement des images en rayons X à faible dose utilisées en radiologie interventionelle dans le cas de l'insertion de guides dans les vaisseaux sanguins des patients. De telles procédures sont utilisées dans les traitements des anévrismes, des obstructions de tumeurs et d'autres procédures similaires. Dû au faible ratio signal à bruit, la détection des guides est indispensable pour leurs visualisations et leurs reconstructions. Dans ce travail, nous comparons la performance des algorithmes de filtrage d'objets linéiques. Le but étant de sélectionner les méthodes de détection les plus prometteuses dans le cadre de cette application médicale. La seconde application concerne le traitement des images X-ray à faible dose utilisées en radiologie interventionelle dans le cas d'insertion de guides dans les vaisseaux de patients. De telles procédures sont utilisées dans les traitements des anévrysmes, obstructions des tumeurs et d'autres procédures. Dû au faible ratio du signal-bruit, la détection des guides est indispensable pour leurs visualisations et leurs reconstructions. Dans ce travail, nous comparons la performance des algorithmes de filtrage d'objets linéaires. Le but est de sélectionner les méthodes de détection les plus prometteuses dans le cadre de cette application médicale / The motivation of this work is filtering of elongated curvilinear objects in digital images. Their narrowness presents difficulties for their detection. In addition, they are prone to disconnections due to noise, image acquisition artefacts and occlusions by other objects. This work is focused on thin objects detection and linkage. For these purposes, a hybrid second-order derivative-based and morphological linear filtering method is proposed within the framework of scale-space theory. The theory of spatially-variant morphological filters is discussed and efficient algorithms are presented. From the application point of view, our work is motivated by the diagnosis, treatment planning and follow-up of vascular diseases. The first application is aimed at the assessment of arteriovenous malformations (AVM) of cerebral vasculature. The small size and the complexity of the vascular structures, coupled to noise, image acquisition artefacts, and blood signal heterogeneity make the analysis of such data a challenging task. This work is focused on cerebral angiographic image enhancement, segmentation and vascular network analysis with the final purpose to further assist the study of cerebral AVM. The second medical application concerns the processing of low dose X-ray images used in interventional radiology therapies observing insertion of guide-wires in the vascular system of patients. Such procedures are used in aneurysm treatment, tumour embolization and other clinical procedures. Due to low signal-to-noise ratio of such data, guide-wire detection is needed for their visualization and reconstruction. Here, we compare the performance of several line detection algorithms. The purpose of this work is to select a few of the most promising line detection methods for this medical application
99

Interactive Object Retrieval using Interpretable Visual Models / Recherche Interactive d'Objets à l'Aide de Modèles Visuels Interprétables

Rebai, Ahmed 18 May 2011 (has links)
L'objectif de cette thèse est d'améliorer la recherche d'objets visuels à l'aide de l'interactivité avec l'utilisateur. Notre solution est de construire un système intéractif permettant aux utilisateurs de définir leurs propres concepts visuels à partir de certains mots-clés visuels. Ces mots-clés visuels, qui en théorie représentent les mots visuels les plus informatifs liés à une catégorie d'objets, sont appris auparavant à l'aide d'un algorithme d'apprentissage supervisé et d'une manière discriminative. Le challenge est de construire des mots-clés visuels concis et interprétables. Notre contribution repose sur deux points. D'abord, contrairement aux approches existantes qui utilisent les sacs de mots, nous proposons d'employer les descripteurs locaux sans aucune quantification préalable. Deuxièmement, nous proposons d'ajouter une contrainte de régularisation à la fonction de perte de notre classifieur pour favoriser la parcimonie des modèles produits. La parcimonie est en effet préférable pour sa concision (nombre de mots visuels réduits) ainsi pour sa diminution du temps de prédiction. Afin d'atteindre ces objectifs, nous avons développé une méthode d'apprentissage à instances multiples utilisant une version modifiée de l'algorithme BLasso. Cet algorithme est une forme de boosting qui se comporte similairement au LASSO (Least Absolute Shrinkage and Selection Operator). Il régularise efficacement la fonction de perte avec une contrainte additive de type L1 et ceci en alternant entre des itérations en avant et en arrière. La méthode proposée est générique dans le sens où elle pourrait être utilisée avec divers descripteurs locaux voire un ensemble structuré de descripteurs locaux qui décrit une région locale de l'image. / This thesis is an attempt to improve visual object retrieval by allowing users to interact with the system. Our solution lies in constructing an interactive system that allows users to define their own visual concept from a concise set of visual patches given as input. These patches, which represent the most informative clues of a given visual category, are trained beforehand with a supervised learning algorithm in a discriminative manner. Then, and in order to specialize their models, users have the possibility to send their feedback on the model itself by choosing and weighting the patches they are confident of. The real challenge consists in how to generate concise and visually interpretable models. Our contribution relies on two points. First, in contrast to the state-of-the-art approaches that use bag-of-words, we propose embedding local visual features without any quantization, which means that each component of the high-dimensional feature vectors used to describe an image is associated to a unique and precisely localized image patch. Second, we suggest using regularization constraints in the loss function of our classifier to favor sparsity in the models produced. Sparsity is indeed preferable for concision (a reduced number of patches in the model) as well as for decreasing prediction time. To meet these objectives, we developed a multiple-instance learning scheme using a modified version of the BLasso algorithm. BLasso is a boosting-like procedure that behaves in the same way as Lasso (Least Absolute Shrinkage and Selection Operator). It efficiently regularizes the loss function with an additive L1-constraint by alternating between forward and backward steps at each iteration. The method we propose here is generic in the sense that it can be used with any local features or feature sets representing the content of an image region. / تعالج هذه الأطروحة مسألة البحث عن الأشياء في الصور الثابتة و هي محاولة لتحسين نتائج البحث المنتظرة عن طريق تفاعل المستخدم مع النظام . يتمثل الحل المقترح في تصميم نظام تفاعلي يتيح للمستخدم صياغة مفهومه المرئي عن طريق مجموعة مقتضبة من أجزاء صغيرة للصور هي عبارة عن كلمات مفاتيح قد تم تعلمها سابقا عن طريق تعلم آلي استنتاجي . يمكن للمستخدم حينئذ تخصيص أنموذجه أولا بالاختيار ثم بترجيح الأجزاء التي يراها مناسبة . يتمثل التحدي القائم في كيفية توليد نماذج مرئية مفهومة و مقتضبة . نكون قد ساهمنا في هذا المجال بنقطتين أساسيتين تتمثل الأولى في إدماج الواصفات المحلية للصور دون أي تكميم ، و بذلك يكون كل مكون من ناقلات الميزات ذات الأبعاد العالية مرتبط حصريا بمكان وحيد و محدد في الصورة . ثانيا ، نقترح إضافة قيود تسوية لدالة الخسارة من أجل التحصل على حلول متفرقة و مقتضبة . يساهم ذلك في تقلص عدد هذه الأجزاء المرئية و بالتالي في ربح إضافي لوقت التكهن . في إطار تحقيق الأهداف المرسومة ، قمنا بإعداد مشروع تعلم قائم على تعدد الأمثلة يرتكز أساسا على نسخة محورة لخوارزمية بلاسو . تجدر الإشارة في الأخير أنه يمكن توظيف هذا العمل باستخدام نوع أو عدة أنواع من الواصفات المحلية للصور.
100

LORESA : un système de recommandation d'objets d'apprentissage basé sur les annotations sémantiques

Benlizidia, Sihem January 2007 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.

Page generated in 0.0306 seconds