• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Indexation audio-visuelle des personnes dans un contexte de télévision

Bendris, Meriem 07 July 2011 (has links) (PDF)
Le développement et l'amélioration du réseau Internet a permis de mettre un grand nombre de contenus télévisuels à disposition des utilisateurs. Afin de faciliter la navigation parmi ces vidéos, il est intéressant de développer des technologies pour indexer les personnes automatiquement. Les solutions actuelles proposent de construire l'index audio-visuel des personnes par combinaison des index audio et visuel obtenus de manière indépendante. Malheureusement, pour les émissions de télévision, il est difficile de détecter et de regrouper les personnes automatiquement à cause des nombreuses ambiguïtés dans l'audio, le visuel et leur association (interactivité des dialogues, variations de pose du visage, asynchronie entre la parole et l'apparence, etc). Les approches basées sur la fusion des index audio et visuel combinent les erreurs d'indexation issues de chaque modalité. Les travaux présentés dans ce rapport exploitent la complémentarité entre les informations audio et visuelle afin de palier aux faiblesses de chaque modalité. Ainsi, une modalité peut appuyer l'indexation d'une personne lorsque l'autre est jugée peu fiable. Nous proposons une procédure de correction mutuelle des erreurs d'indexation de chaque modalité. D'abord, les erreurs sont détectées automatiquement à l'aide d'indicateurs de présence de visage parlant. Puis, la modalité qui a échoué est corrigée grâce à un schéma automatique. Nous avons proposé en premier lieu un système initial d'indexation de visages parlants basé sur la détection et le regroupement du locuteur et du costume. Nous proposons une méthode de combinaison d'index basée sur la maximisation de la couverture globale des groupes de personnes. Ce système, évalué sur des émissions de plateaux, obtient une grande précision (90%), mais un faible rappel (seulement 55% des visages parlants sont détectés). Afin de détecter automatiquement la présence d'un visage parlant dans le processus de correction mutuelle, nous avons développé une nouvelle méthode de détection de mouvement des lèvres basée sur la mesure du degré de désordre de la direction des pixels autour de la région des lèvres. L'évaluation, réalisée sur le corpus de d'émission de plateaux, montre une amélioration significative de la détection des visages parlants comparé à l'état de l'art dans ce contexte. En particulier, notre méthode s'avère être plus robuste à un mouvement global du visage. Enfin, nous avons proposé deux schémas de correction. Le premier est basé sur une modification systématique de la modalité considérée a priori la moins fiable. Le second compare des scores de vérification de l'identité non supervisée afin de déterminer quelle modalité a échoué et la corriger. Les modèles non supervisés des personnes sont appris à partir des ensembles homogènes de visages parlants obtenus automatiquement par le système initial. Les deux méthodes de correction conduisent à une amélioration significative des performances (+2 à 5% de la F-mesure). Nous nous sommes également intéressé aux systèmes biométriques audio-visuels et particulièrement sur les techniques de fusion tardives pour la vérification d'identité. Nous avons proposé une méthode de fusion dépendante de la qualité du signal dans chaque modalité.
2

Apprentissage automatique pour simplifier l’utilisation de banques d’images cardiaques / Machine Learning for Simplifying the Use of Cardiac Image Databases

Margeta, Ján 14 December 2015 (has links)
L'explosion récente de données d'imagerie cardiaque a été phénoménale. L'utilisation intelligente des grandes bases de données annotées pourrait constituer une aide précieuse au diagnostic et à la planification de thérapie. En plus des défis inhérents à la grande taille de ces banques de données, elles sont difficilement utilisables en l'état. Les données ne sont pas structurées, le contenu des images est variable et mal indexé, et les métadonnées ne sont pas standardisées. L'objectif de cette thèse est donc le traitement, l'analyse et l'interprétation automatique de ces bases de données afin de faciliter leur utilisation par les spécialistes de cardiologie. Dans ce but, la thèse explore les outils d'apprentissage automatique supervisé, ce qui aide à exploiter ces grandes quantités d'images cardiaques et trouver de meilleures représentations. Tout d'abord, la visualisation et l'interprétation d'images est améliorée en développant une méthode de reconnaissance automatique des plans d'acquisition couramment utilisés en imagerie cardiaque. La méthode se base sur l'apprentissage par forêts aléatoires et par réseaux de neurones à convolution, en utilisant des larges banques d'images, où des types de vues cardiaques sont préalablement établies. La thèse s'attache dans un deuxième temps au traitement automatique des images cardiaques, avec en perspective l'extraction d'indices cliniques pertinents. La segmentation des structures cardiaques est une étape clé de ce processus. A cet effet une méthode basée sur les forêts aléatoires qui exploite des attributs spatio-temporels originaux pour la segmentation automatique dans des images 3Det 3D+t est proposée. En troisième partie, l'apprentissage supervisé de sémantique cardiaque est enrichi grâce à une méthode de collecte en ligne d'annotations d'usagers. Enfin, la dernière partie utilise l'apprentissage automatique basé sur les forêts aléatoires pour cartographier des banques d'images cardiaques, tout en établissant les notions de distance et de voisinage d'images. Une application est proposée afin de retrouver dans une banque de données, les images les plus similaires à celle d'un nouveau patient. / The recent growth of data in cardiac databases has been phenomenal. Cleveruse of these databases could help find supporting evidence for better diagnosis and treatment planning. In addition to the challenges inherent to the large quantity of data, the databases are difficult to use in their current state. Data coming from multiple sources are often unstructured, the image content is variable and the metadata are not standardised. The objective of this thesis is therefore to simplify the use of large databases for cardiology specialists withautomated image processing, analysis and interpretation tools. The proposed tools are largely based on supervised machine learning techniques, i.e. algorithms which can learn from large quantities of cardiac images with groundtruth annotations and which automatically find the best representations. First, the inconsistent metadata are cleaned, interpretation and visualisation of images is improved by automatically recognising commonly used cardiac magnetic resonance imaging views from image content. The method is based on decision forests and convolutional neural networks trained on a large image dataset. Second, the thesis explores ways to use machine learning for extraction of relevant clinical measures (e.g. volumes and masses) from3D and 3D+t cardiac images. New spatio-temporal image features are designed andclassification forests are trained to learn how to automatically segment the main cardiac structures (left ventricle and left atrium) from voxel-wise label maps. Third, a web interface is designed to collect pairwise image comparisons and to learn how to describe the hearts with semantic attributes (e.g. dilation, kineticity). In the last part of the thesis, a forest-based machinelearning technique is used to map cardiac images to establish distances and neighborhoods between images. One application is retrieval of the most similar images.

Page generated in 0.1022 seconds