Global ETD Search

261	Structuration et représentation de contenus multimédias pour une application dans le domaine de l'éducation Deuff, Dominique 10 July 2003 (has links) (PDF) Pour pallier un manque d'outils spécialisés que les enseignants puissent s'approprier et utiliser en classe, l'objectif de cette étude, à l'intersection entre informatique et éducation, vise la réalisation d'un logiciel permettant de créer des supports de cours numériques. Basé sur la technologie MPEG-4 (compression, composition multimédia, interactivité) l'outil est cohérent avec une architecture de mutualisation de contenus. Trois axes de recherche en découlent. Le premier décrit la réalisation d'un prototype d'outil dont l'IHM basée sur celle des « assistants d'installation » apporte une simplicité d'utilisation pour les enseignants « novices », et qui dispose de modules destinés à enrichir les différents médias par des fonctionnalités. Le deuxième axe présente le « module vidéo » qui permet de créer des zones sensibles et des marques temporelles. Le dernier axe décrit un espace 3D de représentation des contenus multimédias dont les niveaux de structuration définis sont conservés. Interfaces utilisateur (informatique) vidéo interactive réalité virtuelle hypermédias - systèmes auteur MPEG-4
262	Mise en Œuvre de Techniques d'Analyse/Synthèse de Texture dans un Schéma de Compression Vidéo Racapé, Fabien 14 November 2011 (has links) (PDF) Cette thèse s'inscrit dans le contexte des schémas de compression vidéo de nouvelles générations. Elle vise plus particulièrement à coder plus efficacement les régions texturées des images et séquences vidéo que les schémas actuels. Ces zones sont souvent dégradées lors de codage à bas débit, provoquant des aplats visuellement dérangeants. Ce travail est fondé sur les propriétés du système visuel humain, qui préfèrera une zone texturée synthétisée avec des détails, même un peu éloignée de la réalité, plutôt que des aplats. L'idée est ici d'adapter les algorithmes de synthèse de texture de la littérature, afin de reconstruire, au décodeur, des régions qui n'auront pas été intégralement transmises. L'approche est construite de manière à être utilisée conjointement avec les standards de compression actuels ou futurs. L'analyse de la séquence source, côté encodeur, utilise des outils de segmentation et de caractérisation de texture, afin de localiser les régions candidates pour la synthèse. Les régions qui ne sont pas synthétisables sont encodées classiquement par le codeur joint, elles seront décodées et serviront potentiellement d'échantillons de départ pour la synthèse des zones manquantes. L'ensemble des outils ont été développés et adaptés dans l'optique principale de proposer une chaîne cohérente. L'analyse des textures comportant des outils de segmentation et de caractérisation permettant de paramétrer les algorithmes de synthèse. Aussi la solution proposée inclut l'utilisation de deux types de synthèse : une version orientée " pixel " et l'autre orientée " patch ". Une première approche est présentée pour un codage intra image. Le schéma est ensuite couplé à une méthode d'estimation et de modélisation affine de mouvement par région, afin d'optimiser le traitement des textures rigides et de synthétiser les régions déformables. Fondé sur des outils de synthèse, le schéma est difficilement estimable à l'aide de critères objectifs. A qualité visuelle comparable, il permet, par exemple, de préserver jusqu'à 35% de débit, comparé à l'encodage de H.264/AVC, sur différentes séquences SD et CIF. Compression vidéo synthèse texture caractérisation segmentation
263	Reconnaissance d'objets multiclasses pour des applications d'aide à la conduite et de vidéo surveillance Zaklouta, Fatin 13 December 2011 (has links) (PDF) La détection de piétons et la reconnaissance des panneaux routiers sont des fonctions importantes des systèmes d'aide à la conduite (anglais : Advanced Driver Assistance System - ADAS). Une nouvelle approche pour la reconnaissance des panneaux et deux méthodes d'élimination de fausses alarmes dans des applications de détection de piétons sont présentées dans cette thèse. Notre approche de reconnaissance de panneaux consiste en trois phases: une segmentation de couleurs, une détection de formes et une classification du contenu. Le color enhancement des régions rouges est amélioré en introduisant un seuil adaptatif. Dans la phase de classification, la performance du K-d tree est augmentée en utilisant un poids spatial. Les Random Forests obtiennent un taux de classification de 97% sur le benchmark allemand de la reconnaissance des panneaux routiers (German Traffic Sign Recognition Benchmark). Les besoins en mémoire et calcul sont réduits en employant une réduction de la dimension des caractéristiques. Les classifieurs atteignent un taux de classification aussi haut qu'avec une fraction de la dimension des caractéristiques, selectionée en utilisant des Random Forests ou Fisher's Crtierion. Cette technique est validée sur deux benchmarks d'images multiclasses : ETH80 et Caltech 101. Dans une application de vidéo surveillance avec des caméras statiques, les fausses alarmes des objets fixes, comme les arbres et les lampadaires, sont éliminées avec la corrélation sur plusieurs trames. Les fausses alarmes récurrentes sont supprimées par un filtre complémentaire en forme d'arbre. Aide à la conduite reconnaissance de panneaux routiers détection de piétons vidéo surveillance apprentissage automatique segmentation de couleurs
264	Modèles acoustiques à structure temporelle renforcée pour la vérification du locuteur embarquée Larcher, Anthony 24 September 2009 (has links) (PDF) La vérification automatique du locuteur est une tâche de classification qui vise à confirmer ou infirmer l'identité d'un individu d'après une étude des caractéristiques spécifiques de sa voix. L'intégration de systèmes de vérification du locuteur sur des appareils embarqués impose de respecter deux types de contraintes, liées à cet environnement : - les contraintes matérielles, qui limitent fortement les ressources disponibles en termes de mémoire de stockage et de puissance de calcul disponibles ; - les contraintes ergonomiques, qui limitent la durée et le nombre des sessions d'entraînement ainsi que la durée des sessions de test. En reconnaissance du locuteur, la structure temporelle du signal de parole n'est pas exploitée par les approches état-de-l'art. Nous proposons d'utiliser cette information, à travers l'utilisation de mots de passe personnels, afin de compenser le manque de données d'apprentissage et de test. Une première étude nous a permis d'évaluer l'influence de la dépendance au texte sur l'approche état-de-l'art GMM/UBM (Gaussian Mixture Model/ Universal Background Model). Nous avons montré qu'une contrainte lexicale imposée à cette approche, généralement utilisée pour la reconnaissance du locuteur indépendante du texte, permet de réduire de près de 30% (en relatif) le taux d'erreurs obtenu dans le cas où les imposteurs ne connaissent pas le mot de passe des clients. Dans ce document, nous présentons une architecture acoustique spécifique qui permet d'exploiter à moindre coût la structure temporelle des mots de passe choisis par les clients. Cette architecture hiérarchique à trois niveaux permet une spécialisation progressive des modèles acoustiques. Un modèle générique représente l'ensemble de l'espace acoustique. Chaque locuteur est représenté par une mixture de Gaussiennes qui dérive du modèle du monde générique du premier niveau. Le troisième niveau de notre architecture est formé de modèles de Markov semi-continus (SCHMM), qui permettent de modéliser la structure temporelle des mots de passe tout en intégrant l'information spécifique au locuteur, modélisée par le modèle GMM du deuxième niveau. Chaque état du modèle SCHMM d'un mot de passe est estimé, relativement au modèle indépendant du texte de ce locuteur, par adaptation des paramètres de poids des distributions Gaussiennes de ce GMM. Cette prise en compte de la structure temporelle des mots de passe permet de réduire de 60% le taux d'égales erreurs obtenu lorsque les imposteurs prononcent un énoncé différent du mot de passe des clients. Pour renforcer la modélisation de la structure temporelle des mots de passe, nous proposons d'intégrer une information issue d'un processus externe au sein de notre architecture acoustique hiérarchique. Des points de synchronisation forts, extraits du signal de parole, sont utilisés pour contraindre l'apprentissage des modèles de mots de passe durant la phase d'enrôlement. Les points de synchronisation obtenus lors de la phase de test, selon le même procédé, permettent de contraindre le décodage Viterbi utilisé, afin de faire correspondre la structure de la séquence avec celle du modèle testé. Cette approche a été évaluée sur la base de données audio-vidéo MyIdea grâce à une information issue d'un alignement phonétique. Nous avons montré que l'ajout d'une contrainte de synchronisation au sein de notre approche acoustique permet de dégrader les scores imposteurs et ainsi de diminuer le taux d'égales erreurs de 20% (en relatif) dans le cas où les imposteurs ignorent le mot de passe des clients tout en assurant des performances équivalentes à celles des approches état-de-l'art dans le cas où les imposteurs connaissent les mots de passe. L'usage de la modalité vidéo nous apparaît difficilement conciliable avec la limitation des ressources imposée par le contexte embarqué. Nous avons proposé un traitement simple du flux vidéo, respectant ces contraintes, qui n'a cependant pas permis d'extraire une information pertinente. L'usage d'une modalité supplémentaire permettrait néanmoins d'utiliser les différentes informations structurelles pour déjouer d'éventuelles impostures par play-back. Ce travail ouvre ainsi de nombreuses perspectives, relatives à l'utilisation d'information structurelle dans le cadre de la vérification du locuteur et aux approches de reconnaissance du locuteur assistée par la modalité vidéo [INFO] Computer Science [SPI] Engineering Sciences Biométrie Vérification du locuteur Système embarqué Bi-modalité Audio vidéo Mot-de-passe
265	Indexation et recherche de plans vidéo par le contenu sémantique Souvannavong, Fabrice 06 1900 (has links) (PDF) Nous abordons dans ce mémoire le problème délicat de l'indexation de plans vidéo et en particulier l'indexation automatique par le contenu sémantique. L'indexation est l'opération qui consiste à extraire une signature numérique ou textuelle qui décrit le contenu de manière précise et concise afin de permettre une recherche efficace dans une base de données. L'aspect automatique de l'indexation est important puisque nous imaginons bien la difficulté d'établir les signatures manuellement sur de grandes quantités de données. Jusqu'à présent les systèmes automatiques d'indexation et de recherche d'images ou de vidéos se sont concentrés sur la description et l'indexation du contenu purement visuel. Les signatures permettaient d'effectuer une recherche principalement sur les couleurs et les textures des images. A présent, le nouveau défi est d'ajouter à ces signatures une description sémantique du contenu de manière automatique. Un éventail des techniques utilisées pour l'indexation du contenu visuel est tout d'abord présenté. Ensuite nous introduisons une méthode pour calculer une signature précise et compacte à partir des régions des images clefs des plans. Il s'agit d'une adaptation de l'analyse de la sémantique latente qui fut initialement introduite pour indexer le texte. La tâche délicate de la recherche par le contenu sémantique est ensuite abordée. Les expériences sont conduites dans le cadre de l'évaluation TRECVID qui nous permet d'obtenir une grande quantité de vidéo avec leurs annotations. Nous poursuivons la classification sémantique en étudiant la fusion de systèmes de classification. Finalement nous introduisons une nouvelle méthode d'apprentissage actif. Indexation et recherche par le contenu Fusion d'information Apprentissage actif Analyse de la sémantique latente Bouclage de pertinence
266	Fusion multi-niveaux pour l'indexation et la recherche multimédia par le contenu sémantique Benmokhtar, Rachid 09 June 2009 (has links) (PDF) Aujourd'hui, l'accès aux documents dans les bases de données, d'archives et sur Internet s'effectue principalement grâce à des données textuelles : nom de l'image ou mots-clés. Cette recherche est non exempte de fautes plus ou moins graves : omission, orthographe, etc. Les progrès effectués dans le domaine de l'analyse d'images et de l'apprentissage automatique permettent d'apporter des solutions comme l'indexation et la recherche à base des caractéristiques telles que la couleur, la forme, la texture, le mouvement, le son et le texte. Ces caractéristiques sont riches en informations et notamment d'un point de vue sémantique. Cette thèse s'inscrit dans le cadre de l'indexation automatique par le contenu sémantique des documents multimédia: plans vidéo et images-clés. L'indexation consiste à extraire, représenter et organiser efficacement le contenu des documents d'une base de données. L'état de l'art du domaine est confronté au «fossé sémantique» qui sépare les représentations visuelles brutes (bas-niveau) et conceptuelles (haut-niveau). Pour limiter les conséquences de cette problématique, nous avons introduit dans le système plusieurs types de descripteurs, tout en prenant à notre avantage les avancées scientifiques dans le domaine de l'apprentissage automatique et de la ``fusion multi-niveaux''. En effet, la fusion est utilisée dans le but de combiner des informations hétérogènes issues de plusieurs sources afin d'obtenir une information globale, plus complète, de meilleure qualité, permettant de mieux décider et d'agir. Elle peut être appliquée sur plusieurs niveaux du processus de classification. Dans cette thèse, nous avons étudié la fusion bas-niveau (précoce), la fusion haut-niveau (tardive), ainsi qu'à un niveau décisionnel basé sur l'ontologie et la similarité inter-concepts dit de raisonnement. Les systèmes proposés ont été validés sur les données de TRECVid (projet NoE K-Space) et les vidéos de football issues d'Orange-France Télécom Labs (projet CRE-Fusion). Les résultats révèlent l'importance de la fusion sur chaque niveau du processus de classification, en particulier, l'usage de la théorie des évidences. Indexation des plans vidéo Fossé sémantique Classification Fusion bas-niveau Fusion haut-niveau Similarité inter-concepts Ontologie LSCOM-lite TRECVid
267	Codage vidéo distribué de séquences multi-vues Maugey, Thomas 18 November 2010 (has links) (PDF) Depuis 2002, le codage vidéo distribué a connu un véritable essor de par ses résultats théoriques séduisants, et ses applications potentielles attractives. En effet, avec ce mode de compression, toute comparaison inter-image est transférée au décodeur, ce qui implique une baisse considérable de la complexité à l'encodeur, et de plus, un encodage indépendant des caméras dans le cas de compression multi-vues. Cette thèse a pour but de proposer de nouvelles solutions dans le domaine du codage vidéo distribué, et particulièrement dans son application aux systèmes multi-caméra. Ces contributions se présentent sous plusieurs aspects : un nouveau modèle débit-distorsion et sa mise en pratique sur trois probléma- tiques, de nouvelles méthodes de construction de l'information adjacente et enfin une étude approfondie du décodeur des trames Wyner-Ziv. Ces nouvelles approches ont toutes pour but d'améliorer les performances débit-distorsion ou de permettre une compréhension plus précise du comportement du codeur. Celles-ci sont exposées en détail dans ce manuscrit avec au préalable une explication complète du contexte dans lequel elles s'inscrivent. codage vidéo distribué multi-vue
268	Distributed Source Coding: Tools and application to video compression Toto-Zarasoa, Velotiaray 29 November 2010 (has links) (PDF) Le codage de sources distribuées est une technique permettant de compresser plusieurs sources corrélées sans aucune coopération entre les encodeurs, et sans perte de débit si leur décodage s'effectue conjointement. Fort de ce principe, le codage de vidéo distribué exploite la corrélation entre les images successives d'une vidéo, en simplifiant au maximum l'encodeur et en laissant le décodeur exploiter la corrélation. Parmi les contributions de cette thèse, nous nous intéressons dans une première partie au codage asymétrique de sources binaires dont la distribution n'est pas uniforme, puis au codage des sources à états de Markov cachés. Nous montrons d'abord que, pour ces deux types de sources, exploiter la distribution au décodeur permet d'augmenter le taux de compression. En ce qui concerne le canal binaire symétrique modélisant la corrélation entre les sources, nous proposons un outil, basé sur l'algorithme EM, pour en estimer le paramètre. Nous montrons que cet outil permet d'obtenir une estimation rapide du paramètre, tout en assurant une précision proche de la borne de Cramer-Rao. Dans une deuxième partie, nous développons des outils permettant de décoder avec succès les sources précédemment étudiées. Pour cela, nous utilisons des codes Turbo et LDPC basés syndrome, ainsi que l'algorithme EM. Cette partie a été l'occasion de développer des nouveaux outils pour atteindre les bornes des codages asymétrique et non-asymétrique. Nous montrons aussi que, pour les sources non-uniformes, le rôle des sources corrélées n'est pas symétrique. Enfin, nous montrons que les modèles de sources proposés modélisent bien les distributions des plans de bits des vidéos; nous montrons des résultats prouvant l'efficacité des outils développés. Ces derniers permettent d'améliorer de façon notable la performance débit-distorsion d'un codeur vidéo distribué, mais sous certaines conditions d'additivité du canal de corrélation. Codage de sources distribuées Codage canal Compression vidéo Modélisation Algorithme EM Estimation de paramètres
269	Architectures massivement parallèles et vision artificielle bas-niveau Plyer, Aurélien 20 February 2013 (has links) (PDF) Ce travail de thèse étudie l'apport à la vision bas-niveau des architectures de calcul massivement parallèles. Nous reprenons l'évolution récente de l'architecture des ordinateurs, en mettant en avant les solutions massivement parallèles qui se sont imposées récemment, les GPU. L'exploitation des potentialités de ces architectures impose une modification des méthodes de programmation. Nous montrons qu'il est possible d'utiliser un nombre restreint de schémas ("patterns") de calcul pour résoudre un grand nombre de problématiques de vision bas niveau. Nous présentons ensuite un nouveau modèle pour estimer la complexité de ces solutions. La suite du travail consiste à appliquer ces modèles de programmation à des problématiques de vision bas-niveau. Nous abordons d'abord le calcul du flot optique, qui est le champ de déplacement d'une image à une autre, et dont l'estimation est une brique de base de très nombreuses applications en traitement vidéo. Nous présentons un code sur GPU, nommé FOLKI qui permet d'atteindre une très bonne qualité de résultats sur séquences réelles pour un temps de calcul bien plus faible que les solutions concurrentes actuelles. Une application importante de ces travaux concerne la vélocimétrie par imagerie de particules dans le domaine de la mécanique des fluides expérimentale. La seconde problématique abordée est la super-résolution (SR). Nous proposons d'abord un algorithme très rapide de SR utilisant le flot optique FOLKI pour recaler les images. Ensuite différentes solutions à coût de calcul croissant sont développées, qui permettent une amélioration de précision et de robustesse. Nous présentons des résultats très originaux de SR sur des séquences affectées de mouvement complexes, comme des séquences de piétons ou des séquences aériennes de véhicules en mouvement. Enfin le dernier chapitre aborde rapidement des extensions en cours de nos travaux à des contextes de mesure 3D, dans des domaines comme la physique expérimentale ou la robotique. flot optique vision par ordinateur gpgpu super-résolution traitement vidéo adéquation algorithme architecture
270	L'impact des pratiques relationnelles au travail sur la reconnaissance : le cas de l'industrie québécoise du jeu vidéo Brouard, Marie-Ève January 2009 (has links) (PDF) Les changements qui affectent les milieux de travail modernes ont des conséquences lourdes pour les travailleurs: compétition entre les collègues, effritement du collectif de travail, perte de sens du travail. Il en résulte plusieurs malaises psychologiques, un manque de reconnaissance entre les travailleurs et un manque de reconnaissance de la part de la direction (verticale). Au même moment, il est possible d'observer des entreprises qui mettent en place des pratiques de gestion des ressources humaines innovatrices et appréciées des employés. Ces « pratiques relationnelles en milieu de travail » ont généralement pour objectif de créer un environnement de travail plus agréable, moins stressant et favorisant le plaisir au travail. Elles introduisent des aspects de subjectivité au travail dont les contours demeurent à explorer. Cette recherche vise à comprendre les impacts de ces pratiques relationnelles en milieu de travail sur les dimensions que sont la reconnaissance horizontale et verticale. De plus, elle s'attarde aux raisons d'implantation, par les employeurs, de telles pratiques et elle désire comprendre la perception des employés au sujet de ces pratiques. Les pratiques relationnelles en milieu de travail seront considérées comme étant des innovations organisationnelles au travail. Cette recherche s'inscrit dans une démarche qualitative utilisant la grounded theory (théorisation ancrée) et l'interactionnisme symbolique. À partir d'entrevues semi-dirigées conduites auprès de dix-huit employés et huit gestionnaires de quatre entreprises, nous dégagerons des réponses permettant de mieux comprendre la question de recherche. Cette étude prendra place au sein d'entreprises du secteur des jeux vidéo, ce dernier étant reconnu pour son dynamisme et son ambiance décontractée. Les résultats obtenus démontrent qu'il y a un lien, dans l'industrie du jeu vidéo, entre les pratiques relationnelles et la reconnaissance. Par contre, ce lien n'est pas direct. Les pratiques relationnelles sont un élément favorisant un climat de travail agréable, la communication, les bonnes relations interpersonnelles et la reconnaissance. Les résultats permettent aussi d'identifier plusieurs raisons d'implantation des pratiques relationnelles par les gestionnaires ainsi que la perception qu'ont les employés de ces dernières. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Reconnaissance, Innovation organisationnelle, Jeu vidéo, Pratique relationnelle, Organisation du travail, Climat de travail, Communication organisationnelle. Industrie du multimédia Innovation Jeu vidéo Milieu de travail Organisation du travail Qualité de vie au travail Reconnaissance au travail Relation interpersonnelle Québec (Province)

Search results