Global ETD Search

1	Embedded Arabic text detection and recognition in videos / Détection et reconnaissance du texte arabe incrusté dans les vidéos Yousfi, Sonia 06 July 2016 (has links) Cette thèse s'intéresse à la détection et la reconnaissance du texte arabe incrusté dans les vidéos. Dans ce contexte, nous proposons différents prototypes de détection et d'OCR vidéo (Optical Character Recognition) qui sont robustes à la complexité du texte arabe (différentes échelles, tailles, polices, etc.) ainsi qu'aux différents défis liés à l'environnement vidéo et aux conditions d'acquisitions (variabilité du fond, luminosité, contraste, faible résolution, etc.). Nous introduisons différents détecteurs de texte arabe qui se basent sur l'apprentissage artificiel sans aucun prétraitement. Les détecteurs se basent sur des Réseaux de Neurones à Convolution (ConvNet) ainsi que sur des schémas de boosting pour apprendre la sélection des caractéristiques textuelles manuellement conçus. Quant à notre méthodologie d'OCR, elle se passe de la segmentation en traitant chaque image de texte en tant que séquence de caractéristiques grâce à un processus de scanning. Contrairement aux méthodes existantes qui se basent sur des caractéristiques manuellement conçues, nous proposons des représentations pertinentes apprises automatiquement à partir des données. Nous utilisons différents modèles d'apprentissage profond, regroupant des Auto-Encodeurs, des ConvNets et un modèle d'apprentissage non-supervisé, qui génèrent automatiquement ces caractéristiques. Chaque modèle résulte en un système d'OCR bien spécifique. Le processus de reconnaissance se base sur une approche connexionniste récurrente pour l'apprentissage de l'étiquetage des séquences de caractéristiques sans aucune segmentation préalable. Nos modèles d'OCR proposés sont comparés à d'autres modèles qui se basent sur des caractéristiques manuellement conçues. Nous proposons, en outre, d'intégrer des modèles de langage (LM) arabes afin d'améliorer les résultats de reconnaissance. Nous introduisons différents LMs à base des Réseaux de Neurones Récurrents capables d'apprendre des longues interdépendances linguistiques. Nous proposons un schéma de décodage conjoint qui intègre les inférences du LM en parallèle avec celles de l'OCR tout en introduisant un ensemble d’hyper-paramètres afin d'améliorer la reconnaissance et réduire le temps de réponse. Afin de surpasser le manque de corpus textuels arabes issus de contenus multimédia, nous mettons au point de nouveaux corpus manuellement annotés à partir des flux TV arabes. Le corpus conçu pour l'OCR, nommé ALIF et composée de 6,532 images de texte annotées, a été publié a des fins de recherche. Nos systèmes ont été développés et évalués sur ces corpus. L’étude des résultats a permis de valider nos approches et de montrer leurs efficacité et généricité avec plus de 97% en taux de détection, 88.63% en taux de reconnaissance mots sur le corpus ALIF dépassant ainsi un des systèmes d'OCR commerciaux les mieux connus par 36 points. / This thesis focuses on Arabic embedded text detection and recognition in videos. Different approaches robust to Arabic text variability (fonts, scales, sizes, etc.) as well as to environmental and acquisition condition challenges (contrasts, degradation, complex background, etc.) are proposed. We introduce different machine learning-based solutions for robust text detection without relying on any pre-processing. The first method is based on Convolutional Neural Networks (ConvNet) while the others use a specific boosting cascade to select relevant hand-crafted text features. For the text recognition, our methodology is segmentation-free. Text images are transformed into sequences of features using a multi-scale scanning scheme. Standing out from the dominant methodology of hand-crafted features, we propose to learn relevant text representations from data using different deep learning methods, namely Deep Auto-Encoders, ConvNets and unsupervised learning models. Each one leads to a specific OCR (Optical Character Recognition) solution. Sequence labeling is performed without any prior segmentation using a recurrent connectionist learning model. Proposed solutions are compared to other methods based on non-connectionist and hand-crafted features. In addition, we propose to enhance the recognition results using Recurrent Neural Network-based language models that are able to capture long-range linguistic dependencies. Both OCR and language model probabilities are incorporated in a joint decoding scheme where additional hyper-parameters are introduced to boost recognition results and reduce the response time. Given the lack of public multimedia Arabic datasets, we propose novel annotated datasets issued from Arabic videos. The OCR dataset, called ALIF, is publicly available for research purposes. As the best of our knowledge, it is first public dataset dedicated for Arabic video OCR. Our proposed solutions were extensively evaluated. Obtained results highlight the genericity and the efficiency of our approaches, reaching a word recognition rate of 88.63% on the ALIF dataset and outperforming well-known commercial OCR engine by more than 36%. Informatique Reconnaissance optique de caractères Texte arabe Contenus vidéo Apprentissage profond Réseaux de neurones Information Technology Optical character recognition Arabic text Video contents Deep learning Neural networks 006.420 72
2	Quality of experience and video services adaptation / Qualité d’expérience et adaptation de services vidéo Diallo, Mamadou Tourad 04 June 2015 (has links) Avec l'hétérogénéité des réseaux et la demande croissante de services multimédias, la Qualité d'Expérience (QoE) devient un facteur déterminant de réussite ou d’échec de ces services. Dans cette thèse, nous avons d’abord analysé l'impact des paramètres de qualité sur l'engagement de l'utilisateur, afin de comprendre l’effet des paramètres vidéo (temps de démarrage, qualité intrinsèque, taux de blocage) et la popularité du service sur l'engagement de l'utilisateur. Nos résultats ont montré que le taux de blocage et la popularité du service sont des paramètres critiques qui impactent fortement la satisfaction et l'engagement de l’utilisateur, tandis que, le temps de démarrage a moins d’impact. Ensuite, les approches subjectives de QoE comme le Mean Opinion Score (MOS) ont été traité dans cette thèse, où les utilisateurs sont appelés à donner une note de satisfaction en fonction des informations de contextes. Une analyse statistique des résultats obtenus à partir de tests utilisateurs a montré que le type de terminal et de contenu sont des paramètres qui impactent fortement le MOS. En plus, des modèles mathématiques d’estimation de QoE en fonction des informations de contextes ont été proposés. Enfin, deux techniques d’optimisations ont été proposées : Le MDASH (MOS Dynamic Adaptive Streaming over HTTP) pour l’optimisation vidéo de flux partageant les mêmes ressources, de manière à garantir une certaine QoE pour tous les utilisateurs. Et une optimisation de livraison, basée sur des fonctions d’utilités dans laquelle, une fonction globale d'utilité est calculée en fonction de différentes contraintes (qui dépendent fortement des stratégies des acteurs de la chaîne de livraison) / With the network heterogeneity and increasing demand of multimedia services, Quality of Experience (QoE) becomes a crucial determinant of the success or failure of these services. In this thesis, we first propose to analyze the impact of quality metrics on user engagement, in order to understand the effects of video metrics (video startup time, average bitrate, buffering ratio) and content popularity on user engagement. Our results show that video buffering and content popularity are critical parameters which strongly impacts the end-user’s satisfaction and user engagement, while the video startup time appears as less significant. On other hand, we consider subjective approaches such as the Mean Opinion Score (MOS) for evaluating QoE, in which users are required to give their assessment according to contextual information. A detailed statistical analysis of our study shows the existence of non-trivial parameters impacting MOS (the type of device and the content type). We propose mathematical models to develop functional relationships between the QoE and the context information which in turn permits us to estimate the QoE. A video content optimization technique called MDASH (for MOS Dynamic Adaptive Streaming over HTTP) is proposed, which improves the perceived QoE for different video sessions sharing the same local network, while taking QoE fairness among users as a leitmotiv. We also propose a utility-based approach for video delivery optimization, in which a global utility function is computed based on different constraints (e.g. target strategies coming from the actors of the delivery chain) Qualité d'expérience (QoE) Adaptation de contenus vidéo MOS (Mean Opinion Score) Engagement de l'utilisateur Optimisation QoE (Quality of Experience) Video adaptation MOS (Mean Opinion Score) User engagement Optimization

Search results

Embedded Arabic text detection and recognition in videos / Détection et reconnaissance du texte arabe incrusté dans les vidéos

Quality of experience and video services adaptation / Qualité d’expérience et adaptation de services vidéo