Spelling suggestions: "subject:"réseaux De neurones"" "subject:"réseaux De eurones""
191 |
Embedded Arabic text detection and recognition in videos / Détection et reconnaissance du texte arabe incrusté dans les vidéosYousfi, Sonia 06 July 2016 (has links)
Cette thèse s'intéresse à la détection et la reconnaissance du texte arabe incrusté dans les vidéos. Dans ce contexte, nous proposons différents prototypes de détection et d'OCR vidéo (Optical Character Recognition) qui sont robustes à la complexité du texte arabe (différentes échelles, tailles, polices, etc.) ainsi qu'aux différents défis liés à l'environnement vidéo et aux conditions d'acquisitions (variabilité du fond, luminosité, contraste, faible résolution, etc.). Nous introduisons différents détecteurs de texte arabe qui se basent sur l'apprentissage artificiel sans aucun prétraitement. Les détecteurs se basent sur des Réseaux de Neurones à Convolution (ConvNet) ainsi que sur des schémas de boosting pour apprendre la sélection des caractéristiques textuelles manuellement conçus. Quant à notre méthodologie d'OCR, elle se passe de la segmentation en traitant chaque image de texte en tant que séquence de caractéristiques grâce à un processus de scanning. Contrairement aux méthodes existantes qui se basent sur des caractéristiques manuellement conçues, nous proposons des représentations pertinentes apprises automatiquement à partir des données. Nous utilisons différents modèles d'apprentissage profond, regroupant des Auto-Encodeurs, des ConvNets et un modèle d'apprentissage non-supervisé, qui génèrent automatiquement ces caractéristiques. Chaque modèle résulte en un système d'OCR bien spécifique. Le processus de reconnaissance se base sur une approche connexionniste récurrente pour l'apprentissage de l'étiquetage des séquences de caractéristiques sans aucune segmentation préalable. Nos modèles d'OCR proposés sont comparés à d'autres modèles qui se basent sur des caractéristiques manuellement conçues. Nous proposons, en outre, d'intégrer des modèles de langage (LM) arabes afin d'améliorer les résultats de reconnaissance. Nous introduisons différents LMs à base des Réseaux de Neurones Récurrents capables d'apprendre des longues interdépendances linguistiques. Nous proposons un schéma de décodage conjoint qui intègre les inférences du LM en parallèle avec celles de l'OCR tout en introduisant un ensemble d’hyper-paramètres afin d'améliorer la reconnaissance et réduire le temps de réponse. Afin de surpasser le manque de corpus textuels arabes issus de contenus multimédia, nous mettons au point de nouveaux corpus manuellement annotés à partir des flux TV arabes. Le corpus conçu pour l'OCR, nommé ALIF et composée de 6,532 images de texte annotées, a été publié a des fins de recherche. Nos systèmes ont été développés et évalués sur ces corpus. L’étude des résultats a permis de valider nos approches et de montrer leurs efficacité et généricité avec plus de 97% en taux de détection, 88.63% en taux de reconnaissance mots sur le corpus ALIF dépassant ainsi un des systèmes d'OCR commerciaux les mieux connus par 36 points. / This thesis focuses on Arabic embedded text detection and recognition in videos. Different approaches robust to Arabic text variability (fonts, scales, sizes, etc.) as well as to environmental and acquisition condition challenges (contrasts, degradation, complex background, etc.) are proposed. We introduce different machine learning-based solutions for robust text detection without relying on any pre-processing. The first method is based on Convolutional Neural Networks (ConvNet) while the others use a specific boosting cascade to select relevant hand-crafted text features. For the text recognition, our methodology is segmentation-free. Text images are transformed into sequences of features using a multi-scale scanning scheme. Standing out from the dominant methodology of hand-crafted features, we propose to learn relevant text representations from data using different deep learning methods, namely Deep Auto-Encoders, ConvNets and unsupervised learning models. Each one leads to a specific OCR (Optical Character Recognition) solution. Sequence labeling is performed without any prior segmentation using a recurrent connectionist learning model. Proposed solutions are compared to other methods based on non-connectionist and hand-crafted features. In addition, we propose to enhance the recognition results using Recurrent Neural Network-based language models that are able to capture long-range linguistic dependencies. Both OCR and language model probabilities are incorporated in a joint decoding scheme where additional hyper-parameters are introduced to boost recognition results and reduce the response time. Given the lack of public multimedia Arabic datasets, we propose novel annotated datasets issued from Arabic videos. The OCR dataset, called ALIF, is publicly available for research purposes. As the best of our knowledge, it is first public dataset dedicated for Arabic video OCR. Our proposed solutions were extensively evaluated. Obtained results highlight the genericity and the efficiency of our approaches, reaching a word recognition rate of 88.63% on the ALIF dataset and outperforming well-known commercial OCR engine by more than 36%.
|
192 |
Identification de systèmes dynamiques non-linéaires par réseaux de neurones et multimodèles / Identification of non linear dynamical system by neural networks and multiple modelsThiaw, Lamine 28 January 2008 (has links)
Cette étude traite de l’identification de système dynamique non-linéaire. Une architecture multimodèle capable de surmonter certaines difficultés de l’architecture neuronale de type MLP a été étudiée. L’approche multimodèle consiste à représenter un système complexe par un ensemble de modèles de structures simples à validité limitée dans des zones bien définies. A la place de la structure affine des modèles locaux généralement utilisée, cette étude propose une structure polynômiale plus générale, capable de mieux appréhender les non-linéarités locales, réduisant ainsi le nombre de modèles locaux. L’estimation paramétrique d’une telle architecture multimodèle peut se faire suivant une optimisation linéaire, moins coûteuse en temps de calcul que l’estimation paramétrique utilisée dans une architecture neuronale. L’implantation des multimodèles récurrents, avec un algorithme d’estimation paramétrique plus souple que l’algorithme de rétro-propagation du gradient à travers le temps utilisé pour le MLP récurrent a également été effectuée. Cette architecture multimodèle permet de représenter plus facilement des modèles non-linéaires bouclés tels que les modèles NARMAX et NOE. La détermination du nombre de modèles locaux dans une architecture multimodèle nécessite la décomposition (le partitionnement) de l’espace de fonctionnement du système en plusieurs sous-espaces où sont définies les modèles locaux. Des modes de partitionnement flou (basé sur les algorithmes de« fuzzy-c-means », de « Gustafson et Kessel » et du « subtractive clustering ») ont été présentés. L’utilisation de telles méthodes nécessite l’implantation d’une architecture multimodèle où les modèles locaux peuvent être de structures différentes : polynômiales de degrés différents, neuronale ou polynômiale et neuronale. Une architecture multimodèle hétérogène répondant à ses exigences a été proposée, des algorithmes d’identification structurelles et paramétriques ont été présentés. Une étude comparative entre les architectures MLP et multimodèle a été menée. Le principal atout de l’architecture multimodèle par rapport à l’architecture neuronale de type MLP est la simplicité de l’estimation paramétrique. Par ailleurs, l’utilisation dans une architecture multimodèle d’un mode de partitionnement basé sur la classification floue permet de déterminer facilement le nombre de modèles locaux, alors que la détermination du nombre de neurones cachés pour une architecture MLP reste une tâche difficile / This work deals with non linear dynamical system identification. A multiple model architecture which overcomes certain insufficiencies of MLP neural networks is studied. Multiple model approach consists of modeling complex systems by mean of a set of simple local models whose validity are limited in well defined zones. Instead of using conventional affine models, a more general polynomial structure is proposed in this study, enabling to better apprehend local non linearities, reducing thus the number of local models. Models parameters of such a structure are estimated by linear optimization, which reduces computation time with respect to parameter estimation of a neural network architecture. The implementation of recurrent multiple models, with a more convenient learning algorithm than the back propagation through time, used in recurrent MLP models, is also studied. Such implementations facilitate representation of recurrent models like NARMAX and NOE. The determination of the number of local models in a multiple model architecture requires decomposition of system’s feature space into several sub-systems in which local models are defined. Fuzzy partitioning methods (based of « fuzzy-c-means », « Gustafson and Kessel » and « subtractive clustering »algorithms) are presented. The use of such methods requires the implementation of a multiple model architecture where local models can have different structures : polynomial with different degrees, neural or polynomial and neural. A multiple model with a heterogeneous architecture satisfying these requirements is proposed and structural and parametrical identification algorithms are presented. A comparative study between multiple model and MLP architectures is done. The main advantage of the multiple model architecture is the parameter estimation simplicity. In addition, the use of fuzzy partitioning methods in multiple model architecture enables to find easily the number of local models while the determination of hidden neurons in an MLP architecture remains a hard task
|
193 |
Synchronisation et coordination interpersonnelle dans l'interaction Homme-robot / Synchrony and Interpersonal coordination in Human Robot interactionHasnain, Syed Khursheed 10 July 2014 (has links)
As robots start moving closer to our social and daily lives, issues of agency and social behavior become more important. However, despite noticeable advances in Human Robot Interaction (HRI), the developed technologies induce two major drawbacks : (i) HRI are highly demanding, (ii) humans have to adapt their way of thinking to the potential and limitations of the Robot. Thereby, HRI induce an important cognitive load which question the acceptability of the future robots. Consequently, we can address the question of understanding and mastering the development of pleasant yet efficient human-robot interactions which increase self- esteem, engagement (or pleasure), and efficacy of the human when interacting with the machine.In this race for more user-friendly HRI systems (robotic companion, intelligent objects etc.), working on the technical features (the design of appearance and superficial traits of behavior) can contribute to some partial solutions for punctual or short-term interactions. For instance, a major focus of interest has been put on the expressiveness and the appearance of robots and avatars. Yet, these approaches have neglected the importance of understanding the dynamics of interactions.In our opinion, intuitive communication refers to the ability of the robot to detect the crucial signals of the interaction and use them to adapt one's dynamics to the other's behavior. In fact, this central issue is highly dependent on the robot's capabilities to sense the human world and interact with it in a way that emulates human-human interactions.In early communication among humans, synchrony was found to be a funda- mental mechanism relying on very low-level sensory-motor networks, inducing the synchronization of inter-individual neural populations from sensory flows (vision, audition, or touch). Synchrony is caused by the interaction but also sustains the interaction itself in a circular way, as promoted by the enaction approach. Consequently, to become a partner in a working together scenario, the machine can obtain a minimal level of autonomy and adaptation by predicting the rhythmic structure of the interaction to build reinforcement signals to adapt the robot behavior as it can maintain the interest of the human in more long-term interactions.More precisely, as we are aiming for more “intuitive” and “natural” HRI, we took advantages of recent discoveries in low-level human interactions and studied Unintentional Synchronizations during rhythmic human robot interactions. We argue that exploiting natural stability and adaptability properties of unintentional synchronizations and rhythmic activities in human-human interactions can solve several of the acceptability problems of HRIs, and allow rethinking the current approaches to design them. / As robots start moving closer to our social and daily lives, issues of agency and social behavior become more important. However, despite noticeable advances in Human Robot Interaction (HRI), the developed technologies induce two major drawbacks : (i) HRI are highly demanding, (ii) humans have to adapt their way of thinking to the potential and limitations of the Robot. Thereby, HRI induce an important cognitive load which question the acceptability of the future robots. Consequently, we can address the question of understanding and mastering the development of pleasant yet efficient human-robot interactions which increase self- esteem, engagement (or pleasure), and efficacy of the human when interacting with the machine.In this race for more user-friendly HRI systems (robotic companion, intelligent objects etc.), working on the technical features (the design of appearance and superficial traits of behavior) can contribute to some partial solutions for punctual or short-term interactions. For instance, a major focus of interest has been put on the expressiveness and the appearance of robots and avatars. Yet, these approaches have neglected the importance of understanding the dynamics of interactions.In our opinion, intuitive communication refers to the ability of the robot to detect the crucial signals of the interaction and use them to adapt one's dynamics to the other's behavior. In fact, this central issue is highly dependent on the robot's capabilities to sense the human world and interact with it in a way that emulates human-human interactions.In early communication among humans, synchrony was found to be a funda- mental mechanism relying on very low-level sensory-motor networks, inducing the synchronization of inter-individual neural populations from sensory flows (vision, audition, or touch). Synchrony is caused by the interaction but also sustains the interaction itself in a circular way, as promoted by the enaction approach. Consequently, to become a partner in a working together scenario, the machine can obtain a minimal level of autonomy and adaptation by predicting the rhythmic structure of the interaction to build reinforcement signals to adapt the robot behavior as it can maintain the interest of the human in more long-term interactions.More precisely, as we are aiming for more “intuitive” and “natural” HRI, we took advantages of recent discoveries in low-level human interactions and studied Unintentional Synchronizations during rhythmic human robot interactions. We argue that exploiting natural stability and adaptability properties of unintentional synchronizations and rhythmic activities in human-human interactions can solve several of the acceptability problems of HRIs, and allow rethinking the current approaches to design them.
|
194 |
Improved training of generative modelsGoyal, Anirudh 11 1900 (has links)
No description available.
|
195 |
Réseaux de neurones profonds pour la séparation des sources et la reconnaissance robuste de la parole / Deep neural networks for source separation and noise-robust speech recognitionAditya Arie Nugraha, . 05 December 2017 (has links)
Dans cette thèse, nous traitons le problème de la séparation de sources audio multicanale par réseaux de neurones profonds (deep neural networks, DNNs). Notre approche se base sur le cadre classique de séparation par algorithme espérance-maximisation (EM) basé sur un modèle gaussien multicanal, dans lequel les sources sont caractérisées par leurs spectres de puissance à court terme et leurs matrices de covariance spatiales. Nous explorons et optimisons l'usage des DNNs pour estimer ces paramètres spectraux et spatiaux. À partir des paramètres estimés, nous calculons un filtre de Wiener multicanal variant dans le temps pour séparer chaque source. Nous étudions en détail l'impact de plusieurs choix de conception pour les DNNs spectraux et spatiaux. Nous considérons plusieurs fonctions de coût, représentations temps-fréquence, architectures, et tailles d'ensembles d'apprentissage. Ces fonctions de coût incluent en particulier une nouvelle fonction liée à la tâche pour les DNNs spectraux: le rapport signal-à-distorsion. Nous présentons aussi une formule d'estimation pondérée des paramètres spatiaux, qui généralise la formulation EM exacte. Sur une tâche de séparation de voix chantée, nos systèmes sont remarquablement proches de la méthode de l'état de l'art actuel et améliorent le rapport source-interférence de 2 dB. Sur une tâche de rehaussement de la parole, nos systèmes surpassent la formation de voies GEV-BAN de l'état de l'art de 14%, 7% et 1% relatifs en terme d'amélioration du taux d'erreur sur les mots sur des données à 6, 4 et 2 canaux respectivement / This thesis addresses the problem of multichannel audio source separation by exploiting deep neural networks (DNNs). We build upon the classical expectation-maximization (EM) based source separation framework employing a multichannel Gaussian model, in which the sources are characterized by their power spectral densities and their source spatial covariance matrices. We explore and optimize the use of DNNs for estimating these spectral and spatial parameters. Employing the estimated source parameters, we then derive a time-varying multichannel Wiener filter for the separation of each source. We extensively study the impact of various design choices for the spectral and spatial DNNs. We consider different cost functions, time-frequency representations, architectures, and training data sizes. Those cost functions notably include a newly proposed task-oriented signal-to-distortion ratio cost function for spectral DNNs. Furthermore, we present a weighted spatial parameter estimation formula, which generalizes the corresponding exact EM formulation. On a singing-voice separation task, our systems perform remarkably close to the current state-of-the-art method and provide up to 2 dB improvement of the source-to-interference ratio. On a speech enhancement task, our systems outperforms the state-of-the-art GEV-BAN beamformer by 14%, 7%, and 1% relative word error rate improvement on 6-channel, 4-channel, and 2-channel data, respectively
|
196 |
Apprentissage par renforcement développemental / Developmental reinforcement learningZimmer, Matthieu 15 January 2018 (has links)
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur / Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space
|
197 |
Approches jointes texte/image pour la compréhension multimodale de documents / Text/image joint approaches for multimodal understanding of documentsDelecraz, Sébastien 10 December 2018 (has links)
Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes. / The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions.
|
198 |
Méthodologie de détection et d'identification des défauts multiples dans les systèmes complexes à partir d'évènements discrets et de réseaux de neurones : applications aux aérogénérateurs / Detection methodology and identify multiple faults in complex systems from discrete events and neural networks : applications for wind turbinesToma, Samuel 08 September 2014 (has links)
L'étude présentée dans ce mémoire concerne le diagnostic des machines électriques à l'aide d'une association innovante entre la modélisation à évènements discrets, la Simulation Comparative et Concurrente (SCC) et les Réseaux de Neurones Artificiels (RNAs). Le diagnostic des machines électriques est effectué à partir d'une analyse temporelle des signaux statoriques et rotoriques à l'aide de réseaux de neurones de type Feed-Forward. Afin de comparer les différentes configurations de ces réseaux de neurones, l'approche proposée dans ce document utilise la simulation comparative et concurrente implémentée grâce au formalisme à évènements discrets DEVS (Discrete EVent system Specification). L'intégration des algorithmes de la SCC et des RNAs au sein du formalisme DEVS a été effectuée de manière générique et indépendamment du simulateur en développent des extensions et une librairie de modèles dans l'environnement de modélisation et de simulation à évènements discrets DEVSimPy. L'application de cette nouvelle solution pour le diagnostic des machines électriques permet de détecter les défauts à partir d'une architecture logiciel facilement portable sur des systèmes embarqués de type FPGA. / This thesis deals with the time-domain analysis of the electrical machines fault diagnosis due to early short-circuits detection in both stator and rotor windings. It also introduces to the Discrete EVent system Specification (DEVS) a generic solution to enable concurrent and comparative simulations (CCS). The DEVS-based CCS is an extension introduced using an aspect-oriented programming (AOP) to interact with the classic DEVS simulator. A new DEVS-based artificial neural network (ANN) is also introduced with a separation between learning and calculation models. The DEVS-based CCS is validated on the proposed ANN DEVS library inside the DEVSimPy environment. The concurrent ANN contributes in the time-domains analysis for the electrical machine fault diagnosis. This new method is based on data coming directly from the sensors without any computation but with a new dedicated preprocessing technique. Later, some enhancements are brought to the artificial neural network based on a new multistage architecture reducing the training time and errors compared to the single ANN. The new architecture and techniques has been validated on real data sixteen non-destructive windings faults analysis and localization.
|
199 |
Strategic management and machine learning : in search of companies' financial performance optimization in the digital age / Management stratégique et intelligence artificielle : une nouvelle approche pour l'optimisation de la performance à l'heure du digitalMedrouk, Samir 28 November 2018 (has links)
Cette recherche a pour objectif clé de créer un modèle conceptuel et numérique, basé sur le machine learning, permettant aux académiques et praticiens de repenser le management stratégique mais aussi de prédire l’évolution de la performance organisationnelle (e.g., la profitabilité) en fonction de la variation des facteurs organisationnels étudiés (alignement stratégique, capacités stratégiques).Cette thèse compare et intègre deux approches conceptuelles (approche par les ressources et la théorie de la contingence) et deux approches analytiques (linéaire et non linéaire).Le modèle développé appelé MSM (Modèle de Management Stratégique) est basé sur les données recueillies auprès de 239 hauts dirigeants, les résultats montrent que le MSM capture la non-linéarité (complexité) de l’organisation et offre une bonne capacité de prédiction des performances de l’entreprise basée sur les variables du MSM. De plus, les résultats suggèrent que les approches basées sur les ressources et la contingence devraient être considérées comme complémentaires plutôt que comme des approches concurrentes. / A key goal for this dissertation has been to create a conceptual and numerical model based on machine learning that allows leaders and scholars to reimagine strategic management, and predict the evolution of organizational performance (e.g., profitability) based on the variation of the considered organizational factors (strategic alignment, strategic capabilities).This dissertation compares and integrates two conceptual (resource-based and contingency-based), and two analytical (linear and nonlinear) approaches.The model developed called MSM (Model of Strategic Management) was validated using the data gathered from 239 senior executives, the results showed that MSM captures the organization nonlinearity (complexity) and offers a good prediction capability of firm performance based on the MSM variables. Also, the results suggest that resource-based and contingency-based should be viewed as complementary instead of competing approaches.
|
200 |
Analyse d'images pour l'identification multi-organes d'espèces végétales / Image analysis for multi-organ of plant species identificationBertrand, Sarah 10 December 2018 (has links)
Cette thèse s’inscrit dans le cadre de l’ANR ReVeRIES dont l’objectif est d’utiliser les technologies mobiles pour aider l’homme à mieux connaître son environnement et notamment les végétaux qui l’entourent. Plus précisément, le projet ReVeRIES s’appuie sur une application mobile, nommée Folia développée dans le cadre du projet ANR ReVeS, capable de reconnaître les espèces d’arbres et arbustes à partir de photos de leurs feuilles. Ce prototype se différencie des autres outils car il est capable de simuler le comportement du botaniste. Dans le contexte du projet ReVeRIES, nous nous proposons d’aller beaucoup plus loin en développant de nouveaux aspects : la reconnaissance multimodale d’espèces, l’apprentissage par le jeu et les sciences citoyennes. L’objet de cette thèse porte sur le premier de ces trois aspects, à savoir l’analyse d’images d’organes de végétaux en vue de l’identification.Plus précisément, nous considérons les principaux arbres et arbustes, endémiques ou exotiques, que l’on trouve en France métropolitaine. L’objectif de cette thèse est d’étendre l’algorithme de reconnaissance en prenant en compte d’autres organes que la feuille. Cette multi-modalité est en effet essentielle si nous souhaitons que l’utilisateur apprenne et s’entraîne aux différentes méthodes de reconnaissance, pour lesquelles les botanistes utilisent la variété des organes (i.e. les feuilles, les fleurs, les fruits et les écorces). La méthode utilisée par Folia pour la reconnaissance des feuilles étant dédiée, car simulant le botaniste, ne peut s’appliquer directement aux autres organes. Ainsi, de nouveaux verrous se posent, tant au niveau dutraitement des images qu’au niveau de la fusion de données.Une première partie de la thèse a été consacrée à la mise en place de méthodes de traitement d’images pour l’identification des espèces végétales. C’est l’identification des espèces d’arbres à partir d’images d’écorces qui a été étudiée en premier. Les descripteurs développés prennent en compte la structure de l’écorce en s’inspirant des critères utilisés par les botanistes. Les fruits et les fleurs ont nécessité une étape de segmentation avant leur description. Une nouvelle méthode de segmentation réalisable sur smartphone a été développée pour fonctionner sur la grande variabilité des fleurs et des fruits. Enfin, des descripteurs ont été extraits sur les fruits et les fleurs après l’étape de segmentation. Nous avons décidé de ne pas faire de séparation entre les fleurs et les fruits car nous avons montré qu’un utilisateur novice en botanique ne sait pas toujours faire la différence entre ces deux organes sur des arbres dits «d’ornement» (non fruitiers). Pour les fruits et les fleurs, la prédiction n’est pas seulement faite sur les espèces mais aussi sur les genres et les familles, groupes botaniques traduisant d’une similarité entre ces organes.Une deuxième partie de la thèse traite de la combinaison des descripteurs des différents organes que sont les feuilles, les écorces, les fruits et les fleurs. En plus des méthodes de combinaison basiques, nous proposons de prendre en compte la confusion entre les espèces, ainsi que les prédictions d’appartenance aux taxons botaniques supérieurs à l’espèce.Enfin, un chapitre d’ouverture est consacré au traitement de ces images par des réseaux de neurones à convolutions. En effet, le Deep-Learning est de plus en plus utilisé en traitement d’images, notamment appliqué aux organes végétaux. Nous proposons dans ce contexte de visualiser les filtres de convolution extrayant de l’information, afin de faire le lien entre lesinformations extraites par ces réseaux et les éléments botaniques. / This thesis is part of the ANR ReVeRIES, which aims to use mobile technologies to help people better understand their environment and in particular the plants that surround them. More precisely, the ReVeRIES project is based on a mobile application called Folia developed as part of the ANR ReVeS project and capable of recognising tree and shrub species based on photos of their leaves. This prototype differs from other tools in that it is able to simulate the behaviour of the botanist. In the context of the ReVeRIES project, we propose to go much further by developing new aspects: multimodal species recognition, learning through play and citizen science. The purpose of this thesis is to focus on the first of these three aspects, namelythe analysis of images of plant organs for identification.More precisely, we consider the main trees and shrubs, endemic or exotic, found in metropolitan France. The objective of this thesis is to extend the recognition algorithm by taking into account other organs in addition to the leaf. This multi-modality is indeed essential if we want the user to learn and practice the different methods of recognition for which botanists use the variety of organs (i.e. leaves, flowers, fruits and bark). The method used by Folia for leaf recognition being dedicated, because simulating the work of a botanist on the leaf, cannot be applied directly to other organs. Thus, new challenges are emerging, both in terms of image processing and data fusion.The first part of the thesis was devoted to the implementation of image processing methods for the identification of plant species. The identification of tree species from bark images was the first to be studied. The descriptors developed take into account the structure of the bark inspired from the criteria used by botanists. Fruits and flowers required a segmentation step before their description. A new segmentation method that can be used on smartphones has been developed to work in spite of the high variability of flowers and fruits. Finally, descriptors were extracted on fruits and flowers after the segmentation step. We decided not to separate flowers and fruits because we showed that a user new to botany does not always know the difference between these two organs on so-called "ornamental" trees (not fruit trees). For fruits and flowers, prediction is not only made on their species but also on their genus and family, botanical groups reflecting a similarity between these organs.The second part of the thesis deals with the combination of descriptors of the different organs: leaves, bark, fruits and flowers. In addition to basic combination methods, we propose to consider the confusion between species, as well as predictions of affiliations in botanical taxa higher than the species.Finally, an opening chapter is devoted to the processing of these images by convolutional neural networks. Indeed, Deep Learning is increasingly used in image processing, particularly for plant organs. In this context, we propose to visualize the learned convolution filters extracting information, in order to make the link between the information extracted by these networks and botanical elements.
|
Page generated in 0.0708 seconds