• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 12
  • 11
  • Tagged with
  • 29
  • 29
  • 29
  • 24
  • 22
  • 22
  • 20
  • 17
  • 16
  • 15
  • 15
  • 15
  • 15
  • 13
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Architectures matérielles numériques intégrées et réseaux de neurones à codage parcimonieux / Integrated digital hardware architectures and networks of neurons coding parsimonious

Nono Wouafo, Hugues Gérald 15 January 2016 (has links)
De nos jours, les réseaux de neurones artificiels sont largement utilisés dans de nombreusesapplications telles que le traitement d’image ou du signal. Récemment, un nouveau modèlede réseau de neurones a été proposé pour concevoir des mémoires associatives, le GBNN(Gripon-Berrou Neural Network). Ce modèle offre une capacité de stockage supérieure àcelle des réseaux de Hopfield lorsque les informations à mémoriser ont une distributionuniforme. Des méthodes améliorant leur performance pour des distributions non-uniformesainsi que des architectures matérielles mettant en œuvre les réseaux GBNN ont étéproposés. Cependant, ces solutions restent très coûteuses en ressources matérielles, et lesarchitectures proposées sont restreintes à des réseaux de tailles fixes et sont incapables depasser à l’échelle.Les objectifs de cette thèse sont les suivants : (1) concevoir des modèles inspirés du modèle GBNN et plus performants que l’état de l’art, (2) proposer des architectures moins coûteusesque les solutions existantes et (3) concevoir une architecture générique configurable mettanten œuvre les modèles proposés et capable de manipuler des réseaux de tailles variables.Les résultats des travaux de thèse sont exposés en plusieurs parties. Le concept de réseaux àclones de neurone et ses différentes instanciations sont présentés dans un premier temps. Cesréseaux offrent de meilleures performances que l’état de l’art pour un coût mémoireidentique lorsqu’une distribution non-uniforme des informations à mémoriser estconsidérée. Des optimisations de l’architecture matérielle sont ensuite introduites afin defortement réduire le coût en termes de ressources. Enfin, une architecture générique capablede passer à l’échelle et capable de manipuler des réseaux de tailles variables est proposée. / Nowadays, artificial neural networks are widely used in many applications such as image and signal processing. Recently, a new model of neural network was proposed to design associative memories, the GBNN (Gripon-Berrou Neural Network). This model offers a storage capacity exceeding those of Hopfield networks when the information to be stored has a uniform distribution. Methods improving performance for non-uniform distributions and hardware architectures implementing the GBNN networks were proposed. However, on one hand, these solutions are very expensive in terms of hardware resources and on the other hand, the proposed architectures can only implement fixed size networks and are not scalable. The objectives of this thesis are: (1) to design GBNN inspired models outperforming the state of the art, (2) to propose architectures cheaper than existing solutions and (3) to design a generic architecture implementing the proposed models and able to handle various sizes of networks. The results of these works are exposed in several parts. Initially, the concept of clone based neural networks and its variants are presented. These networks offer better performance than the state of the art for the same memory cost when a non-uniform distribution of the information to be stored is considered. The hardware architecture optimizations are then introduced to significantly reduce the cost in terms of resources. Finally, a generic scalable architecture able to handle various sizes of networks is proposed.
2

Réseaux de neurones récurrents pour le traitement automatique de la parole / Speech processing using recurrent neural networks

Gelly, Grégory 22 September 2017 (has links)
Le domaine du traitement automatique de la parole regroupe un très grand nombre de tâches parmi lesquelles on trouve la reconnaissance de la parole, l'identification de la langue ou l'identification du locuteur. Ce domaine de recherche fait l'objet d'études depuis le milieu du vingtième siècle mais la dernière rupture technologique marquante est relativement récente et date du début des années 2010. C'est en effet à ce moment qu'apparaissent des systèmes hybrides utilisant des réseaux de neurones profonds (DNN) qui améliorent très notablement l'état de l'art. Inspirés par le gain de performance apporté par les DNN et par les travaux d'Alex Graves sur les réseaux de neurones récurrents (RNN), nous souhaitions explorer les capacités de ces derniers. En effet, les RNN nous semblaient plus adaptés que les DNN pour traiter au mieux les séquences temporelles du signal de parole. Dans cette thèse, nous nous intéressons tout particulièrement aux RNN à mémoire court-terme persistante (Long Short Term Memory (LSTM) qui permettent de s'affranchir d'un certain nombre de difficultés rencontrées avec des RNN standards. Nous augmentons ce modèle et nous proposons des processus d'optimisation permettant d'améliorer les performances obtenues en segmentation parole/non-parole et en identification de la langue. En particulier, nous introduisons des fonctions de coût dédiées à chacune des deux tâches: un simili-WER pour la segmentation parole/non-parole dans le but de diminuer le taux d'erreur d'un système de reconnaissance de la parole et une fonction de coût dite de proximité angulaire pour les problèmes de classification multi-classes tels que l'identification de la langue parlée. / Automatic speech processing is an active field of research since the 1950s. Within this field the main area of research is automatic speech recognition but simpler tasks such as speech activity detection, language identification or speaker identification are also of great interest to the community. The most recent breakthrough in speech processing appeared around 2010 when speech recognition systems using deep neural networks drastically improved the state-of-the-art. Inspired by this gains and the work of Alex Graves on recurrent neural networks (RNN), we decided to explore the possibilities brought by these models on realistic data for two different tasks: speech activity detection and spoken language identification. In this work, we closely look at a specific model for the RNNs: the Long Short Term Memory (LSTM) which mitigates a lot of the difficulties that can arise when training an RNN. We augment this model and introduce optimization methods that lead to significant performance gains for speech activity detection and language identification. More specifically, we introduce a WER-like loss function to train a speech activity detection system so as to minimize the word error rate of a downstream speech recognition system. We also introduce two different methods to successfully train a multiclass classifier based on neural networks for tasks such as LID. The first one is based on a divide-and-conquer approach and the second one is based on an angular proximity loss function. Both yield performance gains but also speed up the training process.
3

Modélisation de la dépendance et apprentissage automatique dans le contexte du provisionnement individuel et de la solvabilité en actuariat IARD

Chaoubi, Ihsan 14 May 2022 (has links)
Les compagnies d'assurance jouent un rôle important dans l'économie des pays en s'impliquant de façon notable dans les marchés boursiers, obligataires et immobiliers, d'où la nécessité de préserver leur solvabilité. Le cycle spécifique de production en assurance amène des défis particuliers aux actuaires et aux gestionnaires de risque dans l'accomplissement de leurs tâches. Dans cette thèse, on a pour but de développer des approches et des algorithmes susceptibles d'aider à résoudre certaines problématiques liées aux opérations de provisionnement et de solvabilité d'une compagnie d'assurance. Les notions préliminaires pour ces contributions sont présentées dans l'introduction de cette thèse. Les modèles de provisionnement traditionnels sont fondés sur des informations agrégées. Ils ont connu un grand succès, comme en témoigne le nombre important d'articles et documents actuariels connexes. Cependant, en raison de la perte d'informations individuelles des sinistres, ces modèles représentent certaines limites pour fournir des estimations robustes et réalistes dans des contextes susceptibles d'évoluer. Dans ce sens, les modèles de réserve individuels représentent une alternative prometteuse. En s'inspirant des récentes recherches, on propose dans le Chapitre 1 un modèle de réserve individuel basé sur un réseau de neurones récurrent. Notre réseau a l'avantage d'être flexible pour plusieurs structures de base de données détaillés des sinistres et capable d'incorporer plusieurs informations statiques et dynamiques. À travers plusieurs études de cas avec des jeux de données simulés et réels, le réseau proposé est plus performant que le modèle agrégé chain-ladder. La détermination des exigences de capital pour un portefeuille repose sur une bonne connaissance des distributions marginales ainsi que les structures de dépendance liants les risques individuels. Dans les Chapitres 2 et 3 on s'intéresse à la modélisation de la dépendance et à l'estimation des mesures de risque. Le Chapitre 2 présente une analyse tenant compte des structures de dépendance extrême. Pour un portefeuille à deux risques, on considère en particulier à la dépendance négative extrême (antimonotonocité) qui a été moins étudiée dans la littérature contrairement à la dépendance positive extrême (comonotonocité). On développe des expressions explicites pour des mesures de risque de la somme d'une paire de variables antimontones pour trois familles de distributions. Les expressions explicites obtenues sont très utiles notamment pour quantifier le bénéfice de diversification pour des risques antimonotones. Face à une problématique avec plusieurs lignes d'affaires, plusieurs chercheurs et praticiens se sont intéressés à la modélisation en ayant recours à la théorie des copules au cours de la dernière décennie. Cette dernière fournit un outil flexible pour modéliser la structure de dépendance entre les variables aléatoires qui peuvent représenter, par exemple, des coûts de sinistres pour des contrats d'assurance. En s'inspirant des récentes recherches, dans le Chapitre 3, on définit une nouvelle famille de copules hiérarchiques. L'approche de construction proposée est basée sur une loi mélange exponentielle multivariée dont le vecteur commun est obtenu par une convolution descendante de variables aléatoires indépendantes. En se basant sur les mesures de corrélation des rangs, on propose un algorithme de détermination de la structure, tandis que l'estimation des paramètres est basée sur une vraisemblance composite. La flexibilité et l'utilité de cette famille de copules est démontrée à travers deux études de cas réelles. / Insurance companies play an essential role in the countries economy by monopolizing a large part of the stock, bond, and estate markets, which implies the necessity to preserve their solvency and sustainability. However, the particular production cycle of the insurance industry may involve typical problems for actuaries and risk managers. This thesis project aims to develop approaches and algorithms that can help solve some of the reserving and solvency operations problems. The preliminary concepts for these contributions are presented in the introduction of this thesis. In current reserving practice, we use deterministic and stochastic aggregate methods. These traditional models based on aggregate information have been very successful, as evidenced by many related actuarial articles. However, due to the loss of individual claims information, these models represent some limitations in providing robust and realistic estimates, especially in variable settings. In this context, individual reserve models represent a promising alternative. Based on the recent researches, in Chapter 1, we propose an individual reserve model based on a recurrent neural network. Our network has the advantage of being flexible for several detailed claims datasets structures and incorporating several static and dynamic information. Furthermore, the proposed network outperforms the chain-ladder aggregate model through several case studies with simulated and real datasets. Determining the capital requirements for a portfolio relies on a good knowledge of the marginal distributions and the dependency structures linking the individual risks. In Chapters 2 and 3, we focus on the dependence modeling component as well as on risk measures. Chapter 2 presents an analysis taking into account extreme dependence structures. For a two-risk portfolio, we are particularly interested in extreme negative dependence (antimonotonicity), which has been less studied in the literature than extreme positive dependence (comonotonicity). We develop explicit expressions for risk measures of the sum of a pair of antimonotonic variables for three families of distributions. The explicit expressions obtained are very useful, e.g., to quantify the diversification benefit for antimonotonic risks. For a problem with several lines of business, over the last decade, several researchers and practitioners have been interested in modeling using copula theory. The latter provides a flexible tool for modeling the dependence structure between random variables that may represent, for example, claims costs for insurance contracts. Inspired by some recent researches, in Chapter 3, we define a new family of hierarchical copulas. The proposed construction approach is based on a multivariate exponential mixture distribution whose common vector is obtained by a top-down convolution of independent random variables. A structure determination algorithm is proposed based on rank correlation measures, while the parameter estimation is based on a composite likelihood. The flexibility and usefulness of this family of copulas are demonstrated through two real case studies.
4

Encodage d'un signal audio dans un électroencéphalogramme

Moinnereau, Marc-Antoine January 2017 (has links)
Les interfaces cerveau-machine visent à établir un lien de communication entre le cerveau et un système externe à ce dernier. Les électroencéphalogrammes (EEG), dans ce contexte, ont l’avantage d’être non invasifs. Par contre, l’information sensorielle qui se retrouve dans un signal EEG est beaucoup moins ciblée que dans un signal neuronal acquis par une méthode invasive. De plus, étant donné que le cortex auditif est situé dans des repliements du tissu cortical, les neurones qui déchargent, suite à un stimulus auditif, sont parallèles à la surface corticale sur laquelle les EEG sont enregistrés. Par conséquent, l’information auditive qui se retrouve dans le canal EEG situé vis-à-vis du cortex auditif est faible. L’objectif principal de ce projet de recherche consiste donc à étudier la répartition de l’information auditive dans l’ensemble des canaux EEG. Pour ce faire, nous utilisons deux approches. Dans la première, nous tenterons d’estimer l’activité corticale sous-jacente à partir des signaux EEG en utilisant un modèle de couplage bande fréquence. En effet, certaines bandes de fréquences sont des bons prédicteurs des décharges neuronales. Cependant, cette approche n’a pas été validée pour le système auditif, nous confronterons donc l’estimation obtenue à une autre estimation en ayant recours à un modèle spécialisé pour l’encodage du signal de parole faisant appel aux processus ponctuels. Ce modèle prend en compte les dynamiques intrasèques des neurones et également des propriétés spectrotemporelles du stimulus d’entrée. Dans la seconde approche, nous étudierons la possibilité de classifier 3 voyelles (a, i et u) en fonction du nombre de canaux EEG utilisés ainsi que leur répartition sur le cuir chevelu. Nous aurons recours, pour cela, à un réservoir de neurone à décharge récurrent activé en entrée par les données EEG. Les résultats démontrent que l’information auditive se retrouve en fait dans l’ensemble des canaux EEG et qu’elle n’est pas confinée à un nombre restreint d’électrodes. Il est également montré que lorsque l’on utilise les 64 électrodes que comporte l’EEG pour classifier les 3 voyelles, on obtient une classification de l’ordre de 80%, mais aussi qu’un nombre limité de 10 électrodes suffit pour obtenir une classification satisfaisante et, qu’en plus, la position de ces électrodes sur le cuir chevelu est peu importante.
5

Une approche mathématique de l'apprentissage non-supervisé dans les réseaux de neurones récurrents

Galtier, Mathieu 13 December 2011 (has links) (PDF)
Dans cette thèse nous tentons de donner un sens mathématique à la proposition : le néocortex se construit un modèle de son environnement. Nous considérons que le néocortex est un réseau de neurones spikants dont la connectivité est soumise à une lente évolution appelée apprentissage. Dans le cas où le nombre de neurones est proche de l'infini, nous proposons une nouvelle méthode de champ-moyen afin de trouver une équation décrivant l'évolution du taux de décharge de populations de neurones. Nous étudions donc la dynamique de ce système moyennisé avec apprentissage. Dans le régime où l'apprentissage est beaucoup plus lent que l'activité du réseau nous pouvons utiliser des outils de moyennisation temporelle pour les systèmes lents/rapides. Dans ce cadre mathématique nous montrons que la connectivité du réseau converge toujours vers une unique valeur d'équilibre que nous pouvons calculer explicitement. Cette connectivité regroupe l'ensemble des connaissances du réseau à propos de son environnement. Nous comparons cette connectivité à l'équilibre avec les stimuli du réseau. Considérant que l'environnement est solution d'un système dynamique quelconque, il est possible de montrer que le réseau encode la totalité de l'information nécessaire à la définition de ce système dynamique. En effet nous montrons que la partie symétrique de la connectivité correspond à la variété sur laquelle est définie le système dynamique de l'environnement, alors que la partie anti-symétrique de la connectivité correspond au champ de vecteur définissant le système dynamique de l'environnement. Dans ce contexte il devient clair que le réseau agit comme un prédicteur de son environnement.
6

apprentissage de séquences et extraction de règles de réseaux récurrents : application au traçage de schémas techniques. / sequence learning and rules extraction from recurrent neural networks : application to the drawing of technical diagrams

Chraibi Kaadoud, Ikram 02 March 2018 (has links)
Deux aspects importants de la connaissance qu'un individu a pu acquérir par ses expériences correspondent à la mémoire sémantique (celle des connaissances explicites, comme par exemple l'apprentissage de concepts et de catégories décrivant les objets du monde) et la mémoire procédurale (connaissances relatives à l'apprentissage de règles ou de la syntaxe). Cette "mémoire syntaxique" se construit à partir de l'expérience et notamment de l'observation de séquences, suites d'objets dont l'organisation séquentielle obéit à des règles syntaxiques. Elle doit pouvoir être utilisée ultérieurement pour générer des séquences valides, c'est-à-dire respectant ces règles. Cette production de séquences valides peut se faire de façon explicite, c'est-à-dire en évoquant les règles sous-jacentes, ou de façon implicite, quand l'apprentissage a permis de capturer le principe d'organisation des séquences sans recours explicite aux règles. Bien que plus rapide, plus robuste et moins couteux en termes de charge cognitive que le raisonnement explicite, le processus implicite a pour inconvénient de ne pas donner accès aux règles et de ce fait, de devenir moins flexible et moins explicable. Ces mécanismes mnésiques s'appliquent aussi à l'expertise métier : la capitalisation des connaissances pour toute entreprise est un enjeu majeur et concerne aussi bien celles explicites que celles implicites. Au début, l'expert réalise un choix pour suivre explicitement les règles du métier. Mais ensuite, à force de répétition, le choix se fait automatiquement, sans évocation explicite des règles sous-jacentes. Ce changement d'encodage des règles chez un individu en général et particulièrement chez un expert métier peut se révéler problématique lorsqu'il faut expliquer ou transmettre ses connaissances. Si les concepts métiers peuvent être formalisés, il en va en général de tout autre façon pour l'expertise. Dans nos travaux, nous avons souhaité nous pencher sur les séquences de composants électriques et notamment la problématique d’extraction des règles cachées dans ces séquences, aspect important de l’extraction de l’expertise métier à partir des schémas techniques. Nous nous plaçons dans le domaine connexionniste, et nous avons en particulier considéré des modèles neuronaux capables de traiter des séquences. Nous avons implémenté deux réseaux de neurones récurrents : le modèle de Elman et un modèle doté d’unités LSTM (Long Short Term Memory). Nous avons évalué ces deux modèles sur différentes grammaires artificielles (grammaire de Reber et ses variations) au niveau de l’apprentissage, de leurs capacités de généralisation de celui-ci et leur gestion de dépendances séquentielles. Finalement, nous avons aussi montré qu’il était possible d’extraire les règles encodées (issues des séquences) dans le réseau récurrent doté de LSTM, sous la forme d’automate. Le domaine électrique est particulièrement pertinent pour cette problématique car il est plus contraint avec une combinatoire plus réduite que la planification de tâches dans des cas plus généraux comme la navigation par exemple, qui pourrait constituer une perspective de ce travail. / There are two important aspects of the knowledge that an individual acquires through experience. One corresponds to the semantic memory (explicit knowledge, such as the learning of concepts and categories describing the objects of the world) and the other, the procedural or syntactic memory (knowledge relating to the learning of rules or syntax). This "syntactic memory" is built from experience and particularly from the observation of sequences of objects whose organization obeys syntactic rules.It must have the capability to aid recognizing as well as generating valid sequences in the future, i.e., sequences respecting the learnt rules. This production of valid sequences can be done either in an explicit way, that is, by evoking the underlying rules, or implicitly, when the learning phase has made it possible to capture the principle of organization of the sequences without explicit recourse to the rules. Although the latter is faster, more robust and less expensive in terms of cognitive load as compared to explicit reasoning, the implicit process has the disadvantage of not giving access to the rules and thus becoming less flexible and less explicable. These mnemonic mechanisms can also be applied to business expertise. The capitalization of information and knowledge in general, for any company is a major issue and concerns both the explicit and implicit knowledge. At first, the expert makes a choice to explicitly follow the rules of the trade. But then, by dint of repetition, the choice is made automatically, without explicit evocation of the underlying rules. This change in encoding rules in an individual in general and particularly in a business expert can be problematic when it is necessary to explain or transmit his or her knowledge. Indeed, if the business concepts can be formalized, it is usually in any other way for the expertise which is more difficult to extract and transmit.In our work, we endeavor to observe sequences of electrical components and in particular the problem of extracting rules hidden in these sequences, which are an important aspect of the extraction of business expertise from technical drawings. We place ourselves in the connectionist domain, and we have particularly considered neuronal models capable of processing sequences. We implemented two recurrent neural networks: the Elman model and a model with LSTM (Long Short Term Memory) units. We have evaluated these two models on different artificial grammars (Reber's grammar and its variations) in terms of learning, their generalization abilities and their management of sequential dependencies. Finally, we have also shown that it is possible to extract the encoded rules (from the sequences) in the recurrent network with LSTM units, in the form of an automaton. The electrical domain is particularly relevant for this problem. It is more constrained with a limited combinatorics than the planning of tasks in general cases like navigation for example, which could constitute a perspective of this work.
7

Modélisation des bases neuronales de la mémoire de travail paramétrique dans le cortex préfrontal / Modeling of the neuronal basis of parametric working memory in the prefrontal cortex

Rodriguez, Guillaume 20 October 2016 (has links)
La mémoire de travail paramétrique - la capacité fondamentale à maintenir et à manipuler des informations quantitatives de façon transitoire - est essentielle à de nombreuses fonctions centrales (perception, action, décision, contrôle comportemental, cognition). À l'échelle des neurones du cortex préfrontal, la mémoire de travail paramétrique s'exprime au travers d'activités persistantes de fréquence gradée (multistabilité) codant l'amplitude d'informations quantitatives passées (p.ex. une quantité psychophysique, un nombre d'items), dont l'origine causale demeure incomprise. En simulant des modèles biophysiques détaillés et en analysant formellement leur version simplifiée, j'ai 1) étudié les propriétés de mémoire cellulaire de neurones de couche V du cortex préfrontal, munis de courants supraliminaires, et 2) évalué le rôle possible de ces propriétés dans les processus de maintien gradé de l'activité persistante au sein des réseaux récurrents préfrontaux. Ces modèles réalistes m'ont permis de proposer 1) l'existence d'une forme particulière de bistabilité cellulaire flexible, dont l'expression est conditionnée à l'historique de régulation des propriétés intrinsèques et à la nature de la stimulation perçue (présent) et 2) que cette bistabilité cellulaire peut, par son interaction avec la réverbération d'activité synaptique, participer à l'émergence des dynamiques collectives persistantes gradées des réseaux préfrontaux, le corrélât neuronal de la mémoire de travail paramétrique. / Parametric working memory – the fundamental ability to maintain and manipulate quantitative information transiently – is critical to many core brain functions (perception, action, decision, behavioral control, cognition). Across neurons of the prefrontal cortex, parametric working memory is expressed through persistent graded activities (multistability) encoding the amplitude of past quantitative information (e.g. a psychophysical quantity, a number of items). The causal origin of this multistability remains unclear. Using biophysical and analytical models, I first studied the mnemonic properties of individual neurons endowed with supraliminar conductances. I then evaluated the possible role of these properties in maintaining persistent graded activities in prefrontal recurrent networks. These realistic models suggest 1) the existence of a flexible form of cellular bistability, conditioned to the historical regulation of the intrinsic properties and the nature of the stimulation and 2) that this cellular bistability could participate, in interaction with synaptic reverberation, to the emergence of persistent graded collective dynamics in prefrontal networks, the neural correlate of parametric working memory.
8

On Deep Multiscale Recurrent Neural Networks

Chung, Junyoung 04 1900 (has links)
No description available.
9

Improved training of generative models

Goyal, Anirudh 11 1900 (has links)
No description available.
10

Video analysis for augmented cataract surgery / Analyse vidéo pour la chirurgie de la cataracte augmentée

Al Hajj, Hassan 13 July 2018 (has links)
L’ère numérique change de plus en plus le monde en raison de la quantité de données récoltées chaque jour. Le domaine médical est fortement affecté par cette explosion, car l’exploitation de ces données est un véritable atout pour l’aide à la pratique médicale. Dans cette thèse, nous proposons d’utiliser les vidéos chirurgicales dans le but de créer un système de chirurgie assistée par ordinateur. Nous nous intéressons principalement à reconnaître les gestes chirurgicaux à chaque instant afin de fournir aux chirurgiens des recommandations et des informations pertinentes. Pour ce faire, l’objectif principal de cette thèse est de reconnaître les outils chirurgicaux dans les vidéos de chirurgie de la cataracte. Dans le flux vidéo du microscope, ces outils sont partiellement visibles et certains se ressemblent beaucoup. Pour relever ces défis, nous proposons d'ajouter une caméra supplémentaire filmant la table opératoire. Notre objectif est donc de détecter la présence des outils dans les deux types de flux vidéo : les vidéos du microscope et les vidéos de la table opératoire. Le premier enregistre l'oeil du patient et le second enregistre les activités de la table opératoire. Deux tâches sont proposées pour détecter les outils dans les vidéos de la table : la détection des changements et la détection de présence d'outil. Dans un premier temps, nous proposons un système similaire pour ces deux tâches. Il est basé sur l’extraction des caractéristiques visuelles avec des méthodes de classification classique. Il fournit des résultats satisfaisants pour la détection de changement, cependant, il fonctionne insuffisamment bien pour la tâche de détection de présence des outils sur la table. Dans un second temps, afin de résoudre le problème du choix des caractéristiques, nous utilisons des architectures d’apprentissage profond pour la détection d'outils chirurgicaux sur les deux types de vidéo. Pour surmonter les défis rencontrés dans les vidéos de la table, nous proposons de générer des vidéos artificielles imitant la scène de la table opératoire et d’utiliser un réseau de neurones à convolutions (CNN) à base de patch. Enfin, nous exploitons l'information temporelle en utilisant un réseau de neurones récurrent analysant les résultats de CNNs. Contrairement à notre hypothèse, les expérimentations montrent des résultats insuffisants pour la détection de présence des outils sur la table, mais de très bons résultats dans les vidéos du microscope. Nous obtenons des résultats encore meilleurs dans les vidéos du microscope après avoir fusionné l’information issue de la détection des changements sur la table et la présence des outils dans l’oeil. / The digital era is increasingly changing the world due to the sheer volume of data produced every day. The medical domain is highly affected by this revolution, because analysing this data can be a source of education/support for the clinicians. In this thesis, we propose to reuse the surgery videos recorded in the operating rooms for computer-assisted surgery system. We are chiefly interested in recognizing the surgical gesture being performed at each instant in order to provide relevant information. To achieve this goal, this thesis addresses the surgical tool recognition problem, with applications in cataract surgery. The main objective of this thesis is to address the surgical tool recognition problem in cataract surgery videos.In the surgical field, those tools are partially visible in videos and highly similar to one another. To address the visual challenges in the cataract surgical field, we propose to add an additional camera filming the surgical tray. Our goal is to detect the tool presence in the two complementary types of videos: tool-tissue interaction and surgical tray videos. The former records the patient's eye and the latter records the surgical tray activities.Two tasks are proposed to perform the task on the surgical tray videos: tools change detection and tool presence detection.First, we establish a similar pipeline for both tasks. It is based on standard classification methods on top of visual learning features. It yields satisfactory results for the tools change task, howev-lateer, it badly performs the surgical tool presence task on the tray. Second, we design deep learning architectures for the surgical tool detection on both video types in order to address the difficulties in manually designing the visual features.To alleviate the inherent challenges on the surgical tray videos, we propose to generate simulated surgical tray scenes along with a patch-based convolutional neural network (CNN).Ultimately, we study the temporal information using RNN processing the CNN results. Contrary to our primary hypothesis, the experimental results show deficient results for surgical tool presence on the tray but very good results on the tool-tissue interaction videos. We achieve even better results in the surgical field after fusing the tool change information coming from the tray and tool presence signals on the tool-tissue interaction videos.

Page generated in 0.5019 seconds