1 |
Exploration de la capacité d'un réseau de neurones à imiter le jugement et l'expérience d'un estimateur chevronné pour l'attribution du taux de productivité d'une équipe d'excavation en infrastructures municipalesJobin, Guy January 2008 (has links) (PDF)
Ce travail étudie le potentiel des RNA pour l'estimation détaillée des coûts de projet dans le domaine des infrastructures municipales. En général, pour l'entrepreneur en construction civile, l'obtention d'un contrat se joue lors des soumissions publiques. Subséquemment, l'estimation des coûts de travaux constitue la pierre angulaire de ce processus de soumission. Cette tâche s'avère vite laborieuse considérant le nombre élevé d'éléments dont il faut tenir compte, et de plus, la valeur de chacun de ces éléments est fonction de plusieurs variables difficilement contrôlables. Il a été démontré que l'attribution du taux de productivité d'une équipe de travail est la source majeure d'erreur lors de la préparation des estimations détaillées. Nous avons bâti un modèle de prédiction du taux de productivité d'une équipe d'installation de réseaux d'aqueduc et d'égouts. Les données qui ont servi à valider empiriquement le modèle proposé émanent de projets exécutés dans la région de Laval et des Basses-Laurentides.
Un historique de données est construit à partir des rapports journaliers de surveillance des travaux de 43 projets de génie urbain. Afin d'explorer la capacité des RNA à imiter le jugement et l'expérience d'un estimateur chevronné. Deux forums de discussion ont eu lieu avec trois estimateurs du domaine pour déterminer les facteurs qui influencent le taux de productivité de l'équipe d'excavation de tranchées. Ces discussions ont permis de déterminer le jeu optimal des données d'entrée des RNA. Trois estimateurs chevronnés ont également calculé manuellement le taux de productivité à partir des plans et devis de chacun des deux projets testés. Pour ces deux projets, les résultats de prédiction des RNA sont comparés aux résultats des trois estimateurs ainsi qu'au taux de productivité réel obtenu au chantier. Les RNA obtiennent des résultats supérieurs au niveau de la précision par rapport aux résultats des estimateurs. Des recommandations sont faites pour la préparation des futurs rapports journaliers de surveillance de travaux afin de rendre les données plus accessibles aux RNA. Ainsi, d'autres recommandations sont faites pour des recherches futures qui permettraient d'introduire le processus de prédiction dans les logiciels commerciaux d'estimation détaillée du coût de projet. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Réseau de neurones artificiels (RNA), Estimation, Génie civil, Prédiction.
|
2 |
Approche neuro-mimétique au service du dépistage du cancer du seinNaoum, Hanae January 2009 (has links) (PDF)
Les méthodes de classification automatiques sont un outil important de nos jours pour identifier différentes données et étudier leurs propriétés. On retrouve aujourd'hui l'utilisation des réseaux de neurones en tant que classifieurs dans plusieurs domaines d'application, notamment, le dépistage du cancer du sein. En effet, dans cet axe de recherche, beaucoup de travaux ont été réalisés en employant une approche neuronale pour la reconnaissance de formes et ont abouti à des résultats intéressants. Ceci étant, chaque modèle de réseau de neurones diffère d'un autre de par ses paramètres expérimentaux, sa complexité d'implantation et son domaine d'applicabilité. Ainsi, chaque modèle possède ses avantages et ses inconvénients, faisant qu'il soit plus approprié pour une tâche donnée qu'un autre. Dans (Freeman 1987, Freeman et al., 1988) des expérimentations electrophysiologiques ont été réalisées sur des lapins prouvant l'existence de la dynamique chaotique dans les neurones réels. Depuis les années quatre-vingts, les réseaux de neurones chaotiques ont été le centre d'intérêt de plusieurs travaux en raison de leur dynamique complexe et leur application potentielle dans la dynamique associative, l'optimisation, et le traitement de l'information (Adachi et Aihara, 1997 ; Aihara et al., 1990 ; Tokuda et al., 1997). Dans cette optique, on s'intéresse dans ce travail à étudier la performance d'un modèle de réseau de neurones chaotique sur une tâche de classification reliée à la détection du cancer du sein. À cet effet, on procède dans un premier temps à la revue critique de certains travaux portant sur le sujet et qui ont été rapportés dans la littérature, de manière à situer le travail par rapport à ces travaux et mettre en évidence les contributions qu'il permet. Une étude comparative est ensuite établie où l'on met en avant les avantages d'utiliser une mémoire associative bidirectionnelle chaotique pour le travail de classification, relativement à deux modèles de réseau de neurones classiques, à savoir, une mémoire associative bidirectionnelle standard et un réseau multicouche à rétropropagation d'erreur.
|
3 |
The urban real-time traffic control (URTC) system : a study of designing the controller and its simulationWang, Lei 06 1900 (has links) (PDF)
The growth of the number of automobiles on the roads in China has put higher demands on the traffic control system that needs to efficiently reduce the level of congestion occurrence, which increases travel delay, fuel consumption, and air pollution. The traffic control system, urban real-time traffic control system based on multi-agent (MA-URTC) is presented in this thesis. According to the present situation and the traffic's future development in China, the researches on intelligent traffic control strategy and simulation based on agent lays a foundation for the realization of the system. The thesis is organized as follows: The first part focuses on the intersection' real-time signal control strategy. It contains the limitations of current traffic control systems, application of artificial intelligence in the research, how to bring the dynamic traffic flow forecast into effect by combining the neural network with the genetic arithmetic, and traffic signal real-time control strategy based on fuzzy control. The author uses sorne simple simulation results to testify its superiority. We adopt the latest agent technology in designing the logical structure of the MA-URTC system. By exchanging traffic flows information among the relative agents, MA-URTC provides a new concept in urban traffic control. With a global coordination and cooperation on autonomy-based view of the traffic in cities, MA-URTC anticipates the congestion and control traffic flows. It is designed to support the real-time dynamic selection of intelligent traffic control strategy and the real-time communication requirements, together with a sufficient level of fault-tolerance. Due to the complexity and levity of urban traffic, none strategy can be universally applicable. The agent can independently choose the best scheme according to the real-time situation. To develop an advanced traffic simulation system it can be helpful for us to find the best scheme and the best switch-point of different schemes. Thus we can better deal with the different real-time traffic situations. The second part discusses the architecture and function of the intelligent traffic control simulation based on agent. Meanwhile the author discusses the design model of the vehicle-agent, road agent in traffic network and the intersection-agent so that we can better simulate the real-time environment. The vehicle-agent carries out the intelligent simulation based on the characteristics of the drivers in the actual traffic condition to avoid the disadvantage of the traditional traffic simulation system, simple-functioned algorithm of the vehicles model and unfeasible forecasting hypothesis. It improves the practicability of the whole simulation system greatly. The road agent's significance lies in its guidance of the traffic participants. It avoids the urban traffic control that depends on only the traffic signal control at intersection. It gives the traffic participants the most comfortable and direct guidance in traveling. It can also make a real-time and dynamic adjustment on the urban traffic flow, thus greatly lighten the pressure of signal control in intersection area. To sorne extent, the road agent is equal to the pre-caution mechanism. In the future, the construction of urban roads tends to be more intelligent. Therefore, the research on road agent is very important. All kinds of agents in MA-URTC are interconnected through a computer network. In the end, the author discusses the direction of future research. As the whole system is a multi-agent system, the intersection, the road and the vehicle belongs to multi-agent system respectively. So the emphasis should be put on the structure design and communication of all kinds of traffic agents in the system. Meanwhile, as an open and flexible real-time traffic control system, it is also concerned with how to collaborate with other related systems effectively, how to conform the resources and how to make the traffic participants anywhere throughout the city be in the best traffic guidance at all times and places. To actualize the genuine ITS will be our final goal.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : Artificial Intelligence, Computer simulation, Fuzzy control, Genetic Algorithm, Intelligent traffic control, ITS, Multi-agent, Neural Network, Real-time.
|
4 |
Capacité d'une mémoire associative à fonction de sortie chaotiqueCherif, Mounia 12 1900 (has links) (PDF)
Un des thèmes de recherche privilégié pour les sciences cognitives et l'intelligence artificielle est l'étude des capacités d'association du cerveau humain. L'objectif est de développer des modèles de mémoires dotés de caractéristiques similaires, que ce soit en termes d'adaptabilité, d'efficacité, ou de robustesse. Plusieurs modèles de mémoires associatives ont été développés et présentés dans la littérature, parmi eux le modèle de mémoire associative bidirectionnelle BAM de Kosko (Kosko, 1988). Ce modèle utilise une règle d'apprentissage hebbienne qui le rend plausible biologiquement, mais il possède plusieurs limitations cependant. En effet, sa règle d'apprentissage impose des contraintes d'orthogonalité entre les différents motifs appris qui entraine une faible capacité de mémorisation et une faible résilience face au bruit. De plus, le modèle peut apprendre uniquement des patrons encodés en binaire et linéairement séparables. De nombreux efforts ont été, et continuent aujourd'hui à être déployés pour tenter d'améliorer le modèle de Kosko. La plupart visent l'augmentation de la capacité de stockage et l'amélioration de la performance de rappel. Quelques-uns des modèles proposés réussissent à classifier des problèmes non séparables linéairement, mais s'éloignent de l'architecture originale de Kosko ou parfois, utilisent des méthodes d'apprentissage qui s'écartent du principe de Hebb, ce qui les rend moins plausibles biologiquement. Dans le présent mémoire, nous approfondissons l'étude d'un modèle récent de BAM, proposé par Chartier et Boukadoum (2006a) et caractérisé par une fonction de sortie chaotique, une architecture asymétrique, et une règle d'apprentissage hebbienne modifiée. Plus spécifiquement, nous étudions l'impact de modifier la fonction de sortie, en lui ajoutant un paramètre d'asymétrie, sur la capacité du réseau à traiter des tâches de classification non linéairement séparables. Nous nous inspirons de la théorie des catastrophes pour le cadre théorique de notre étude. Nous expérimentons sur le modèle en vue d'améliorer sa performance de classification sans complexifier son architecture ou nous écarter de la plausibilité biologique de la règle d'apprentissage. Pour ce faire, nous utilisons et comparons plusieurs algorithmes de recherche heuristiques, dont certains inspirés de l'évolution naturelle, afin de concevoir des modèles de classification puissants, potentiellement capables de reproduire l'efficacité des processus cognitifs naturels. Les principes exposés dans ce mémoire, se sont montrés efficaces pour le modèle BAM et peuvent faire l'objet de recherches intéressantes, notamment pour l'amélioration du potentiel des modèles connexionnistes récurrents.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : mémoire associative bidirectionnelle, réseaux de neurones artificiels, classification, dynamique chaotique, catastrophe fronce.
|
5 |
Une structure associative bidirectionnelle d'auto-encodage permettant l'apprentissage et la catégorisation perceptuelsGiguère, Gyslain January 2009 (has links) (PDF)
Les humains sont continuellement exposés à des stimulations pour lesquelles leur système perceptivo-cognitif doit créer des représentations mnésiques. Tout en créant un code interne de composantes, ce système doit être en mesure de reconnaître, d'identifier, et de discriminer ces objets lors de prochaines occurrences. Ce processus s'effectue par la création et la mise à jour d'une mémoire épisodique d'exemplaires à dimensionnalité réduite. De plus, le système cognitif doit regrouper les objets similaires en catégories, tout en adaptant le contenu de la mémoire suite à l'ajout d'informations produit par la rencontre de nouveaux objets. Ces processus de niveau « objet » et « catégorie » s'effectuent de façon séparée, par le biais de deux mémoires.
Jusqu'à maintenant, aucun modèle formel satisfaisant n'était en mesure de rendre compte de cette variété de comportements humains sans sacrifier la simplicité et l'élégance du système initial pour simuler l'un d'eux. Le modèle FEBAM (pour Feature-Extracting Bidirectional Associative Memory) a été créé dans le but de répondre à cette incapacité de beaucoup de modèles existants à effectuer des tâches cognitives et perceptuelles à l'aide d'un codage interne créé de façon autonome, comme le font les humains. Basé sur une architecture neuronale associative bidirectionnelle, FEBAM peut reproduire les comportements d'autres réseaux de neurones artificiels dont les processus dynamiques sont basés sur l'extraction de composantes, la création de bassins d'attracteurs, ou encore le partitionnement de données (« clustering »), et ce, en utilisant une seule architecture, règle de transmission et procédure d'apprentissage. Dans la présente thèse, il sera montré qu'avec un nombre minimal de principes définitoires, le modèle pourra effectuer des tâches telles que la création autonome d'un code interne de composantes, le développement autonome d'une mémoire d'exemplaires parfaits, ainsi que l'identification et la catégorisation autonomes. Il sera aussi montré, grâce à la proposition d'un mécanisme itératif de croissance de l'architecture, que les catégories créées par le réseau peuvent être réorganisées suite à la présentation de nouvelles informations perceptuelles au système. On montrera également que FEBAM préserve les capacités d'une mémoire autoassociative récurrente (dont il est inspiré), tout en améliorant certains des comportements de cette dernière. Le modèle FEBAM sera également étendu au cas supervisé. Dans ce cas, le modèle FEBAM-RA (RA pour Response Association), grâce à un module supplémentaire, associera les représentations internes des stimuli à leur identité ou à leur appartenance catégorielle prédéfinies. Cette extension se fera sans avoir à ajouter des principes définitoires: ainsi, on utilisera ici la même règle d'apprentissage, la même règle de transmission, et une généralisation de l'architecture de FEBAM. Grâce à cet ajout, le modèle sera en mesure de reproduire de façon qualitative l'effet de la pré-exposition perceptuelle sur la rapidité de l'apprentissage identificatif supervisé, ainsi que l'effet de difficulté de la tâche lorsque l'on compare l'identification et la catégorisation supervisées (dans une situation de tâches simultanées). La contribution principale de cette thèse repose donc dans la parcimonie des principes utilisés. En effet, grâce à un nombre minimal de postulats définitoires, on modélisera donc des processus de traitement d'objets et de catégories, et ce, de façon autonome ou supervisée. Ce projet de recherche constituant la première étape de développement de l'approche FEBAM, quelques améliorations à l'approche de base seront proposées. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Modélisation cognitive, Réseaux de neurones artificiels, Extraction de composantes, Catégorisation, Identification.
|
6 |
The real time product quality intelligent forecasting and analysis systemMa, Kui 09 1900 (has links) (PDF)
Catalytic cracking fractional colurnn is the most important production device for refining enterprises in China. Its main products are car gasoline and diesel fuel. The yield and quality of these two kinds of products decide directly the economie efficiency of enterprises. In order to increase the economic efficiency of enterprises, it is needed to better adjust and control the quality of car gasoline and diesel fuel. Because fluidized catalytic cracking unit (FCCU) is in closed state, it is impossible to observe actual production process manually. But if people cannot timely master product quality condition, it is impossible to adjust effectively the technological parameters in order to control product quality. But at present, it takes four hours to obtain quality level of products if using the method of manual sampling testing. If it is as this, production process cannot, based on the analyzed results, be timely adjusted. Therefore, developing the real-time product quality intellect forecasting and analysis system of fractional column and realizing forecasting and analysis on-line have important theoretic meaning and value in engineering application. This system can real-timely forecast product quality of fractional colurnn, and can also real-timely analyze the factors affecting the products. So, the adjustment oftechnological parameters is more targeted, and shortens adjustment time, and increases efficiency. It is no doubt that the economic efficiency will increase. The thesis, taking fractional colurnn of fluidized catalytic cracking unit (FCCU) as research target, with the aim of forecasting product quality level of fractional column, establishes quality forecasting model through the method of neural network, and speculates the critical technological parameters that are hard to measure or impossible to measure at all through the technological parameters that are easy to measure. The system first finishes interactive interface between control system and operator with the functions of dynamic display and real-time data acquisition through configuration software DCS (Distributed Control System), which can supervise, control, activate and manage the whole system. Then it will realize product quality forecasting of fractional colurnn through the method of combining utility function based on average level and neural network. Finally it will realize the analysis of factors affecting product quality through the method of combining fuzzy technology and neural network. The thesis, through system configuration and using neural network technology to forecast product quality of fractional colurnn and analyze the factors affecting product quality, combines fuzzy technology and neural network which play their respective advantages to finish the display and control of operation state of fractionation system and realize real-time forecasting and analysis. The online forecasting system of product quality of catalytic cracking fractional colurnn based on the method mentioned above is developed for many small and medium petrochemical enterprises. The aim is to transform the equipments under the present condition of small and medium petrochemical enterprises with no change in the hardware of the original DCS (Distributed Control System) of refining enterprises. Therefore, this system has many advantages such as small investment, short transformation time and easy realization, etc. Currently, this system has been tried on the fluidized catalytic cracking unit (FCCU) in Tianjin First Petrochemical Plant in China. The operating result shows that the value and laboratory value of dry point of car gasoline and solidifying point of diesel fuel forecasted real-timely in this model have better goodness of fit, satisfying the requirements of product quality index. The test result shows that the technical path and method using neural network technology to forecast product quality put forward in the thesis is feasible.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : Catalytic cracking, Fractional column, Neural network
|
7 |
Apprentissage dans les réseaux récurrents pour la modélisation mécanique et étude de leurs interactions avec l'environnementSzilas, Nicolas 06 December 1995 (has links) (PDF)
Issus d'une analogie avec les réseaux de neurones biologiques du cerveau, les réseaux récurrents sont utilisés pour modéliser des comportements dynamiques complexes et pour reproduire - apprendre - ces comportements. Les propriétés adaptatives de ces réseaux peuvent être exploitées par les réseaux de modélisation physique de phénomènes vibratoires dédiés à la simulation informatique d'instruments de musique. Ces réseaux de modélisation mécanique possèdent des paramètres d'inertie, d'élasticité et de viscosité que l'on souhaite déterminer automatiquement dans le but de reproduire un comportement physique donné ; cette détermination est possible grâce aux réseaux récurrents. Nous développons ainsi un certain nombre d'algorithmes de réseaux de modélisation physique adaptatifs et proposons des algorithmes originaux, inspirés de modèles mécaniques. En particulier, ce travail aborde la notion d'interaction avec l'environnement dans ce type de réseaux, et plus généralement dans les réseaux connexionnistes supervisés. A travers plusieurs expériences, nous montrons que, sous certaines conditions, l'interaction avec l'environnement permet la réussite de l'apprentissage, en particulier si cette interaction autorise un apprentissage à complexité progressive. De plus, nous établissons des rapprochements entre ce type d'apprentissage et certains apprentissages humains. Cela nous amène à poser les bases d'un système d'identification de paramètres pour la modélisation d'instruments de musique. Ce système fait interagir en temps réel un instrumentiste, un instrument de musique et un ordinateur simulant le modèle adaptatif
|
8 |
Modélisation et apprentissage des préférences par réseaux de neurones pour l'aide à la décision multicritèreFrämling, Kary 15 March 1996 (has links) (PDF)
La modélisation des préférences des décideurs pour des problèmes de choix est l'objet principal de ce travail de thèse. Afin d'obtenir des modèles plus réalistes, des fonctions de préférence contextuelle sont présentées dans ce mémoire de thèse. La complexité d'expression de telles fonctions est réduite par le recours à des techniques d'apprentissage automatique à partir de réseaux de neurones. L'identification des fonctions de préférence est réalisée par des réseaux de neurones, fondés sur les principes de la régression non-linéaire, à partir d'exemples de décision. Une telle technique n'est pas toujours applicable en pratique à cause du nombre élevé d'exemples nécessaire. Le réseau neuronal INKA, développé dans le cadre de ce travail, effectue la régression avec un nombre d'exemples relativement petit. INKA offre également des temps d'apprentissage courts par rapport à d'autres techniques, ce qui est nécessaire pour une acquisition interactive de la fonction de préférence. INKA est utilisé dans le système interactif d'aide à la décision (SIAD) présenté, qui est un des premiers à mettre en oeuvre un apprentissage automatique d'une fonction de préférence globale. La visualisation de la fonction apprise et les indicateurs de précision et de sensibilité permettent au décideur d'estimer le moment d'arrêter la recherche de solutions. Ceci est particulièrement utile pour apprendre les préférences des décideurs " abstraits " (acteurs sociaux, systèmes naturels, ...), qui ne peuvent pas utiliser directement le système. Les fonctionnalités d'explication développées dans ce travail permettent de justifier les recommandations des SIAD, ce qui a constitué un des grands défis du domaine de l'aide à la décision multicritère et des réseaux neuronaux. Il est donc possible d'expliquer, de comprendre et d'analyser les préférences même pour des décideurs abstraits. L'intérêt de telles explications est de faciliter la prise de décisions négociées dans le cadre de projets d'aménagement complexes ou pour améliorer des produits dont les ventes dépendent des préférences des clients.
|
9 |
Un modèle computationnel d'intelligence culturelle ouvert et extensibleWu, Zhao Xin 02 1900 (has links) (PDF)
Avec le phénomène de la globalisation qui prend de l'ampleur, les différences culturelles, dans les communications interculturelles, amènent leur lot de problèmes inévitables. Geet Hofstede a exprimé de manière représentative ce phénomène : "Culture is more often a source of conflict than of synergy. Cultural differences are a nuisance at best and often a disaster." (Geert Hofstede, Emeritus Professor, Maastricht University.) Dans la revue de la littérature, jusqu'à ce jour, les recherches relatives à l'intelligence culturelle (IC) utilisent les méthodes traditionnelles pour mesurer l'IC et trouver des solutions aux problèmes relatifs à l'IC. Ces méthodes dépendent essentiellement de questionnaires évaluant des aspects distincts, de documents (Ng et Earley, 2006) et d'évaluations variées, guidées par les connaissances spécialisées et des qualités psychologiques d'experts de l'IC. Ces façons de faire réduisent le nombre de solutions possibles. À notre connaissance, aucune recherche au sujet de l'IC n'a été empiriquement informatisée jusqu'à maintenant. En conséquence, l'intégration de l'IC dans le domaine de l'intelligence artificielle (IA) reste absente. L'objectif principal de la recherche est donc de créer un modèle computationnel de l'IC et de l'implémenter dans un système expert. Ce système se nomme Système Expert Neuro-Flou d'Intelligence Culturelle (SENFIC). Il intègre l'expertise d'experts de l'IC en intégrant le fruit des études à propos des quatre dimensions de l'IC comme un tout intégré et s'influençant les unes des autres. Il devrait permettre éventuellement d'atteindre un meilleur niveau de performance que celui des experts de l'IC. Comme un système intelligent efficace, il fournit une recommandation globale au problème et une forme de système de règles permettant l'adaptabilité des individus et des organisations à un environnement interculturel. C'est dans ce contexte que le SENFIC a vu le jour. Nous combinons deux techniques intelligentes dans le cadre du système. La technique d'hybride neuro-floue intégrant la logique floue et le réseau de neurones artificiels, et la technique du système expert. La technique de logique floue est une bonne solution pour exprimer des problèmes originalement en langue imprécise et naturelle, comme ceux soulevés dans les recherches relatives à l'IC. La technique du réseau de neurones artificiels aide le système à atteindre un niveau d'autorégulation, d'auto-adaptation et d'autoapprentissage. Le système expert utilise des connaissances et des procédures d'inférence dans le but de résoudre des problèmes difficiles, requérant normalement une expertise humaine dans le domaine d'IC. Ainsi, le SENFIC exprime des connaissances sous une forme facilement comprise par les utilisateurs, et traite les demandes simples en langage naturel plutôt qu'en langage de programmation. En utilisant une nouvelle approche pour la technique de soft-computing en concevant la technique hybride comme le cœur du système, notre SENFIC devient alors capable de raisonner et d'apprendre dans un environnement culturel incertain et imprécis. Ce SENFIC est ouvert et extensible, autant au niveau interne qu'externe. Au niveau interne, le modèle computationnel de l'IC fournit une interface standard pouvant faciliter le développement secondaire et la mise en pratique du système. Au niveau externe, le SENFIC a la capacité de se présenter comme un agent d'extension permettant l'intégration à n'importe quel système intelligent existant, pour que ce système devienne culturellement intelligent. Le SENFIC est « conscient de l'intelligence culturelle ». Cela représente une percée amenant son lot de contributions dans les domaines de l'IC et de l'IA.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : intelligence culturelle, logique floue, réseaux de neurones artificiels, soft-computing, hybride neuro-floue, système expert
|
10 |
Prédiction de performances des systèmes de Reconnaissance Automatique de la Parole / Performance prediction of Automatic Speech Recognition systemsElloumi, Zied 18 March 2019 (has links)
Nous abordons dans cette thèse la tâche de prédiction de performances des systèmes de reconnaissance automatique de la parole (SRAP).Il s'agit d'une tâche utile pour mesurer la fiabilité d'hypothèses de transcription issues d'une nouvelle collection de données, lorsque la transcription de référence est indisponible et que le SRAP utilisé est inconnu (boîte noire).Notre contribution porte sur plusieurs axes:d'abord, nous proposons un corpus français hétérogène pour apprendre et évaluer des systèmes de prédiction de performances ainsi que des systèmes de RAP.Nous comparons par la suite deux approches de prédiction: une approche à l'état de l'art basée sur l'extraction explicite de traitset une nouvelle approche basée sur des caractéristiques entraînées implicitement à l'aide des réseaux neuronaux convolutifs (CNN).L'utilisation jointe de traits textuels et acoustiques n'apporte pas de gains avec de l'approche état de l'art,tandis qu'elle permet d'obtenir de meilleures prédictions en utilisant les CNNs. Nous montrons également que les CNNs prédisent clairement la distribution des taux d'erreurs sur une collection d'enregistrements, contrairement à l'approche état de l'art qui génère une distribution éloignée de la réalité.Ensuite, nous analysons des facteurs impactant les deux approches de prédiction. Nous évaluons également l'impact de la quantité d'apprentissage des systèmes de prédiction ainsi que la robustesse des systèmes appris avec les sorties d'un système de RAP particulier et utilisés pour prédire la performance sur une nouvelle collection de données.Nos résultats expérimentaux montrent que les deux approches de prédiction sont robustes et que la tâche de prédiction est plus difficile sur des tours de parole courts ainsi que sur les tours de parole ayant un style de parole spontané.Enfin, nous essayons de comprendre quelles informations sont capturées par notre modèle neuronal et leurs liens avec différents facteurs.Nos expériences montrent que les représentations intermédiaires dans le réseau encodent implicitementdes informations sur le style de la parole, l'accent du locuteur ainsi que le type d'émission.Pour tirer profit de cette analyse, nous proposons un système multi-tâche qui se montre légèrement plus efficace sur la tâche de prédiction de performance. / In this thesis, we focus on performance prediction of automatic speech recognition (ASR) systems.This is a very useful task to measure the reliability of transcription hypotheses for a new data collection, when the reference transcription is unavailable and the ASR system used is unknown (black box).Our contribution focuses on several areas: first, we propose a heterogeneous French corpus to learn and evaluate ASR prediction systems.We then compare two prediction approaches: a state-of-the-art (SOTA) performance prediction based on engineered features and a new strategy based on learnt features using convolutional neural networks (CNNs).While the joint use of textual and signal features did not work for the SOTA system, the combination of inputs for CNNs leads to the best WER prediction performance. We also show that our CNN prediction remarkably predicts the shape of the WER distribution on a collection of speech recordings.Then, we analyze factors impacting both prediction approaches. We also assess the impact of the training size of prediction systems as well as the robustness of systems learned with the outputs of a particular ASR system and used to predict performance on a new data collection.Our experimental results show that both prediction approaches are robust and that the prediction task is more difficult on short speech turns as well as spontaneous speech style.Finally, we try to understand which information is captured by our neural model and its relation with different factors.Our experiences show that intermediate representations in the network automatically encode information on the speech style, the speaker's accent as well as the broadcast program type.To take advantage of this analysis, we propose a multi-task system that is slightly more effective on the performance prediction task.
|
Page generated in 0.0767 seconds