Global ETD Search

1	Définition et mise en place d'un outil temps réel d'analyse des caractéristiques physiques des semences sèches Muracciole, Vincent 29 September 2009 (has links) (PDF) L'objectif de la présente thèse est d'étudier, de définir et de mettre en place un système de vision artificielle permettant de discriminer la nature et la variété de semences à partir de leurs images numériques. Une première étude a porté sur l'étude d'un dispositif mono-caméra destiné au contrôle de la qualité de lots de semences dans l'optique de leur certification. Il est apparu qu'un système mono-caméra ne permettait pas d'identifier les semences dont les faces présentent une disparité de couleur. Ainsi, les semences endommagées ne peuvent pas être correctement détectées avec un tel dispositif. Une deuxième étude a porté sur l'étude et la réalisation d'un nouveau système d'acquisition, muni de trois caméras, et capable de prendre plusieurs images de plusieurs faces d'un même objet. Un prototype a été construit, reposant sur une nouvelle architecture optique et électronique. A l'aide de ce prototype, une collection d'images de semences et de contaminants a été acquise. Sur cette collection, des algorithmes de traitement d'images et de discrimination ont été testés. Les semences composant cette collection ont été caractérisées par plusieurs centaines de variables quantitatives, portant sur leur morphologie, leur couleur et leur texture. Plusieurs méthodes de discrimination ont été étudiées : l'analyse discriminante linéaire (ADL), l'analyse factorielle discriminante, l'analyse discriminante PLS et une méthode de réseau de neurones probabilistes à ajustement adaptatif de poids. Dans tous les cas, les variables ont été sélectionnées préalablement par ADL avec introduction successive des variables les plus discriminantes. L'existence de trois images numériques pour chaque objet étudié offre des possibilités nouvelles en ce qui concerne la prise de décision. Plusieurs heuristiques ont été testées. Nous avons comparé les résultats obtenus en concaténant les tableaux de caractéristiques acquises à l'aide des trois caméras ou en mettant en jeu une stratégie de vote, majoritaire ou unanime. Quelle que soit la stratégie de décision, le réseau de neurones probabilistes donne les résultats les meilleurs, légèrement supérieurs à ceux obtenus par l'ADL. Nous avons conclu que, en considérant la simplicité de l'analyse discriminante linéaire, cette méthode était la plus appropriée pour la réalisation d'un automate fonctionnant en temps réel et capable de répondre aux contraintes de la certification des lots de semences. [SPI] Engineering Sciences Traitement de l'image Algorithmes de classification Vision artificielle
2	Métaheuristiques pour l'extraction de connaissances application à la génomique / Jourdan, Laetitia Talbi, El-Ghazali Dhaenens, Clarisse. January 2003 (has links) (PDF) Thèse doctorat : Informatique : Lille 1 : 2003. / N° d'ordre (Lille 1) : 3368. Résumé en français et en anglais. Bibliogr. p. 167-186.
3	Approches statistiques en apprentissage : boosting et ranking Vayatis, Nicolas 09 December 2006 (has links) (PDF) Depuis une dizaine d'années, la théorie statistique de l'apprentissage a connu une forte expansion. L'avènement d'algorithmes hautement performants pour la classification de données en grande dimension, tels que le boosting ou les machines à noyaux (SVM) a engendré de nombreuses questions statistiques que la théorie de Vapnik-Chervonenkis (VC) ne permettait pas de résoudre. En effet, le principe de Minimisation du Risque Empirique ne rend pas compte des méthodes d'apprentissage concrètes et le concept de complexité combinatoire de VC dimension ne permet pas d'expliquer les capacités de généralisation d'algorithmes<br />sélectionnant un estimateur au sein d'une classe massive telle que l'enveloppe convexe d'une classe de VC. Dans le premier volet du mémoire, on rappelle les interprétations des algorithmes de boosting comme des implémentations de principes de minimisation<br />de risques convexes et on étudie leurs propriétés sous cet angle. En particulier, on montre l'importance de la<br />régularisation pour obtenir des stratégies consistantes. On développe également une nouvelle classe d'algorithmes de type gradient stochastique appelés algorithmes de descente miroir avec moyennisation et on évalue leur comportement à travers des simulations informatiques. Après avoir présenté les principes fondamentaux du boosting, on s'attache dans le<br />deuxième volet à des questions plus avancées telles que<br />l'élaboration d'inégalités d'oracle. Ainsi, on étudie la<br />calibration précise des pénalités en fonction des critères<br />de coût utilisés. On présente des résultats<br />non-asymptotiques sur la performance des estimateurs du boosting pénalisés, notamment les vitesses rapides sous les conditions de marge de type Mammen-Tsybakov et on décrit les capacités d'approximation du boosting utilisant les "rampes" (stumps) de décision. Le troisième volet du mémoire explore le problème du ranking. Un enjeu important dans des applications<br />telles que la fouille de documents ou le "credit scoring" est d'ordonner les instances plutôt que de les catégoriser. On propose une formulation simple de ce problème qui permet d'interpréter le ranking comme une classification sur des paires d'observations. La différence dans ce cas vient du fait que les<br />critères empiriques sont des U-statistiques et on développe donc la théorie de la classification adaptée à ce contexte. On explore également la question de la généralisation de l'erreur de ranking afin de pouvoir inclure des a priori sur l'ordre des instances, comme dans le cas où on ne s'intéresse qu'aux "meilleures" instances. [MATH] Mathematics apprentissage<br />statistique algorithmes de classification inégalités oracles vitesses rapides <br />approximation stochastique critère AUC $U$-processus
4	Les collections volumineuses de documents audiovisuels : segmentation et regroupement en locuteurs / Speaker diarization : the voluminous collections of audiovisual recordings Dupuy, Grégor 03 July 2015 (has links) La tâche de Segmentation et Regroupement en Locuteurs (SRL), telle que définie par le NIST, considère le traitement des enregistrements d’un corpus comme des problèmes indépendants. Les enregistrements sont traités séparément, et le tauxd’erreur global sur le corpus correspond finalement à une moyenne pondérée. Dans ce contexte, les locuteurs détectés par le système sont identifiés par des étiquettes anonymes propres à chaque enregistrement. Un même locuteur qui interviendrait dans plusieurs enregistrements sera donc identifié par des étiquettes différentes selon les enregistrements. Cette situation est pourtant très fréquente dans les émissions journalistiques d’information : les présentateurs, les journalistes et autres invités qui animent une émission interviennent généralement de manière récurrente. En conséquence, la tâche de SRL a depuis peu été considérée dans un contexte plus large, où les locuteurs récurrents doivent être identifiés de manière unique dans tous les enregistrements qui composent un corpus. Cette généralisation du problème de regroupement en locuteurs va de pair avec l’émergence du concept de collection, qui se réfère, dans le cadre de la SRL, à un ensemble d’enregistrements ayant une ou plusieurs caractéristiques communes. Le travail proposé dans cette thèse concerne le regroupement en locuteurs sur des collections de documents audiovisuels volumineuses (plusieurs dizaines d’heures d’enregistrements). L’objectif principal est de proposer (ou adapter) des approches de regroupement afin de traiter efficacement de gros volumes de données, tout en détectant les locuteurs récurrents. L’efficacité des approches proposées est étudiée sous deux aspects : d’une part, la qualité des segmentations produites (en termes de taux d’erreur), et d’autre part, la durée nécessaire pour effectuer les traitements. Nous proposons à cet effet deux architectures adaptées au regroupement en locuteurs sur des collections de documents. Nous proposons une approche de simplification où le problème de regroupement est représenté par une graphe non-orienté. La décompositionde ce graphe en composantes connexes permet de décomposer le problème de regroupement en un certain nombre de sous-problèmes indépendants. La résolution de ces sous-problèmes de regroupement est expérimentée avec deux approches de regroupements différentes (HAC et ILP) tirant parti des récentes avancées en modélisation du locuteur (i-vector et PLDA). / The task of speaker diarization, as defined by NIST, considers the recordings from a corpus as independent processes. The recordings are processed separately, and the overall error rate is a weighted average. In this context, detected speakers are identified by anonymous labels specific to each recording. Therefore, a speaker appearing in several recordings will be identified by a different label in each of the recordings. Yet, this situation is very common in broadcast news data: hosts, journalists and other guests may appear recurrently. Consequently, speaker diarization has been recently considered in a broader context, where recurring speakers must be uniquely identified in every recording that compose a corpus. This generalization of the speaker partitioning problem goes hand in hand with the emergence of the concept of collections, which refers, in the context of speaker diarization, to a set of recordings sharing one or more common characteristics.The work proposed in this thesis concerns speaker clustering of large audiovisual collections (several tens of hours of recordings). The main objective is to propose (or adapt) clustering approaches in order to efficiently process large volumes of data, while detecting recurrent speakers. The effectiveness of the proposed approaches is discussed from two point of view: first, the quality of the produced clustering (in terms of error rate), and secondly, the time required to perform the process. For this purpose, we propose two architectures designed to perform cross-show speaker diarization with collections of recordings. We propose a simplifying approach to decomposing a large clustering problem in several independent sub-problems. Solving these sub-problems is done with either of two clustering approaches which takeadvantage of the recent advances in speaker modeling. Collections de documents audiovisuels Traitement automatique de la parole Speaker Diarization Audiovisual recording collections Unsupervised clustering algorithms Automatic sprech processing 005.741
5	Amélioration du système de recueils d'information de l'entreprise Semantic Group Company grâce à la constitution de ressources sémantiques / Improvement of the information system of the Semantic Group Company through the creation of semantic resources Yahaya Alassan, Mahaman Sanoussi 05 October 2017 (has links) Prendre en compte l'aspect sémantique des données textuelles lors de la tâche de classification s'est imposé comme un réel défi ces dix dernières années. Cette difficulté vient s'ajouter au fait que la plupart des données disponibles sur les réseaux sociaux sont des textes courts, ce qui a notamment pour conséquence de rendre les méthodes basées sur la représentation "bag of words" peu efficientes. L'approche proposée dans ce projet de recherche est différente des approches proposées dans les travaux antérieurs sur l'enrichissement des messages courts et ce pour trois raisons. Tout d'abord, nous n'utilisons pas des bases de connaissances externes comme Wikipedia parce que généralement les messages courts qui sont traités par l'entreprise proveniennent des domaines spécifiques. Deuxièment, les données à traiter ne sont pas utilisées pour la constitution de ressources à cause du fonctionnement de l'outil. Troisièment, à notre connaissance il n'existe pas des travaux d'une part qui exploitent des données structurées comme celles de l'entreprise pour constituer des ressources sémantiques, et d'autre part qui mesurent l'impact de l'enrichissement sur un système interactif de regroupement de flux de textes. Dans cette thèse, nous proposons la création de ressources permettant d'enrichir les messages courts afin d'améliorer la performance de l'outil du regroupement sémantique de l'entreprise Succeed Together. Ce dernier implémente des méthodes de classification supervisée et non supervisée. Pour constituer ces ressources, nous utilisons des techniques de fouille de données séquentielles. / Taking into account the semantic aspect of the textual data during the classification task has become a real challenge in the last ten years. This difficulty is in addition to the fact that most of the data available on social networks are short texts, which in particular results in making methods based on the "bag of words" representation inefficient. The approach proposed in this research project is different from the approaches proposed in previous work on the enrichment of short messages for three reasons. First, we do not use external knowledge like Wikipedia because typically short messages that are processed by the company come from specific domains. Secondly, the data to be processed are not used for the creation of resources because of the operation of the tool. Thirdly, to our knowledge there is no work on the one hand, which uses structured data such as the company's data to constitute semantic resources, and on the other hand, which measure the impact of enrichment on a system Interactive grouping of text flows. In this thesis, we propose the creation of resources enabling to enrich the short messages in order to improve the performance of the tool of the semantic grouping of the company Succeed Together. The tool implements supervised and unsupervised classification methods. To build these resources, we use sequential data mining techniques. Fouille de motifs séquentielle Extraction de ressources sémantiques Unsupervised short texts clustering Supervised short texts clustering Sequential data mining Semantic resources extraction
6	Correction and Optimization of 4D aircraft trajectories by sharing wind and temperature information / Correction et Optimisation de trajectoires d'avions 4D par partage des informations de vent et de température Legrand, Karim 28 June 2019 (has links) Cette thèse s'inscrit dans l'amélioration de la gestion du trafic aérien. Le vent et la température sont deux paramètres omniprésents, subis, et à l'origine de nombreux biais de prédiction qui altèrent le suivi des trajectoires. Nous proposons une méthode pour limiter ces biais. Le concept "Wind and Température Networking" améliore la prédiction de trajectoire en utilisant le vent et la température mesurés par les avions voisins. Nous détaillons les effets de la température sur l'avion, permettant sa prise en compte. L'évaluation du concept est faite sur 8000 vols. Nous traitons du calcul de trajectoires optimales en présence de vent prédit, pour remplacer les actuelles routes de l'Atlantique Nord, et aboutir à des groupes de trajectoires optimisées et robustes. Dans la conclusion, nous présentons d'autres champs d'applications du partage de vents, et abordons les besoins en nouvelles infrastructures et protocoles de communication, nécessaires à la prise en compte de ce nouveau concept. / This thesis is related to air traffic management systems current changes. On the ground and in flight, trajectory calculation methods and available data differ. Wind and temperature are two ubiquitous parameters that are subject to and cause prediction bias. We propose a concept to limit this bias. Our "Wind and Temperature Networking" concept improves trajectory prediction, using wind and temperature information from neighboring aircraft. We detail the effects of temperature on the aircraft performances, allowing for temperature to be taken into account. The concept evaluation is done on 8000 flights. We discuss the calculation of optimal trajectories in the presence of predicted winds, to replace the current North Atlantic Tracks, and to provide optimized and robust groups of trajectories. The conclusion of this thesis presents other fields of wind sharing applications, and addresses the need for new telecommunications infrastructures and protocols. Partage d'informations de vent Partage d'informations de température Trajectoires d'avion Navigation aérienne Algorithmes de classification Estimation de vent Prédiction de vent Estimation de température Prédiction de température Partage de vents Partage de températures Calcul de trajectoires d’urgence Estimation de champs de vents Estimation de champs de température Wind networking Temperature networking Flight trajectories Aircraft robust optimal trajectory Trajectory prediction (aerospace Trajectory optimisation (aerospace) Aircraft navigation Clustering algorithms Wind estimation Wind prediction Temperature estimation Temperature prediction Wind information sharing Temperature information sharing Flight trajectories wind profiles Flight trajectories temperature profiles Driftdown calculations Wind field estimations Temperature field estimations 629

1

Page generated in 0.1456 seconds