Spelling suggestions: "subject:"aapproche statistique"" "subject:"champproche statistique""
1 |
Plusieurs approches en ondelettes pour la séparation et déconvolection de composantes. Application à des données astrophysiques.Anthoine, Sandrine 05 August 2005 (has links) (PDF)
Cette thèse est consacree au problµeme de separation de composantes lorsque celles ci sont des images de structure differente et que l'on en observe un ou plusieurs melange(s) ou(s) et bruite(s). Les problµemes de deconvolution et de separation, traditionnellement etudies separement, sont ici traites simultanément. Une façon naturelle d'aborder le problµeme multicomposants/multiobservations est de generaliser les techniques de deconvolution d'une image unique. Le premier resultat presente est une etude mathematique d'un tel algorithme. Preuve est faite que celuici est convergent mais pas regularisant et une modification restaurant cette propriete est proposee. Le sujet principal est le developpement et la comparaison de deux methodes pour traiter la deconvolution et separation simultanees de composantes. La premiµere methode est basee sur les propriétes statistiques locales des composantes tandis que dans la seconde, ces signaux sont decrits par des espaces fonctionnels. Les deux methodes utilisent des transformees en ondelettes redondantes pour simplifier les donnees. Les performances des deux algorithmes sont evaluees et comparees dans le cadre d'un problµeme astrophysique : celui de l'extraction des amas de galaxies par l'effet Sunyaev-Zel'dovich dans les images multispectrales des anisotropies du fond cosmique. Des simulations realistes sont etudiees. On montre qu'µa haute resolution et niveau de bruit modere, les deux methodes permettent d'extraire des cartes d'amas de galaxies de qualite suffisante pour des etudes cosmologiques. Le niveau de bruit est un facteur limitant µa basse resolution et la methode statistique est robuste µa la presence de points sources.
|
2 |
Notion of representative volume element for heterogeneous materials: statistical and numerical approachKanit, Toufik 12 May 2003 (has links) (PDF)
Notion de volume élémentaire représentatif pour les matériaux hétérogènes : approche statistique et numérique.
|
3 |
Nouvelles stratégies d'analyses et de prédiction des structures tridimensionnelles des protéinesDe Brevern, Alexandre 06 February 2001 (has links) (PDF)
Caractériser la structure tridimensionnelle des protéines avec les structures secondaires classiques est assez pauvre structurellement. Nous avons donc développé une nouvelle méthodologie pour concevoir des séries de petits prototypes moyens nommés Blocs Protéiques (BPs) qui permettent une bonne approximation des structures protéiques. L'analyse de la spécificité des blocs protéiques a montré leur stabilité et leur spécificité sur le plan structural. Le choix final du nombre de BPs est associé a une prédiction locale correcte.<br />Cette prédiction se base avec une méthode bayésienne qui permet de comprendre l'importance des acides aminés de maniè;re simple. Pour améliorer cette prédiction, nous nous sommes bases sur deux concepts : (i) 1 repliement local -> n séquences et (ii) 1 séquence -> n repliements. Le premier concept signifie que plusieurs types de séquences peuvent être associes a la même structure et le second qu'une séquence peut-être associée a plusieurs type de repliements. Ces deux aspects sont développés en se basant sur la recherche d'un indice de fiabilité lie a la prédiction locale, pour trouver des zones de fortes probabilités. Certains mots, i.e. successions de blocs protéiques apparaissent plus fréquemment que d'autres. Nous avons donc défini au mieux quelle est l'architecture de ces successions, les liens existants entre ces différents mots.<br />Du fait de cette redondance qui peut apparaìtre dans la structure protéique, une méthode de compactage qui permet d'associer des structures structurellement proches sur le plan local a été mise au point. Cette approche appelée "protéine hybride" de conception simple permet de catégoriser en classes "structurellement dépendantes" l'ensemble des structures de la base de données protéiques. Cette approche, en plus du compactage, peut être utilisée dans une optique différente, celle de la recherche d'homologie structurale et de la caractérisation des dépendances entre structures et séquences.
|
4 |
Continuous space models with neural networks in natural language processing / Modèles neuronaux pour la modélisation statistique de la langueLe, Hai Son 20 December 2012 (has links)
Les modèles de langage ont pour but de caractériser et d'évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale dans de nombreux cadres d'application comme la reconnaissance automatique de la parole, la traduction automatique, l'extraction et la recherche d'information. La modélisation actuellement état de l'art est la modélisation "historique" dite n-gramme associée à des techniques de lissage. Ce type de modèle prédit un mot uniquement en fonction des n-1 mots précédents. Pourtant, cette approche est loin d'être satisfaisante puisque chaque mot est traité comme un symbole discret qui n'a pas de relation avec les autres. Ainsi les spécificités du langage ne sont pas prises en compte explicitement et les propriétés morphologiques, sémantiques et syntaxiques des mots sont ignorées. De plus, à cause du caractère éparse des langues naturelles, l'ordre est limité à n=4 ou 5. Sa construction repose sur le dénombrement de successions de mots, effectué sur des données d'entrainement. Ce sont donc uniquement les textes d'apprentissage qui conditionnent la pertinence de la modélisation n-gramme, par leur quantité (plusieurs milliards de mots sont utilisés) et leur représentativité du contenu en terme de thématique, époque ou de genre. L'usage des modèles neuronaux ont récemment ouvert de nombreuses perspectives. Le principe de projection des mots dans un espace de représentation continu permet d'exploiter la notion de similarité entre les mots: les mots du contexte sont projetés dans un espace continu et l'estimation de la probabilité du mot suivant exploite alors la similarité entre ces vecteurs. Cette représentation continue confère aux modèles neuronaux une meilleure capacité de généralisation et leur utilisation a donné lieu à des améliorations significative en reconnaissance automatique de la parole et en traduction automatique. Pourtant, l'apprentissage et l'inférence des modèles de langue neuronaux à grand vocabulaire restent très couteux. Ainsi par le passé, les modèles neuronaux ont été utilisés soit pour des tâches avec peu de données d'apprentissage, soit avec un vocabulaire de mots à prédire limités en taille. La première contribution de cette thèse est donc de proposer une solution qui s’appuie sur la structuration de la couche de sortie sous forme d’un arbre de classification pour résoudre ce problème de complexité. Le modèle se nomme Structure OUtput Layer (SOUL) et allie une architecture neuronale avec les modèles de classes. Dans le cadre de la reconnaissance automatique de la parole et de la traduction automatique, ce nouveau type de modèle a permis d'obtenir des améliorations significatives des performances pour des systèmes à grande échelle et à état l'art. La deuxième contribution de cette thèse est d'analyser les représentations continues induites et de comparer ces modèles avec d'autres architectures comme les modèles récurrents. Enfin, la troisième contribution est d'explorer la capacité de la structure SOUL à modéliser le processus de traduction. Les résultats obtenus montrent que les modèles continus comme SOUL ouvrent des perspectives importantes de recherche en traduction automatique. / The purpose of language models is in general to capture and to model regularities of language, thereby capturing morphological, syntactical and distributional properties of word sequences in a given language. They play an important role in many successful applications of Natural Language Processing, such as Automatic Speech Recognition, Machine Translation and Information Extraction. The most successful approaches to date are based on n-gram assumption and the adjustment of statistics from the training data by applying smoothing and back-off techniques, notably Kneser-Ney technique, introduced twenty years ago. In this way, language models predict a word based on its n-1 previous words. In spite of their prevalence, conventional n-gram based language models still suffer from several limitations that could be intuitively overcome by consulting human expert knowledge. One critical limitation is that, ignoring all linguistic properties, they treat each word as one discrete symbol with no relation with the others. Another point is that, even with a huge amount of data, the data sparsity issue always has an important impact, so the optimal value of n in the n-gram assumption is often 4 or 5 which is insufficient in practice. This kind of model is constructed based on the count of n-grams in training data. Therefore, the pertinence of these models is conditioned only on the characteristics of the training text (its quantity, its representation of the content in terms of theme, date). Recently, one of the most successful attempts that tries to directly learn word similarities is to use distributed word representations in language modeling, where distributionally words, which have semantic and syntactic similarities, are expected to be represented as neighbors in a continuous space. These representations and the associated objective function (the likelihood of the training data) are jointly learned using a multi-layer neural network architecture. In this way, word similarities are learned automatically. This approach has shown significant and consistent improvements when applied to automatic speech recognition and statistical machine translation tasks. A major difficulty with the continuous space neural network based approach remains the computational burden, which does not scale well to the massive corpora that are nowadays available. For this reason, the first contribution of this dissertation is the definition of a neural architecture based on a tree representation of the output vocabulary, namely Structured OUtput Layer (SOUL), which makes them well suited for large scale frameworks. The SOUL model combines the neural network approach with the class-based approach. It achieves significant improvements on both state-of-the-art large scale automatic speech recognition and statistical machine translations tasks. The second contribution is to provide several insightful analyses on their performances, their pros and cons, their induced word space representation. Finally, the third contribution is the successful adoption of the continuous space neural network into a machine translation framework. New translation models are proposed and reported to achieve significant improvements over state-of-the-art baseline systems.
|
5 |
Approche hybride pour la reconnaissance automatique de la parole en langue arabe / Hybrid approach for automatic speech recognition for the Arabic languageMasmoudi Dammak, Abir 21 September 2016 (has links)
Le développement d'un système de reconnaissance de la parole exige la disponibilité d'une grande quantité de ressources à savoir, grands corpus de texte et de parole, un dictionnaire de prononciation. Néanmoins, ces ressources ne sont pas disponibles directement pour des dialectes arabes. De ce fait, le développement d'un SRAP pour les dialectes arabes se heurte à de multiples difficultés à savoir, l’'abence de grandes quantités de ressources et l'absence d’'une orthographe standard vu que ces dialectes sont parlés et non écrit. Dans cette perspective, les travaux de cette thèse s’intègrent dans le cadre du développement d’un SRAP pour le dialecte tunisien. Une première partie des contributions consiste à développer une variante de CODA (Conventional Orthography for Arabic Dialectal) pour le dialecte tunisien. En fait, cette convention est conçue dans le but de fournir une description détaillée des directives appliquées au dialecte tunisien. Compte tenu des lignes directives de CODA, nous avons constitué notre corpus nommé TARIC : Corpus de l’interaction des chemins de fer de l’arabe tunisien dans le domaine de la SNCFT. Outre ces ressources, le dictionnaire de prononciation s’impose d’une manière indispensable pour le développement d’un SRAP. À ce propos, dans la deuxième partie des contributions, nous visons la création d’un système nommé conversion (Graphème-Phonème) G2P qui permet de générer automatiquement ce dictionnaire phonétique. Toutes ces ressources décrites avant sont utilisées pour adapter un SRAP pour le MSA du laboratoire LIUM au dialecte tunisien dans le domaine de la SNCFT. L’évaluation de notre système donné lieu WER de 22,6% sur l’ensemble de test. / The development of a speech recognition system requires the availability of a large amount of resources namely, large corpora of text and speech, a dictionary of pronunciation. Nevertheless, these resources are not available directly for Arabic dialects. As a result, the development of a SRAP for Arabic dialects is fraught with many difficulties, namely the lack of large amounts of resources and the absence of a standard spelling as these dialects are spoken and not written. In this perspective, the work of this thesis is part of the development of a SRAP for the Tunisian dialect. A first part of the contributions consists in developing a variant of CODA (Conventional Orthography for Arabic Dialectal) for the Tunisian dialect. In fact, this convention is designed to provide a detailed description of the guidelines applied to the Tunisian dialect. Given the guidelines of CODA, we have created our corpus TARIC: Corpus of the interaction of the railways of the Tunisian Arab in the field of SNCFT. In addition to these resources, the pronunciation dictionary is indispensable for the development of a peech recognition system. In this regard, in the second part of the contributions, we aim at the creation of a system called conversion(Grapheme-Phonème) G2P which allows to automatically generate this phonetic dictionary. All these resources described before are used to adapt a SRAP for the MSA of the LIUM laboratory to the Tunisian dialect in the field of SNCFT. The evaluation of our system gave rise to WER of 22.6% on the test set.
|
6 |
Approche statistique du rayonnement dans les milieux gazeux hétérogènes : de l’échantillonnage des transitions moléculaires au calcul de grandeurs radiatives / A statistical approach of radiative transfer in heterogeneous and gaseous media : from molecular transitions sampling to the computation of radiative observablesGaltier, Mathieu 05 December 2014 (has links)
L’étude du transfert radiatif dans les gaz (atmosphères planétaires, chambres de combustion, etc.) se heurte à deux principales difficultés : les hétérogénéités et la dépendance spectrale des propriétés radiatives du milieu d’intérêt. Les travaux présentés dans ce manuscrit proposent, au travers d’une approche statistique du rayonnement, une solution à ces deux limites qui ne nécessite aucune approximation de modèle physique ou numérique. Cette approche conduira au développement d’algorithmes de Monte-Carlo considérés à l’heure actuelle comme méthodes de référence dans la communauté du transfert radiatif. La difficulté liée aux hétérogénéités du milieu participant sera traitée par une technique empruntée à d’autres disciplines de la physique du transport : les algorithmes à collisions nulles. Leur application au rayonnement consiste à ajouter arbitrairement aux évènements d’absorption et de diffusion, un troisième type de collision n’ayant aucun effet sur le transport de photons : les collisions nulles. Ainsi, le coefficient d’extinction résultant de ces trois types de collision pourra être assumé comme homogène. Ensuite, il sera montré comment cette même technique lève un second verrou permettant de repenser de façon statistique l’idée de coefficient d’absorption. Cela ouvrira la voie à des algorithmes de Monte-Carlo qui estiment directement une observable radiative à partir de paramètres de transitions répertoriés dans des bases de données spectroscopiques, sans avoir à précalculer rigoureusement le coefficient d’absorption. / Two major challenges are encountered when studying radiative transfer in gases (e.g. combustion chambers or planetary atmospheres): heterogeneity and spectral dependence of radiative properties. The work introduced in this manuscript, addresses this problem through a statistical approach of radiation that requires no model or numerical approximation. This approach leads to the development of Monte-Carlo methods, currently considered as reference solutions in the community of radiative transfer. The difficulty related to heterogeneity is handled by a technique borrowed from other fields of transport physics: null-collision algorithms. Their application to radiation consists in adding to the events of absorption and scattering a third arbitrary type of collision that has no effect on the photon transport. Thus, the extinction coefficient resulting from these three types of collisions can be assumed to be homogeneous. Then, it is shown how this very same technique opens the door to rethinking statistically the concept of absorption coefficient. This leads to Monte-Carlo algorithms that directly estimate radiative observables from transition parameters indexed in molecular spectroscopic databases, without the need of rigorously precomputing absorption coefficients.
|
7 |
Prévision de la durée de vie des composites à matrice céramique auto cicatrisante, en fatigue statique, à haute température (= 800°C) / Prediction of lifetime in static fatigue, at high temperatures for ceramic matrix compositesDe Melo - Loseille, Olivier 15 March 2010 (has links)
La rupture différée d’un composite SiC/SiC a été étudiée en fatigue statique, sous air, aux températures intermédiaires (500°C-800°C). Les résultats expérimentaux (durée de vie, loi de comportement en traction, déformation) et les fractographies ont permis d’identifier les modes de rupture de fibre qui interviennent dans la rupture différée. Un modèle mécanique probabiliste multiéchelle a été développé pour simuler le comportement en fatigue et prévoir la durée de vie. La microstructure est décrite par des distributions statistiques identifiées à partir des résultats de l’étude fractographique. Des diagrammes d’endurance du composite en fatigue ont été calculés pour prévoir la durée de vie. Ces derniers confirment que la tenue du composite est dictée par les fils. La modélisation montre que la microstructure joue un rôle déterminant sur la durée de vie et sa variabilité. Des relations microstructures-propriétés sont établies. Le lien entre contrainte résiduelle et durée de vie est également examiné. Une approche fiabiliste sur les échantillons à information faible est menée à l’aide de l’inférence bayésienne. Les résultats concordent avec l’approche mécanique. / Delayed failure of SiC/SiC woven composite is studied under static fatigue, in air, for intermediate temperatures (500°C – 800°C). Experimental results and fractographic examination are used to identify damage mechanisms. A multi-scale probabilistic facture based model is proposed to simulate damage kinetics in longitudinal tows. Microstructure is described with appropriate statistical distributions identified on fractographic investigations. Simulations demonstrate a significant effect of the microstructure on the lifetime of the tows. Microstructure – properties relations are established.
|
Page generated in 0.1053 seconds