Spelling suggestions: "subject:"rééchantillonnage"" "subject:"échantillonnage""
1 |
Création d'un outil d'évaluation des coûts des infrastructures municipales souterraines selon différents facteurs d'influencesFréchette, Richard January 2018 (has links) (PDF)
No description available.
|
2 |
Model adaptation techniques in machine translation / Techniques d'adaptation en traduction automatiqueShah, Kashif 29 June 2012 (has links)
L’approche statistique pour la traduction automatique semble être aujourd’hui l’approche la plusprometteuse. Cette approche permet de développer rapidement un système de traduction pour unenouvelle paire de langue lorsque les données d'apprentissage disponibles sont suffisammentconséquentes.Les systèmes de traduction automatique statistique (Statistical Machine Translation (SMT)) utilisentdes textes parallèles, aussi appelés les bitextes, comme support d'apprentissage pour créer lesmodèles de traduction. Ils utilisent également des corpus monolingues afin de modéliser la langueciblée.Les performances d'un système de traduction automatique statistique dépendent essentiellement dela qualité et de la quantité des données disponibles. Pour l'apprentissage d'un modèle de traduction,les textes parallèles sont collectés depuis différentes sources, dans différents domaines. Ces corpussont habituellement concaténés et les phrases sont extraites suite à un processus d'alignement desmots.Néanmoins, les données parallèles sont assez hétérogènes et les performances des systèmes detraduction automatique dépendent généralement du contexte applicatif. Les performances varient laplupart du temps en fonction de la source de données d’apprentissage, de la qualité de l'alignementet de la cohérence des données avec la tâche. Les traductions, sélectionnées parmi différenteshypothèses, sont directement influencées par le domaine duquel sont récupérées les donnéesd'apprentissage. C'est en contradiction avec l'apprentissage des modèles de langage pour lesquelsdes techniques bien connues sont utilisées pour pondérer les différentes sources de données. Ilapparaît donc essentiel de pondérer les corpus d’apprentissage en fonction de leur importance dansle domaine de la tâche de traduction.Nous avons proposé de nouvelles méthodes permettant de pondérer automatiquement les donnéeshétérogènes afin d'adapter le modèle de traduction.Dans une première approche, cette pondération automatique est réalisée à l'aide d'une technique deré-échantillonnage. Un poids est assigné à chaque bitextes en fonction de la proportion de donnéesdu corpus. Les alignements de chaque bitextes sont par la suite ré-échantillonnés en fonction de cespoids. Le poids attribué aux corpus est optimisé sur les données de développement en utilisant uneméthode numérique. De plus, un score d'alignement relatif à chaque paire de phrase alignée estutilisé comme mesure de confiance.Dans un travail approfondi, nous pondérons en ré-échantillonnant des alignements, en utilisant despoids qui diminuent en fonction de la distance temporelle entre les bitextes et les données de test.Nous pouvons, de cette manière, utiliser tous les bitextes disponibles tout en mettant l'accent sur leplus récent.L'idée principale de notre approche est d'utiliser une forme paramétrique, ou des méta-poids, pourpondérer les différentes parties des bitextes. De cette manière, seuls quelques paramètres doiventêtre optimisés.Nous avons également proposé un cadre de travail générique qui, lors du calcul de la table detraduction, ne prend en compte que les corpus et les phrases réalisant les meilleurs scores. Cetteapproche permet une meilleure distribution des masses de probabilités sur les paires de phrasesindividuelles.Nous avons présenté les résultats de nos expériences dans différentes campagnes d'évaluationinternationales, telles que IWSLT, NIST, OpenMT et WMT, sur les paires de langues Anglais/Arabeet Fançais/Arabe. Nous avons ainsi montré une amélioration significative de la qualité destraductions proposées. / Nowadays several indicators suggest that the statistical approach to machinetranslation is the most promising. It allows fast development of systems for anylanguage pair provided that sufficient training data is available.Statistical Machine Translation (SMT) systems use parallel texts ‐ also called bitexts ‐ astraining material for creation of the translation model and monolingual corpora fortarget language modeling.The performance of an SMT system heavily depends upon the quality and quantity ofavailable data. In order to train the translation model, the parallel texts is collected fromvarious sources and domains. These corpora are usually concatenated, word alignmentsare calculated and phrases are extracted.However, parallel data is quite inhomogeneous in many practical applications withrespect to several factors like data source, alignment quality, appropriateness to thetask, etc. This means that the corpora are not weighted according to their importance tothe domain of the translation task. Therefore, it is the domain of the training resourcesthat influences the translations that are selected among several choices. This is incontrast to the training of the language model for which well‐known techniques areused to weight the various sources of texts.We have proposed novel methods to automatically weight the heterogeneous data toadapt the translation model.In a first approach, this is achieved with a resampling technique. A weight to eachbitexts is assigned to select the proportion of data from that corpus. The alignmentscoming from each bitexts are resampled based on these weights. The weights of thecorpora are directly optimized on the development data using a numerical method.Moreover, an alignment score of each aligned sentence pair is used as confidencemeasurement.In an extended work, we obtain such a weighting by resampling alignments usingweights that decrease with the temporal distance of bitexts to the test set. By thesemeans, we can use all the available bitexts and still put an emphasis on the most recentone. The main idea of our approach is to use a parametric form or meta‐weights for theweighting of the different parts of the bitexts. This ensures that our approach has onlyfew parameters to optimize.In another work, we have proposed a generic framework which takes into account thecorpus and sentence level "goodness scores" during the calculation of the phrase‐tablewhich results into better distribution of probability mass of the individual phrase pairs.
|
3 |
Estimation et détection de signaux cyclostationnaires par les méthodes de ré-échantillonnage statistique : applications à l'analyse des signaux biomécaniques / Estimation and detection of cyclostationary signals by the mean of statistical resampling methods : applications to the analysis of biomechanical signalsMaiz, Sofiane 04 December 2014 (has links)
Dans le cadre de l’analyse de signaux mécaniques ou biomécaniques les outils d’aide à la décision reposent sur des hypothèses statistiques fortes: loi de probabilité normale, stationnarité des variables, variables centrées, variables indépendantes,…Or ces hypothèses sont parfois non vérifiées et engendrent des décisions erronées. Ce travail a pour objectif de proposer des méthodes qui font abstractions de certaines hypothèses et notamment de la stationnarité et de la gaussiannité des variables aléatoires. Dans cette thèse, nous avons revisité certaines méthodes de ré échantillonnages statistiques et de bootstrap et développé d’autres en incluant la cyclostationnarité des signaux. Ensuite, nous avons appliqué ces méthodes pour l’analyse de signaux biomécaniques provenant de coureurs expérimentés et d’une population de personnes âgées. Les résultats obtenus ont permis de mettre en évidence des changements significatifs dans le contenu fréquentiel du second ordre des signaux étudiés. Ces changements ont été des indicateurs très pertinents pour la description et la caractérisation de la fatigue d’un coureur professionnel, d’une part, et pour la compréhension du mécanisme complexe de la marche à pied simple et avec tâche cognitive chez les personnes âgées d’autre part / In mechanical and biomechanical signal analysis field, the decision support tools are based on strong statistical assumptions such as: normality, stationarity of variables, independence... However, these assumptions are very often unverified, consequently, wrong decisions could be taken. This work aims to propose new methods that make abstractions of such assumptions, including the stationarity and gaussianity of variables. In this thesis, we revisited some statistical resampling methods and developed new bootstrap approaches with including the cyclostationary nature of signals. Next, we applied these methods to the analysis of biomechanical signals from experienced runners and a population of elderly people. The obtained results allowed us to demonstrate significant changes in the second order frequency content of the signals under study. These changes were very relevant indicators for the description and characterization of the fatigue of a high level professional runner. Moreover, these changes helped us to understand the mechanism of normal walking and under a cognitive task condition (double task walking) in elderly
|
4 |
Méthodes d'apprentissage statistique pour le scoringDepecker, Marine 10 December 2010 (has links) (PDF)
Cette thèse porte sur le développement d'une méthode non-paramétrique pour l'apprentissage supervisé de règles d'ordonnancement à partir de données étiquetées de façon binaire. Cette méthode repose sur le partitionnement récursif de l'espace des observations et généralise la notion d'arbre de décision au problème de l'ordonnancement, les règles de score produites pouvant être représentées graphiquement par des arbres binaires et orientés. Afin de proposer une méthode d'apprentissage flexible, nous introduisons une procédure permettant, à chaque itération de l'algorithme, de scinder l'espace des observations selon diverses règles, adaptatives et complexes, choisies en fonction du problème considéré. De plus, pour lutter contre le phénomène de sur-apprentissage, nous proposons deux procédures de sélection de modèle, fondées sur la maximisation de l'ASC empirique pénalisée par une mesure de la complexité du modèle. Enfin, dans le but de réduire l'instabilité des arbres d'ordonnancement, inhérente à leur mode de construction, nous adaptons deux procédures d'agrégation de règles de prédiction ré-échantillonnées : le bagging (Breiman, 1996) et les forêts aléatoires (Random Forests, Breiman, 2001). Une étude empirique comparative entre différentes configurations de l'algorithme et quelques méthodes de l'état de l'art est présentée, ainsi que l'application à la problématique industrielle de l'objectivation des prestations d'un véhicule automobile. De plus, nous exploitons cette méthode de scoring pour introduire une heuristique de test d'homogénéité entre deux populations, permettant de généraliser les tests de rangs au cas multi-dimensionnel.
|
5 |
Contributions to decision tree based learning / Contributions à l’apprentissage de l’arbre des décisionsQureshi, Taimur 08 July 2010 (has links)
Advances in data collection methods, storage and processing technology are providing a unique challenge and opportunity for automated data learning techniques which aim at producing high-level information, or models, from data. A Typical knowledge discovery process consists of data selection, data preparation, data transformation, data mining and interpretation/validation of the results. Thus, we develop automatic learning techniques which contribute to the data preparation, transformation and mining tasks of knowledge discovery. In doing so, we try to improve the prediction accuracy of the overall learning process. Our work focuses on decision tree based learning and thus, we introduce various preprocessing and transformation techniques such as discretization, fuzzy partitioning and dimensionality reduction to improve this type of learning. However, these techniques can be used in other learning methods e.g. discretization can also be used for naive-bayes classifiers. The data preparation step represents almost 80 percent of the problem and is both time consuming and critical for the quality of modeling. Discretization of continuous features is an important problem that has effects on accuracy, complexity, variance and understandability of the induction models. In this thesis, we propose and develop resampling based aggregation techniques that improve the quality of discretization. Later, we validate by comparing with other discretization techniques and with an optimal partitioning method on 10 benchmark data sets.The second part of our thesis concerns with automatic fuzzy partitioning for soft decision tree induction. Soft or fuzzy decision tree is an extension of the classical crisp tree induction such that fuzzy logic is embedded into the induction process with the effect of more accurate models and reduced variance, but still interpretable and autonomous. We modify the above resampling based partitioning method to generate fuzzy partitions. In addition we propose, develop and validate another fuzzy partitioning method that improves the accuracy of the decision tree.Finally, we adopt a topological learning scheme and perform non-linear dimensionality reduction. We modify an existing manifold learning based technique and see whether it can enhance the predictive power and interpretability of classification. / La recherche avancée dans les méthodes d'acquisition de données ainsi que les méthodes de stockage et les technologies d'apprentissage, s'attaquent défi d'automatiser de manière systématique les techniques d'apprentissage de données en vue d'extraire des connaissances valides et utilisables.La procédure de découverte de connaissances s'effectue selon les étapes suivants: la sélection des données, la préparation de ces données, leurs transformation, le fouille de données et finalement l'interprétation et validation des résultats trouvés. Dans ce travail de thèse, nous avons développé des techniques qui contribuent à la préparation et la transformation des données ainsi qu'a des méthodes de fouille des données pour extraire les connaissances. A travers ces travaux, on a essayé d'améliorer l'exactitude de la prédiction durant tout le processus d'apprentissage. Les travaux de cette thèse se basent sur les arbres de décision. On a alors introduit plusieurs approches de prétraitement et des techniques de transformation; comme le discrétisation, le partitionnement flou et la réduction des dimensions afin d'améliorer les performances des arbres de décision. Cependant, ces techniques peuvent être utilisées dans d'autres méthodes d'apprentissage comme la discrétisation qui peut être utilisées pour la classification bayesienne.Dans le processus de fouille de données, la phase de préparation de données occupe généralement 80 percent du temps. En autre, elle est critique pour la qualité de la modélisation. La discrétisation des attributs continus demeure ainsi un problème très important qui affecte la précision, la complexité, la variance et la compréhension des modèles d'induction. Dans cette thèse, nous avons proposes et développé des techniques qui ce basent sur le ré-échantillonnage. Nous avons également étudié d'autres alternatives comme le partitionnement flou pour une induction floue des arbres de décision. Ainsi la logique floue est incorporée dans le processus d'induction pour augmenter la précision des modèles et réduire la variance, en maintenant l'interprétabilité.Finalement, nous adoptons un schéma d'apprentissage topologique qui vise à effectuer une réduction de dimensions non-linéaire. Nous modifions une technique d'apprentissage à base de variété topologiques `manifolds' pour savoir si on peut augmenter la précision et l'interprétabilité de la classification.
|
6 |
Pression d'herbivorie et dynamique des communautés végétales : Influence à court et moyen termes des populations de cervidés sur la diversité des communautés végétales en forêt.Boulanger, Vincent 27 April 2010 (has links) (PDF)
Les cervidés, animaux mobiles et herbivores, peuvent influencer les distributions, assemblages et dynamiques d'espèces végétales. L'objectif de cette thèse est d'évaluer le rôle joué par les cervidés sur la composition, stratification et dynamique de la végétation forestière. Le ré-échantillonnage de relevés couplant composition et abroutissement de la flore, implantés en 1976 en Forêt d'Arc-en-Barrois (52) a permis d'identifier (i) des espèces ligneuses préférées (Cornus sp., Rosa arvensis ) ou au contraire évitées par les cervidés qui sélectionnent les espèces arbustives et à bois dense et (ii) le niveau trophique et la pression d'abroutissement comme gradients structurant la végétation et déterminant les dynamiques des espèces et des communautés. Nous analysons plus précisément le rôle des cervidés dans la progression spectaculaire de Cynoglossum germanicum, espèce rare, épizoochore et toxique.A partir d'un réseau national d'enclos/exclos suivis sur 10 ans, nous montrons que les cervidés limitent la croissance des arbustes et des espèces compétitrices, ce qui profite à la richesse spécifique de la strate herbacée. La valeur écologique et patrimoniale des espèces en progression est discutée. A l'aide de données de chasse, nous tentons d'isoler les rôles des différentes espèces d'ongulés dans ces dynamiques.Ces résultats exposent la complexité et la diversité des effets des cervidés sur la végétation forestière. Enfin, ce travail met l'accent sur la nécessité des suivis temporels intégrant toutes les composantes de l'écosystème forestier pour mieux appréhender les changements en cours.
|
7 |
Pression d'herbivorie et dynamique des communautés végétales : influence à court et moyen termes des populations de cervidés sur la diversité des communautés végétales en forêt / Herbivory pressure and vegetation community dynamics : short- and mid-term impacts of deer populations on the diversity of forest vegetation communitiesBoulanger, Vincent 27 April 2010 (has links)
Les cervidés, animaux mobiles et herbivores, peuvent influencer les distributions, assemblages et dynamiques d'espèces végétales. L'objectif de cette thèse est d'évaluer le rôle joué par les cervidés sur la composition, stratification et dynamique de la végétation forestière. Le ré-échantillonnage de relevés couplant composition et abroutissement de la flore, implantés en 1976 en Forêt d'Arc-en-Barrois (52) a permis d'identifier (i) des espèces ligneuses préférées (Cornus sp., Rosa arvensis) ou au contraire évitées par les cervidés qui sélectionnent les espèces arbustives et à bois dense et (ii) le niveau trophique et la pression d'abroutissement comme gradients structurant la végétation et déterminant les dynamiques des espèces et des communautés. Nous analysons plus précisément le rôle des cervidés dans la progression spectaculaire de Cynoglossum germanicum, espèce rare, épizoochore et toxique.A partir d'un réseau national d'enclos/exclos suivis sur 10 ans, nous montrons que les cervidés limitent la croissance des arbustes et des espèces compétitrices, ce qui profite à la richesse spécifique de la strate herbacée. La valeur écologique et patrimoniale des espèces en progression est discutée. A l'aide de données de chasse, nous tentons d'isoler les rôles des différentes espèces d'ongulés dans ces dynamiques.Ces résultats exposent la complexité et la diversité des effets des cervidés sur la végétation forestière. Enfin, ce travail met l'accent sur la nécessité des suivis temporels intégrant toutes les composantes de l'écosystème forestier pour mieux appréhender les changements en cours. / This thesis aims at assessing the impacts of deer on forest vegetation composition, stratification and dynamics.We resampled a network of relevés coupling vegetation and browsing surveys, settled in 1976 in the national forest of Arc-en-Barrois. We identified (i) ligneous species that are either preferred (Cornus sp., Rosa arvensis) or avoided by deer, which tend to select shrubs species with dense wood and (ii) trophic level and browsing pressure as gradients that determine plant communities structures and dynamics. Then, we highlight the roles of deer in the spectacular expansion of Cynoglossum germanicum, a rare, epizoochorous and toxic species. According to a national network of exclosures, monitored for over 10 years, we show that deer limit shrubs and competing species growth, which in turn benefits to the herbaceous species richness probably through an increased light availability. Ecological and patrimonial value of the benefitting species is discussed. Using hunting statistics, we try to isolate the role of the various ungulate species in these dynamics.These results provide evidence for the diversity and complexity of deer impacts on forest vegetation. Finally, we demonstrate the need for long term monitoring programs, including all the forest ecosystem components so that we could better appreciate the forces driving the current changes
|
Page generated in 0.0728 seconds