• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 55
  • 39
  • 17
  • Tagged with
  • 124
  • 124
  • 104
  • 73
  • 53
  • 51
  • 51
  • 51
  • 47
  • 47
  • 47
  • 41
  • 31
  • 30
  • 29
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Configuration et exploitation d'une machine émotionnelle

Trabelsi, Amine 11 1900 (has links)
Dans ce travail, nous explorons la faisabilité de doter les machines de la capacité de prédire, dans un contexte d'interaction homme-machine (IHM), l'émotion d'un utilisateur, ainsi que son intensité, de manière instantanée pour une grande variété de situations. Plus spécifiquement, une application a été développée, appelée machine émotionnelle, capable de «comprendre» la signification d'une situation en se basant sur le modèle théorique d'évaluation de l'émotion Ortony, Clore et Collins (OCC). Cette machine est apte, également, à prédire les réactions émotionnelles des utilisateurs, en combinant des versions améliorées des k plus proches voisins et des réseaux de neurones. Une procédure empirique a été réalisée pour l'acquisition des données. Ces dernières ont fourni une connaissance consistante aux algorithmes d'apprentissage choisis et ont permis de tester la performance de la machine. Les résultats obtenus montrent que la machine émotionnelle proposée est capable de produire de bonnes prédictions. Une telle réalisation pourrait encourager son utilisation future dans des domaines exploitant la reconnaissance automatique de l'émotion. / This work explores the feasibility of equipping computers with the ability to predict, in a context of a human computer interaction, the probable user’s emotion and its intensity for a wide variety of emotion-eliciting situations. More specifically, an online framework, the Emotional Machine, is developed enabling computers to «understand» situations using OCC model of emotion and to predict user’s reaction by combining refined versions of Artificial Neural Network and k Nearest Neighbours algorithms. An empirical procedure including a web-based anonymous questionnaire for data acquisition was designed to provide the chosen machine learning algorithms with a consistent knowledge and to test the application’s recognition performance. Results from the empirical investigation show that the proposed Emotional Machine is capable of producing accurate predictions. Such an achievement may encourage future using of our framework for automated emotion recognition in various application fields.
72

Espaces de timbre générés par des réseaux profonds convolutionnels

Lemieux, Simon 08 1900 (has links)
Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles profondes. Nous présentons d'abord un survol de l'apprentissage machine, avec emphase sur les machines de Boltzmann convolutionelles ainsi que les modèles dont elles sont dérivées. Nous présentons aussi un aperçu de la littérature concernant les espaces de timbre, et mettons en évidence quelque-unes de leurs limitations, dont le nombre limité de sons utilisés pour les construire. Pour pallier à ce problème, nous avons mis en place un outil nous permettant de générer des sons à volonté. Le système utilise à sa base des plug-ins qu'on peut combiner et dont on peut changer les paramètres pour créer une gamme virtuellement infinie de sons. Nous l'utilisons pour créer une gigantesque base de donnée de timbres générés aléatoirement constituée de vrais instruments et d'instruments synthétiques. Nous entrainons ensuite les machines de Boltzmann convolutionnelles profondes de façon non-supervisée sur ces timbres, et utilisons l'espace des caractéristiques produites comme espace de timbre. L'espace de timbre ainsi obtenu est meilleur qu'un espace semblable construit à l'aide de MFCC. Il est meilleur dans le sens où la distance entre deux timbres dans cet espace est plus semblable à celle perçue par un humain. Cependant, nous sommes encore loin d'atteindre les mêmes capacités qu'un humain. Nous proposons d'ailleurs quelques pistes d'amélioration pour s'en approcher. / This thesis presents a novel way of modelling timbre using machine learning algorithms. More precisely, we have attempted to build a timbre space by extracting audio features using deep-convolutional Boltzmann machines. We first present an overview of machine learning with an emphasis on convolutional Boltzmann machines as well as models from which they are derived. We also present a summary of the literature relevant to timbre spaces and highlight their limitations, such as the small number of timbres used to build them. To address this problem, we have developed a sound generation tool that can generate as many sounds as we wish. At the system's core are plug-ins that are parameterizable and that we can combine to create a virtually infinite range of sounds. We use it to build a massive randomly generated timbre dataset that is made up of real and synthesized instruments. We then train deep-convolutional Boltzmann machines on those timbres in an unsupervised way and use the produced feature space as a timbre space. The timbre space we obtain is a better space than a similar space built using MFCCs. We consider it as better in the sense that the distance between two timbres in that space is more similar to the one perceived by a human listener. However, we are far from reaching the performance of a human. We finish by proposing possible improvements that could be tried to close our performance gap.
73

Apprentissage de représentations musicales à l'aide d'architectures profondes et multiéchelles

Hamel, Philippe 05 1900 (has links)
L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés. / Machine learning (ML) is an important tool in the field of music information retrieval (MIR). Many MIR tasks can be solved by training a classifier over a set of features. For MIR tasks based on music audio, it is possible to extract features from the audio with signal processing techniques. However, some musical aspects are hard to extract with simple heuristics. To obtain richer features, we can use ML to learn a representation from the audio. These learned features can often improve performance for a given MIR task. In order to learn interesting musical representations, it is important to consider the particular aspects of music audio when building learning models. Given the temporal and spectral structure of music audio, deep and multi-scale representations are particularly well suited to represent music. This thesis focuses on learning representations from music audio. Deep and multi-scale models that improve the state-of-the-art for tasks such as instrument recognition, genre recognition and automatic annotation are presented.
74

Algorithmes d'apprentissage pour la recommandation

Bisson, Valentin 09 1900 (has links)
L'ère numérique dans laquelle nous sommes entrés apporte une quantité importante de nouveaux défis à relever dans une multitude de domaines. Le traitement automatique de l'abondante information à notre disposition est l'un de ces défis, et nous allons ici nous pencher sur des méthodes et techniques adaptées au filtrage et à la recommandation à l'utilisateur d'articles adaptés à ses goûts, dans le contexte particulier et sans précédent notable du jeu vidéo multi-joueurs en ligne. Notre objectif est de prédire l'appréciation des niveaux par les joueurs. Au moyen d'algorithmes d'apprentissage machine modernes tels que les réseaux de neurones profonds avec pré-entrainement non-supervisé, que nous décrivons après une introduction aux concepts nécessaires à leur bonne compréhension, nous proposons deux architectures aux caractéristiques différentes bien que basées sur ce même concept d'apprentissage profond. La première est un réseau de neurones multi-couches pour lequel nous tentons d'expliquer les performances variables que nous rapportons sur les expériences menées pour diverses variations de profondeur, d'heuristique d'entraînement, et des méthodes de pré-entraînement non-supervisé simple, débruitant et contractant. Pour la seconde architecture, nous nous inspirons des modèles à énergie et proposons de même une explication des résultats obtenus, variables eux aussi. Enfin, nous décrivons une première tentative fructueuse d'amélioration de cette seconde architecture au moyen d'un fine-tuning supervisé succédant le pré-entrainement, puis une seconde tentative où ce fine-tuning est fait au moyen d'un critère d'entraînement semi-supervisé multi-tâches. Nos expériences montrent des performances prometteuses, notament avec l'architecture inspirée des modèles à énergie, justifiant du moins l'utilisation d'algorithmes d'apprentissage profonds pour résoudre le problème de la recommandation. / The age of information in which we have entered brings with it a whole new set of challenges to take up in many different fields. Making computers process this profuse information is one such challenge, and this thesis focuses on techniques adapted for automatically filtering and recommending to users items that will fit their tastes, in the somehow original context of an online multi-player game. Our objective is to predict players' ratings of the game's levels. We first introduce machine learning concepts necessary to understand the two architectures we then describe; both of which taking advantage of deep learning and unsupervised pre-training concepts to solve the recommendation problem. The first architecture is a multilayered neural network for which we try to explain different performances we get for different settings of depth, training heuristics and unsupervised pre-training methods, namely, straight, denoising and contrative auto-encoders. The second architecture we explore takes its roots in energy-based models. We give possible explanations for the various results it yields depending on the configurations we experimented with. Finally, we describe two successful improvements on this second architecture. The former is a supervised fine-tuning taking place after the unsupervised pre-training, and the latter is a tentative improvement of the fine-tuning phase by using a multi-tasking training criterion. Our experiments show promising results, especially with the architecture inspired from energy-based models, justifying the use of deep learning algorithms to solve the recommendation problem.
75

Présentation personnalisée des informations environnementales

Mouine, Mohamed 06 1900 (has links)
Nous présentons dans cette thèse notre travail dans le domaine de la visualisation. Nous nous sommes intéressés au problème de la génération des bulletins météorologiques. Étant donné une masse énorme d’information générée par Environnement Canada et un utilisateur, il faut lui générer une visualisation personnalisée qui répond à ses besoins et à ses préférences. Nous avons développé MeteoVis, un générateur de bulletin météorologique. Comme nous avons peu d’information sur le profil de l’utilisateur, nous nous sommes basés sur les utilisateurs similaires pour lui calculer ses besoins et ses préférences. Nous utilisons l'apprentissage non supervisé pour regrouper les utilisateurs similaires. Nous calculons le taux de similarité des profils utilisateurs dans le même cluster pour pondérer les besoins et les préférences. Nous avons mené, avec l’aide d'utilisateurs n’ayant aucun rapport avec le projet, des expériences d'évaluation et de comparaison de notre outil par rapport à celui utilisé actuellement par Environnement Canada. Les résultats de cette évaluation montrent que les visualisation générées par MeteoVis sont de loin meilleures que les bulletins actuels préparés par EC. / We present our work in this thesis in the field of information visualization. We dealt with the problem of the generation of weather forecasts reports. Given the huge amount of information produced by Environment Canada and a wide variety of users, it must generate a customized visualization that meets their needs and preferences. We developed MeteoVis, a weather report generator. Given that we have little information on the user profile, we relied on the choices made by similar users to calculate the needs and preferences of a user. We use unsupervised machine learning techniques to group similar users . We compute a degree of similarity of user profiles in the same cluster to determine the needs and preferences. We conducted, with the help of external users experiments for evaluating and comparing our tool with the current site of Environment Canada. The evaluation results show that the visualizations generated by MeteoVis are significantly better than the current bulletins prepared by EC.
76

Environnement d’adaptation pour un jeu sérieux

Ouellet, Sébastien 06 1900 (has links)
Nous avons développé un jeu sérieux afin d’enseigner aux utilisateurs à dessiner des diagrammes de Lewis. Nous l’avons augmenté d’un environnement pouvant enregistrer des signaux électroencéphalographiques, les expressions faciales, et la pupille d’un utilisateur. Le but de ce travail est de vérifier si l’environnement peut permettre au jeu de s’adapter en temps réel à l’utilisateur grâce à une détection automatique du besoin d’aide de l’utilisateur ainsi que si l’utilisateur est davantage satisfait de son expérience avec l’adaptation. Les résultats démontrent que le système d’adaptation peut détecter le besoin d’aide grâce à deux modèles d’apprentissage machine entraînés différemment, l’un généralisé et l’autre personalisé, avec des performances respectives de 53.4% et 67.5% par rapport à un niveau de chance de 33.3%. / We developed a serious game in order to teach users how to draw Lewis diagrams. We integrated an environment able to record in electroencephalographic signals, facial expressions, and pupil diameters to the serious game. The goal of this work is to determine whether such an environment enabled the serious game to detect in real-time whether or not the user needs help and adapt itself accordingly, and if the experience is more enjoyable for the users if the game tries to adapt itself. Results show that two approaches were promising in order to detect the level of help needed, both training a machine learning models but one using a general data set and the other a personalized (to the user) data set, with their respective performances being 53.4% and 67.5% compared to a chance baseline of 33.3%.
77

Deep Learning for Video Modelling

Mastropietro, Olivier 12 1900 (has links)
No description available.
78

Prédiction du délai d'attente en temps réel et modélisation des durées de service dans les centres d'appels multi-compétences

Thiongane, Mamadou 08 1900 (has links)
Dans cette thèse, nous commençons par l'étude de la prédiction de délai d'attente des clients dans les centres d'appels multi-compétences. Le temps d'attente a un impact important sur la qualité du service perçue par les clients. L'annonce du délai d'attente permet de réduire l'incertitude du client à propos de son délai d'attente. Elle peut également augmenter la satisfaction du client et réduire le nombre d'abandons. Ceci nécessite d'avoir un bon prédicteur de délai. Malheureusement les prédicteurs existants ne sont pas adaptés pour les centres d'appels multi-compétences. Nous proposons trois types de prédicteurs qui utilisent l'apprentissage machine: le premier utilise la régression par les splines cubiques, le second emploie les réseaux de neurones artificiels, et le dernier utilise le krigeage stochastique. Les prédicteurs prennent en entrée le temps d'attente du dernier client de même type à entrer en service, la période d'arrivée du nouveau client, le nombre d'agents des groupes, la longueur de la file des clients de même type, et les longueurs des files d'attente des types servis par les mêmes agents. Ces prédicteurs donnent de bons résultats pour les systèmes multi-compétences, mais un inconvénient est qu'ils ont un grand nombre de paramètres qui doivent être appris à l'avance durant une phase d'entraînement du modèle qui nécessite une grande quantité de données et temps de calcul. Nous proposons ensuite deux nouveaux prédicteurs de délai qui sont très simples à mettre en œuvre, requièrent peu d'effort d'optimisation, ne nécessitent pas de données, et qui sont applicables dans les centres d'appels multi-compétences. Ils sont basés sur l'historique des temps d'attente des clients. Le premier estime le délai d'un nouveau client en extrapolant l'historique des attentes des clients actuellement dans la file d'attente, en plus du délai du dernier qui a commencé le service, et en prenant une moyenne pondérée. Le second retourne une moyenne pondérée des délais des anciens clients de la même classe qui ont trouvé la même longueur de file d'attente quand ils sont arrivés. Ensuite, nous nous intéressons à la modélisation des durées de service dans les centres d'appels. En général, les modèles de file d'attente d'Erlang standard sont utilisés pour analyser les opérations dans les centres d'appels. Dans ces modèles, les temps de service des agents sont modélisés comme des variables aléatoires exponentielles indépendantes, identiquement distribuées et de moyenne constante. Plusieurs travaux récents ont montré que la distribution des temps de service est : dépendante du temps, log-normale plutôt qu'exponentielle, et dépend aussi de l'agent. Nous proposons une modélisation plus réaliste des temps de service dans les centres d'appels qui prennent en compte plusieurs propriétés observées dans les données réelles. Nos modèles prennent en compte: l'hétérogénéité des agents, la dépendance du temps, les corrélations sérielles entre les temps de service d'un agent pour le même type d'appel, et les corrélations croisées entre plusieurs types d'appels servis par le même agent. Nous avons montré que ces modèles prédisent les moyennes des temps de service des agents mieux que les modèles de références considérés. Par la suite, nous montrons par la simulation que ces modèles plus réalistes conduisent à des prédictions des performances du système significativement différentes de celles des modèles de références, et les décisions que pourraient prendre le gestionnaire en observant ces données peuvent mener à des économies de coûts importants dans la pratique. / In this thesis, we begin with the study of delay prediction of customers in multiskill call centers. Waiting time has an important impact on the quality of service experienced by customers. Delay announcement can reduce customer uncertainty about its delay time. It also can increase customer satisfaction and reduce the number of abandonments. This requires having a good delay predictor. Unfortunately existing predictors are not adapted for multiskill call centers. We propose three types of predictors that use machine learning: the first uses regression cubic splines, the second employs artificial neural networks, and the latter uses the stochastic kriging. The predictors take as inputs the delay of the last customer of the same type to enter service, the arrival period of the new customer, the staffing of agents groups, the queue length of the same type, and the queue lengths of types served by the same agents. These predictors work well for multiskill call centers, but one drawback is that they have a large number of parameters that must be learned in advance during the training phase that requires a large amount of data and computional time. We also propose two new delay predictors that are very simple to implement, require little optimization effort, do not need any data, and are applicable in multiskill call centers. They are based on the wait times of previous customers of the same class. The first one estimates the delay of a new customer by extrapolating the wait history of customers currently in queue, plus the delay of last one that started service, and taking a weighted average. The second one takes a weighted average of the delays of the past customers of the same class that have found the same queue length when they arrived. Next in this thesis, we are also interested in modelling service time in call centers. In general, the standard Erlang queueing models are used to analyze call centers operations. In these models, agent service times are modelled as independent and identically distributed exponential random variables with a constant mean. Several recent studies have shown that the distribution of service time is: time-dependent, lognormal rather than exponential, and distinct by agent. We propose a more realistic modelling of service times in call centers that takes into account multiple properties observed in real life data. Our models take into account: the heterogeneity of agents, the time dependence, serial correlation between service time of an agent for the same call type, and the cross-correlations between several call types served by the same agent. We show that these models predict agent average service time better than the considered benchmark models. Thereafter, we show by simulation that these more realistic models lead to system performance predictions significantly different from those of the benchmark models, and decisions that manager could take by observing this data can lead to important cost savings in practice.
79

A Unified View of Local Learning : Theory and Algorithms for Enhancing Linear Models / Une Vue Unifiée de l'Apprentissage Local : Théorie et Algorithmes pour l'Amélioration de Modèles Linéaires

Zantedeschi, Valentina 18 December 2018 (has links)
Dans le domaine de l'apprentissage machine, les caractéristiques des données varient généralement dans l'espace des entrées : la distribution globale pourrait être multimodale et contenir des non-linéarités. Afin d'obtenir de bonnes performances, l'algorithme d'apprentissage devrait alors être capable de capturer et de s'adapter à ces changements. Même si les modèles linéaires ne parviennent pas à décrire des distributions complexes, ils sont réputés pour leur passage à l'échelle, en entraînement et en test, aux grands ensembles de données en termes de nombre d'exemples et de nombre de fonctionnalités. Plusieurs méthodes ont été proposées pour tirer parti du passage à l'échelle et de la simplicité des hypothèses linéaires afin de construire des modèles aux grandes capacités discriminatoires. Ces méthodes améliorent les modèles linéaires, dans le sens où elles renforcent leur expressivité grâce à différentes techniques. Cette thèse porte sur l'amélioration des approches d'apprentissage locales, une famille de techniques qui infère des modèles en capturant les caractéristiques locales de l'espace dans lequel les observations sont intégrées.L'hypothèse fondatrice de ces techniques est que le modèle appris doit se comporter de manière cohérente sur des exemples qui sont proches, ce qui implique que ses résultats doivent aussi changer de façon continue dans l'espace des entrées. La localité peut être définie sur la base de critères spatiaux (par exemple, la proximité en fonction d'une métrique choisie) ou d'autres relations fournies, telles que l'association à la même catégorie d'exemples ou un attribut commun. On sait que les approches locales d'apprentissage sont efficaces pour capturer des distributions complexes de données, évitant de recourir à la sélection d'un modèle spécifique pour la tâche. Cependant, les techniques de pointe souffrent de trois inconvénients majeurs :ils mémorisent facilement l'ensemble d'entraînement, ce qui se traduit par des performances médiocres sur de nouvelles données ; leurs prédictions manquent de continuité dans des endroits particuliers de l'espace ; elles évoluent mal avec la taille des ensembles des données. Les contributions de cette thèse examinent les problèmes susmentionnés dans deux directions : nous proposons d'introduire des informations secondaires dans la formulation du problème pour renforcer la continuité de la prédiction et atténuer le phénomène de la mémorisation ; nous fournissons une nouvelle représentation de l'ensemble de données qui tient compte de ses spécificités locales et améliore son évolutivité. Des études approfondies sont menées pour mettre en évidence l'efficacité de ces contributions pour confirmer le bien-fondé de leurs intuitions. Nous étudions empiriquement les performances des méthodes proposées tant sur des jeux de données synthétiques que sur des tâches réelles, en termes de précision et de temps d'exécution, et les comparons aux résultats de l'état de l'art. Nous analysons également nos approches d'un point de vue théorique, en étudiant leurs complexités de calcul et de mémoire et en dérivant des bornes de généralisation serrées. / In Machine Learning field, data characteristics usually vary over the space: the overall distribution might be multi-modal and contain non-linearities.In order to achieve good performance, the learning algorithm should then be able to capture and adapt to these changes. Even though linear models fail to describe complex distributions, they are renowned for their scalability, at training and at testing, to datasets big in terms of number of examples and of number of features. Several methods have been proposed to take advantage of the scalability and the simplicity of linear hypotheses to build models with great discriminatory capabilities. These methods empower linear models, in the sense that they enhance their expressive power through different techniques. This dissertation focuses on enhancing local learning approaches, a family of techniques that infers models by capturing the local characteristics of the space in which the observations are embedded. The founding assumption of these techniques is that the learned model should behave consistently on examples that are close, implying that its results should also change smoothly over the space. The locality can be defined on spatial criteria (e.g. closeness according to a selected metric) or other provided relations, such as the association to the same category of examples or a shared attribute. Local learning approaches are known to be effective in capturing complex distributions of the data, avoiding to resort to selecting a model specific for the task. However, state of the art techniques suffer from three major drawbacks: they easily memorize the training set, resulting in poor performance on unseen data; their predictions lack of smoothness in particular locations of the space;they scale poorly with the size of the datasets. The contributions of this dissertation investigate the aforementioned pitfalls in two directions: we propose to introduce side information in the problem formulation to enforce smoothness in prediction and attenuate the memorization phenomenon; we provide a new representation for the dataset which takes into account its local specificities and improves scalability. Thorough studies are conducted to highlight the effectiveness of the said contributions which confirmed the soundness of their intuitions. We empirically study the performance of the proposed methods both on toy and real tasks, in terms of accuracy and execution time, and compare it to state of the art results. We also analyze our approaches from a theoretical standpoint, by studying their computational and memory complexities and by deriving tight generalization bounds.
80

Apprentissage de représentations musicales à l'aide d'architectures profondes et multiéchelles

Hamel, Philippe 05 1900 (has links)
L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés. / Machine learning (ML) is an important tool in the field of music information retrieval (MIR). Many MIR tasks can be solved by training a classifier over a set of features. For MIR tasks based on music audio, it is possible to extract features from the audio with signal processing techniques. However, some musical aspects are hard to extract with simple heuristics. To obtain richer features, we can use ML to learn a representation from the audio. These learned features can often improve performance for a given MIR task. In order to learn interesting musical representations, it is important to consider the particular aspects of music audio when building learning models. Given the temporal and spectral structure of music audio, deep and multi-scale representations are particularly well suited to represent music. This thesis focuses on learning representations from music audio. Deep and multi-scale models that improve the state-of-the-art for tasks such as instrument recognition, genre recognition and automatic annotation are presented.

Page generated in 0.0926 seconds