Spelling suggestions: "subject:"forêts d'arbres décisionnel."" "subject:"forêts d'arbres décision.""
1 |
Données confidentielles : génération de jeux de données synthétisés par forêts aléatoires pour des variables catégoriquesCaron, Maxime 23 April 2018 (has links)
La confidentialité des données est devenue primordiale en statistique. Une méthode souvent utilisée pour diminuer le risque de réidentification est la génération de jeux de données partiellement synthétiques. On explique le concept de jeux de données synthétiques, et on décrit une méthode basée sur les forêts aléatoires pour traiter les variables catégoriques. On s’intéresse à la formule qui permet de faire de l’inférence avec plusieurs jeux synthétiques. On montre que l’ordre des variables à synthétiser a un impact sur l’estimation de la variance des estimateurs. On propose une variante de l’algorithme inspirée du concept de confidentialité différentielle. On montre que dans ce cas, on ne peut estimer adéquatement ni un coefficient de régression, ni sa variance. On montre l’impact de l’utilisation de jeux synthétiques sur des modèles d’équations structurelles. On conclut que les jeux synthétiques ne changent pratiquement pas les coefficients entre les variables latentes et les variables mesurées. / Confidential data are very common in statistics nowadays. One way to treat them is to create partially synthetic datasets for data sharing. We will present an algorithm based on random forest to generate such datasets for categorical variables. We are interested by the formula used to make inference from multiple synthetic dataset. We show that the order of the synthesis has an impact on the estimation of the variance with the formula. We propose a variant of the algorithm inspired by differential privacy, and show that we are then not able to estimate a regression coefficient nor its variance. We show the impact of synthetic datasets on structural equations modeling. One conclusion is that the synthetic dataset does not really affect the coefficients between latent variables and measured variables.
|
2 |
Modèles prédictifs pour la réduction des coûts associés aux non-conformités lors de la teinte des tissusBourdeau-Laferrière, Catherine 27 January 2024 (has links)
L'industrie manufacturière produit de plus en plus de produits différents avec un plus faible volume, ce qui fait considérablement augmenter la variabilité du procédé. Cette variabilité rend le maintien de la qualité des produits plus ardu qu'auparavant. L'industrie du textile ne fait pas exception à la règle. Par exemple, dans ce mémoire, le partenaire industriel, Duvaltex a tenté de contrôler leur non-conformité en ce qui concerne la couleur des pièces de tissu teint en mettant en place une règle d'affaire. En utilisant des données historiques fournies par l'entreprise, des modèles prédictifs ont été développés afin de pouvoir aiguiller la stratégie de test. La performance de ces modèles a été comparée à celle de leur règle d'affaires. Le modèle des forêts aléatoires améliore de 12% (taux de faux négatifs) la performance de leur règle qui était en place. Également, les modèles proposés permettent à Duvaltex de choisir le nombre de tests qu'ils souhaitent effectuer en fonction de leur budget ainsi que du nombre de pièces non conformes qu'ils sont prêts à tolérer.
|
3 |
Applications de méthodes de classification non supervisées à la détection d'anomaliesJabiri, Fouad 27 January 2024 (has links)
Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux. / In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms.
|
4 |
Prédire le renoncement à la libération conditionnelle : une approche par apprentissage automatiqueLokossou, Fiacre 26 March 2024 (has links)
Titre de l'écran-titre (visionné le 12 octobre 2023) / Dans ce mémoire, nous identifions les facteurs les plus susceptibles d'expliquer la renonciation à la libération conditionnelle au Québec. Deux approches ont été utilisées pour analyser les renonciations : une approche économétrique avec l'emploi de modèles de régression logistiques logit et lasso puis une approche d'apprentissage automatique basée sur un arbre de décision et une forêt aléatoire. Les variables utilisées dans ce mémoire tiennent compte des caractéristiques sociodémographiques des détenus, des facteurs liés à l'infraction, des facteurs liés à l'évaluation LS/CMI ainsi que les informations sur la santé mentale du détenu. L'analyse est fondée sur une base de données du Ministère de la Sécurité publique. Nous trouvons que les détenus ayant des comportements antisociaux très élevés, des problèmes d'alcool et de drogues très élevés et ceux ayant commis des viols ou agressions sexuelles sont plus sujets à renoncer. Par ailleurs, les femmes ont plus tendance à renoncer que les hommes, tandis que les personnes autochtones avaient 53 % moins de risque de renoncer à une audience que les personnes non autochtones. En outre, les problèmes de fréquentation, la nature du crime, l'âge, le comportement antisocial, les antécédents criminels et l'ethnicité sont les variables les plus importantes pour prédire la renonciation au Québec. / We identify the factors most likely to explain the renunciation of parole in Quebec. Two approaches were used to analyze the waivers : an econometric approach with the use of logit and lasso logistic regression models and then a machine learning approach based on a decision tree and a random forest. The variables used in this thesis take into account the socio-demographic characteristics of the inmates, factors related to the offence, factors related to the LS/CMI evaluation as well as information on the mental health of the inmate. The analysis is based on a database from the Ministry of Public Security. We find that inmates with very high antisocial behavior, very high alcohol and drug problems, and those who have committed rape or sexual assault are more likely to give up. Furthermore, women are more likely to opt out than men, while Indigenous people were 53 % less likely to opt out of a hearing than non-Indigenous people. In addition, relationship problems, nature of the crime, age, antisocial behavior, criminal history, and ethnicity are the most important variables in predicting quitting in Quebec.
|
5 |
Programmes d'aide à l'emploi et solidarité sociale : analyse causale des effets de la participation par l'approche des forêts aléatoiresRancourt, Marie-Pierre 27 January 2024 (has links)
Dans ce mémoire, nous évaluons l’effet des programmes d’aide à l’emploi sur le nombre de sorties de l’aide sociale et la durée cumulative passée en dehors de celle-ci chez les prestataires vivant avec des contraintes sévères à l’emploi. Il est évident que tous les prestataires ne tireront pas les mêmes bénéfices de la participation à un programme et pour cette raison il est utile d’évaluer des effets de traitement conditionnellement aux caractéristiques de chaque individu. Pour bien répondre à la question de recherche, nous avons besoin d’une méthode flexible nous permettant d’estimer des effets de traitement hétérogènes. Pour ce faire, nous utilisons une technique d’apprentissage automatique nommée generalized random forests (grf ) nous permettant d’évaluer des effets de traitement hétérogènes en conditionnant sur les caractéristiques des individus. Nous avons utilisé une base de données fournie par le Ministère du Travail, de l’Emploi et de la Solidarité sociale (MTESS) contenant les observations mensuelles de tous les prestataires d’aide et de solidarité sociale entre 1999 et 2018 au Québec. Grâce à la méthode grf et à la base de données du MTESS, nous avons trouvé que les prestataires présentant les plus longues durées cumulatives à l’aide sociale ont des effets de traitement moins élevés que ceux présentant des durées plus courtes. Nous avons également observé que les prestataires les plus jeunes et les plus scolarisés bénéficient davantage de la participation aux programmes que les autres. C’est également le cas des individus qui ont un diagnostic auditif et de ceux qui n’ont pas un diagnostic organique. / In this thesis, we assess the effect of employment assistance programs on the number of exits from social assistance and the cumulative duration spent outside of it among beneficiaries living with severe constraints. It is obvious that not all beneficiaries will derive the same benefits from participating in a program and for this reason it is useful to assess treatment effects conditional on the characteristics of each individual. To answer the research question, we need a flexible method that allows us to estimate differentiated treatment effects based on individual characteristics. To do this, we use a machine learning technique called generalized random forests (grf ) allowing us to evaluate heterogeneous treatment effects by conditioning on the characteristics of individuals. We used a database provided by the Ministère du Travail, de l’Emploi et de la Solidarité sociale (MTESS) containing monthly observations of all recipients of social assistance between 1999 and 2018 in Quebec. Using the grf method and the MTESS database, we found that beneficiaries with the longest cumulative durations on social assistance had lower treatment effects than those with shorter durations. We also observed that the younger and more educated beneficiaries benefited more from program participation than the others. This is also the case for individuals who have an auditory diagnosis and those who do not have an organic diagnosis.
|
6 |
Les forêts d'arbres décisionnels et la régression linéaire pour étudier les effets du sous-solage et des drains agricoles sur la hauteur des plants de maïs et les nappes d'eau dans un sol à perméabilité réduiteDjiemon Deuga, Anicet 17 May 2019 (has links)
Les travaux de sous-solage qui améliorent le drainage interne et décompactent des horizons rendus pratiquement imperméables par la compaction profonde seraient bénéfiques aux sols de faible perméabilité. Le sous-solage profond exécuté perpendiculairement aux drains avec un bélier (bulldozer) pourrait être plus efficace pour temporairement améliorer le drainage de ces sols qu’une sous-soleuse conventionnelle attelée à un tracteur et opérée en mode parallèle aux drains. Toutefois, les aménagements réalisés pour améliorer le drainage de surface et interne de ces sols rendent complexe l’évaluation de ces pratiques en dispositif expérimental. L’objectif principal de ce projet était de comparer les forêts d’arbres décisionnelles (FAD) à la régression linéaire multiple (RLM) pour détecter les effets du sous-solage et des systèmes de drainage souterrain et de surface sur la hauteur des plants et la profondeur moyenne de la nappe durant la saison de croissance. Un essai de sous solage a été réalisé à l’automne 2014, dans une argilelimoneuse Kamouraska naturellement mal drainée, remodelée en planches arrondies et souffrant de compaction importante. L’essai comparait un témoin sans sous-solage à quatre traitements de sous-solage, soit une sous-soleuse sur bélier ou sur tracteur, opérées parallèlement ou perpendiculairement aux drains. Chaque traitement a été répété trois fois et disposé aléatoirement en autant de blocs. Au printemps 2016, 198 puits ont été creusés à 60 cm de profondeur pour enregistrer la profondeur de la nappe sous chaque traitement entre juin et juillet 2016. La photogrammétrie a été utilisée pour estimer la hauteur des plants de maïs. Les FAD et la RLM permettent de détecter les principaux facteurs affectant la hauteur des plants de maïs et la profondeur moyenne de la nappe, soit les aménagements antérieurs pour améliorer le drainage interne et le drainage de surface des sols. Les coefficients de détermination obtenus avec les FAD (R2 ≥ 0,94) étaient toutefois plus élevés que ceux obtenus avec la RLM (R2 ≥ 0,28). Aucun traitement de sous-solage n’a amélioré significativement le drainage interne ni la hauteur des plants de maïs par rapport au témoin sans sous-solage. Les FAD permettent en outre de mieux visualiser les relations non linéaires entre les variables prédites et les autres variables, notamment la position sur la planche et la distance aux drains souterrains, et finalement de déterminer les distances aux drains souterrains optimales (< 2 m) et critiques (> 4 m), la distance optimale à la raie de curage (> 8 m) et la profondeur moyenne critique de la nappe (< 0,25 m). Les FAD permettent ainsi de prédire la hauteur des plants de maïs et la profondeur moyenne de la nappe avec une plus grande précision qu’avec la RLM.
|
7 |
Random Regression Forests for Fully Automatic Multi-Organ Localization in CT Images / Localisation automatique et multi-organes d'images scanner : utilisation de forêts d'arbres décisionnels (Random Regression Forests)Samarakoon, Prasad 30 September 2016 (has links)
La localisation d'un organe dans une image médicale en délimitant cet organe spécifique par rapport à une entité telle qu'une boite ou sphère englobante est appelée localisation d'organes. La localisation multi-organes a lieu lorsque plusieurs organes sont localisés simultanément. La localisation d'organes est l'une des étapes les plus cruciales qui est impliquée dans toutes les phases du traitement du patient à partir de la phase de diagnostic à la phase finale de suivi. L'utilisation de la technique d'apprentissage supervisé appelée forêts aléatoires (Random Forests) a montré des résultats très encourageants dans de nombreuses sous-disciplines de l'analyse d'images médicales. De même, Random Regression Forests (RRF), une spécialisation des forêts aléatoires pour la régression, ont produit des résultats de l'état de l'art pour la localisation automatique multi-organes.Bien que l'état de l'art des RRF montrent des résultats dans la localisation automatique de plusieurs organes, la nouveauté relative de cette méthode dans ce domaine soulève encore de nombreuses questions sur la façon d'optimiser ses paramètres pour une utilisation cohérente et efficace. Basé sur une connaissance approfondie des rouages des RRF, le premier objectif de cette thèse est de proposer une paramétrisation cohérente et automatique des RRF. Dans un second temps, nous étudions empiriquement l'hypothèse d'indépendance spatiale utilisée par RRF. Enfin, nous proposons une nouvelle spécialisation des RRF appelé "Light Random Regression Forests" pour améliorant l'empreinte mémoire et l'efficacité calculatoire. / Locating an organ in a medical image by bounding that particular organ with respect to an entity such as a bounding box or sphere is termed organ localization. Multi-organ localization takes place when multiple organs are localized simultaneously. Organ localization is one of the most crucial steps that is involved in all the phases of patient treatment starting from the diagnosis phase to the final follow-up phase. The use of the supervised machine learning technique called random forests has shown very encouraging results in many sub-disciplines of medical image analysis. Similarly, Random Regression Forests (RRF), a specialization of random forests for regression, have produced the state of the art results for fully automatic multi-organ localization.Although, RRF have produced state of the art results in multi-organ segmentation, the relative novelty of the method in this field still raises numerous questions about how to optimize its parameters for consistent and efficient usage. The first objective of this thesis is to acquire a thorough knowledge of the inner workings of RRF. After achieving the above mentioned goal, we proposed a consistent and automatic parametrization of RRF. Then, we empirically proved the spatial indenpendency hypothesis used by RRF. Finally, we proposed a novel RRF specialization called Light Random Regression Forests for multi-organ localization.
|
8 |
Approche pour la construction de modèles d'estimation réaliste de l'effort/coût de projet dans un environnement incertain : application au domaine du développement logiciel / Approach to build realistic models for estimating project effort/cost in an uncertain environment : application to the software development fieldLaqrichi, Safae 17 December 2015 (has links)
L'estimation de l'effort de développement logiciel est l'une des tâches les plus importantes dans le management de projets logiciels. Elle constitue la base pour la planification, le contrôle et la prise de décision. La réalisation d'estimations fiables en phase amont des projets est une activité complexe et difficile du fait, entre autres, d'un manque d'informations sur le projet et son avenir, de changements rapides dans les méthodes et technologies liées au domaine logiciel et d'un manque d'expérience avec des projets similaires. De nombreux modèles d'estimation existent, mais il est difficile d'identifier un modèle performant pour tous les types de projets et applicable à toutes les entreprises (différents niveaux d'expérience, technologies maitrisées et pratiques de management de projet). Globalement, l'ensemble de ces modèles formule l'hypothèse forte que (1) les données collectées sont complètes et suffisantes, (2) les lois reliant les paramètres caractérisant les projets sont parfaitement identifiables et (3) que les informations sur le nouveau projet sont certaines et déterministes. Or, dans la réalité du terrain cela est difficile à assurer. Deux problématiques émergent alors de ces constats : comment sélectionner un modèle d'estimation pour une entreprise spécifique ? et comment conduire une estimation pour un nouveau projet présentant des incertitudes ? Les travaux de cette thèse s'intéressent à répondre à ces questions en proposant une approche générale d'estimation. Cette approche couvre deux phases : une phase de construction du système d'estimation et une phase d'utilisation du système pour l'estimation de nouveaux projets. La phase de construction du système d'estimation est composée de trois processus : 1) évaluation et comparaison fiable de différents modèles d'estimation, et sélection du modèle d'estimation le plus adéquat, 2) construction d'un système d'estimation réaliste à partir du modèle d'estimation sélectionné et 3) utilisation du système d'estimation dans l'estimation d'effort de nouveaux projets caractérisés par des incertitudes. Cette approche intervient comme un outil d'aide à la décision pour les chefs de projets dans l'aide à l'estimation réaliste de l'effort, des coûts et des délais de leurs projets logiciels. L'implémentation de l'ensemble des processus et pratiques développés dans le cadre de ces travaux ont donné naissance à un prototype informatique open-source. Les résultats de cette thèse s'inscrivent dans le cadre du projet ProjEstimate FUI13. / Software effort estimation is one of the most important tasks in the management of software projects. It is the basis for planning, control and decision making. Achieving reliable estimates in projects upstream phases is a complex and difficult activity because, among others, of the lack of information about the project and its future, the rapid changes in the methods and technologies related to the software field and the lack of experience with similar projects. Many estimation models exist, but it is difficult to identify a successful model for all types of projects and that is applicable to all companies (different levels of experience, mastered technologies and project management practices). Overall, all of these models form the strong assumption that (1) the data collected are complete and sufficient, (2) laws linking the parameters characterizing the projects are fully identifiable and (3) information on the new project are certain and deterministic. However, in reality on the ground, that is difficult to be ensured.Two problems then emerge from these observations: how to select an estimation model for a specific company ? and how to conduct an estimate for a new project that presents uncertainties ?The work of this thesis interested in answering these questions by proposing a general estimation framework. This framework covers two phases: the construction phase of the estimation system and system usage phase for estimating new projects. The construction phase of the rating system consists of two processes: 1) evaluation and reliable comparison of different estimation models then selection the most suitable estimation model, 2) construction of a realistic estimation system from the selected estimation model and 3) use of the estimation system in estimating effort of new projects that are characterized by uncertainties. This approach acts as an aid to decision making for project managers in supporting the realistic estimate of effort, cost and time of their software projects. The implementation of all processes and practices developed as part of this work has given rise to an open-source computer prototype. The results of this thesis fall in the context of ProjEstimate FUI13 project.
|
9 |
Prévision de la profondeur de la nappe phréatique d'un champ de canneberges à l'aide de deux approches de modélisation des arbres de décisionBrédy, Jhemson 22 January 2020 (has links)
La gestion intégrée de l’eau souterraine constitue un défi majeur pour les activités industrielles, agricoles et domestiques. Dans certains systèmes agricoles, une gestion optimisée de la nappe phréatique représente un facteur important pour améliorer les rendements des cultures et l’utilisation de l'eau. La prévision de la profondeur de la nappe phréatique (PNP) devient l’une des stratégies utiles pour planifier et gérer en temps réel l’eau souterraine. Cette étude propose une approche de modélisation basée sur les arbres de décision pour prédire la PNP en fonction des précipitations, des précédentes PNP et de l'évapotranspiration pour la gestion de l’eau souterraine des champs de canneberges. Premièrement, deux modèles: « Random Forest (RF) » et « Extreme Gradient Boosting (XGB) » ont été paramétrisés et comparés afin de prédirela PNP jusqu'à 48 heures. Deuxièmement, l’importance des variables prédictives a été déterminée pour analyser leur influence sur la simulation de PNP. Les mesures de PNP de trois puits d'observation dans un champ de canneberges, pour la période de croissance du 8 juillet au 30 août 2017, ont été utilisées pour entraîner et valider les modèles. Des statistiques tels que l’erreur quadratique moyenne, le coefficient de détermination et le coefficient d’efficacité de Nash-Sutcliffe sont utilisés pour mesurer la performance des modèles. Les résultats montrent que l'algorithme XGB est plus performant que le modèle RF pour prédire la PNP et est sélectionné comme le modèle optimal. Parmi les variables prédictives, les valeurs précédentes de PNP étaient les plus importantes pour la simulation de PNP, suivie par la précipitation. L’erreur de prédiction du modèle optimal pour la plage de PNP était de ± 5 cm pour les simulations de 1, 12, 24, 36 et 48 heures. Le modèle XGB fournit des informations utiles sur la dynamique de PNP et une simulation rigoureuse pour la gestion de l’irrigation des canneberges. / Integrated ground water management is a major challenge for industrial, agricultural and domestic activities. In some agricultural production systems, optimized water table management represents a significant factor to improve crop yields and water use. Therefore, predicting water table depth (WTD) becomes an important means to enable real-time planning and management of groundwater resources. This study proposes a decision-tree-based modelling approach for WTD forecasting as a function of precipitation, previous WTD values and evapotranspiration with applications in groundwater resources management for cranberry farming. Firstly, two models-based decision trees, namely Random Forest (RF) and Extrem Gradient Boosting (XGB), were parameterized and compared to predict the WTD up to 48-hours ahead for a cranberry farm located in Québec, Canada. Secondly, the importance of the predictor variables was analyzed to determine their influence on WTD simulation results. WTD measurements at three observation wells within acranberry field, for the growing period from July 8, 2017 to August 30, 2017, were used for training and testing the models. Statistical parameters such as the mean squared error, coefficient of determination and Nash-Sutcliffe efficiency coefficient were used to measure models performance. The results show that the XGB algorithm outperformed the RF model for predictions of WTD and was selected as the optimal model. Among the predictor variables, the antecedent WTD was the most important for water table depth simulation, followed by the precipitation. Base on the most important variables and optimal model, the prediction error for entire WTD range was within ± 5 cm for 1-, 12-, 24-, 26-and 48-hour prediction. The XGB model can provide useful information on the WTD dynamics and a rigorous simulation for irrigation planning and management in cranberry fields.
|
10 |
Analyse du contenu expressif des gestes corporels / Analysis of gestures expressive contentTruong, Arthur 21 September 2016 (has links)
Aujourd’hui, les recherches portant sur le geste manquent de modèles génériques. Les spécialistes du geste doivent osciller entre une formalisation excessivement conceptuelle et une description purement visuelle du mouvement. Nous reprenons les concepts développés par le chorégraphe Rudolf Laban pour l’analyse de la danse classique contemporaine, et proposons leur extension afin d’élaborer un modèle générique du geste basé sur ses éléments expressifs. Nous présentons également deux corpus de gestes 3D que nous avons constitués. Le premier, ORCHESTRE-3D, se compose de gestes pré-segmentés de chefs d’orchestre enregistrés en répétition. Son annotation à l’aide d’émotions musicales est destinée à l’étude du contenu émotionnel de la direction musicale. Le deuxième corpus, HTI 2014-2015, propose des séquences d’actions variées de la vie quotidienne. Dans une première approche de reconnaissance dite « globale », nous définissons un descripteur qui se rapporte à l’entièreté du geste. Ce type de caractérisation nous permet de discriminer diverses actions, ainsi que de reconnaître les différentes émotions musicales que portent les gestes des chefs d’orchestre de notre base ORCHESTRE-3D. Dans une seconde approche dite « dynamique », nous définissons un descripteur de trame gestuelle (e.g. défini pour tout instant du geste). Les descripteurs de trame sont utilisés des poses-clés du mouvement, de sorte à en obtenir à tout instant une représentation simplifiée et utilisable pour reconnaître des actions à la volée. Nous testons notre approche sur plusieurs bases de geste, dont notre propre corpus HTI 2014-2015 / Nowadays, researches dealing with gesture analysis suffer from a lack of unified mathematical models. On the one hand, gesture formalizations by human sciences remain purely theoretical and are not inclined to any quantification. On the other hand, the commonly used motion descriptors are generally purely intuitive, and limited to the visual aspects of the gesture. In the present work, we retain Laban Movement Analysis (LMA – originally designed for the study of dance movements) as a framework for building our own gesture descriptors, based on expressivity. Two datasets are introduced: the first one is called ORCHESTRE-3D, and is composed of pre-segmented orchestra conductors’ gestures, which have been annotated with the help of lexicon of musical emotions. The second one, HTI 2014-2015, comprises sequences of multiple daily actions. In a first experiment, we define a global feature vector based upon the expressive indices of our model and dedicated to the characterization of the whole gesture. This descriptor is used for action recognition purpose and to discriminate the different emotions of our orchestra conductors’ dataset. In a second approach, the different elements of our expressive model are used as a frame descriptor (e.g., describing the gesture at a given time). The feature space provided by such local characteristics is used to extract key poses of the motion. With the help of such poses, we obtain a per-frame sub-representation of body motions which is available for real-time action recognition purpose
|
Page generated in 0.1046 seconds