Spelling suggestions: "subject:"bservations manquent"" "subject:"bservations manque""
1 |
L'impact des méthodes de traitement des valeurs manquantes sur les qualités psychométriques d'échelles de mesure de type LikertRousseau, Michel, January 1900 (has links) (PDF)
Thèse (Ph. D.)--Université Laval, 2006. / Titre de l'écran-titre (visionné le 28 mars 2007). Bibliogr.
|
2 |
Capture-Recapture. Problématique des listes incomplètesCaron, Bernard 16 April 2018 (has links)
Il arrive parfois lors de l'utilisation de la méthode multi-liste que les listes administratives ne couvrent pas exactement la même période. On appelle ce problème un problème de listes incomplètes. La façon la plus courante pour résoudre ce problème est de se servir exclusivement des parties des listes où il y a un chevauchement complet. Cette méthode entraîne beaucoup d'imprécision. Afin de tenir compte de toute l'information disponible, il est possible de modéliser conjointement les strates. Deux méthode de modélisation conjointe sont présentées. Premièrement, il est possible d'estimer les valeurs manquantes à l'aide le l'algorithme EM et ainsi travailler avec des listes complètes. Deuxièmement, un modèle log-linéaire avec effet de strate qui permet de tenir compte de toute l'information tout en demeurant beaucoup plus simple à utiliser. En mesurant l'efficacité de façon explicite, on voit que la modélisation conjointe est plus avantageuse que la modélisation strate par strate.
|
3 |
Comparaison de méthodes d'imputation de données manquantes dans un contexte de modèles d'apprentissage statistiqueBouchard, Simon 12 November 2023 (has links)
Titre de l'écran-titre (visionné le 6 juin 2023) / Le sujet de ce mémoire concerne l'utilisation de données incomplètes qui sont utilisées à des fins d'apprentissage statistique, dans un contexte où une méthode de traitement des données manquantes a été appliquée aux données. La problématique motivant ce travail est la prédiction de l'abandon scolaire chez les étudiants collégiaux. La caractéristique principale de la non-réponse au sein de ces données est que les étudiants ayant le statut d'immigrant ont une non-réponse quasi complète pour certaines variables. À partir d'une étude de simulation répliquant le comportement des données collégiales, différentes méthodes d'imputation sont utilisées sur des jeux de données ayant différentes configurations de non-réponse. Ces données imputées sont ensuite utilisées pour entraîner des modèles d'apprentissage statistique afin d'en évaluer les performances. À partir des résultats de cette étude de simulation, les combinaisons de méthodes d'imputation et de modèles d'apprentissage statistique ayant le mieux performé au niveau des prédictions sont appliquées aux données collégiales afin de déterminer quelles méthodes d'imputation permettent d'obtenir les meilleures performances prédictives. / This thesis deals with the use of incomplete data, to which a missing data treatment has been applied, in a statistical learning problem. The issue motivating this project is the prediction of school dropout among college students. The main characteristic of non-response in these data is that students with immigrant status have non-response for almost all the variables. Based on a simulation study replicating the behavior of college data, different imputation methods are applied on datasets with different nonresponse patterns. The imputed data are then used to train statistical learning models and to evaluate their performance. Based on the results of the simulation study, the best-performing combinations of imputation methods and statistical learning models are applied to college data.
|
4 |
Prévalence et facteurs associés aux données manquantes des registres de consultations médicales des médecins des centres de santé communautaires de BamakoLy, Birama Apho 18 April 2018 (has links)
Objectifs Cette étude avait pour but d’estimer la prévalence des données manquantes dans les registres de consultations médicales tenus par les médecins des Centres de santé communautaire (CSCOM) de Bamako et d’identifier, à partir de la théorie du comportement planifié, les facteurs qui prédisent l’intention des médecins de faire la collecte exhaustive des données dans leurs registres. Méthode Une étude transversale exploratoire a été conduite, incluant 3072 consultations médicales et 32 médecins aléatoirement choisis. Les données ont été collectées entre janvier et février 2011 à travers une fiche de dépouillement et un questionnaire portant sur les caractéristiques sociodémographiques et professionnelles des médecins et sur les construits de la théorie du comportement planifié. Des statistiques descriptives, des corrélations et des analyses de régression ont été effectuées. Résultats Toutes les variables contenues dans les registres de consultations médicales comportent des données manquantes. Toutefois, seules quatre variables (symptôme, diagnostic, traitement et observation) ont des prévalences élevées de données manquantes. La variable observation a la prévalence la plus élevée avec 95,6 % de données manquantes. Par ailleurs, l’intention des médecins de faire la collecte exhaustive des données est prédite par la norme subjective et le nombre d’années de service. Conclusion Les résultats de cette étude contribueront à faire avancer les connaissances sur les données manquantes en identifiant les stratégies possibles à mettre en œuvre pour améliorer la qualité de l’information sanitaire recueillie au niveau des CSCOM. Ils permettront, aussi, de mieux informer les décisions concernant l’allocation des ressources. / Objective This study aims to estimate the prevalence of missing data in the medical consultation registries held by physicians working in Bamako community health Centers (COMHC) and to identify the factors which predict physicians’ intention to collect completely the data in their registries, based on the Theory of Planned Behaviour (TPB). Method A exploratory cross-sectional study was conducted, including a random sample of 3072 medical consultations and 32 physicians. Data were collected between January and February 2011 through a standardized extraction form and a questionnaire measuring physicians’ sociodemographic and professional characteristics as well as constructs from the Theory of Planned Behaviour (TPB). Descriptive statistics, correlations and linear regression were performed. Results All the variables contained in the medical consultations registries have missing data. However, only four variables (symptom, diagnosis, treatment and observation) have a high prevalence of missing data. The variable observation has the highest prevalence with 95.6% of missing data. Physician’s intention to collect completely the data is predicted by their subjective norm and the number of years of practice. Conclusion The results of this study should contribute to advance knowledge on the prevalence of missing data and possible strategies to improve the quality of health information collected from the CSCOM. This information can possibly allow to better inform the decisions concerning resource allocation.
|
5 |
L'impact des méthodes de traitement des valeurs manquantes sur les qualités psychométriques d'échelles de mesure de type LikertRousseau, Michel 12 April 2018 (has links)
La présence de réponses manquantes pour certains items d’une échelle de mesure est un phénomène que tout chercheur est susceptible de rencontrer au cours de ses travaux. Bien que les biais que peut causer un traitement inadéquat de cette non-réponse soient connus depuis près de 30 ans (Rubin, 1976), les connaissances quant à l’efficacité des diverses méthodes de traitement des valeurs manquantes sont encore très restreintes. La présente étude vise à faire évoluer les connaissances et les pratiques concernant le traitement des valeurs manquantes dans le contexte d’utilisation d’échelles de type Likert. Le problème fondamental que posent les valeurs manquantes est qu’il est impossible de ne pas en tenir compte lors de l’application d’une méthode d’analyse statistique. La majorité de ces méthodes ayant été développées pour traiter des matrices de données complètes. Les modèles de mesure utilisés dans le traitement des données issues d’échelles de type Likert n’échappent pas à cette réalité. Deux modèles de mesure sont étudiés plus en profondeur dans ce projet soit, le modèle classique et le modèle gradué de Samejima. La recherche entreprise avait comme objectif d’évaluer l’efficacité de cinq méthodes de traitement des valeurs manquantes, dont la méthode d’imputation multiple. De plus, il était visé d’évaluer l’impact du nombre de sujets, du nombre d’items et de la proportion des valeurs manquantes sur l’efficacité des méthodes. Les résultats issus de cette recherche semblent suggérer que la méthode d’imputation multiple présente une efficacité supérieure aux autres méthodes bien que, tout dépendant du modèle de mesure considéré, d’autres méthodes plus simples semblent aussi efficaces. Il importe de noter en conclusion qu’aucune méthode de traitement ne peut éliminer complètement les biais causés par les valeurs manquantes et qu’à ce sujet, il serait préférable de prévenir plutôt que de guérir. / The presence of missing answers for some items of a scale of measurement is a phenomenon which any researcher is suitable to meet during his work. Although bias that an inadequate treatment of this non-response can cause are known since nearly 30 years (Rubin, 1976), knowledge of the effectiveness of the various missing values treatment is still very restricted. The present study aims at making knowledge and practices concerning the treatment of the missing values evolve in the context of Likert type scale. The fundamental problem that missing values pose is that it is impossible not to take it into account at the time of the application of a method of statistical analysis, the majority of these methods having been developed to treat matrices of complete data. The models of measurement used in the analysis of Likert type scale data do not escape from this reality. Two models of measurement are studied more in-depth in this project, the classical test model and the Samejima graded model. The main objective of the research undertaken is to evaluate the effectiveness of five missing values treatment, including the multiple imputation method. Moreover, it was aimed to evaluate the impact of the number of subjects, the number of items and the proportion of the missing values on the effectiveness of the methods. The results of this research seem to suggest that the effectiveness of multiple imputation is higher than the other methods, although depending on the model of measurement considered, other simpler methods seem also effective. In conclusion, it is important to note that because no method of treatment can eliminate completely the bias caused by the presence of missing values, it would be preferable to prevent rather than to cure.
|
6 |
Traitement des données manquantes dans les données de panel : cas des variables dépendantes dichotomiquesBarhoumi, Mohamed Adel 11 April 2018 (has links)
Dans ce document, nous examinons la performance de l'estimation par la méthode bayésienne et celle par la méthode de vraisemblance. En premier lieu, on s'intéresse au cas où la base de données est complète pour estimer un modèle dichotomique par l'approche du maximum de vraisemblance et qui sera comparée à l'estimation du modèle par l'approche bayésienne ; dans ce dernier cas, on utilise la méthode d'échantillonnage de Gibbs. En deuxième lieu, on étudie l'impact du mécanisme de données manquantes ainsi que l'étude des cas complets sur l'estimation des paramètres du modèle. En outre, on utilise les modèles MCAR, MAR et NMAR. Nous illustrons ces méthodes d'estimation à l'aide des données simulées, ainsi qu'avec des données réelles portant sur la décision d'emploi ou de travail chez les jeunes.
|
7 |
Modèles markoviens graphiques pour la fusion de données individuelles et d'interactions : application à la classification de gènesVignes, Matthieu 30 October 2007 (has links) (PDF)
Les recherches que nous présentons dans ce mémoire s'inscrivent dans le cadre de l'intégration statistique de données post-génomiques hétérogènes. La classification non supervisée de gènes vise à regrouper en ensembles significatifs les gènes d'un organisme, vu comme un système complexe, conformément aux données expérimentales afin de dégager des actions concertées de ces gènes dans les mécanismes biologiques mis en jeu. <br /><br />Nous basons notre approche sur des modèles probabilistes graphiques. Plus spécifiquement, nous utilisons l'outil de champs de Markov cachés qui permet la prise en compte simultanée de données propres à chacun des gènes grâce a des distributions de probabilités et de données traduisant un réseau d'interaction au sein de l'organisme à l'aide d'un graphe non-orienté entre les gènes. <br /><br />Apres avoir présenté la problématique et le contexte biologique, nous décrivons le modèle utilisé ainsi que les stratégies algorithmiques d'estimation des paramètres (i.e. approximations de type champ moyen). Puis nous nous intéresserons à deux particularités des données auxquelles nous avons été confrontés et qui amènent des développements du modèle utilisé, notamment la prise en compte de l'absence de certaines observations et la haute dimensionnalité de celles-ci. Enfin nous présenterons des expériences sur données simulées ainsi que sur données réelles sur la levure qui évaluent le gain apporté par notre travail. Notamment, nous avons voulu mettre l'accent sur des interprétations biologiques plausibles des résultats obtenus.
|
8 |
Méthodes d'accélération de convergence en analyse numérique et en statistiqueRoland, Christophe Brezinski, Claude January 2007 (has links)
Reproduction de : Thèse de doctorat : Mathématiques appliquées : Lille 1 : 2005. / N° d'ordre (Lille 1) : 3627. 1 article en anglais intégré dans le texte. Titre provenant de la page de titre du document numérisé. Bibliogr. p. [125]-132.
|
9 |
Modèles markoviens et extensions pour la classification de données complexesBlanchet, Juliette 10 October 2007 (has links) (PDF)
Nous abordons le problème de la classification d'individus à partir d'observations dites " complexes " en ce sens qu'elles ne vérifient pas certaines des hypothèses simplificatrices classiquement adoptées. Dans ce travail, les individus à classer sont supposés dépendants les uns des autres. L'approche adoptée est une approche probabiliste fondée sur une modélisation markovienne. Trois problèmes de classification sont abordés.<br />Le premier concerne la classification de données lorsque celles-ci sont de grande dimension. Pour un tel problème, nous adoptons un modèle markovien gaussien non diagonal tirant partie du fait que la plupart des observations de grande dimension vivent en réalité dans des sous-espaces propres à chacune des classes et dont les dimensions intrinsèques sont faibles. De ce fait, le nombre de paramètres libres du modèle reste raisonnable.<br />Le deuxième point abordé s'attache à relâcher l'hypothèse simplificatrice de bruit indépendant unimodal, et en particulier gaussien. Nous considérons pour cela le modèle récent de champ de Markov triplet et proposons une nouvelle famille de Markov triplet adaptée au cadre d'une classification supervisée. Nous illustrons la flexibilité et les performances de nos modèles sur une application à la reconnaissance d'images réelles de textures.<br />Enfin, nous nous intéressons au problème de la classification d'observations dites incomplètes, c'est-à-dire pour lesquelles certaines valeurs sont manquantes. Nous développons pour cela une méthode markovienne ne nécessitant pas le remplacement préalable des observations manquantes. Nous présentons une application de cette méthodologie à un problème réel de classification de gènes.
|
10 |
Conditionnement de processus markoviensMarchand, Jean-Louis 25 June 2012 (has links) (PDF)
Le but de cette thèse est de décrire la loi conditionnelle d'un processus markovien multidimensionnel connaissant la valeur de certaines combinaisons linéaires de ses coordonnées à des instants donnés. La description recherchée consiste à mettre en évidence un processus de même type, facile à simuler, dont la loi est équivalente à la loi conditionnelle ciblée.La classe principalement étudiée est celle des processus à diffusion. Dans un premier temps, des techniques de grossissement de filtration (Jacod 1985) permettent de déterminer les paramètres de l'équation différentielle stochastique vérifiée par le processus conditionnel. Cependant, on s'aperçoit alors que la dérive n'est pas explicite, car celle-ci dépend des densités de transition du processus initial, inconnues en général. Ceci rend impossible,une simulation directe par exemple à l'aide d'un schéma d'Euler. Afin de pallier ce défaut, nous proposons une alternative, dans l'esprit de Delyon et Hu (2006). L'approche consiste à proposer une équation différentielle stochastique de paramètres explicites, dont la solution est de loi équivalente à la loi conditionnelle. Une application en collaboration avec Anne Cuzol et Etienne Mémin de l'INRIA, dans le cadre des écoulements fluides est également présentée. On applique la méthode proposée précédemment à un modèle stochastique inspiré des équations de Navier-Stokes. Enfin, la classe des processus markoviens à sauts est également abordée.
|
Page generated in 0.1325 seconds