Il arrive fréquemment d'avoir des valeurs manquantes dans notre échantillon. Ces valeurs peuvent être manquantes pour diverses raisons.
Si on prélève nous-même nos données, un répondant peut refuser de répondre à certaines questions. Si on acquiert nos données d'une source externe, les valeurs de certaines variables peuvent être manquantes directement dans le fichier obtenu.
Le but de ce chapitre est de faire un bref survol de ce sujet.
Le livre suivant est récent, non technique et est une bonne introduction sur le sujet des données manquantes:
Allison, P. D. (2001). Missing Data. Sage University Papers.
Ce chapitre est basé en partie sur ce livre.
[...] Voici la définition de 2 processus de génération de données manquantes. Missing completely at random (MCAR) : Y est dite MCAR si la probabilité que la valeur de Y est manquante ne dépend ni de la valeur de Y (qui n'est pas observée), ni des valeurs des autres variables. Le fait qu'une variable est manquante peut être relié au fait qu'une autre soit manquante. Des gens peuvent refuser systématiquement de répondre à 2 questions dans un sondage. Dans ce cas, si la probabilité qu'une personne ne réponde pas ne dépend pas des valeurs de ces variables (et de toutes les autres), nous sommes encore dans le cas MCAR. [...]
[...] Le traitement des données manquantes sur SAS Il arrive fréquemment d'avoir des valeurs manquantes dans notre échantillon. Ces valeurs peuvent être manquantes pour diverses raisons. Si on prélève nous-mêmes nos données, un répondant peut refuser de répondre à certaines questions. Si on acquiert nos données d'une source externe, les valeurs de certaines variables peuvent être manquantes directement dans le fichier obtenu. Le but de ce chapitre est de faire un bref survol de ce sujet. Le livre suivant est récent, non technique et est une bonne introduction sur le sujet des données manquantes: Allison, P. [...]
[...] Quelques méthodes pour traiter du problème des valeurs manquantes Listwise deletion Cette méthode consiste simplement à garder seulement les observations qui n'ont aucune valeur manquante pour les variables. Dès qu'une variable est manquante, on enlève le sujet au complet. C'est la méthode utilisée par défaut dans la plupart des logiciels. On l'appelle aussi complete case analysis Si le processus est MCAR, cette méthode est correcte car l'échantillon utilisé est vraiment un sous-échantillon aléatoire de l'échantillon original. Si le processus est seulement MAR, cette méthode peut donner des estimations biaisées des paramètres. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture