Vérification des données
Qu’est-ce que la vérification des données ?
Le but de la vérification des données est de s’assurer que les données collectées sont aussi précises que possible et de minimiser les erreurs humaines et instrumentales, y compris celles qui surviennent pendant le traitement des données. La vérification des données est un processus continu qui devrait commencer au stade de la collecte des données et se poursuivre pendant la saisie et l’analyse des données.
Soyez conscient! Certaines autorités utilisent les termes “validation des données” et “vérification des données” beaucoup plus étroitement. La validation des données est considérée comme une vérification automatique par ordinateur que les données sont sensées et raisonnables, et la “vérification des données” désigne une vérification pour s’assurer que les données saisies correspondent exactement à la source d’origine. Sous ces définitions, aucun terme ne désigne
- si les données mesurent réellement ce qu’elles sont censées (la définition habituelle de validité)
- si les données sont exemptes d’erreurs (vérification par notre définition).
L’absence de termes convenus peut expliquer pourquoi il y a si peu d’intérêt pour ces deux aspects vitaux de l’analyse des données!
Au stade de la collecte des données
Au stade de la collecte des données, il est probablement préférable de faire le moins d’hypothèses possible sur la précision de votre équipement, ou d’ailleurs sur les êtres humains qui prennent les lectures. Les problèmes courants comprennent une mauvaise étiquette des échantillons, un stockage et un transport médiocres des échantillons et des comptages erronés en raison d’une erreur d’étalonnage et d’une erreur de l’instrument.
Le biais de l’observateur est également courant – un exemple est un effet de report où (par exemple) un ensemble d’échantillons contenant un nombre élevé d’œufs dans les frottis fécaux a tendance à être suivi d’un nombre excessivement élevé même lorsque le nombre est faible. Un autre exemple est un biais vers les nombres pairs, surtout si l’on estime une lecture à mi-chemin entre les positions marquées sur l’échelle. Ceci est parfois appelé biais de préférence numérique. Cependant, le biais de l’observateur peut prendre de nombreuses formes – souvent assez inattendues! Ce n’est que par une vérification appropriée que vous pouvez être certain que les données sont aussi précises que possible. La familiarité avec le type de données que vous collectez et les erreurs courantes sont toutes deux essentielles.
La collecte de données à l’aide d’un questionnaire est particulièrement susceptible d’inexactitudes. De nombreuses erreurs et biais sont introduits lorsqu’un questionnaire est traduit dans une autre langue – la seule façon d’éviter cela est d’amener quelqu’un (indépendant) à retraduire le questionnaire (traduit) et à comparer les deux questionnaires. L’autre gros problème si le questionnaire est donné verbalement est le biais de l’intervieweur. Quelqu’un qui a fait des centaines (ou des milliers) de questionnaires s’attendra à des réponses particulières à certaines questions, et cessera souvent d’écouter (ou même de ne pas poser la question) et se contentera d’insérer la réponse attendue (ou souhaitée). Cela ne peut être détecté que si un échantillon de personnes interrogées est réinterrogé peu de temps après par des intervieweurs indépendants. Nous examinons plus en profondeur la conception et la mise en œuvre du questionnaire dans l’unité 7.
À l’étape de saisie des données
À l’étape de saisie des données, un certain nombre de paquets de vérification des données sont disponibles. Ceux-ci vérifient généralement que les données sont dans un format spécifié (vérification du format), qu’elles se situent dans une plage de valeurs spécifiée par l’utilisateur (vérification de la plage) et (parfois) qu’elles sont cohérentes – par exemple, qu’il n’y a pas de rendement laitier pour les bovins mâles! Ils ne peuvent pas vous dire si certaines données ont été manquées, ni détecter les erreurs dans la plage acceptée. Ceux-ci ne peuvent être éliminés que par un contrôle visuel (c’est-à-dire une relecture) ou (mieux) en utilisant une double saisie de données. Avec cette méthode, deux opérateurs de saisie de données saisissent les données indépendamment, et les deux fichiers de données sont comparés à l’aide d’un programme informatique. Même cette méthode peut ne pas détecter les erreurs résultant d’une mauvaise lecture de nombres écrits négligemment (par exemple 6 et 0).
Au stade de l’analyse des données
-
Détection et rejet des valeurs aberrantes
La dernière occasion d’éviter les erreurs dans vos données est au stade de l’analyse – généralement en éliminant les ” valeurs aberrantes “. Les valeurs aberrantes sont des points qui ne suivent pas le tableau général, que ce soit en termes de distribution de fréquence de vos données ou de relation avec une autre variable. Les techniques de rejet des valeurs aberrantes supposent que les valeurs improbables sont erronées et les omettent de l’analyse. Cela peut être le cas, mais si c’est le cas, cela reflète un échec de votre processus de validation des données pour détecter l’erreur plus tôt!
Le problème crucial du rejet des valeurs aberrantes est que tous les ensembles de données incluent quelques résultats “impairs”. C’est tout à fait normal. La partie la plus difficile est de repérer qui sont de véritables erreurs et qui ne sont que des points de données étranges. Ceci est particulièrement risqué, car il repose sur vos attentes de ce qui est “raisonnable”. Il est préférable d’identifier les valeurs aberrantes au fur et à mesure qu’elles surviennent. Ensuite, vous avez une chance de découvrir pourquoi ce point particulier est une valeur aberrante. La plus grande source de biais dans toute étude est les attentes du chercheur. Donc, si une observation n’est pas une erreur claire, il est très imprudent de la supprimer! Comme nous le verrons, certaines observations “anormales” sont normales, et vous en apprendrez peut-être plus en comprenant pourquoi certains points sont des valeurs aberrantes, qu’en ne regardant que les points de données “normaux”! Un autre problème avec le rejet automatique des valeurs aberrantes est qu’il est très difficile de le prendre en compte dans toute analyse statistique ultérieure – en supprimant les observations les plus extrêmes, vous réduisez artificiellement la variation de votre échantillon.
-
Moyennes réduites et estimateurs robustes
Si vous devez supprimer quelques observations extrêmes, vous devez réduire le risque de biais autant que possible. Pour ce faire, une classe de statistiques a été développée – connue sous le nom d’estimateurs robustes. L’idée d’une statistique robuste est que, lorsque tout va bien, elle se comportera presque aussi bien que des statistiques plus ordinaires – mais lorsque ses hypothèses seront compromises, elle continuera à se comporter de manière plus ou moins raisonnable.
Pour être valides, la plupart des estimateurs robustes supposent que vous avez affaire à un ensemble d’observations raisonnablement réparties, contaminées par une petite proportion de résultats beaucoup plus variables. Parmi les différentes statistiques qui ont été élaborées, les plus simples à expliquer sont les moyennes “rognées”.
Bien qu’un certain nombre de moyens rognés aient été conçus, les plus populaires d’entre eux permettent de supprimer le même nombre d’observations inhabituellement grandes et inhabituellement petites. En d’autres termes, la moyenne est obtenue à partir d’un échantillon taillé symétriquement. Le degré de rognage est généralement exprimé en fonction de la proportion (ou du pourcentage) des observations les plus extrêmes qui ont été supprimées de chaque côté de la médiane. Une moyenne arithmétique ordinaire est donc une moyenne rognée nulle (0%). À l’autre extrême, la médiane est la moyenne rognée de 0,5 (50 %).
Bien que les propriétés des estimateurs robustes soient assez bien comprises, elles restent relativement rares – en partie parce que les formules appropriées ne sont pas facilement disponibles, bien qu’elles soient de plus en plus évaluées par simulation.
Comme nous l’avons noté ci-dessus, une médiane est la moyenne rognée la plus extrême. Généralement, si vous avez des données où vous vous méfiez des valeurs extrêmes, il est plus facile et plus transparent d’utiliser les médianes. Bien que les tests pour les médianes soient moins puissants que ceux pour les moyennes, un bon nombre sont disponibles – et, pour des échantillons raisonnablement grands, les formules pour eux sont relativement simples. Nous considérons comment comparer les médianes dans l’unité 10.
Sujets connexes : |
Leave a Reply