Datenüberprüfung

Was ist Datenüberprüfung?

Der Zweck der Datenüberprüfung besteht darin, sicherzustellen, dass die gesammelten Daten so genau wie möglich sind, und menschliche und instrumentelle Fehler – einschließlich solcher, die während der Datenverarbeitung auftreten – zu minimieren. Die Datenüberprüfung ist ein fortlaufender Prozess, der bei der Datenerfassung beginnen und während der Dateneingabe und -analyse fortgesetzt werden sollte.

Seien Sie sich bewusst! Einige Behörden verwenden die Begriffe “Datenvalidierung” und “Datenüberprüfung” viel enger. Datenvalidierung bezieht sich auf eine automatische Computerprüfung, ob die Daten sinnvoll und vernünftig sind, und “Datenüberprüfung” auf eine Überprüfung, um sicherzustellen, dass die eingegebenen Daten genau mit der ursprünglichen Quelle übereinstimmen. Unter diesen Definitionen bezieht sich kein Begriff auf

  1. ob die Daten tatsächlich das messen, was sie sollen (die übliche Definition der Gültigkeit)
  2. ob die Daten fehlerfrei sind (Überprüfung durch unsere Definition).

Der Mangel an vereinbarten Bedingungen kann erklären, warum es so wenig Interesse an diesen beiden lebenswichtigen Aspekten der Datenanalyse gibt!

Bei der Datenerfassung

Bei der Datenerfassung ist es wahrscheinlich am besten, so wenig Annahmen wie möglich über die Genauigkeit Ihrer Geräte oder der Menschen zu treffen, die die Messwerte erfassen. Häufige Probleme sind Fehlbeschriftungen von Proben, schlechte Lagerung und Transport von Proben sowie fehlerhafte Zählungen aufgrund von Fehlkalibrierungen und Instrumentenfehlern.

Beobachterverzerrungen sind ebenfalls üblich – ein Beispiel ist ein Carry-Over-Effekt, bei dem (zum Beispiel) eine Reihe von Proben, die eine hohe Anzahl von Eiern in Stuhlabstrichen enthalten, dazu neigen, von übermäßig hohen Zählungen gefolgt zu werden, selbst wenn die Zahlen niedrig sind. Ein anderes Beispiel ist eine Tendenz zu geraden Zahlen, insbesondere wenn man einen Messwert auf halbem Weg zwischen markierten Positionen auf der Skala schätzt. Dies wird manchmal als Digit Preference Bias bezeichnet. Beobachterverzerrungen können jedoch viele Formen annehmen – oft ziemlich unerwartet! Nur durch entsprechende Überprüfung können Sie sicher sein, dass die Daten so genau wie möglich sind. Vertrautheit mit der Art der Daten, die Sie sammeln, und die häufigsten Fehler, sind beide wichtig.

Die Datenerhebung mittels Fragebogen ist besonders anfällig für Ungenauigkeiten. Viele Fehler und Verzerrungen entstehen, wenn ein Fragebogen in eine andere Sprache übersetzt wird – die einzige Möglichkeit, dies zu vermeiden, besteht darin, jemanden (unabhängig) dazu zu bringen, den (übersetzten) Fragebogen zurückzuübersetzen und die beiden Fragebögen zu vergleichen. Das andere große Problem, wenn der Fragebogen mündlich gegeben wird, ist Interviewer Bias. Jemand, der Hunderte (oder Tausende) von Fragebögen durchgeführt hat, erwartet bestimmte Antworten auf bestimmte Fragen und hört oft auf zuzuhören (oder stellt die Frage sogar nicht) und fügt einfach die erwartete (oder gewünschte) Antwort ein. Dies kann nur festgestellt werden, wenn eine Stichprobe von Befragten kurz darauf von unabhängigen Interviewern erneut befragt wird. Wir betrachten Fragebogen Design und Umsetzung in mehr Tiefe in Einheit 7.

In der Dateneingabephase

In der Dateneingabephase sind eine Reihe von Datenprüfpaketen verfügbar. Diese überprüfen üblicherweise, ob die Daten in einem bestimmten Format vorliegen (Formatprüfung), ob sie innerhalb eines benutzerdefinierten Wertebereichs liegen (Bereichsprüfung) und (manchmal) ob sie konsistent sind – zum Beispiel, dass es keine Milchleistung für männliche Rinder gibt! Sie können Ihnen weder sagen, ob einige Daten verpasst wurden, noch können sie Fehler innerhalb des akzeptierten Bereichs erkennen. Diese können nur durch eine visuelle Kontrolle (d. h. Korrekturlesen) oder (besser) durch doppelte Dateneingabe beseitigt werden. Bei diesem Verfahren geben zwei Dateneingabeoperatoren die Daten unabhängig voneinander ein, und die beiden Datendateien werden mit einem Computerprogramm verglichen. Selbst diese Methode erkennt möglicherweise keine Fehler, die durch falsches Lesen nachlässig geschriebener Zahlen (z. B. 6 und 0) entstehen.

In der Phase der Datenanalyse

  • Ausreißererkennung und -ablehnung

    Die letzte Möglichkeit, Fehler in Ihren Daten zu vermeiden, besteht in der Analysephase – normalerweise durch Beseitigung von Ausreißern. Ausreißer sind Punkte, die nicht dem allgemeinen Bild folgen, sei es in Bezug auf die Häufigkeitsverteilung Ihrer Daten oder deren Beziehung zu einer anderen Variablen. Ausreißer-Ablehnungstechniken gehen davon aus, dass unwahrscheinliche Werte fehlerhaft sind, und lassen sie aus der Analyse aus. Dies kann der Fall sein, aber wenn ja, spiegelt dies einen Fehler Ihres Datenvalidierungsprozesses wider, um den Fehler früher zu erkennen!

    Das entscheidende Problem bei der Ablehnung von Ausreißern besteht darin, dass alle Datensätze einige ‘ungerade’ Ergebnisse enthalten. Das ist völlig normal. Der schwierige Teil besteht darin, zu erkennen, welche echte Fehler sind und welche nur ungerade Datenpunkte sind. Dies ist besonders riskant, da es auf Ihren Erwartungen beruht, was ‘vernünftig’ ist. Es ist viel besser, Ausreißer zu identifizieren, sobald sie auftreten. Dann haben Sie eine Chance herauszufinden, warum dieser bestimmte Punkt ein Ausreißer ist. Die größte Quelle für Verzerrungen in jeder Studie sind die Erwartungen des Forschers. Wenn also eine Beobachtung kein klarer Fehler ist, ist es am unklugsten, sie zu entfernen! Wie wir sehen werden, sind einige ‘abnormale’ Beobachtungen normal, und Sie können mehr erfahren, wenn Sie verstehen, warum einige Punkte Ausreißer sind, als wenn Sie nur die ‘normalen’ Datenpunkte betrachten! Ein weiteres Problem bei der automatischen Ablehnung von Ausreißern besteht darin, dass es sehr schwierig ist, dies in einer nachfolgenden statistischen Analyse zuzulassen – indem Sie die extremsten Beobachtungen entfernen, reduzieren Sie künstlich Ihre Stichprobenvariation.

  • Getrimmte Mittelwerte und robuste Schätzer

    Wenn Sie einige extreme Beobachtungen entfernen müssen, müssen Sie das Risiko von Verzerrungen so weit wie möglich reduzieren. Um dies zu ermöglichen, wurde eine Klasse von Statistiken entwickelt – bekannt als robuste Schätzer. Die Idee einer robusten Statistik ist, dass sie sich, wenn alles in Ordnung ist, fast so gut verhält wie gewöhnliche Statistiken – aber wenn ihre Annahmen kompromittiert werden, wird sie sich weiterhin mehr oder weniger vernünftig verhalten.

    Um gültig zu sein, gehen die meisten robusten Schätzer davon aus, dass Sie es mit einer vernünftig verteilten Menge von Beobachtungen zu tun haben, die durch einen kleinen Anteil viel variablerer Ergebnisse kontaminiert sind. Von den verschiedenen Statistiken, die entwickelt wurden, sind die ‘getrimmten’ Mittel am einfachsten zu erklären.

    Obwohl eine Reihe anderer Mittel entwickelt wurden, stellen die beliebtesten sicher, dass die gleiche Anzahl ungewöhnlich großer und ungewöhnlich kleiner Beobachtungen entfernt wird. Mit anderen Worten, der Mittelwert wird aus einer symmetrisch getrimmten Probe erhalten. Der Grad der Trimmung wird normalerweise in Bezug darauf ausgedrückt, welcher Anteil (oder Prozentsatz) der extremsten Beobachtungen auf beiden Seiten des Medians entfernt wurde. Ein gewöhnliches arithmetisches Mittel ist somit ein getrimmtes Mittel von Null (0%). Am anderen Extrem ist der Median der 0,5 (50%) getrimmte Mittelwert.

    Obwohl die Eigenschaften robuster Schätzer ziemlich gut verstanden sind, sind sie immer noch relativ selten – zum Teil, weil geeignete Formeln nicht ohne weiteres verfügbar sind, obwohl sie zunehmend durch Simulation bewertet werden.

    Wie oben erwähnt, ist ein Median der extremste getrimmte Mittelwert. Wenn Sie Daten haben, bei denen Sie Extremwerten misstrauen, ist es im Allgemeinen einfacher und transparenter, Mediane zu verwenden. Obwohl die Tests für Mediane weniger leistungsfähig sind als die für Mittelwerte, Eine gute Anzahl ist verfügbar – und, für einigermaßen große Proben, Die Formeln für sie sind relativ einfach. Wir überlegen, wie man Mediane in Einheit 10 vergleicht.

Verwandte Themen :

Leave a Reply