weryfikacja danych

co to jest weryfikacja danych?

celem weryfikacji danych jest zapewnienie, że gromadzone dane są jak najbardziej dokładne oraz zminimalizowanie błędów ludzkich i narzędziowych – w tym tych, które powstają podczas przetwarzania danych. weryfikacja danych to ciągły proces, który powinien rozpocząć się na etapie zbierania danych i kontynuować podczas wprowadzania danych i analizy.

uważaj! Niektóre władze używają terminu “walidacja danych” i “weryfikacja danych” znacznie wężiej. Walidacja danych odnosi się do automatycznego sprawdzania komputera, czy dane są rozsądne i rozsądne, a “weryfikacja danych” odnosi się do sprawdzenia, aby upewnić się, że wprowadzone dane dokładnie pasują do oryginalnego źródła. Pod tymi definicjami żaden termin nie odnosi się do

  1. czy dane rzeczywiście mierzą to, co mają (zwykła definicja ważności)
  2. czy dane są wolne od błędów (weryfikacja według naszej definicji).

brak uzgodnionych warunków może wyjaśnić, dlaczego tak mało jest zainteresowania tymi dwoma niezwykle ważnymi aspektami analizy danych!

na etapie zbierania danych

na etapie zbierania danych prawdopodobnie najlepiej jest przyjąć jak najmniej założeń dotyczących dokładności sprzętu lub w tym przypadku ludzi biorących odczyty. Typowe problemy obejmują błędne etykietowanie próbek, złe przechowywanie i transport próbek oraz błędne liczby z powodu błędnej kalibracji i błędu instrumentu.

tendencja obserwatora jest również powszechna – jednym z przykładów jest efekt przeniesienia, w którym (na przykład) zestaw próbek zawierających dużą liczbę jaj w rozmazach kału zwykle następuje nadmiernie wysoka liczba, nawet gdy liczby są niskie. Innym przykładem jest odchylenie w kierunku liczb parzystych, zwłaszcza jeśli szacujemy odczyt w połowie drogi między zaznaczonymi pozycjami na skali. Jest to czasami określane jako odchylenie preferencji cyfr. Jednak stronniczość obserwatora może przybierać różne formy-często dość nieoczekiwane! Tylko poprzez odpowiednie sprawdzenie można mieć pewność, że dane są tak dokładne, jak to możliwe. Znajomość typu gromadzonych danych i typowych błędów są niezbędne.

zbieranie danych za pomocą kwestionariusza jest szczególnie narażone na nieścisłości. Wiele błędów i uprzedzeń pojawia się, gdy kwestionariusz jest tłumaczony na inny język – jedynym sposobem, aby tego uniknąć, jest zachęcenie kogoś (niezależnego) do przetłumaczenia (przetłumaczonego) kwestionariusza i porównania dwóch kwestionariuszy. Innym dużym problemem, jeśli kwestionariusz jest podawany ustnie, jest stronniczość ankietera. Ktoś, kto wykonał setki (lub tysiące) ankiet, będzie oczekiwać konkretnych odpowiedzi na określone pytania i często przestanie słuchać (lub nawet nie zadaje pytania) i po prostu wstaw oczekiwaną (lub pożądaną) odpowiedź. Można to wykryć tylko wtedy, gdy próbka ankietowanych zostanie ponownie przesłuchana wkrótce potem przez niezależnych ankieterów. Projekt i wdrożenie kwestionariusza rozważamy bardziej szczegółowo w dziale 7.

na etapie wprowadzania danych

na etapie wprowadzania danych dostępnych jest wiele pakietów sprawdzających dane. Często sprawdzają one, czy dane są w określonym formacie (Kontrola formatu), czy mieszczą się w określonym przez użytkownika zakresie wartości (Kontrola zakresu) i (czasami) czy są spójne-na przykład, że nie ma wydajności mlecznej dla samców bydła! Nie mogą stwierdzić, czy niektóre dane zostały pominięte, ani nie mogą wykryć błędów w akceptowanym zakresie. Można je wyeliminować tylko za pomocą kontroli wzrokowej (czyli proof-reading) lub (lepiej) za pomocą podwójnego wprowadzania danych. Dzięki tej metodzie dwa operatory wprowadzania danych wprowadzają dane niezależnie, a dwa pliki danych są porównywane za pomocą programu komputerowego. Nawet ta metoda może nie wykryć błędów wynikających z błędnego odczytania niedbale zapisanych liczb (na przykład 6 i 0).

na etapie analizy danych

  • wykrywanie i odrzucanie wartości odstających

    ostatnią szansą na uniknięcie błędów w danych jest etap analizy – zwykle poprzez wyeliminowanie “wartości odstających”. Wartości odstające to punkty, które nie są zgodne z ogólnym obrazem, niezależnie od tego, czy chodzi o rozkład częstotliwości danych, czy ich związek z inną zmienną. Techniki odrzucania odstających zakładają, że nieprawdopodobne wartości są w błędzie i pomijają je w analizie. Może tak być, ale jeśli tak, odzwierciedla to niepowodzenie procesu walidacji danych, aby wykryć błąd wcześniej!

    kluczowym problemem z odrzucaniem wartości odstających jest to, że wszystkie zbiory danych zawierają kilka “dziwnych” wyników. To zupełnie normalne. Najtrudniejsze jest wykrywanie, które są prawdziwymi błędami, a które są po prostu dziwnymi punktami danych. Jest to szczególnie ryzykowne, ponieważ zależy od twoich oczekiwań co do tego, co jest “rozsądne”. Znacznie lepiej jest identyfikować wartości odstające w miarę ich powstawania. Wtedy masz szansę dowiedzieć się, dlaczego ten konkretny punkt jest odstający. Największym źródłem uprzedzenia w każdym badaniu są oczekiwania badacza. Tak więc, jeśli obserwacja nie jest wyraźnym błędem, nierozsądne jest jej usunięcie! Jak zobaczymy, niektóre “nieprawidłowe” obserwacje są normalne i możesz dowiedzieć się więcej, rozumiejąc, dlaczego niektóre punkty są odstające, niż tylko patrząc na “normalne” punkty danych! Kolejnym problemem z automatycznym odrzuceniem odstających jest to, że bardzo trudno jest na to pozwolić w każdej późniejszej analizie statystycznej – usuwając najbardziej ekstremalne obserwacje, sztucznie zmniejszasz zmienność próbki.

  • przycinane środki i solidne estymatory

    jeśli musisz usunąć kilka ekstremalnych obserwacji, musisz zmniejszyć ryzyko błędu w jak największym stopniu. Aby to umożliwić, opracowano klasę statystyk-znaną jako solidne estymatory. Idea solidnej statystyki polega na tym, że gdy wszystko będzie dobrze, będzie zachowywać się prawie tak dobrze, jak zwykłe statystyki – ale gdy jej założenia zostaną naruszone, będzie nadal zachowywać się mniej lub bardziej rozsądnie.

    aby być poprawnym, najbardziej solidne estymatory zakładają, że masz do czynienia z rozsądnie rozłożonym zestawem obserwacji, zanieczyszczonym niewielką częścią znacznie bardziej zmiennych wyników. Spośród różnych statystyk, które zostały opracowane, najprostsze do wyjaśnienia są “przycięte” środki.

    mimo, że opracowano wiele środków, najpopularniejsze z nich zapewniają usunięcie tej samej liczby niezwykle dużych i niezwykle małych obserwacji. Innymi słowy, średnia jest uzyskiwana z symetrycznie przyciętej próbki. Stopień przycinania jest zwykle wyrażany w kategoriach proporcji (lub procentu) najbardziej ekstremalnych obserwacji, które zostały usunięte po obu stronach mediany. Średnia arytmetyczna jest więc średnią zerową (0%). Na drugim krańcu mediana wynosi 0,5 (50%) średnią obciętą.

    chociaż właściwości solidnych estymatorów są dość dobrze poznane, nadal są stosunkowo rzadkie-częściowo dlatego, że odpowiednie wzory nie są łatwo dostępne, chociaż są one coraz częściej oceniane za pomocą symulacji.

    jak zauważyliśmy powyżej, mediana jest najbardziej ekstremalną średnią obciętą. Ogólnie rzecz biorąc, jeśli masz dane, w których nie ufasz ekstremalnym wartościom, łatwiej i bardziej przejrzyste jest korzystanie z medianów. Chociaż testy dla medianów są mniej wydajne niż te dla środków, dostępna jest duża liczba-a dla stosunkowo dużych próbek wzory dla nich są stosunkowo proste. Rozważamy, jak porównać mediany w jednostce 10.

Tematy pokrewne :

Leave a Reply