ověření dat

co je ověření dat?

účelem ověření údajů je zajistit, aby shromážděné údaje byly co nejpřesnější, a minimalizovat lidské a přístrojové chyby – včetně těch, které vznikají během zpracování dat. ověření dat je probíhající proces, který by měl začít ve fázi sběru dat a pokračovat během zadávání a analýzy dat.

buďte si vědomi! Některé úřady používají termín “ověření dat “a” ověření dat ” mnohem užší. Ověření dat se považuje za odkaz na automatickou kontrolu počítače, zda jsou data rozumná a přiměřená, a “ověření dat” za odkaz na kontrolu, aby se zajistilo, že zadaná data přesně odpovídají původnímu zdroji. Podle těchto definic se ani jeden termín nevztahuje na

  1. zda data skutečně měří to, co mají (obvyklá definice platnosti)
  2. zda jsou data bez chyb (ověření naší definicí).

nedostatek dohodnutých podmínek může vysvětlit, proč je o tyto dva životně důležité aspekty analýzy dat tak malý zájem!

ve fázi sběru dat

ve fázi sběru dat je pravděpodobně nejlepší udělat co nejméně předpokladů o přesnosti vašeho zařízení nebo o lidských bytostech, které odečítají hodnoty. Mezi běžné problémy patří nesprávné označení vzorků, špatné skladování a přeprava vzorků, a chybné počty kvůli nesprávné kalibraci a chybě nástroje.

zaujatost pozorovatele je také běžná-jedním z příkladů je přenosový efekt, kdy (například) sada vzorků obsahujících vysoký počet vajec ve fekálních nátěrech má tendenci být následována příliš vysokým počtem, i když jsou čísla nízká. Dalším příkladem je zaujatost vůči sudým číslům, zejména pokud člověk odhaduje čtení na půli cesty mezi označenými pozicemi na stupnici. To se někdy nazývá zkreslení preferencí číslic. Zaujatost pozorovatele však může mít mnoho podob-často zcela neočekávaných! Pouze vhodnou kontrolou si můžete být jisti, že data jsou co nejpřesnější. Znalost typu údajů, které shromažďujete, a běžné chyby, jsou zásadní.

shromažďování údajů pomocí dotazníku je obzvláště náchylné k nepřesnostem. Mnoho chyb a předsudků se zavádí, když je dotazník přeložen do jiného jazyka – jediný způsob, jak tomu zabránit, je přimět někoho (nezávislého), aby zpětně přeložil (přeložený) dotazník a porovnal dva dotazníky. Dalším velkým problémem, pokud je dotazník uveden ústně, je zaujatost tazatele. Někdo, kdo provedl stovky (nebo tisíce) dotazníků, očekává konkrétní odpovědi na určité otázky a často přestane poslouchat (nebo dokonce položit otázku) a jednoduše vloží očekávanou (nebo požadovanou) odpověď. To lze zjistit pouze tehdy, pokud je vzorek dotazovaných krátce poté znovu dotazován nezávislými tazateli. Návrh a implementaci dotazníku zvažujeme podrobněji v jednotce 7.

ve fázi zadávání dat

ve fázi zadávání dat je k dispozici řada balíčků pro kontrolu dat. Ty běžně kontrolují, že data jsou ve specifikovaném formátu (kontrola formátu), že leží v uživatelem určeném rozsahu hodnot (kontrola rozsahu) a (někdy), že jsou konzistentní-například, že neexistuje žádný výtěžek mléka pro samčí skot! Nemohou vám říci, zda některá data byla vynechána, ani nemohou detekovat chyby v přijatém rozsahu. Ty lze eliminovat pouze vizuální kontrolou (tj. Pomocí této metody dva operátoři zadávání dat zadávají data nezávisle a dva datové soubory jsou porovnávány pomocí počítačového programu. Ani tato metoda nemusí detekovat chyby vyplývající z nesprávného čtení nedbale napsaných čísel (například 6 a 0).

ve fázi analýzy dat

  • detekce a odmítnutí odlehlých hodnot

    poslední možnost, jak se vyhnout chybám ve vašich datech, je ve fázi analýzy-obvykle odstraněním “odlehlých hodnot”. Odlehlé hodnoty jsou body, které nesledují obecný obraz, ať už jde o frekvenční distribuci vašich dat nebo jejich vztah k jiné proměnné. Techniky odmítnutí odlehlých hodnot předpokládají, že nepravděpodobné hodnoty jsou chybné, a vynechat je z analýzy. To může být případ, ale pokud ano, odráží selhání procesu Ověření dat k detekci chyby dříve!

    zásadní problém s odmítnutím odlehlých hodnot je, že všechny datové sady obsahují několik “lichých” výsledků. To je zcela normální. Nejtěžší je špinění, které jsou skutečné chyby, a které jsou jen liché datové body. To je obzvláště riskantní, protože se spoléhá na vaše očekávání toho, co je “rozumné”. Je mnohem lepší identifikovat odlehlé hodnoty, jak vznikají. Pak máte nějakou šanci zjistit, proč je tento konkrétní bod odlehlý. Největším zdrojem zaujatosti v jakékoli studii jsou očekávání výzkumníka. Pokud tedy pozorování není jasnou chybou, je nejrozumnější jej odstranit! Jak uvidíme, některé “abnormální” pozorování jsou normální a můžete se dozvědět více tím, že pochopíte, proč jsou některé body odlehlé hodnoty, než pouhým pohledem na “normální” datové body! Dalším problémem s automatickým odmítnutím odlehlých hodnot je to, že je velmi obtížné to umožnit v jakékoli následné statistické analýze-odstraněním nejextrémnějších pozorování, uměle snižujete variaci vzorku.

  • ořezané prostředky a robustní odhady

    pokud musíte odstranit několik extrémních pozorování, musíte co nejvíce snížit riziko zkreslení. Aby to bylo možné, byla vyvinuta třída statistik-známá jako robustní odhady. Myšlenka robustní statistiky je taková, že když je vše v pořádku, bude se chovat téměř stejně dobře jako běžnější statistiky – ale když jsou její předpoklady ohroženy,bude se i nadále chovat více či méně rozumně.

    většina robustních odhadů předpokládá, že máte co do činění s přiměřeně rozloženou sadou pozorování, kontaminovanou malým podílem mnohem variabilnějších výsledků. Z různých statistik, které byly vypracovány, je nejjednodušší vysvětlit “ořezané” prostředky.

    ačkoli bylo navrženo několik ořezaných prostředků, nejoblíbenější z nich zajišťují odstranění stejného počtu neobvykle velkých a neobvykle malých pozorování. Jinými slovy, průměr je získán ze symetricky oříznutého vzorku. Stupeň ořezávání je obvykle vyjádřen z hlediska toho, jaký podíl (nebo procent) nejextrémnějších pozorování byl odstraněn na obou stranách mediánu. Běžný aritmetický průměr je tedy nulový (0%) ořezaný průměr. Na druhém extrému je medián 0, 5 (50%) oříznutého průměru.

    ačkoli vlastnosti robustních odhadů jsou poměrně dobře pochopeny, jsou stále relativně neobvyklé-částečně proto, že vhodné vzorce nejsou snadno dostupné, i když jsou stále více hodnoceny simulací.

    jak jsme poznamenali výše, medián je nejextrémnější ořezaný průměr. Obecně platí, že pokud máte data, kde nedůvěřujete extrémním hodnotám, je snazší a transparentnější používat mediány. Ačkoli testy pro mediány jsou méně výkonné než testy pro prostředky, je k dispozici dobré číslo – a, pro přiměřeně velké vzorky, vzorce pro ně jsou relativně jednoduché. Zvažujeme, jak porovnat mediány v jednotce 10.

Související témata :

Leave a Reply