Adatellenőrzés
mi az adatellenőrzés?
az adatellenőrzés célja annak biztosítása, hogy az összegyűjtött adatok a lehető legpontosabbak legyenek, valamint az emberi és műszeres hibák minimalizálása – beleértve az adatfeldolgozás során felmerülő hibákat is. az adatok ellenőrzése folyamatban lévő folyamat, amelynek az adatgyűjtés szakaszában kell kezdődnie, és az adatbevitel és-elemzés során folytatódnia kell.
légy tudatában! Egyes hatóságok sokkal szűkebben használják az “adatellenőrzés” és az “adatellenőrzés” kifejezést. Az adatellenőrzés az automatikus számítógépes ellenőrzésre utal, hogy az adatok ésszerűek és ésszerűek, az “adatellenőrzés” pedig egy ellenőrzésre utal, amely biztosítja, hogy a bevitt adatok pontosan megegyeznek az eredeti forrással. E meghatározások szerint egyik kifejezés sem utal
- hogy az adatok valóban mérik-e azt, amit feltételeznek (az érvényesség szokásos meghatározása)
- hogy az adatok hibamentesek-e (meghatározás szerinti ellenőrzés).
az elfogadott feltételek hiánya megmagyarázhatja, miért van olyan kevés érdeklődés az adatelemzés e két létfontosságú szempontja iránt!
az adatgyűjtési szakaszban
az adatgyűjtési szakaszban valószínűleg a lehető legkevesebb feltételezést kell tenni a berendezés pontosságáról, vagy ami azt illeti, az emberi lények, akik a leolvasásokat veszik. A gyakori problémák közé tartozik a minták téves címkézése, a minták rossz tárolása és szállítása, valamint a téves kalibrálás és a műszer hibája miatt hibás számlálás.
a megfigyelő elfogultsága szintén gyakori – az egyik példa az átvitel hatása, ahol (például) a székletkenetben nagy mennyiségű tojást tartalmazó mintakészletet általában túl magas számok követik, még akkor is, ha a számok alacsonyak. Egy másik példa a páros számok iránti elfogultság, különösen akkor, ha a skálán megjelölt pozíciók között félúton becsüljük meg az olvasást. Ezt néha számjegypreferencia-elfogultságnak nevezik. A megfigyelő elfogultsága azonban sokféle formát ölthet-gyakran meglehetősen váratlan! Csak megfelelő ellenőrzéssel lehet biztos abban, hogy az adatok a lehető legpontosabbak. Az összegyűjtött adatok típusának ismerete és a gyakori hibák egyaránt elengedhetetlenek.
a kérdőíves adatgyűjtés különösen pontatlanságokhoz vezethet. Sok hiba és elfogultság jelenik meg, amikor egy kérdőívet lefordítanak egy másik nyelvre – az egyetlen módja ennek elkerülésére az, ha valaki (független) lefordítja a (lefordított) kérdőívet, és összehasonlítja a két kérdőívet. A másik nagy probléma, ha a kérdőívet szóban adják meg, az interjúkészítő elfogultsága. Valaki, aki több száz (vagy ezer) kérdőívet készített, bizonyos kérdésekre konkrét válaszokat vár, és gyakran abbahagyja a hallgatást (vagy akár nem is teszi fel a kérdést), és csak beilleszti a várt (vagy kívánt) választ. Ez csak akkor mutatható ki, ha az interjúalanyok mintáját nem sokkal később független kérdezők újra megkérdezik. A kérdőívek tervezését és megvalósítását részletesebben a 7. fejezetben tárgyaljuk.
az adatbeviteli szakaszban
az adatbeviteli szakaszban számos adatellenőrző csomag áll rendelkezésre. Ezek általában ellenőrzik, hogy az adatok meghatározott formátumban vannak-e (formátumellenőrzés), hogy a felhasználó által megadott értéktartományon belül vannak – e (tartományellenőrzés) és (néha) konzisztensek-például, hogy a hím szarvasmarhák esetében nincs tejhozam! Nem tudják megmondani, hogy egyes adatok kimaradtak-e, és nem tudják észlelni az elfogadott tartományon belüli hibákat. Ezeket csak vizuális ellenőrzéssel (azaz lektorálással) vagy (jobb) kettős adatbevitel segítségével lehet kiküszöbölni. Ezzel a módszerrel két adatbeviteli operátor egymástól függetlenül adja meg az adatokat, majd a két adatfájlt számítógépes program segítségével hasonlítja össze. Még ez a módszer sem észlelheti a gondatlanul írt számok (például 6 és 0) téves értelmezéséből eredő hibákat.
az adatelemzés szakaszában
-
az utolsó lehetőség az adatok hibáinak elkerülésére az elemzési szakaszban van – általában a ‘kiugró értékek’kiküszöbölésével. A kiugró értékek olyan pontok, amelyek nem követik az általános képet, akár az adatok gyakorisági eloszlását, akár egy másik változóhoz való viszonyát tekintve. A kiugró elutasítási technikák feltételezik, hogy a valószínűtlen értékek hibásak, és kihagyják őket az elemzésből. Lehet, hogy ez a helyzet, de ha igen, akkor az az adatellenőrzési folyamat kudarcát tükrözi, hogy korábban észlelje a hibát!
a kiugró értékek elutasításának alapvető problémája az, hogy minden adathalmaz tartalmaz néhány ‘páratlan’ eredményt. Ez teljesen normális. A nehéz rész a valódi hibák észlelése, amelyek csak furcsa adatpontok. Ez különösen kockázatos, mivel az ésszerű elvárásokra támaszkodik. Sokkal jobb azonosítani a kiugró értékeket, amint azok felmerülnek. Akkor van némi esélye annak kiderítésére, hogy az adott pont miért kiugró. Bármely tanulmányban az elfogultság legnagyobb forrása a kutató elvárásai. Tehát, ha egy megfigyelés nem egyértelmű hiba,akkor a legbölcsebb eltávolítani! Amint látni fogjuk, néhány ‘abnormális’ megfigyelés normális, és többet tudhatunk meg, ha megértjük, hogy egyes pontok miért kiemelkedőek, mint ha csak a ‘normális’ adatpontokat nézzük! Az automatikus kiugró elutasítás további problémája, hogy ezt nagyon nehéz megengedni bármely későbbi statisztikai elemzésben-a legszélsőségesebb megfigyelések eltávolításával, mesterségesen csökkenti a minta variációját.
-
vágott eszközök és robusztus becslések
ha el kell távolítania néhány szélsőséges megfigyelést, akkor a lehető legnagyobb mértékben csökkentenie kell az elfogultság kockázatát. Ennek lehetővé tétele érdekében kidolgoztak egy statisztikai osztályt – az úgynevezett robusztus becslőket. A robusztus statisztika gondolata az, hogy amikor minden rendben van, majdnem olyan jól fog viselkedni, mint a hétköznapi statisztikák – de amikor feltételezései veszélybe kerülnek, továbbra is többé-kevésbé ésszerűen viselkedik.
ahhoz, hogy érvényes legyen, a legtöbb robusztus becslő feltételezi, hogy ésszerűen elosztott megfigyelésekkel foglalkozik, amelyeket sokkal változóbb eredmények kis hányada szennyez. A kidolgozott különböző statisztikák közül a legegyszerűbben a levágott eszközök magyarázhatók.
bár számos vágott eszközt dolgoztak ki, a legnépszerűbbek biztosítják, hogy ugyanannyi szokatlanul nagy és szokatlanul kicsi megfigyelést távolítsanak el. Más szavakkal, az átlagot szimmetrikusan vágott mintából kapjuk. A vágás mértékét általában abban fejezik ki, hogy a legszélsőségesebb megfigyelések hány százalékát (vagy százalékát) távolították el a medián mindkét oldalán. A közönséges számtani átlag tehát nulla (0%) vágott átlag. A másik végletben a medián a 0,5 (50%) vágott átlag.
bár a robusztus becslések tulajdonságai meglehetősen jól ismertek, még mindig viszonylag ritkák – részben azért, mert a megfelelő képletek nem állnak rendelkezésre könnyen, bár egyre inkább szimulációval értékelik őket.
mint fentebb megjegyeztük, a medián a legszélsőségesebb vágott átlag. Általában, ha van olyan adatod, ahol nem bízol a szélsőséges értékekben, könnyebb és átláthatóbb a mediánok használata. Bár a mediánok tesztjei kevésbé hatékonyak, mint a means tesztjei, jó szám áll rendelkezésre – és meglehetősen nagy minták esetén a képletek viszonylag egyszerűek. Megvizsgáljuk, hogyan lehet összehasonlítani a mediánokat a 10. egységben.
kapcsolódó témák : |
Leave a Reply