verificarea datelor
ce este verificarea datelor?
scopul verificării datelor este de a se asigura că datele colectate sunt cât mai exacte posibil și de a minimiza erorile umane și ale instrumentelor – inclusiv cele care apar în timpul procesării datelor. verificarea datelor este un proces continuu care ar trebui să înceapă în etapa de colectare a datelor și să continue în timpul introducerii și analizei datelor.
fiți conștienți! Unele autorități folosesc mult mai strict termenul “validare a datelor” și “verificare a datelor”. Validarea datelor este luată pentru a se referi la o verificare automată a computerului că datele sunt sensibile și rezonabile și “verificarea datelor” pentru a se referi la o verificare pentru a se asigura că datele introduse se potrivesc exact cu sursa originală. Sub aceste definiții, nici un termen nu se referă la
- dacă datele măsoară de fapt ceea ce ar trebui (definiția obișnuită a valabilității)
- dacă datele sunt lipsite de erori (verificare prin definiția noastră).
lipsa Termenilor conveniți poate explica de ce există atât de puțin interes pentru aceste două aspecte vitale ale analizei datelor!
în etapa de colectare a datelor
în etapa de colectare a datelor este probabil cel mai bine să faceți cât mai puține presupuneri cu privire la acuratețea echipamentului dvs. sau, de altfel, a ființelor umane care iau citirile. Problemele frecvente includ etichetarea greșită a probelor, depozitarea și transportul deficitar al probelor și numărările eronate din cauza calibrării greșite și a erorilor instrumentului.
părtinirea observatorului este, de asemenea, obișnuită – un exemplu este un efect de reportare în care (de exemplu) un set de probe care conțin un număr mare de ouă în frotiurile fecale tind să fie urmate de un număr excesiv de mare chiar și atunci când numărul este scăzut. Un alt exemplu este o prejudecată față de numere pare, mai ales dacă se estimează o citire la jumătatea distanței dintre pozițiile marcate pe scară. Aceasta este uneori denumită părtinire de preferință a cifrelor. Cu toate acestea, părtinirea observatorului poate lua multe forme – adesea destul de neașteptate! Numai prin verificarea corespunzătoare puteți fi sigur că datele sunt cât mai exacte posibil. Familiarizarea cu tipul de date pe care le colectați și erorile comune sunt esențiale.
colectarea Datelor folosind un chestionar este în special susceptibilă de inexactități. Multe erori și prejudecăți sunt introduse atunci când un chestionar este tradus într – o altă limbă-singura modalitate de a evita acest lucru este de a determina pe cineva (independent) să traducă înapoi chestionarul (tradus) și să compare cele două chestionare. Cealaltă mare problemă dacă chestionarul este dat verbal este părtinirea intervievatorului. Cineva care a făcut sute (sau mii) de chestionare va aștepta răspunsuri particulare la anumite întrebări și va înceta adesea să asculte (sau chiar să nu pună întrebarea) și doar să introducă răspunsul așteptat (sau dorit). Acest lucru poate fi detectat numai dacă un eșantion de intervievați este re-intervievat la scurt timp după aceea de către intervievatori independenți. Considerăm proiectarea și implementarea chestionarului în profunzime în Unitatea 7.
în etapa de introducere a datelor
în etapa de introducere a datelor, sunt disponibile un număr de pachete de verificare a datelor. Acestea verifică în mod obișnuit că datele sunt într-un format specificat (verificarea formatului), că se află într – un interval de valori specificat de utilizator (verificarea intervalului) și (uneori) că sunt consecvente-de exemplu, că nu există randament de lapte pentru bovinele masculine! Nu vă pot spune dacă unele date au fost ratate și nici nu pot detecta erori în intervalul acceptat. Acestea pot fi eliminate numai printr-o verificare vizuală (adică citirea probelor) sau (mai bine) prin utilizarea introducerii duble a datelor. Cu această metodă, doi operatori de introducere a datelor introduc datele în mod independent, iar cele două fișiere de date sunt comparate folosind un program de calculator. Chiar și această metodă nu poate detecta erorile care decurg din citirea greșită a numerelor scrise neglijent (de exemplu, 6 și 0).
în etapa de analiză a datelor
-
detecție și respingere Outlier
ultima oportunitate de a evita erorile din datele dvs. este în etapa de analiză – de obicei prin eliminarea ‘valorilor aberante’. Valorile aberante sunt puncte care nu respectă imaginea generală, fie în ceea ce privește distribuția frecvenței datelor dvs., fie relația acesteia cu o altă variabilă. Tehnicile de respingere Outlier presupun că valorile improbabile sunt în eroare și le omit din analiză. Acesta poate fi cazul, dar dacă da, reflectă un eșec al procesului de validare a datelor dvs. pentru a detecta eroarea mai devreme!
problema crucială cu respingerea valorilor aberante este că toate seturile de date includ câteva rezultate ‘ciudate’. Acest lucru este complet normal. Partea grea este spotting care sunt greșeli autentice, și care sunt doar puncte de date ciudate. Acest lucru este deosebit de riscant, deoarece se bazează pe așteptările dvs. cu privire la ceea ce este ‘rezonabil’. Este mult mai bine să identificăm valorile aberante pe măsură ce apar. Apoi, aveți o șansă de a afla de ce acest punct special este un outlier. Cea mai mare sursă de părtinire în orice studiu este așteptările cercetătorului. Deci, dacă o observație nu este o eroare clară, este cel mai înțelept să o eliminați! După cum vom vedea, unele observații ‘anormale’ sunt normale și puteți afla mai multe înțelegând de ce unele puncte sunt aberante, decât uitându-vă doar la punctele de date ‘normale’! O altă problemă cu respingerea automată outlier este că este foarte dificil să o permiteți în orice analiză statistică ulterioară – prin eliminarea celor mai extreme observații, reduceți artificial variația eșantionului.
-
mijloace tăiate și estimatori robusti
dacă trebuie să eliminați câteva observații extreme, trebuie să reduceți cât mai mult riscul de părtinire. Pentru a permite acest lucru, au fost dezvoltate o clasă de statistici – cunoscute sub numele de estimatori robusti. Ideea unei statistici robuste este că, atunci când totul este bine, se va comporta aproape la fel de bine ca și statistici mai obișnuite – dar când ipotezele sale sunt compromise, va continua să se comporte mai mult sau mai puțin rezonabil.
pentru a fi valid, cei mai robusti estimatori presupun că aveți de-a face cu un set de observații distribuite în mod rezonabil, contaminate de o mică proporție de rezultate mult mai variabile. Dintre diferitele statistici care au fost concepute, cele mai simple de explicat sunt mijloacele tăiate.
deși au fost concepute o serie de mijloace tăiate, cele mai populare dintre ele asigură eliminarea aceluiași număr de observații neobișnuit de mari și neobișnuit de mici. Cu alte cuvinte, media este obținută dintr-o probă tăiată simetric. Gradul de tăiere este de obicei exprimat în ceea ce privește proporția (sau procentul) celor mai extreme observații care au fost îndepărtate de fiecare parte a medianei. O medie aritmetică obișnuită este astfel o medie tăiată zero (0%). La cealaltă extremă, mediana este media tăiată de 0,5 (50%).
deși proprietățile estimatorilor robusti sunt destul de bine înțelese, ele sunt încă relativ neobișnuite – parțial pentru că formulele adecvate nu sunt ușor disponibile, deși sunt evaluate din ce în ce mai mult prin simulare.
după cum am menționat mai sus, o mediană este cea mai extremă medie tăiată. În general, dacă aveți date în care nu aveți încredere în valori extreme, este mai ușor și mai transparent să utilizați mediane. Deși testele pentru medii sunt mai puțin puternice decât cele pentru mijloace, sunt disponibile un număr bun – și, pentru eșantioane destul de mari, formulele pentru acestea sunt relativ simple. Considerăm cum să comparăm mediile în Unitatea 10.
subiecte conexe : |
Leave a Reply