dataverifisering
hva er data verifisering?
formålet med dataverifisering er å sikre at data som samles inn er så nøyaktige som mulig, og for å minimere menneskelige og instrumentfeil – inkludert de som oppstår under databehandling. dataverifisering Er en pågående prosess som bør starte på datainnsamlingsstadiet, og fortsette under dataregistrering og analyse.
Vær oppmerksom! Noen myndigheter bruker begrepet “datavalidering ” og” data verifisering ” mye mer smalt. Datavalidering er tatt for å referere til en automatisk datamaskin som kontrollerer at dataene er fornuftige og rimelige, og “data verifisering” for å referere til en kontroll for å sikre at dataene som er oppgitt, samsvarer nøyaktig med den opprinnelige kilden. Under disse definisjonene refererer ingen begrep til
- om dataene faktisk måler hva de skal (den vanlige definisjonen av gyldighet)
- om dataene er feilfrie (verifisering av vår definisjon).
mangelen på avtalte vilkår kan forklare hvorfor det er så liten interesse for disse to vitalt viktige aspektene ved dataanalyse!
på datainnsamlingsstadiet
på datainnsamlingsstadiet er det sannsynligvis best å gjøre så få forutsetninger som mulig om nøyaktigheten av utstyret ditt, eller for den saks skyld menneskene som tar avlesningene. Vanlige problemer inkluderer feilmerking av prøver, dårlig lagring og transport av prøver, og feiltellinger på grunn av feilkalibrering og instrumentfeil.
Observatørskjevhet er også vanlig – et eksempel er en overføringseffekt der (for eksempel) et sett med prøver som inneholder høye tellinger av egg i fekal utstryk, har en tendens til å bli etterfulgt av for høye tellinger selv når tallene er lave. Et annet eksempel er en bias mot like tall, spesielt hvis man estimerer en lesing halvveis mellom merkede posisjoner på skalaen. Dette kalles noen ganger digit preference bias. Observatørskjevhet kan imidlertid ta mange former-ofte ganske uventet! Bare ved riktig kontroll kan du være sikker på at dataene er så nøyaktige som mulig. Kjennskap til typen data du samler, og de vanlige feilene, er begge viktige.
datainnsamling ved hjelp av et spørreskjema er spesielt ansvarlig for unøyaktigheter. Mange feil og skjevheter blir introdusert når et spørreskjema er oversatt til et annet språk – den eneste måten å unngå dette på er å få noen (uavhengig) til å tilbakeoversette (oversatt) spørreskjemaet og sammenligne de to spørreskjemaene. Det andre store problemet hvis spørreskjemaet er gitt muntlig, er intervjuerens bias. Noen som har gjort hundrevis (eller tusenvis) av spørreskjemaer vil forvente bestemte svar på visse spørsmål, og vil ofte slutte å lytte (eller ikke stille spørsmålet) og bare sette inn forventet (eller ønsket) svar. Dette kan bare oppdages hvis et utvalg av intervjuobjektene blir intervjuet kort tid etterpå av uavhengige intervjuere. Vi vurderer spørreskjemautforming og implementering i Mer dybde I Enhet 7.
på dataregistreringsstadiet
på dataregistreringsstadiet er det en rekke datakontrollpakker tilgjengelig. Disse kontrollerer vanligvis at dataene er i et spesifisert format (formatkontroll), at de ligger innenfor et brukerdefinert verdiområde (områdekontroll) og (noen ganger) at de er konsistente-for eksempel at det ikke er melkeutbytte for hanndyr! De kan ikke fortelle deg om noen data har blitt savnet, og de kan heller ikke oppdage feil innenfor det aksepterte området. Disse kan bare elimineres ved en visuell kontroll (som er korrekturlesing) eller (bedre) ved å bruke dobbel dataregistrering. Med denne metoden to dataregistrering operatører angi data uavhengig, og de to datafiler sammenlignes ved hjelp av et dataprogram. Selv denne metoden kan ikke oppdage feil som oppstår ved feillesing av uforsiktig skrevet tall (for eksempel 6 og 0).
på dataanalysestadiet
-
Outlier deteksjon og avvisning
den siste muligheten til å unngå feil i dataene dine er på analysestadiet-vanligvis ved å eliminere ‘outliers’. Outliers er punkter som ikke følger det generelle bildet, enten det gjelder frekvensfordelingen av dataene dine eller forholdet til en annen variabel. Outlier avvisning teknikker anta at usannsynlige verdier er feil, og utelate dem fra analysen. Dette kan være tilfelle, men i så fall gjenspeiler det en feil i datavalideringsprosessen for å oppdage feilen tidligere!
det avgjørende problemet med å avvise avvikere, er at alle datasett inneholder noen ‘merkelige’ resultater. Dette er helt normalt. Den harde delen er spotting som er ekte feil, og som bare er merkelige datapunkter. Dette er spesielt risikabelt, da det er avhengig av dine forventninger til hva som er rimelig. Det er mye bedre å identifisere uteliggere når de oppstår. Da står du litt sjanse til å finne ut hvorfor det aktuelle punktet er en outlier. Den største kilden til bias i enhver studie er forskerens forventninger. Så, hvis en observasjon ikke er en klar feil, er det mest uklokt å fjerne det! Som vi skal se, er noen ‘unormale’ observasjoner normale, og du kan lære mer ved å forstå hvorfor noen punkter er outliers, enn ved bare å se på de ‘normale’ datapunktene! Et annet problem med automatisk avviksavvisning er at det er svært vanskelig å tillate det i en senere statistisk analyse – ved å fjerne de mest ekstreme observasjonene, reduserer du kunstig prøvevariasjonen.
-
Trimmede midler og robuste estimatorer
hvis du må fjerne noen ekstreme observasjoner, må du redusere risikoen for skjevhet så mye som mulig. For å tillate dette ble det utviklet en klasse statistikk-kjent som robuste estimatorer. Ideen om en robust statistikk er at når alt er bra, vil den oppføre seg nesten like bra som mer vanlig statistikk-men når antagelsene blir kompromittert, vil den fortsette å oppføre seg mer eller mindre rimelig.
for å være gyldig, antar de fleste robuste estimatorer at du har å gjøre med et rimelig distribuert sett med observasjoner, forurenset av en liten andel mye mer variable resultater. Av de ulike statistikkene som er utarbeidet, er det enkleste å forklare de ‘trimmet’ midler.
Selv om en rekke trimmede midler har blitt utviklet, sikrer de mest populære av dem at det samme antall uvanlig store og uvanlig små observasjoner blir fjernet. Med andre ord er gjennomsnittet oppnådd fra en symmetrisk trimmet prøve. Graden av trimming uttrykkes vanligvis i forhold til hvilken andel (eller prosent) av de mest ekstreme observasjonene som er fjernet hver side av medianen. Et vanlig aritmetisk gjennomsnitt er dermed et null (0%) trimmet gjennomsnitt. På den andre ekstremen er medianen 0,5 (50%) trimmet gjennomsnitt.
selv om egenskapene til robuste estimatorer er ganske godt forstått, er de fortsatt relativt uvanlige-delvis fordi passende formler ikke er lett tilgjengelige, selv om de i økende grad vurderes ved simulering.
som vi nevnte ovenfor, er en median det mest ekstreme trimmede gjennomsnittet. Generelt, hvis du har data der du mistro ekstreme verdier, er det enklere og mer gjennomsiktig å bruke medianer. Selv om testene for medianer er mindre kraftige enn de for midler, er et godt antall tilgjengelige-og for rimelig store prøver er formlene for dem relativt enkle. Vi vurderer hvordan man sammenligner medianer i Enhet 10.
Relaterte emner : |
Leave a Reply