dataverifikation

Hvad er data verifikation?

formålet med dataverifikation er at sikre, at data, der indsamles, er så nøjagtige som muligt, og at minimere menneskelige og instrumentfejl – herunder dem, der opstår under databehandling. dataverifikation er en løbende proces, der skal starte på dataindsamlingsstadiet og fortsætte under dataindtastning og analyse.

vær opmærksom! Nogle myndigheder bruger udtrykket” datavalidering “og” dataverifikation ” meget mere snævert. Datavalidering tages for at henvise til en automatisk computerkontrol, at dataene er fornuftige og rimelige, og “dataverifikation” for at henvise til en kontrol for at sikre, at de indtastede data nøjagtigt svarer til den oprindelige kilde. Under disse definitioner henviser ingen af udtrykkene til

  1. om dataene faktisk måler, hvad de skal (den sædvanlige definition af gyldighed)
  2. om dataene er fri for fejl (verifikation efter vores definition).

manglen på aftalte vilkår kan forklare, hvorfor der er så lidt interesse for disse to meget vigtige aspekter af dataanalyse!

på dataindsamlingsstadiet

på dataindsamlingsstadiet er det sandsynligvis bedst at tage så få antagelser som muligt om nøjagtigheden af dit udstyr, eller for den sags skyld de mennesker, der tager aflæsningerne. Almindelige problemer inkluderer fejlmærkning af prøver, dårlig opbevaring og transport af prøver og fejlagtige tællinger på grund af forkert kalibrering og instrumentfejl.

Observatørforstyrrelse er også almindelig – et eksempel er en overførselseffekt, hvor (for eksempel) et sæt prøver, der indeholder høje antal æg i fækale udstrygninger, har tendens til at blive efterfulgt af for høje tællinger, selv når antallet er lavt. Et andet eksempel er en bias mod lige tal, især hvis man estimerer en læsning halvvejs mellem markerede positioner på skalaen. Dette kaldes undertiden ciffer preference bias. Observatørens bias kan dog antage mange former-ofte ganske uventet! Kun ved passende kontrol kan du være sikker på, at dataene er så nøjagtige som muligt. Kendskab til den type data, du indsamler, og de almindelige fejl, er begge vigtige.

dataindsamling ved hjælp af et spørgeskema er især ansvarlig for unøjagtigheder. Mange fejl og forstyrrelser introduceres, når et spørgeskema oversættes til et andet sprog – den eneste måde at undgå dette på er at få nogen (uafhængig) til at oversætte det (oversatte) spørgeskema og sammenligne de to spørgeskemaer. Det andet store problem, hvis spørgeskemaet gives mundtligt, er intervjuerens bias. En person, der har lavet hundreder (eller tusinder) spørgeskemaer, forventer bestemte svar på bestemte spørgsmål og vil ofte stoppe med at lytte (eller endda ikke stille spørgsmålet) og bare indsætte det forventede (eller ønskede) svar. Dette kan kun påvises, hvis en stikprøve af intervjuer genoptages kort tid efter af uafhængige intervjuer. Vi ser nærmere på udformningen og implementeringen af spørgeskemaet i enhed 7.

på dataindtastningsfasen

på dataindtastningsfasen er der et antal datakontrolpakker tilgængelige. Disse kontrollerer almindeligvis, at data er i et bestemt format (formatkontrol), at de ligger inden for et brugerspecificeret værdiområde (områdekontrol) og (undertiden) at de er konsistente-for eksempel at der ikke er noget mælkeudbytte for hankvæg! De kan ikke fortælle dig, om nogle data er gået glip af, og de kan heller ikke opdage fejl inden for det accepterede interval. Disse kan kun elimineres ved en visuel kontrol (det er korrekturlæsning) eller (bedre) ved hjælp af dobbelt dataindtastning. Med denne metode indtaster to dataindtastningsoperatører dataene uafhængigt, og de to datafiler sammenlignes ved hjælp af et computerprogram. Selv denne metode registrerer muligvis ikke fejl, der opstår som følge af forkert læsning af uforsigtigt skrevne tal (for eksempel 6 og 0).

på dataanalysestadiet

  • Outlier detektion og afvisning

    den sidste mulighed for at undgå fejl i dine data er på analysestadiet – normalt ved at eliminere ‘outliers’. Outliers er punkter, der ikke følger det generelle billede, hvad enten det drejer sig om frekvensfordelingen af dine data eller dens forhold til en anden variabel. Outlier afvisning teknikker antager, at usandsynlige værdier er i fejl, og udelade dem fra analysen. Dette kan være tilfældet, men i så fald afspejler det en fejl i din datavalideringsproces for at opdage fejlen tidligere!

    det afgørende problem med at afvise outliers er, at alle datasæt indeholder et par ‘ulige’ resultater. Dette er helt normalt. Den hårde del er at spotte, som er ægte fejl, og som bare er ulige datapunkter. Dette er især risikabelt, da det afhænger af dine forventninger til, hvad der er ‘rimeligt’. Det er meget bedre at identificere outliers, når de opstår. Så står du en chance for at finde ud af, hvorfor det pågældende punkt er en outlier. Den største kilde til bias i enhver undersøgelse er forskerens forventninger. Så hvis en observation ikke er en klar fejl, er det mest uklogt at fjerne det! Som vi skal se, er nogle ‘unormale’ observationer normale, og du kan lære mere ved at forstå, hvorfor nogle punkter er afvigende, end ved kun at se på de ‘normale’ datapunkter! Et yderligere problem med automatisk afvisning af outlier er, at det er meget vanskeligt at tillade det i enhver efterfølgende statistisk analyse – ved at fjerne de mest ekstreme observationer reducerer du kunstigt din prøvevariation.

  • trimmet midler og robuste estimatorer

    hvis du skal fjerne et par ekstreme observationer, skal du reducere risikoen for bias så meget som muligt. For at give mulighed for dette blev der udviklet en klasse af statistikker – kendt som robuste estimatorer. Ideen med en robust statistik er, at når alt er godt, vil den opføre sig næsten lige så godt som mere almindelig statistik – men når dens antagelser kompromitteres, vil den fortsætte med at opføre sig mere eller mindre rimeligt.

    for at være gyldig antager de fleste robuste estimatorer, at du har at gøre med et rimeligt fordelt sæt observationer, Forurenet af en lille del af meget mere variable resultater. Af de forskellige statistikker, der er udtænkt, er det enkleste at forklare de ‘trimmede’ midler.

    selvom der er udtænkt et antal trimmede midler, sikrer de mest populære af dem, at det samme antal usædvanligt store og usædvanligt små observationer fjernes. Med andre ord opnås middelværdien fra en symmetrisk trimmet prøve. Graden af trimning udtrykkes normalt i forhold til, hvilken andel (eller procent) af de mest ekstreme observationer der er fjernet på hver side af medianen. Et almindeligt aritmetisk gennemsnit er således et nul (0%) trimmet gennemsnit. På den anden ekstreme er medianen 0,5 (50%) trimmet gennemsnit.

    selvom egenskaberne ved robuste estimatorer er ret godt forstået, er de stadig relativt usædvanlige – dels fordi passende formler ikke er let tilgængelige, selvom de i stigende grad vurderes ved simulering.

    som vi bemærkede ovenfor, er en median det mest ekstreme trimmede gennemsnit. Generelt, hvis du har data, hvor du mistroer ekstreme værdier, er det lettere og mere gennemsigtigt at bruge medianer. Selvom testene for medianer er mindre kraftfulde end dem for midler, er der et godt antal tilgængelige – og for rimeligt store prøver er formlerne for dem relativt ligetil. Vi overvejer, hvordan man sammenligner medianer i Enhed 10.

relaterede emner :

Leave a Reply