dataverifiering
vad är dataverifiering?
syftet med dataverifiering är att säkerställa att data som samlas in är så exakta som möjligt och att minimera mänskliga och instrumentfel – inklusive de som uppstår vid databehandling. dataverifiering är en pågående process som bör börja vid datainsamlingsstadiet och fortsätta under datainmatning och analys.
var medveten! Vissa myndigheter använder termen “datavalidering” och “dataverifiering” mycket snävare. Datavalidering tas för att hänvisa till en automatisk datorkontroll att uppgifterna är förnuftiga och rimliga, och “dataverifiering” för att hänvisa till en kontroll för att säkerställa att data som anges exakt matchar den ursprungliga källan. Under dessa definitioner hänvisar ingen av termerna till
- om uppgifterna faktiskt mäter vad de ska (den vanliga definitionen av giltighet)
- om uppgifterna är fria från fel (verifiering enligt vår definition).
bristen på överenskomna villkor kan förklara varför det finns så lite intresse för dessa två mycket viktiga aspekter av dataanalys!
vid datainsamlingsstadiet
vid datainsamlingsstadiet är det förmodligen bäst att göra så få antaganden som möjligt om noggrannheten i din utrustning, eller för den delen de människor som tar avläsningarna. Vanliga problem inkluderar felmärkning av prover, dålig lagring och transport av prover och felaktiga räkningar på grund av felkalibrering och instrumentfel.
Observer bias är också vanligt – ett exempel är en överföringseffekt där (till exempel) en uppsättning prover som innehåller höga antal ägg i fekala utstryk tenderar att följas av alltför höga räkningar även när siffrorna är låga. Ett annat exempel är en bias mot jämna tal, särskilt om man uppskattar en läsning halvvägs mellan markerade positioner på skalan. Detta kallas ibland digit preference bias. Observatörsförspänning kan dock ta många former-ofta ganska oväntat! Endast genom lämplig kontroll kan du vara säker på att uppgifterna är så exakta som möjligt. Kännedom om vilken typ av data du samlar in, och de vanliga felen, är båda väsentliga.
datainsamling med hjälp av ett frågeformulär är särskilt utsatt för felaktigheter. Många fel och fördomar introduceras när ett frågeformulär översätts till ett annat språk – det enda sättet att undvika detta är att få någon (oberoende) att backtranslate det (översatta) frågeformuläret och jämföra de två frågeformulären. Det andra stora problemet om frågeformuläret ges muntligt är intervjuarbias. Någon som har gjort hundratals (eller tusentals) frågeformulär kommer att förvänta sig särskilda svar på vissa frågor och kommer ofta att sluta lyssna (eller ens inte ställa frågan) och bara infoga det förväntade (eller önskade) svaret. Detta kan bara upptäckas om ett urval av intervjuade intervjuas kort därefter av oberoende intervjuare. Vi överväger frågeformulärsdesign och implementering mer ingående i enhet 7.
vid datainmatningsstadiet
vid datainmatningsstadiet finns ett antal datakontrollpaket tillgängliga. Dessa kontrollerar vanligtvis att data finns i ett angivet format (Formatkontroll), att de ligger inom ett användarspecifierat värdeområde (intervallkontroll) och (ibland) att de är konsekventa-till exempel att det inte finns någon mjölkavkastning för handjur! De kan inte berätta om vissa data har missat, och de kan inte heller upptäcka fel inom det accepterade intervallet. Dessa kan endast elimineras genom en visuell kontroll (det vill säga korrekturläsning) eller (bättre) genom att använda dubbel datainmatning. Med denna metod matar två datainmatningsoperatörer in data oberoende, och de två datafilerna jämförs med ett datorprogram. Även den här metoden kanske inte upptäcker fel som uppstår vid felaktig läsning av slarvigt skrivna nummer (till exempel 6 och 0).
i dataanalysstadiet
-
Outlier detection and rejection
den sista möjligheten att undvika fel i dina data är i analysstadiet – vanligtvis genom att eliminera ‘outliers’. Outliers är punkter som inte följer den allmänna bilden, vare sig det gäller frekvensfördelningen av dina data eller dess förhållande till en annan variabel. Outlier-avvisningstekniker antar att osannolika värden är felaktiga och utelämna dem från analysen. Detta kan vara fallet, men i så fall återspeglar det ett fel i din datavalideringsprocess för att upptäcka felet tidigare!
det avgörande problemet med att avvisa avvikare är att alla dataset innehåller några udda resultat. Detta är helt normalt. Den svåra delen är spotting som är äkta misstag, och som bara är udda datapunkter. Detta är särskilt riskabelt, eftersom det bygger på dina förväntningar på vad som är ‘rimligt’. Det är mycket bättre att identifiera avvikare när de uppstår. Då har du en chans att ta reda på varför just den punkten är en outlier. Den största källan till partiskhet i någon studie är forskarens förväntningar. Så om en observation inte är ett tydligt fel är det mest oklokt att ta bort det! Som vi ska se är vissa ‘onormala’ observationer normala, och du kan lära dig mer genom att förstå varför vissa punkter är avvikande än genom att bara titta på de ‘normala’ datapunkterna! Ett ytterligare problem med automatisk avvikelse är att det är mycket svårt att tillåta det i någon efterföljande statistisk analys – genom att ta bort de mest extrema observationerna minskar du artificiellt din provvariation.
-
trimmade medel och robusta estimatorer
om du måste ta bort några extrema observationer måste du minska risken för partiskhet så mycket som möjligt. För att möjliggöra detta utvecklades en klass av statistik – känd som robusta uppskattningar. Tanken med en robust statistik är att, när allt är bra, det kommer att bete sig nästan lika bra som mer vanlig statistik – men när dess antaganden äventyras, det kommer att fortsätta att bete sig mer eller mindre rimligt.
för att vara giltig antar de flesta robusta estimatorer att du har att göra med en rimligt fördelad uppsättning observationer, förorenade av en liten del av mycket mer variabla resultat. Av de olika statistik som har utarbetats är det enklaste att förklara de ‘trimmade’ medlen.
även om ett antal trimmade medel har utformats, säkerställer de mest populära av dem att samma antal ovanligt stora och ovanligt små observationer tas bort. Med andra ord erhålls medelvärdet från ett symmetriskt trimmat prov. Graden av trimning uttrycks vanligtvis i termer av vilken andel (eller procent) av de mest extrema observationerna som har tagits bort vardera sidan av medianen. Ett vanligt aritmetiskt medelvärde är således ett noll (0%) trimmat medelvärde. Vid den andra ytterligheten är medianen 0,5 (50%) trimmad medelvärde.
även om egenskaperna hos robusta estimatorer är ganska väl förstådda, är de fortfarande relativt ovanliga – delvis för att lämpliga formler inte är tillgängliga, även om de alltmer bedöms genom simulering.
som vi noterade ovan är en median det mest extrema trimmade medelvärdet. I allmänhet, om du har data där du misstro extrema värden, är det lättare och mer transparent att använda medianer. Även om testerna för medianer är mindre kraftfulla än de för medel, finns ett stort antal tillgängliga – och för rimligt stora prover är formlerna för dem relativt enkla. Vi överväger hur man jämför medianer i Enhet 10.
relaterade ämnen : |
Leave a Reply