controle van gegevens

Wat is dataverificatie?

het doel van de verificatie van de gegevens is ervoor te zorgen dat de verzamelde gegevens zo nauwkeurig mogelijk zijn en om menselijke en instrumentfouten – met inbegrip van fouten die tijdens de gegevensverwerking ontstaan-tot een minimum te beperken. de verificatie van de gegevens is een continu proces dat moet beginnen bij het verzamelen van de gegevens en moet worden voortgezet tijdens het invoeren en analyseren van de gegevens.

let op! Sommige autoriteiten gebruiken de term “gegevensvalidatie” en “gegevensverificatie” veel beperkter. Onder gegevensvalidatie wordt verstaan een automatische computercontrole of de gegevens zinvol en redelijk zijn, en onder “gegevenscontrole” wordt verstaan een controle om ervoor te zorgen dat de ingevoerde gegevens exact overeenkomen met de oorspronkelijke bron. Onder deze definities verwijst geen van beide termen naar

  1. of de gegevens daadwerkelijk meten wat ze geacht worden te zijn (de gebruikelijke definitie van validiteit)
  2. of de gegevens vrij zijn van fouten (verificatie volgens onze definitie).

het ontbreken van overeengekomen voorwaarden kan verklaren waarom er zo weinig belangstelling is voor deze twee essentiële aspecten van gegevensanalyse!

in het stadium van gegevensverzameling

in het stadium van gegevensverzameling is het waarschijnlijk het beste om zo weinig mogelijk veronderstellingen te maken over de nauwkeurigheid van uw apparatuur, of wat dat betreft de mensen die de metingen uitvoeren. Veel voorkomende problemen zijn het verkeerd labelen van monsters, slechte opslag en transport van monsters, en foutieve tellingen als gevolg van miscalibratie en instrumentfout.

ook vooringenomenheid van de waarnemer komt vaak voor – een voorbeeld is een “carry-over” – effect wanneer (bijvoorbeeld) een reeks monsters met een hoog aantal eieren in fecale uitstrijkjes meestal worden gevolgd door een te hoog aantal, zelfs wanneer het aantal te laag is. Een ander voorbeeld is een vooroordeel ten opzichte van even getallen, vooral als men een meting halverwege tussen gemarkeerde posities op de schaal schat. Dit wordt soms genoemd cijfer voorkeur bias. Echter, waarnemer vooringenomenheid kan vele vormen aannemen-vaak heel onverwacht! Alleen door de juiste controle kunt u er zeker van zijn dat de gegevens zo nauwkeurig mogelijk zijn. Vertrouwdheid met het type gegevens dat u verzamelt, en de veel voorkomende fouten, zijn beide essentieel.Het verzamelen van gegevens aan de hand van een vragenlijst kan met name tot onnauwkeurigheden leiden. Veel fouten en vooroordelen worden geïntroduceerd wanneer een vragenlijst wordt vertaald naar een andere taal – de enige manier om dit te voorkomen is om iemand (onafhankelijk) de (vertaalde) vragenlijst terug te laten vertalen en de twee vragenlijsten te vergelijken. Het andere grote probleem als de vragenlijst mondeling wordt gegeven is de vooringenomenheid van de interviewer. Iemand die honderden (of duizenden) vragenlijsten heeft gedaan, zal bepaalde antwoorden op bepaalde vragen verwachten, en zal vaak stoppen met luisteren (of zelfs de vraag niet Stellen) en gewoon het verwachte (of gewenste) antwoord invoegen. Dit kan alleen worden gedetecteerd als een steekproef van geïnterviewden kort daarna opnieuw wordt geïnterviewd door onafhankelijke interviewers. In Eenheid 7 wordt dieper ingegaan op het ontwerp en de uitvoering van de vragenlijst.

in de gegevensinvoerfase

in de gegevensinvoerfase zijn een aantal pakketten voor gegevenscontrole beschikbaar. Deze controleren vaak dat de gegevens in een bepaald formaat zijn (format check), dat ze binnen een door de gebruiker opgegeven bereik van waarden liggen (range check) en (soms) dat ze consistent zijn-bijvoorbeeld dat er geen melkopbrengst is voor mannelijke runderen! Ze kunnen je niet vertellen of sommige gegevens zijn gemist, noch kunnen ze fouten detecteren binnen het geaccepteerde bereik. Deze kunnen alleen worden geëlimineerd door een visuele controle (dat wil zeggen een correctie) of (beter) door dubbele gegevensinvoer. Met deze methode voeren twee gegevensinvoeroperators de gegevens onafhankelijk in en worden de twee gegevensbestanden met behulp van een computerprogramma vergeleken. Zelfs deze methode kan geen fouten die voortvloeien uit het verkeerd lezen van achteloos geschreven nummers (bijvoorbeeld 6 en 0) te detecteren.

in de data-analyse fase

  • detectie en afwijzing van uitschieters

    de laatste mogelijkheid om fouten in uw gegevens te voorkomen is in de analyse – meestal door het elimineren van ‘uitschieters’. Uitschieters zijn punten die niet het algemene beeld volgen, of het nu gaat om de frequentieverdeling van uw gegevens of de relatie met een andere variabele. De uitbijterverwerptechnieken veronderstellen dat onwaarschijnlijke waarden in fout zijn, en laten hen uit de analyse weg. Dit kan het geval zijn, maar als dat zo is, weerspiegelt het een fout in uw gegevensvalidatieproces om de fout eerder te detecteren!

    het cruciale probleem bij het afwijzen van uitschieters is dat alle gegevensverzamelingen enkele ‘oneven’ resultaten bevatten. Dit is volkomen normaal. Het moeilijke deel is het spotten van echte fouten, en die zijn gewoon vreemde datapunten. Dit is bijzonder riskant, omdat het afhankelijk is van jullie verwachtingen van wat ‘redelijk’is. Het is veel beter om uitschieters te identificeren als ze zich voordoen. Dan heb je enige kans om uit te vinden waarom dat specifieke punt een uitschieter is. De grootste bron van vooringenomenheid in elk onderzoek is de verwachtingen van de onderzoeker. Dus, als een waarneming geen duidelijke fout is, is het zeer onverstandig om deze te verwijderen! Zoals we zullen zien, zijn sommige’ abnormale ‘ observaties normaal, en jullie kunnen meer leren door te begrijpen waarom sommige punten uitschieters zijn, dan door alleen naar de ‘normale’ datapunten te kijken! Een ander probleem met automatische uitbijterafstoting is dat het zeer moeilijk is om dit toe te staan in een volgende statistische analyse – door het verwijderen van de meest extreme waarnemingen, u kunstmatig verminderen van uw steekproef variatie.

  • getrimde middelen en robuuste schatters

    Als u enkele extreme waarnemingen moet verwijderen, moet u het risico op vertekening zoveel mogelijk beperken. Om dit mogelijk te maken, werd een klasse van statistieken ontwikkeld – bekend als robuuste schatters. Het idee van een robuuste statistiek is dat, wanneer alles in orde is, het zich bijna net zo goed zal gedragen als meer gewone statistieken – maar wanneer de veronderstellingen in het gedrang komen, zal het zich min of meer redelijk blijven gedragen.

    om geldig te zijn, gaan de meeste robuuste schatters ervan uit dat u te maken hebt met een redelijk gedistribueerde reeks waarnemingen, besmet door een klein deel van veel meer variabele resultaten. Van de verschillende statistieken die zijn opgesteld, zijn de “bijgesneden” middelen het gemakkelijkst uit te leggen.

    hoewel een aantal getrimde middelen zijn ontworpen, zorgen de meest populaire ervoor dat hetzelfde aantal ongewoon grote en ongewoon kleine waarnemingen worden verwijderd. Met andere woorden, Het gemiddelde wordt verkregen uit een symmetrisch bijgesneden Monster. De mate van trimmen wordt meestal uitgedrukt in welke verhouding (of percentage) van de meest extreme waarnemingen zijn verwijderd aan weerszijden van de mediaan. Een gewoon rekenkundig gemiddelde is dus een nul (0%) bijgesneden gemiddelde. Aan het andere uiterste is de mediaan het gemiddelde van 0,5 (50%) bijgesneden.

    hoewel de eigenschappen van robuuste schatters vrij goed begrepen zijn, zijn ze nog steeds relatief zeldzaam – deels omdat geschikte formules niet gemakkelijk beschikbaar zijn, hoewel ze steeds meer door simulatie worden beoordeeld.

    zoals we hierboven hebben opgemerkt, is een mediaan het meest extreem getrimd gemiddelde. Over het algemeen, als je gegevens hebt waar je extreme waarden wantrouwt, is het gemakkelijker en transparanter om medians te gebruiken. Hoewel de tests voor medianen minder krachtig zijn dan die voor middelen, zijn er een groot aantal beschikbaar – en voor redelijk grote monsters zijn de formules voor hen relatief eenvoudig. We bekijken hoe we medianen kunnen vergelijken in Eenheid 10.

gerelateerde onderwerpen :

Leave a Reply