tietojen verifiointi

mikä on tietojen todentaminen?

tietojen tarkistamisen tarkoituksena on varmistaa, että kerätyt tiedot ovat mahdollisimman tarkkoja, ja minimoida inhimilliset ja instrumenttiset virheet – myös tietojenkäsittelyn aikana syntyvät virheet. tietojen todentaminen on jatkuva prosessi, joka on aloitettava tiedonkeruuvaiheessa ja jatkettava tietojen syöttämisen ja analysoinnin aikana.

ole tietoinen! Jotkut viranomaiset käyttävät termejä” tietojen vahvistaminen “ja” tietojen todentaminen ” paljon suppeammin. Tietojen validoinnilla tarkoitetaan automaattista tietokoneen tarkistusta siitä, että tiedot ovat järkeviä ja kohtuullisia, ja “tietojen todentamisella” tarkoitetaan tarkistusta, jolla varmistetaan, että syötetyt tiedot vastaavat täsmälleen alkuperäistä lähdettä. Näissä määritelmissä kumpikaan termi ei viittaa

  1. siihen, mittaavatko tiedot todella sitä, mitä niiden oletetaan (tavallinen validiteetin määritelmä)
  2. onko tiedoissa virheitä (meidän määritelmämme mukainen verifiointi).

sovittujen ehtojen puuttuminen voi selittää, miksi nämä kaksi erittäin tärkeää tiedon analysoinnin näkökohtaa kiinnostavat niin vähän!

tiedonkeruuvaiheessa

tiedonkeruuvaiheessa on luultavasti parasta tehdä mahdollisimman vähän olettamuksia laitteiden tarkkuudesta tai muuten lukemia ottavista ihmisistä. Yleisiä ongelmia ovat näytteiden virhemerkinnät, näytteiden huono säilytys ja kuljetus sekä virheelliset lukemat, jotka johtuvat virheellisestä kalibroinnista ja mittarivirheestä.

havaitsijoiden vinouma on myös yleistä – yksi esimerkki on siirtovaikutus, jossa (esimerkiksi) näytteistä, joissa on suuria määriä munia ulosteissa, seuraa yleensä liian suuria määriä silloinkin, kun määrä on pieni. Toinen esimerkki on bias kohti parillisia lukuja varsinkin jos yksi on estimointi lukema puolivälissä merkittyjen asemien asteikolla. Tätä kutsutaan joskus digit preference bias. Havaitsijoiden vinouma voi kuitenkin saada monia muotoja-usein melko odottamattomia! Vain asianmukaisella tarkistuksella voit olla varma, että tiedot ovat mahdollisimman tarkkoja. Perehtyneisyys tyyppi tietojen keräät, ja yleiset virheet, ovat molemmat välttämättömiä.

tietojen keruu kyselylomakkeella on erityisen altis epätarkkuuksille. Monet virheet ja harhat otetaan käyttöön, kun kyselylomake käännetään toiselle kielelle – ainoa tapa välttää tämä on saada joku (riippumaton) kääntämään (käännetty) kyselylomake ja vertailla kahta kyselylomaketta. Toinen iso ongelma, jos kysely annetaan sanallisesti, on haastattelijavinouma. Joku, joka on tehnyt satoja (tai tuhansia) kyselylomakkeita odottaa tiettyjä vastauksia tiettyihin kysymyksiin, ja usein lopettaa kuuntelemisen (tai jopa ei kysy kysymystä) ja vain lisätä odotettu (tai haluttu) vastaus. Tämä voidaan havaita vain, jos riippumattomat haastattelijat haastattelevat otoksen haastateltavista uudelleen pian sen jälkeen. Mietimme kyselyn suunnittelua ja toteutusta perusteellisemmin yksikössä 7.

tiedonsyöttövaiheessa

tiedonsyöttövaiheessa on käytettävissä useita tietojen tarkistuspaketteja. Nämä yleensä tarkistaa, että tiedot ovat tietyssä muodossa (format check), että ne ovat käyttäjän määrittämän vaihteluvälin (range check) ja (joskus), että ne ovat yhdenmukaisia-esimerkiksi, että ei ole maitotuotosta urospuolisten nautojen! He eivät voi kertoa, jos joitakin tietoja on jäänyt pois, eivätkä he voi havaita virheitä hyväksytyllä alueella. Nämä voidaan poistaa vain silmämääräisellä tarkastuksella (eli oikoluvulla) tai (paremmin) käyttämällä kaksinkertaista tiedonsyöttöä. Tällä menetelmällä kaksi tiedonsyöttöoperaattoria syöttää tiedot itsenäisesti, ja näitä kahta tiedostoa verrataan tietokoneohjelmalla. Tämäkään menetelmä ei välttämättä havaitse virheitä, jotka johtuvat huolimattomasti kirjoitettujen numeroiden (esimerkiksi 6 ja 0) vääränlaisesta tulkinnasta.

tietojen analysointivaiheessa

  • poikkeamien havaitseminen ja hylkääminen

    viimeinen mahdollisuus välttää virheet tiedoissa on analysointivaiheessa-yleensä poistamalla “poikkeamat”. Poikkeamat ovat pisteitä, jotka eivät noudata yleiskuvaa, olipa kyse tietojesi taajuusjakaumasta tai sen suhteesta toiseen muuttujaan. Poikkeavammat hylkäystekniikat olettavat, että epätodennäköiset arvot ovat virheellisiä, ja jättävät ne pois analyysistä. Näin voi olla, mutta jos näin on, se heijastaa epäonnistuminen tietojen validointiprosessin havaita virheen aiemmin!

    keskeinen ongelma poikkeavien havaintojen hylkäämisessä on se, että kaikki tietokokonaisuudet sisältävät muutamia “parittomia” tuloksia. Tämä on täysin normaalia. Vaikeinta on havaita, mitkä ovat aitoja virheitä ja mitkä vain outoja datapisteitä. Tämä on erityisen vaarallista, koska se perustuu odotuksiisi siitä, mikä on “kohtuullista”. On paljon parempi tunnistaa poikkeamat, kun niitä syntyy. Sitten sinulla on mahdollisuus saada selville, miksi juuri tuo kohta on poikkeava. Suurin puolueellisuuden lähde missään tutkimuksessa ovat tutkijan odotukset. Jos siis jokin havainto ei ole selvä virhe, on mitä epäviisainta poistaa se! Kuten tulemme näkemään, jotkin ‘epänormaalit’ havainnot ovat normaaleja, ja saatat oppia enemmän ymmärtämällä, miksi jotkin kohdat ovat poikkeavia, kuin katsomalla vain ‘normaaleja’ datapisteitä! Toinen ongelma automaattisessa poikkeamien hylkäämisessä on se, että sitä on hyvin vaikea sallia myöhemmissä tilastollisissa analyyseissä – poistamalla äärimmäisimmät havainnot vähennät keinotekoisesti otosvaihtelua.

  • Trimmatut keinot ja järeät estimaattorit

    jos on poistettava muutama äärihavainto, on vinouman riskiä vähennettävä mahdollisimman paljon. Tätä varten kehitettiin tilastoluokka, jota kutsutaan vankkarakenteisiksi estimaattoreiksi. Vankan tilaston idea on, että kun kaikki on hyvin, se käyttäytyy lähes yhtä hyvin kuin tavallisemmat tilastot – mutta kun sen oletuksista tingitään, se käyttäytyy edelleen enemmän tai vähemmän kohtuullisesti.

    pitääkseen paikkansa, luotettavimmat estimaattorit olettavat, että kyseessä on kohtuullisen hajautettu havaintojoukko, jonka saastuttamia ovat pienet määrät paljon vaihtelevampia tuloksia. Laadituista tilastoista yksinkertaisimpia selitettäviä ovat “Trimmatut” keinot.

    vaikka joukko trimmattuja keinoja on keksitty, niistä suosituin varmistaa saman määrän harvinaisen suuria ja harvinaisen pieniä havaintoja poistuvan. Toisin sanoen keskiarvo saadaan symmetrisesti leikatusta näytteestä. Typistysaste ilmaistaan yleensä sillä, mikä osuus (tai prosentti) äärimmäisimmistä havainnoista on poistettu mediaanin kummaltakin puolelta. Tavallinen aritmeettinen keskiarvo on siis nolla (0%) Trimmattu keskiarvo. Toisessa ääripäässä mediaani on 0,5 (50%) Trimmattu keskiarvo.

    vaikka luotettavien estimaattorien ominaisuudet tunnetaan melko hyvin, ne ovat edelleen suhteellisen harvinaisia – osittain siksi, että sopivia kaavoja ei ole helposti saatavilla, vaikka niitä arvioidaan yhä enemmän simulaatiolla.

    kuten edellä todettiin, mediaani on äärimmäisin Trimmattu keskiarvo. Yleensä, Jos sinulla on tietoja, joissa et luota ääriarvoihin, on helpompaa ja läpinäkyvämpää käyttää mediaaneja. Vaikka mediaanien testit ovat heikompia kuin keinojen testit, niitä on saatavilla hyvä määrä – ja kohtuullisen suurten näytteiden osalta niiden kaavat ovat suhteellisen yksinkertaisia. Mietimme, miten vertaamme mediaaneja yksikössä 10.

Aiheeseen liittyvät aiheet :

Leave a Reply