Verifica dei dati
Cos’è la verifica dei dati?
Lo scopo della verifica dei dati è garantire che i dati raccolti siano il più accurati possibile e ridurre al minimo gli errori umani e strumentali, compresi quelli che si verificano durante l’elaborazione dei dati. La verifica dei dati è un processo in corso che dovrebbe iniziare nella fase di raccolta dei dati e continuare durante l’immissione e l’analisi dei dati.
Attenzione! Alcune autorità usano il termine “convalida dei dati” e “verifica dei dati” in modo molto più ristretto. La convalida dei dati è presa per fare riferimento a un controllo automatico del computer che i dati sono ragionevoli e ragionevoli, e “verifica dei dati” per fare riferimento a un controllo per garantire che i dati inseriti corrispondano esattamente alla fonte originale. Sotto queste definizioni nessuno dei due termini si riferisce a
- se i dati misurano effettivamente ciò che dovrebbero (la solita definizione di validità)
- se i dati sono privi di errori (verifica secondo la nostra definizione).
La mancanza di termini concordati può spiegare perché c’è così poco interesse per questi due aspetti di vitale importanza dell’analisi dei dati!
Nella fase di raccolta dei dati
Nella fase di raccolta dei dati è probabilmente meglio fare il minor numero possibile di ipotesi sulla precisione della vostra attrezzatura, o per quella materia gli esseri umani che prendono le letture. I problemi più comuni includono l’errata etichettatura dei campioni, la scarsa conservazione e il trasporto dei campioni e conteggi errati a causa di errori di calibratura e errore dello strumento.
Anche il bias dell’osservatore è comune – un esempio è un effetto di riporto in cui (ad esempio) un insieme di campioni contenenti un numero elevato di uova negli strisci fecali tende ad essere seguito da un numero eccessivamente alto anche quando i numeri sono bassi. Un altro esempio è un pregiudizio verso i numeri pari, specialmente se si stima una lettura a metà strada tra le posizioni contrassegnate sulla scala. Questo è a volte chiamato bias preferenza cifra. Tuttavia, il pregiudizio dell’osservatore può assumere molte forme, spesso del tutto inaspettate! Solo con un controllo appropriato si può essere certi che i dati siano il più accurati possibile. La familiarità con il tipo di dati che si stanno raccogliendo, e gli errori più comuni, sono entrambi essenziali.
La raccolta di dati mediante un questionario è particolarmente suscettibile di imprecisioni. Molti errori e pregiudizi vengono introdotti quando un questionario viene tradotto in un’altra lingua – l’unico modo per evitarlo è convincere qualcuno (indipendente) a ritrasformare il questionario (tradotto) e confrontare i due questionari. L’altro grande problema se il questionario è dato verbalmente è bias intervistatore. Qualcuno che ha fatto centinaia (o migliaia) di questionari si aspetta risposte particolari a determinate domande, e spesso smettere di ascoltare (o addirittura non fare la domanda) e basta inserire la risposta prevista (o desiderata). Questo può essere rilevato solo se un campione di intervistati viene nuovamente intervistato poco dopo da intervistatori indipendenti. Consideriamo la progettazione e l’implementazione del questionario in modo più approfondito nell’unità 7.
Nella fase di immissione dei dati
Nella fase di immissione dei dati sono disponibili diversi pacchetti di controllo dei dati. Questi controllano comunemente che i dati siano in un formato specificato (controllo formato), che si trovino all’interno di un intervallo di valori specificato dall’utente (controllo intervallo) e (a volte) che siano coerenti-ad esempio, che non vi sia alcuna produzione di latte per i bovini maschi! Non possono dirti se alcuni dati sono stati persi, né possono rilevare errori all’interno dell’intervallo accettato. Questi possono essere eliminati solo da un controllo visivo (che è la correzione di bozze) o (meglio) utilizzando la doppia immissione di dati. Con questo metodo due operatori di immissione dati inseriscono i dati in modo indipendente e i due file di dati vengono confrontati utilizzando un programma informatico. Anche questo metodo non può rilevare errori derivanti da una lettura errata di numeri incautamente scritti (ad esempio 6 e 0).
Nella fase di analisi dei dati
-
Rilevamento e rifiuto dei valori anomali
L’ultima opportunità per evitare errori nei dati è in fase di analisi, in genere eliminando i valori anomali. I valori anomali sono punti che non seguono il quadro generale, sia in termini di distribuzione di frequenza dei dati o della sua relazione con un’altra variabile. Le tecniche di rifiuto anomalo presuppongono che i valori improbabili siano in errore e li omettono dall’analisi. Questo può essere il caso, ma in tal caso riflette un errore del processo di convalida dei dati per rilevare l’errore in precedenza!
Il problema cruciale con il rifiuto dei valori anomali è che tutti i set di dati includono alcuni risultati “dispari”. Questo è del tutto normale. La parte difficile è individuare quali sono errori autentici e quali sono solo punti dati dispari. Questo è particolarmente rischioso, in quanto si basa sulle vostre aspettative di ciò che è ‘ragionevole’. È molto meglio identificare i valori anomali man mano che si presentano. Allora hai qualche possibilità di scoprire perché quel particolare punto è un outlier. La più grande fonte di pregiudizi in qualsiasi studio sono le aspettative del ricercatore. Quindi, se un’osservazione non è un chiaro errore, non è saggio rimuoverla! Come vedremo, alcune osservazioni “anormali” sono normali, e potresti imparare di più capendo perché alcuni punti sono valori anomali, piuttosto che guardando solo i punti di dati “normali”! Un ulteriore problema con il rifiuto automatico dell’outlier è che è molto difficile consentirlo in qualsiasi analisi statistica successiva: rimuovendo le osservazioni più estreme, si riduce artificialmente la variazione del campione.
-
Mezzi tagliati e stimatori robusti
Se è necessario rimuovere alcune osservazioni estreme, è necessario ridurre il rischio di bias il più possibile. Per consentire ciò, è stata sviluppata una classe di statistiche, note come stimatori robusti. L’idea di una statistica robusta è che, quando tutto va bene, si comporterà quasi come le statistiche più ordinarie – ma quando le sue ipotesi sono compromesse, continuerà a comportarsi più o meno ragionevolmente.
Per essere validi, la maggior parte degli stimatori robusti presuppone che si abbia a che fare con un insieme ragionevolmente distribuito di osservazioni, contaminato da una piccola percentuale di risultati molto più variabili. Tra le varie statistiche che sono state elaborate, le più semplici da spiegare sono i mezzi “tagliati”.
Sebbene siano stati ideati un certo numero di mezzi tagliati, il più popolare di essi garantisce la rimozione dello stesso numero di osservazioni insolitamente grandi e insolitamente piccole. In altre parole, la media è ottenuta da un campione ritagliato simmetricamente. Il grado di taglio è solitamente espresso in termini di quale proporzione (o percentuale) delle osservazioni più estreme è stata rimossa da entrambi i lati della mediana. Una media aritmetica ordinaria è quindi una media ridotta di zero (0%). All’altro estremo, la mediana è la media tagliata di 0,5 (50%).
Sebbene le proprietà di stimatori robusti siano abbastanza ben comprese, sono ancora relativamente rare – in parte perché non sono prontamente disponibili formule appropriate, sebbene vengano sempre più valutate mediante simulazione.
Come abbiamo notato sopra, una mediana è la media tagliata più estrema. In generale, se si dispone di dati in cui si diffida dei valori estremi, è più facile e più trasparente utilizzare le mediane. Sebbene i test per le mediane siano meno potenti di quelli per i mezzi, sono disponibili un buon numero e, per campioni ragionevolmente grandi, le formule per loro sono relativamente semplici. Consideriamo come confrontare le mediane nell’Unità 10.
Argomenti correlati: |
Leave a Reply