Verificación de datos

¿Qué es la verificación de datos?

El propósito de la verificación de datos es garantizar que los datos recopilados sean lo más precisos posible y minimizar los errores humanos e instrumentales, incluidos los que surgen durante el procesamiento de datos. La verificación de datos es un proceso continuo que debe comenzar en la etapa de recopilación de datos y continuar durante la entrada y el análisis de datos.

¡Ten cuidado! Algunas autoridades utilizan los términos “validación de datos” y “verificación de datos” de manera mucho más restringida. La validación de datos se toma para referirse a una comprobación automática por computadora de que los datos son sensibles y razonables, y la “verificación de datos” para referirse a una comprobación para garantizar que los datos ingresados coincidan exactamente con la fuente original. Bajo estas definiciones, ninguno de los términos se refiere a

  1. si los datos realmente miden lo que se supone que deben (la definición habitual de validez)
  2. si los datos están libres de errores (verificación por nuestra definición).

La falta de términos acordados puede explicar por qué hay tan poco interés en estos dos aspectos de vital importancia del análisis de datos.

En la etapa de recopilación de datos

En la etapa de recopilación de datos, probablemente sea mejor hacer el menor número posible de suposiciones sobre la precisión de su equipo, o para el caso de los seres humanos que toman las lecturas. Los problemas comunes incluyen el etiquetado incorrecto de las muestras, el almacenamiento y transporte deficientes de las muestras y los recuentos erróneos debido a la mala calibración y el error del instrumento.

El sesgo del observador también es común – un ejemplo es un efecto de arrastre donde (por ejemplo) un conjunto de muestras que contienen altos recuentos de huevos en frotis fecales tienden a ser seguidos por recuentos excesivamente altos incluso cuando los números son bajos. Otro ejemplo es un sesgo hacia números pares, especialmente si se estima una lectura a mitad de camino entre posiciones marcadas en la escala. Esto a veces se denomina sesgo de preferencia de dígitos. Sin embargo, el sesgo del observador puede tomar muchas formas, ¡a menudo bastante inesperadas! Solo mediante la comprobación adecuada puede estar seguro de que los datos son lo más precisos posible. La familiaridad con el tipo de datos que está recopilando y los errores comunes son esenciales.

La recopilación de datos mediante un cuestionario es especialmente susceptible de inexactitudes. Muchos errores y sesgos se introducen cuando un cuestionario se traduce a otro idioma; la única manera de evitar esto es conseguir que alguien (independiente) traduzca el cuestionario (traducido) y compare los dos cuestionarios. El otro gran problema si el cuestionario se da verbalmente es el sesgo del entrevistador. Alguien que ha hecho cientos (o miles) de cuestionarios esperará respuestas particulares a ciertas preguntas, y a menudo dejará de escuchar (o incluso no hará la pregunta) y simplemente insertará la respuesta esperada (o deseada). Esto solo puede detectarse si una muestra de entrevistados es re-entrevistada poco después por entrevistadores independientes. Consideramos el diseño y la implementación de cuestionarios con mayor profundidad en la Unidad 7.

En la etapa de entrada de datos

En la etapa de entrada de datos, hay varios paquetes de comprobación de datos disponibles. Estos suelen comprobar que los datos están en un formato especificado (comprobación de formato), que se encuentran dentro de un rango de valores especificado por el usuario (comprobación de rango) y (a veces) que son consistentes, por ejemplo, que no hay rendimiento de leche para el ganado macho. No pueden decirle si se han perdido algunos datos, ni pueden detectar errores dentro del rango aceptado. Estos solo se pueden eliminar mediante una comprobación visual (es decir, corrección de pruebas) o (mejor) mediante el uso de doble entrada de datos. Con este método, dos operadores de entrada de datos ingresan los datos de forma independiente, y los dos archivos de datos se comparan mediante un programa informático. Incluso este método puede no detectar errores derivados de la lectura incorrecta de números escritos descuidadamente (por ejemplo, 6 y 0).

En la etapa de análisis de datos

  • Detección y rechazo de valores atípicos

    La última oportunidad de evitar errores en sus datos está en la etapa de análisis, generalmente eliminando los “valores atípicos”. Los valores atípicos son puntos que no siguen la imagen general, ya sea en términos de la distribución de frecuencia de sus datos o su relación con otra variable. Las técnicas de rechazo de valores atípicos asumen que los valores improbables están en error y los omiten del análisis. Este puede ser el caso, pero si es así, refleja un fallo en el proceso de validación de datos para detectar el error antes.

    El problema crucial con el rechazo de valores atípicos, es que todos los conjuntos de datos incluyen algunos resultados “extraños”. Esto es completamente normal. La parte difícil es detectar cuáles son errores genuinos y cuáles son solo puntos de datos extraños. Esto es particularmente arriesgado, ya que depende de sus expectativas de lo que es “razonable”. Es mucho mejor identificar los valores atípicos a medida que surgen. Entonces tienes alguna oportunidad de descubrir por qué ese punto en particular es un valor atípico. La mayor fuente de sesgo en cualquier estudio son las expectativas del investigador. Por lo tanto, si una observación no es un error claro, ¡es muy imprudente eliminarla! Como veremos, algunas observaciones ‘anormales’ son normales, y usted puede aprender más al comprender por qué algunos puntos son valores atípicos, que solo mirando los puntos de datos ‘normales’. Otro problema con el rechazo automático de valores atípicos es que es muy difícil de permitir en cualquier análisis estadístico posterior: al eliminar las observaciones más extremas, está reduciendo artificialmente la variación de la muestra.

  • Medias recortadas y estimadores robustos

    Si debe eliminar algunas observaciones extremas, debe reducir el riesgo de sesgo tanto como sea posible. Para permitir esto, se desarrolló una clase de estadísticas, conocidas como estimadores robustos. La idea de una estadística sólida es que, cuando todo está bien, se comportará casi tan bien como las estadísticas más ordinarias, pero cuando sus suposiciones se vean comprometidas, continuará comportándose de manera más o menos razonable.

    Para ser válidos, la mayoría de los estimadores robustos asumen que se trata de un conjunto de observaciones razonablemente distribuidas, contaminadas por una pequeña proporción de resultados mucho más variables. De las diversas estadísticas que se han ideado, las más sencillas de explicar son los medios “recortados”.

    Aunque se han ideado varios medios recortados, los más populares de ellos aseguran que se elimine el mismo número de observaciones inusualmente grandes y inusualmente pequeñas. En otras palabras, la media se obtiene de una muestra recortada simétricamente. El grado de recorte se expresa generalmente en términos de qué proporción (o porcentaje) de las observaciones más extremas se han eliminado a cada lado de la mediana. Una media aritmética ordinaria es, por lo tanto, una media recortada de cero (0%). En el otro extremo, la mediana es la media recortada de 0,5 (50%).

    Aunque las propiedades de los estimadores robustos se conocen bastante bien, todavía son relativamente poco comunes, en parte porque no se dispone de fórmulas adecuadas, aunque se evalúan cada vez más mediante simulación.

    Como señalamos anteriormente, una mediana es la media recortada más extrema. En general, si tiene datos en los que desconfía de los valores extremos, es más fácil y transparente usar medianas. Aunque las pruebas para medianas son menos potentes que las de medios, hay un buen número disponible y, para muestras razonablemente grandes, las fórmulas para ellas son relativamente sencillas. Consideramos cómo comparar medianas en la Unidad 10.

temas Relacionados :

Leave a Reply