verificação de dados
o que é Verificação de dados?
o objetivo da verificação de dados é garantir que os dados coletados sejam tão precisos quanto possível e minimizar erros humanos e de instrumentos – incluindo aqueles que surgem durante o processamento de dados. A verificação de dados é um processo contínuo que deve começar no estágio de coleta de dados e continuar durante a entrada e análise de dados.
esteja ciente! Algumas autoridades usam o termo “validação de dados” e “verificação de dados” de forma muito mais restrita. A validação de dados é feita para se referir a uma verificação automática do computador de que os dados são sensatos e razoáveis, e “verificação de dados” para se referir a uma verificação para garantir que os dados inseridos correspondam exatamente à fonte original. Sob essas definições, nenhum dos Termos se refere a
- se os dados realmente medem o que deveriam (A definição usual de validade)
- se os dados estão livres de erros (verificação por nossa definição).
a falta de termos acordados pode explicar por que há tão pouco interesse nesses dois aspectos vitalmente importantes da análise de dados!
Na fase de coleta de dados
Na fase de coleta de dados, é provavelmente melhor para fazer um pouco de referências como possível sobre a exatidão de seu equipamento, ou para essa matéria, os seres humanos, tendo as leituras. Problemas comuns incluem rotulagem incorreta de amostras, armazenamento e transporte de amostras ruins e contagens errôneas devido a erros de calibração e erro de instrumento.
o viés do observador também é comum – um exemplo é um efeito de transporte onde (por exemplo) um conjunto de amostras contendo altas contagens de ovos em esfregaços fecais tendem a ser seguidas por contagens excessivamente altas, mesmo quando os números são baixos. Outro exemplo é um viés em relação aos números pares, especialmente se alguém estiver estimando uma leitura a meio caminho entre as posições marcadas na escala. Isso às vezes é denominado viés de preferência de dígitos. No entanto, o viés do observador pode assumir muitas formas – muitas vezes bastante inesperadas! Somente por verificação apropriada você pode ter certeza de que os dados são tão precisos quanto possível. A familiaridade com o tipo de dados que você está coletando e os erros comuns são essenciais.
a coleta de dados usando um questionário é especialmente passível de imprecisões. Muitos erros e vieses são introduzidos quando um questionário é traduzido para outro idioma – a única maneira de evitar isso é fazer com que alguém (independente) retraduzir o questionário (traduzido) e comparar os dois questionários. O outro grande problema se o questionário for dado verbalmente é o viés do entrevistador. Alguém que tenha feito centenas (ou milhares) de questionários esperará respostas específicas para certas perguntas e muitas vezes deixará de ouvir (ou mesmo não fará a pergunta) e apenas inserirá a resposta esperada (ou desejada). Isso só pode ser detectado se uma amostra de entrevistados for re-entrevistada pouco depois por entrevistadores independentes. Consideramos o desenho e a implementação do questionário com mais profundidade na Unidade 7.
no estágio de entrada de dados
no estágio de entrada de dados, vários pacotes de verificação de dados estão disponíveis. Estes geralmente verificam se os dados estão em um formato especificado( verificação de formato), que estão dentro de um intervalo de valores especificado pelo Usuário (verificação de intervalo) e (às vezes) que são consistentes-por exemplo, que não há produção de leite para bovinos machos! Eles não podem dizer se alguns dados foram perdidos, nem podem detectar erros dentro do intervalo aceito. Eles só podem ser eliminados por uma verificação visual (ou seja, leitura de provas) ou (melhor) usando entrada dupla de dados. Com este método, dois operadores de entrada de dados inserem os dados de forma independente e os dois arquivos de dados são comparados usando um programa de computador. Mesmo esse método pode não detectar erros decorrentes da leitura incorreta de números escritos descuidadamente (por exemplo, 6 e 0).
Na fase de análise de dados
-
detecção de anexos e rejeição
A última oportunidade para evitar erros em seus dados é a fase de análise, normalmente eliminando ‘outliers’. Outliers são pontos que não seguem o quadro geral, seja em termos de distribuição de frequência de seus dados ou sua relação com outra variável. As técnicas de rejeição Outlier assumem que valores improváveis estão errados e os omitem da análise. Este pode ser o caso, mas se assim for, reflete uma falha do seu processo de validação de dados para detectar o erro mais cedo!
o problema crucial com a rejeição de outliers, é que todos os conjuntos de dados incluem alguns resultados ‘ímpares’. Isso é completamente normal. A parte difícil é identificar quais são erros genuínos e quais são apenas pontos de dados estranhos. Isso é particularmente arriscado, pois depende de suas expectativas sobre o que é “razoável”. É muito melhor identificar outliers à medida que surgem. Então você tem alguma chance de descobrir por que esse ponto específico é um outlier. A maior fonte de viés em qualquer estudo são as expectativas do pesquisador. Então, se uma observação não é um erro claro, é mais imprudente removê-la! Como veremos, algumas observações “anormais” são normais, e você pode aprender mais entendendo por que alguns pontos são outliers, do que apenas olhando para os pontos de dados “normais”! Um outro problema com a rejeição automática de outlier é que é muito difícil permitir isso em qualquer análise estatística subsequente-removendo as observações mais extremas, você está reduzindo artificialmente sua variação de amostra.
-
meios aparados e estimadores robustos
se você deve remover algumas observações extremas, você precisa reduzir o risco de viés, tanto quanto possível. Para permitir isso, uma classe de Estatísticas foi desenvolvida – conhecida como estimadores robustos. A ideia de uma estatística robusta é que, quando tudo estiver bem, ela se comportará quase tão bem quanto estatísticas mais comuns – mas quando suas suposições forem comprometidas, ela continuará a se comportar de maneira mais ou menos razoável.Para ser válido, a maioria dos estimadores robustos assume que você está lidando com um conjunto razoavelmente distribuído de observações, contaminado por uma pequena proporção de resultados muito mais variáveis. Das várias estatísticas que foram elaboradas, as mais simples de explicar são os meios “aparados”.
embora uma série de meios aparados tenham sido concebidos, os mais populares deles garantem que o mesmo número de observações incomumente grandes e incomumente pequenas sejam removidas. Em outras palavras, a média é obtida de uma amostra simetricamente aparada. O grau de corte é geralmente expresso em termos de qual proporção (ou porcentagem) das observações mais extremas foram removidas de cada lado da mediana. Uma média aritmética comum é, portanto, uma média aparada de zero (0%). No outro extremo, a mediana é a média aparada de 0,5 (50%).
embora as propriedades dos estimadores robustos sejam bastante bem compreendidas, elas ainda são relativamente incomuns – em parte porque fórmulas apropriadas não estão prontamente disponíveis, embora estejam sendo cada vez mais avaliadas por simulação.
como observamos acima, uma mediana é a média aparada mais extrema. Geralmente, se você tem dados em que desconfia de valores extremos, é mais fácil e transparente usar medianas. Embora os testes para medianas sejam menos poderosos do que os para meios, um bom número está disponível – e, para amostras razoavelmente grandes, as fórmulas para eles são relativamente diretas. Consideramos como comparar medianas na Unidade 10.
tópicos Relacionados : |
Leave a Reply