데이터 검증
데이터 검증이란 무엇입니까?
데이터 검증의 목적은 수집 된 데이터가 가능한 한 정확한지 확인하고 데이터 처리 중에 발생하는 오류를 포함하여 인적 및 계측기 오류를 최소화하는 것입니다. 데이터 검증은 데이터 수집 단계에서 시작하여 데이터 입력 및 분석 중에 계속 진행되는 프로세스입니다.
주의! 일부 당국은”데이터 검증”및”데이터 검증”이라는 용어를 훨씬 더 좁게 사용합니다. 데이터 유효성 검사는 데이터가 합리적이고 합리적이라는 자동 컴퓨터 검사를 참조하고 입력 된 데이터가 원본 소스와 정확히 일치하는지 확인하기위한 검사를 참조하는”데이터 검증”을 의미합니다. 이러한 정의에서 어느 용어도 데이터가 실제로 측정해야하는지(유효성의 일반적인 정의)
- 를 나타내지 않습니다.
합의 된 용어의 부족은 데이터 분석의 이러한 두 가지 매우 중요한 측면에 관심이 거의없는 이유를 설명 할 수 있습니다!
데이터 수집 단계에서
데이터 수집 단계에서 그것은 아마 당신의 장비의 정확성에 대해 가능한 한 적은 가정을하는 것이 가장 좋습니다,또는 그 문제에 대한 판독을 복용 인간. 일반적인 문제로는 샘플의 라벨링 오류,샘플의 보관 및 운송 불량,잘못된 교정 및 기기 오류로 인한 잘못된 카운트가 있습니다.
관찰자 편향도 일반적입니다-한 가지 예는(예를 들어)대변 도말에서 높은 수의 알을 포함하는 샘플 세트가 숫자가 낮더라도 지나치게 높은 카운트가 뒤 따르는 경향이있는 이월 효과입니다. 또 다른 예는 하나의 규모에 표시된 위치 사이의 독서 절반 방법을 추정 특히 짝수 향해 편향이다. 이것은 때때로 숫자 선호 바이어스라고합니다. 그러나 관찰자 편견은 다양한 형태를 취할 수 있습니다-종종 예상치 못한! 적절한 검사를 통해서만 데이터가 가능한 한 정확하다는 것을 확신 할 수 있습니다. 수집 중인 데이터 유형과 일반적인 오류에 대해 잘 알고 있어야 합니다.
설문지를 사용한 데이터 수집은 특히 부정확 할 수 있습니다. 설문지가 다른 언어로 번역 될 때 많은 오류와 편견이 도입됩니다.이 문제를 피할 수있는 유일한 방법은 누군가(독립적 인)가(번역 된)설문지를 역 번역하고 두 설문지를 비교하는 것입니다. 질문지가 구두로 주어지는 경우에 다른 큰 문제는 탐방기자 편견 이다. 수백(또는 수천)의 설문지를 작성한 사람은 특정 질문에 대한 특정 답변을 기대하며 종종 듣기를 멈추고(또는 질문을하지 않음)예상(또는 원하는)답변을 삽입합니다. 이는 인터뷰 대상자 샘플이 잠시 후 독립적 인 인터뷰 대상자에 의해 다시 인터뷰되는 경우에만 감지 할 수 있습니다. 우리는 단위 7 에서 설문지 설계 및 구현을 더 깊이 고려합니다.
데이터 입력 단계에서
데이터 입력 단계에서 여러 데이터 검사 패키지를 사용할 수 있습니다. 이들은 일반적으로 데이터가 지정된 형식(형식 검사)에 있는지 확인하고,사용자가 지정한 값 범위(범위 검사)내에 있으며(때로는)일관성이 있는지 확인합니다(예:수컷 가축에 대한 우유 생산량이 없음! 일부 데이터가 누락 된 경우 그들은 당신을 말할 수 없다,도 그들은 허용 범위 내에서 오류를 감지 할 수 있습니다. 이들은 시각적 검사(즉,교정 읽기)또는 이중 데이터 입력을 사용하여(더 나은)만 제거 할 수 있습니다. 이 방법을 사용하면 두 개의 데이터 입력 연산자가 데이터를 독립적으로 입력하고 두 데이터 파일은 컴퓨터 프로그램을 사용하여 비교됩니다. 이 방법조차도 부주의하게 작성된 숫자(예:6 및 0)를 잘못 읽음으로써 발생하는 오류를 감지하지 못할 수 있습니다.
데이터 분석 단계
-
이상치 탐지 및 거부
데이터의 오류를 피할 수 있는 마지막 기회는 분석 단계에 있으며,일반적으로’이상치’를 제거합니다. 특이치는 데이터의 빈도 분포 또는 다른 변수와의 관계에 관계없이 일반적인 그림을 따르지 않는 점입니다. 특이치 제거 기술은 불가능한 값이 오류라고 가정하고 분석에서 이를 생략합니다. 이 경우,하지만 만약 그렇다면 그것은 이전에 오류를 감지하는 데이터 유효성 검사 프로세스의 실패를 반영 할 수있다!
특이치를 거부하는 중요한 문제는 모든 데이터 세트에 몇 가지’이상한’결과가 포함된다는 것입니다. 이 완전히 정상입니다. 어려운 부분은 진정한 실수이며 이상한 데이터 포인트 인 것을 발견하는 것입니다. 이것은’합리적인’것에 대한 당신의 기대에 의존하기 때문에 특히 위험합니다. 이상치가 발생할 때 이상치를 식별하는 것이 훨씬 좋습니다. 그런 다음 왜 그 특정 점이 이상치인지 알 수있는 기회가 있습니다. 모든 연구에서 편견의 가장 큰 원인은 연구자의 기대입니다. 따라서 관찰이 명확한 오류가 아니라면 그것을 제거하는 것이 가장 현명하지 않습니다! 우리가 볼 수 있듯이,일부’비정상적인’관찰은 정상이며,’정상적인’데이터 포인트 만 보는 것보다 일부 포인트가 이상치 인 이유를 이해함으로써 더 많은 것을 배울 수 있습니다! 자동 이상치 거부의 또 다른 문제는 후속 통계 분석에서 허용하기가 매우 어렵다는 것입니다.
-
다듬어진 평균 및 견고한 추정치
극단적인 관측치를 몇 개 제거해야 한다면 편향의 위험을 최대한 줄여야 한다. 이를 위해 강력한 추정기로 알려진 통계 클래스가 개발되었습니다. 강력한 통계의 아이디어는 모든 것이 잘 될 때,그것은 더 일반적인 통계뿐만 아니라 거의 행동 할 것입니다-하지만 그 가정이 손상 될 때,그것은 더 많거나 적은 합리적으로 행동 할 것입니다.
유효하기 위해,가장 강력한 추정기는 훨씬 더 많은 변수 결과의 작은 비율에 의해 오염 된 합리적으로 분산 된 관측 세트를 다루고 있다고 가정합니다. 고안 된 다양 한 통계의 간단한 설명 하는’손질’수단입니다.
여러 가지 다듬어진 방법이 고안되었지만,그 중 가장 널리 사용되는 방법은 같은 수의 비정상적으로 크고 비정상적으로 작은 관측치가 제거되도록 보장한다. 즉,평균은 대칭으로 트리밍된 샘플로부터 얻어진다. 트리밍의 정도는 일반적으로 가장 극단적 인 관측치의 비율(또는 퍼센트)이 중앙값의 양쪽에서 제거 된 것을 기준으로 표현됩니다. 따라서 일반적인 산술 평균은 0(0%)정돈 된 평균입니다. 다른 극단에서는 중앙값이 0.5(50%)정돈된 평균입니다.
강력한 추정기의 특성은 상당히 잘 이해되어 있지만,그들은 여전히 상대적으로 드문-그들은 점점 시뮬레이션에 의해 평가되고 있지만,적절한 공식은 쉽게 사용할 수 없습니다 부분적으로 있기 때문이다.
위에서 언급했듯이 중앙값은 가장 극단적 인 정돈 된 평균입니다. 일반적으로 극단적인 값을 불신하는 데이터가 있는 경우 중앙값을 사용하는 것이 더 쉽고 투명합니다. 중앙값에 대한 테스트는 평균보다 덜 강력하지만 좋은 숫자를 사용할 수 있으며 합리적으로 큰 샘플의 경우 공식은 비교적 간단합니다. 우리는 단위 10 에서 중앙값을 비교하는 방법을 고려합니다.
관련 항목: |
Leave a Reply