データ検証
データ検証とは何ですか?
データ検証の目的は、収集されたデータが可能な限り正確であることを確認し、データ処理中に発生するものを含め、人的および機器のエラーを最小限に抑 データ検証は、データ収集段階から開始し、データの入力と分析中に継続する進行中のプロセスです。
気をつけろ! 一部の当局は、”データ検証”と”データ検証”という用語をはるかに狭義に使用しています。 データ検証は、データが賢明かつ合理的であることを自動コンピュータチェックを参照するために取られ、”データ検証”は、入力されたデータが元のソースと正確に一致していることを確認するためのチェックを参照するために取られます。 これらの定義の下では、
- データが実際に想定されていることを測定するかどうか(通常の妥当性の定義)
- データにエラーがないかどうか(私たちの定義によ
合意された用語の欠如は、データ分析のこれら二つの極めて重要な側面にあまり関心がない理由を説明するかもしれません!
データ収集の段階で
データ収集の段階では、おそらくあなたの機器の正確さ、またはそのことについては人間が測定値を取ることについてできるだけ少な 一般的な問題には、サンプルのラベルの誤表示、サンプルの保管と輸送の不良、校正ミスと機器のエラーによる誤ったカウントなどがあります。
観察者バイアスも一般的です-一例は、(例えば)糞便塗抹標本中の卵の数が多いサンプルのセットは、数が低い場合でも過度に高いカウントが続く傾向 別の例は、特にスケール上のマークされた位置の間の読み取りの半分の方法を推定している場合、偶数に対するバイアスです。 これは、数字優先バイアスと呼ばれることもあります。 しかし、オブザーバーバイアスは多くの形を取ることができます-多くの場合、非常に予期しない! 適切なチェックによってのみ、データが可能な限り正確であることを確認することができます。 収集しているデータの種類と一般的なエラーに精通していることは、どちらも不可欠です。
アンケートを使用したデータ収集は、特に不正確な責任があります。 アンケートが別の言語に翻訳されたときに多くのエラーと偏見が導入されます-これを回避する唯一の方法は、誰かが(独立した)(翻訳された)アンケートをバックトランスレーションし、二つのアンケートを比較することです。 アンケートが口頭で与えられた場合のもう一つの大きな問題は、面接者のバイアスです。 アンケートの数百(または数千)を行っている人は、特定の質問への特定の回答を期待し、多くの場合、リスニングを停止します(あるいは質問をしない)と これは、面接者のサンプルが独立した面接者によってその後すぐに再面接された場合にのみ検出できます。 アンケートの設計と実施については、ユニット7でより深く検討しています。
データ入力段階で
データ入力段階では、多数のデータチェックパッケージが利用可能です。 これらは、一般的に、データが指定された形式であること(フォーマットチェック)、ユーザーが指定した値の範囲内にあること(範囲チェック)、および(時には)一貫していること(例えば、雄牛の乳収量がないこと)をチェックする。 一部のデータが欠落しているかどうかを伝えることはできませんし、受け入れられた範囲内のエラーを検出することもできません。 これらは、視覚的なチェック(つまり、校正読み取り)または二重データ入力を使用して(より良い)によってのみ排除できます。 この方法では,二つのデータ入力演算子が独立してデータを入力し,二つのデータファイルをコンピュータプログラムを用いて比較する。 この方法であっても、不注意に書かれた数字(例えば6と0)の誤読に起因するエラーを検出できない場合があります。
データ解析の段階では
-
外れ値の検出と拒否
データのエラーを回避する最後の機会は、分析段階であり、通常は”外れ値”を排除することです。 外れ値とは、データの頻度分布や別の変数との関係など、一般的なイメージに従わないポイントです。 外れ値の除去手法では、ありそうもない値に誤りがあると仮定し、分析から除外します。 これは当てはまるかもしれませんが、そうであれば、以前にエラーを検出するためのデータ検証プロセスの失敗を反映しています!
外れ値を拒否する際の重要な問題は、すべてのデータセットにいくつかの”奇妙な”結果が含まれていることです。 これは完全に正常です。 難しい部分は、本物の間違いであり、ちょうど奇妙なデータポイントであるスポッティングです。 それは”合理的”であるもののあなたの期待に依存しているように、これは、特に危険です。 外れ値が発生したときには、外れ値を識別する方がはるかに優れています。 次に、その特定のポイントが外れ値である理由を見つける可能性があります。 どの研究でもバイアスの最大の原因は研究者の期待です。 したがって、観測が明確なエラーでない場合は、それを削除するのが最も賢明ではありません! 私たちが見るように、いくつかの”異常な”観測は正常であり、”正常な”データポイントだけを見るよりも、いくつかの点が外れ値である理由を理解することに 自動外れ値除去のさらなる問題は、その後の統計分析でそれを可能にすることが非常に困難であることです-最も極端な観測値を削除することによ
-
トリムされた平均とロバスト推定量
いくつかの極端な観測値を削除する必要がある場合は、バイアスのリスクをできるだけ減らす必要があります。 これを可能にするために、ロバスト推定量として知られる統計のクラスが開発されました。 堅牢な統計の考え方は、すべてがうまくいくと、通常の統計とほぼ同じように動作しますが、その仮定が損なわれると、多かれ少なかれ合理的に動作し
有効であるために、ほとんどのロバスト推定量は、より多くの可変結果のわずかな割合で汚染された合理的に分布した一連の観測値を扱っていると仮定しています。 考案された様々な統計のうち、説明するのが最も簡単なのは”トリミングされた”手段です。
いくつかのトリミングされた手段が考案されていますが、最も人気のあるものは、同じ数の異常に大きく、異常に小さい観測が削除されることを確 言い換えると、平均は対称的にトリミングされたサンプルから得られます。 トリミングの程度は、通常、最も極端な観測値のどの割合(またはパーセント)が中央値のいずれかの側で削除されたかという点で表されます。 したがって、通常の算術平均はゼロ(0%)トリム平均です。 他の極端では、中央値は0.5(50%)トリミング平均です。
ロバスト推定量の特性はかなりよく理解されていますが、シミュレーションによってますます評価されているにもかかわらず、適切な式が容易に
上で述べたように、中央値は最も極端なトリミング平均です。 一般的に、極端な値を信頼しないデータがある場合は、中央値を使用する方が簡単で透明性が高くなります。 中央値の検定は平均の検定よりも強力ではありませんが、かなりの数が利用可能であり、かなり大きなサンプルの場合、それらの公式は比較的簡単です。 ユニット10の中央値を比較する方法を検討します。
関連トピック: |
Leave a Reply