データ分析ブログの書き方By Kathleen E.’23

私の親愛なる友人であり、仲間のブロガー Kidist A.’22は、データ分析ブログの書き方を説明するための投稿を書くように要求しました。 だから、ここに行く! 私は私の一般的な手順を概説し、私が話していることの例を与えるために私の古い投稿にリンクしました。

質問を特定する

思考する女の子のイラスト

私は自分自身に次のことを尋ねることから始めます:

  • 私は何の話をしたいですか?
  • データ分析はどのようにその物語を伝えるのに役立ちますか?

私が立ち往生している場合、私は私の人生と私の周りの世界について考えてみてください。 調査したいパターンや定量化したい現象はありますか?

ここで私は過去に自分自身に尋ねたいくつかのことがあります:

  • 私の仕事のパターンはどのように見えますか? 混乱、数字で
  • 20階建ての建物を22回登るのはどうですか? Green Building Challenge
  • MITの学生は、寮の新しい洗濯システムについてどのように感じていますか? ウォシュラヴァ! 感情分析

次に、私はあなたの質問に答えるのに役立つデータの種類を自分自身に尋ねます。 これにより、次のステップに進みます。

データの収集

データの収集は簡単でも面倒でもあります。 データはすでに存在し、データベースにきちんとコンパイルされている可能性があります。 データベースが公開されている場合、私はこのステップで完了です! それがプライベートの場合、私は一般的にそれを使用するために所有者に要求を送信します。 データがFacebookのようなアプリ内にある場合、データのダウンロードを要求できる方法を探します。 データはもう少し不便な場所に存在する可能性があります(たとえば、webの周りに散在しています)、それを収集する必要があります。

データがまだ存在しない場合は、作成を開始できます。 私が答えようとしている質問がより個人的なものであれば、私は自動的に(ステップカウントウォッチのように)または手動で(Netflixが毎晩見ている または、データが他の人に関するものであれば、実験を行ったり、調査を送信したりすることができます。

ここでは、データを取得する方法を要約したフローチャートを作成しました:

データセットを取得する方法を示すフローチャート

データのクリーンアップ

クリーニングと編集用品

データが分析する準備ができていることはほと それを準備するために、私はそれを”きれいにする”必要があります。

データが分析する準備ができていないとはどういう意味ですか? 私の質問に関係のないデータがたくさんあるかもしれません。 たぶん、データは本当に混乱した、または矛盾した方法で表現されています。 クリーニングとは、データの関連するサブセットを抽出し、それを整理し、より簡単な分析のために表現方法を変更することを意味する可能性があります。

例えば、dormspam-the-game(Part1)では、データは(かくれんぼの仮想ゲームで)各プレイヤーがかくれんぼを選択した場所のリストで構成されていました。 しかし、データベースにはスペルミスのエントリがいくつかあり、場所のリストを反復しようとしたときにコードにエラーが発生しました。 私はそれらのエントリを正確に綴られた場所のバージョンに置き換えなければなりませんでした。

いくつかのデータ分析を行います!

私は一般的にPythonを使用して、データを分析して視覚化するスクリプトを作成します。 私は自分のコードのいくつかをGithubに公開しているので、あなたはそれを見てみることができます。 しかし、Pythonだけが唯一の選択肢ではありません。 また、優れた分析および視覚化ツールを備えた他のさまざまなスクリプト言語を使用することもできます。 また、コードなしでスプレッドシート関数を使用することもできます。 そうは言っても、私がPythonでどのように動作するかは次のとおりです:

  • 私はJupyter Notebooks(またはGoogle Colab notebooks)を使うのが好きです。 私は、markdown notes/documentationとvisualizationsがコードと一緒に非常にうまく存在することを可能にするので、生のテキストファイルよりもこれらの方が好きです。 分析を計画したり、新しいツールを使用することを学んだり、過去の結果を参照したりする場合は、外部参照ではなく、ノートブック内のnotes/output/plotsを見てスク
  • 私はパッケージに大きく依存しています。 私はほとんどの場合、データの処理と整理、基本的な統計演算と数学演算、および基本的な視覚化をそれぞれ行うために、Pandas、Numpy、およびMatplotlibをインポートします。 プロジェクトごとに、関連する可能性のある特別なモデルや視覚化にアクセスするための追加のパッケージもインポートします。
  • データをロードすることから始めます。 私は自分のコンピュータ上のファイルからローカルにロードすることができます。 または、より多くの場合、Google Sheetsにアップロードし、「webに公開」機能を使用してCSVへのリンクを生成し、そのリンクを使用してデータをロードすることです。 私はそれがより良いバージョン履歴とコラボレーション機能を持っているので、ローカルファイルの上にgoogle
  • 次に、データの傾向について仮説を立て、仮説を調査するための分析を行い、その結果を使用してより多くの仮説を生成する反復プロセスに従事します。 本当に興味深いまたは奇妙なデータでは、このプロセスはかなり長い間続くことができます。

反復プロセス

いくつかのプロットを作成する

データを分析するとき、クールなパターンを見つける便利な方法の1つは視覚化を行うことです。 私は様々なグラフでこれを行うことができます。 私の最初のプロットは、多くの場合、非常に醜いです。 プロットライブラリ内のさまざまな関数を使用して、科学的にも審美的にも、データをよりよく強調表示することができます。 たとえば、データポイント、ライン、バーの色とサイズを調整して、傾向をよりよく示すことができます。 プロットをよりきれいに見せるために、x軸とy軸の表現方法を変更できます。

静的なプロットを作ることは別として、私は時折プロットをアニメーション化するのが好きです(Green Building Challengeとdormspam-the-game(Part1)を参照)。 特に、色やサイズなどのフィーチャが静的プロットとは異なる目的を果たすアニメーションを作成する場合は、プロットを作成することは創造的なプ

視覚化を作ることは、プロセスの私のお気に入りの部分です。 私は私の芸術的および工学的側面が一緒に来ることが大好きです。

棒グラフ

MITでの最初の数週間で、何千ものステップ数を示した私の最初のブログ記事のプロット

物語を伝える

私のデータ分析と視覚化が、私が調査している傾向や定量化している現象についての物語を伝えることにどのように貢献できるかを考えることが重要です。 私は、各プロットが物語の新しい部分を示すことを可能にする方法でプロットを作成しようとします。 私は彼らに私のプロットを注文しようとします私の言葉と私のプロットが一緒に徐々に何が起こっているかについての物語を伝える方法で私の たとえば、ゲームのデータを視覚化したときに、まずゲームのルールを説明し、次に誰が勝ったかを説明し、次にさまざまなプレイヤー戦略が結果にどのように影

だから、それは私が私のデータ分析のブログを書くことについて行く方法はほとんどです。 私はそれを6つのステップに分けましたが、厳密にステップバイステップではなく”後方に”考えることは、前のステップでの作業をより意味のある ストーリーを説得力のあるものにする方法を考えると、より良い視覚化を行うことができます。 どのビジュアライゼーションを作成したいかがわかっている場合は、データ収集をより適切に行うことができます。

Leave a Reply