Wie ich meine Datenanalyse-Blogs schreibe von Kathleen E. ’23
Mein lieber Freund und Blogger Kidist A. ’22, Ich schreibe einen Beitrag, um zu beschreiben, wie ich meine Datenanalyse-Blogs schreibe. Also, hier geht’s! Ich habe meine allgemeinen Schritte skizziert und mit meinen alten Posts verlinkt, um Beispiele dafür zu geben, wovon ich spreche.
Identifizieren Sie eine Frage
Ich beginne damit, mir Folgendes zu fragen:
- Welche Geschichte möchte ich erzählen?
- Wie hilft die Datenanalyse, diese Geschichte zu erzählen?
Wenn ich feststecke, versuche ich über mein Leben und die Welt um mich herum nachzudenken. Gibt es Muster, die ich untersuchen möchte, oder Phänomene, die ich quantifizieren möchte?
Hier sind einige Dinge, die ich mir in der Vergangenheit gefragt habe:
- Wie sehen meine Arbeitsmuster aus? Verwirrung, durch die Zahlen
- Wie ist es, ein 20-stöckiges Gebäude 22 Mal zu besteigen? Green Building Challenge
- Wie fühlen sich MIT-Studenten über das neue Wäschesystem unserer Wohnheime? Waschen Sie es! Eine Stimmungsanalyse
Als nächstes frage ich mich, welche Art von Daten zur Beantwortung Ihrer Frage hilfreich wären. Dies bringt uns zum nächsten Schritt:
Sammeln Sie einige Daten
Das Sammeln von Daten kann einfach oder ziemlich mühsam sein. Die Daten könnten bereits vorhanden sein, ordentlich in einer Datenbank zusammengestellt. Wenn die Datenbank öffentlich ist, bin ich mit diesem Schritt fertig! Wenn es privat ist, sende ich im Allgemeinen eine Anfrage an den Eigentümer, um es zu verwenden. Wenn sich die Daten in einer App wie Facebook befinden, suche ich nach Möglichkeiten, einen Datendownload anzufordern. Die Daten könnten auch an einem etwas unpraktischeren Ort vorhanden sein (zum Beispiel im Internet verstreut), und ich müsste sie sammeln.
Wenn die Daten noch nicht vorhanden sind, kann ich mit der Erstellung beginnen. Wenn die Frage, die ich zu beantworten versuche, persönlicher ist, kann ich anfangen, etwas in meinem Leben zu verfolgen, entweder automatisch (wie mit einer Schrittzähluhr) oder manuell (wie die Aufzeichnung, welche Netflix-Shows ich jede Nacht sehe). Oder, wenn die Daten von anderen Personen stammen, könnte ich ein Experiment durchführen oder eine Umfrage senden.
Hier ist ein Flussdiagramm, das ich erstellt habe und das zusammenfasst, wie ich Daten abrufen könnte:
Bereinigen der Daten
Die Daten sind selten zur Analyse bereit. Um es fertig zu machen, muss ich es “reinigen”.
Was bedeutet es, dass die Daten nicht zur Analyse bereit sind? Vielleicht gibt es viele Daten, die sich nicht auf meine Frage beziehen. Möglicherweise werden die Daten wirklich unorganisiert oder inkonsistent dargestellt. Bereinigung könnte bedeuten, die relevante Teilmenge der Daten zu extrahieren, zu organisieren und zu ändern, wie sie dargestellt werden, um eine einfachere Analyse zu ermöglichen.
Zum Beispiel bestanden die Daten in dormspam-the-game (Teil 1) aus einer Liste von Orten, an denen jeder Spieler (in einem virtuellen Versteckspiel) sich verstecken wollte. Es gab jedoch einige Einträge in der Datenbank, die falsch geschrieben waren, was zu Fehlern in meinem Code führte, als versucht wurde, eine Liste von Speicherorten zu durchlaufen. Ich musste diese Einträge durch korrekt geschriebene Versionen des Speicherorts ersetzen.
Machen Sie eine Datenanalyse!
Im Allgemeinen schreibe ich mit Python Skripte, um meine Daten zu analysieren und zu visualisieren. Ich habe einen Teil meines Codes öffentlich auf Github veröffentlicht, damit Sie ihn sich ansehen können. Python ist jedoch nicht die einzige Option. Sie können auch eine Vielzahl anderer Skriptsprachen verwenden, die über hervorragende Analyse- und Visualisierungstools verfügen. Sie können auch ohne Code arbeiten und Tabellenkalkulationsfunktionen verwenden. Nachdem das gesagt wurde, hier ist, wie ich mit Python arbeite:
- Ich benutze gerne Jupyter Notebooks (oder Google Colab Notebooks). Ich mag diese besser als eine rohe Textdatei, weil sie Markdown-Notizen / Dokumentation und Visualisierungen erlauben, neben Ihrem Code ganz gut zu existieren. Wenn ich meine Analysen plane, die Verwendung eines neuen Tools lerne oder auf ein vergangenes Ergebnis verweise, ist es schön, dass ich einfach scrollen kann, um Notizen / Ausgaben / Diagramme in meinem Notizbuch anstelle einer externen Referenz anzuzeigen.
- Ich verlasse mich stark auf Pakete. Ich importiere fast immer Pandas, Numpy und Matplotlib, um meine Daten zu verarbeiten und zu organisieren, grundlegende statistische und mathematische Operationen durchzuführen bzw. grundlegende Visualisierungen vorzunehmen. Projektweise importiere ich auch zusätzliche Pakete, um auf spezielle Modelle und Visualisierungen zuzugreifen, die möglicherweise relevant sind.
- Ich beginne mit dem Laden meiner Daten. Ich kann es lokal aus einer Datei auf meinem Computer laden. Oder ich lade es häufiger in Google Sheets hoch, verwende die Funktion “Im Web veröffentlichen”, um einen Link zu einer CSV-Datei zu generieren, und verwende diesen Link dann, um meine Daten zu laden. Ich bevorzuge die Verwendung von Google Sheets gegenüber einer lokalen Datei, da sie einen schöneren Versionsverlauf und bessere Funktionen für die Zusammenarbeit bietet.
- Als nächstes führe ich einen iterativen Prozess durch, in dem ich eine Hypothese über einen Trend in den Daten aufstelle, eine Analyse durchführe, um die Hypothese zu untersuchen, und dann die Ergebnisse verwende, um weitere Hypothesen zu generieren. Bei wirklich interessanten oder seltsamen Daten kann dieser Prozess eine ganze Weile andauern.
Erstellen Sie einige Diagramme
Während ich die Daten analysiere, besteht eine nützliche Möglichkeit, coole Muster zu erkennen, darin, Visualisierungen zu erstellen. Ich kann dies mit einer Vielzahl von Diagrammen tun. Meine erste Handlung ist oft ziemlich hässlich. Ich kann verschiedene Funktionen in meiner Plotbibliothek verwenden, um die Daten sowohl wissenschaftlich als auch ästhetisch besser hervorzuheben. Beispielsweise kann ich die Farben und die Größe von Datenpunkten, Linien und Balken anpassen, um Trends besser darzustellen. Ich kann die Darstellung der x- und y-Achse ändern, damit das Diagramm sauberer aussieht.
Abgesehen von statischen Plots mache ich gelegentlich gerne animierte Plots (siehe Green Building Challenge und Dormspam-the-game (Teil 1) ). Das Erstellen von Plots ist ein kreativer Prozess, insbesondere beim Erstellen animierter Plots, bei denen Features wie Farbe und Größe einem anderen Zweck dienen können als in einem statischen Plot.
Das Erstellen von Visualisierungen ist mein Lieblingsteil des Prozesses. Ich liebe es, meine künstlerischen und technischen Seiten zusammenzubringen.
ein Diagramm aus meinem ersten Blogbeitrag, das die Anzahl der Schritte zeigt, die ich in meinen ersten Wochen am MIT in Tausenden unternommen habe
Erzähle eine Geschichte
Es ist wichtig darüber nachzudenken, wie meine Datenanalyse und Visualisierungen dazu beitragen können, eine Geschichte über den Trend zu erzählen, den ich untersuche oder das Phänomen, das ich quantifiziere. Ich versuche, Plots so zu erstellen, dass jede Handlung einen neuen Teil der Geschichte zeigt. Ich versuche, ihnen meine Handlungen meine Beiträge so zu ordnen, dass jedes meiner Worte und meine Handlungen zusammen nach und nach eine Geschichte darüber erzählen, was vor sich geht. Wenn ich beispielsweise die Daten aus einem Spiel visualisiert habe, kann ich zuerst die Spielregeln beschreiben, dann beschreiben, wer gewonnen hat, und dann verstehen, wie sich verschiedene Spielerstrategien auf das Ergebnis ausgewirkt haben.
So schreibe ich meine Datenanalyse-Blogs. Ich habe es in 6 Schritte unterteilt, aber wenn Sie eher “rückwärts” als streng Schritt für Schritt denken, kann dies dazu beitragen, dass Ihre Arbeit in den vorherigen Schritten aussagekräftiger wird. Wenn Sie darüber nachdenken, wie Sie die Geschichte überzeugend gestalten können, können Sie bessere Visualisierungen vornehmen. Wenn Sie wissen, welche Visualisierungen Sie möglicherweise vornehmen möchten, können Sie Ihre Datenerfassung besser steuern.
Leave a Reply