Come scrivo i miei blog di analisi dei dati di Kathleen E. ’23

Il mio caro amico e collega blogger Kidist A. ’22 ha richiesto di scrivere un post per descrivere come scrivo i miei blog di analisi dei dati. Così, qui va! Ho delineato i miei passi generali e collegato ai miei vecchi post per fornire esempi di ciò di cui sto parlando.

Identifica una domanda

 illustrazione di una ragazza che pensa

Comincio chiedendomi quanto segue:

  • Che storia voglio raccontare?
  • In che modo l’analisi dei dati aiuta a raccontare questa storia?

Se sono bloccato, cerco di pensare alla mia vita e al mondo che mi circonda. Ci sono schemi che vorrei indagare o fenomeni che vorrei quantificare?

Ecco alcune cose che mi sono chiesto in passato:

  • Che aspetto hanno i miei schemi di lavoro? Confusione, dai numeri
  • Com’è scalare un edificio di 20 piani 22 volte? Green Building Challenge
  • Come si sentono gli studenti del MIT riguardo al nuovo sistema di lavanderia dei nostri dormitori? Washlava! A Sentiment Analysis

Successivamente, mi chiedo quale tipo di dati sarebbe utile per rispondere alla tua domanda. Questo ci porta al passo successivo:

Raccogliere alcuni dati

La raccolta dei dati può essere semplice o piuttosto noiosa. I dati potrebbero esistere già, compilati ordinatamente in un database. Se il database è pubblico, ho finito con questo passaggio! Se è privato, generalmente invio una richiesta al proprietario per utilizzarlo. Se i dati sono all’interno di un’app come Facebook, cerco modi attraverso i quali posso richiedere un download di dati. I dati potrebbero anche esistere da qualche parte un po ‘ più scomodi (sparsi per il web, ad esempio) e dovrei andare a raccoglierli.

Se i dati non esistono ancora, posso iniziare a crearli. Se la domanda a cui sto cercando di rispondere è più personale, posso iniziare a tracciare qualcosa nella mia vita, automaticamente (come con un orologio di conteggio dei passi) o manualmente (come registrare ciò che Netflix mostra che guardo ogni notte). Oppure, se i dati riguardano altre persone, potrei condurre un esperimento o inviare un sondaggio.

Ecco un diagramma di flusso che ho creato che riassume come potrei ottenere i dati:

diagramma di flusso che mostra come ottenere un set di dati

Pulire i dati

pulizia e modifica forniture

I dati raramente vengono pronti per l’analisi. Per prepararlo, ho bisogno di” pulirlo”.

Cosa significa che i dati non sono pronti per l’analisi? Forse ci sono molti dati che non riguardano la mia domanda. Forse i dati sono rappresentati in modo davvero disorganizzato o incoerente. La pulizia potrebbe significare estrarre il sottoinsieme pertinente dei dati, organizzarlo e modificare il modo in cui viene rappresentato per un’analisi più semplice.

Ad esempio, in dormspam-the-game (Parte 1) i dati consistevano in un elenco di luoghi in cui ogni giocatore (in un gioco virtuale di nascondino) ha scelto di nascondersi e cercare. Tuttavia, c’erano alcune voci nel database che erano errate, causando errori nel mio codice mentre tentava di iterare su un elenco di posizioni. Ho dovuto sostituire quelle voci con versioni correttamente scritte della posizione.

Fai un po ‘ di analisi dei dati!

Generalmente uso Python per scrivere script per analizzare e visualizzare i miei dati. Ho messo un po ‘ del mio codice pubblicamente su Github, quindi puoi dare un’occhiata. Tuttavia, Python non è l’unica opzione. È inoltre possibile utilizzare una varietà di altri linguaggi di scripting che hanno grandi strumenti di analisi e visualizzazione. Si può anche andare senza codice e utilizzare le funzioni di foglio di calcolo. Detto questo, ecco come lavoro con Python:

  • Mi piace usare Jupyter Notebook (o Google Colab notebook). Mi piacciono meglio di un file di testo non elaborato perché consentono note/documentazione e visualizzazioni di markdown di esistere insieme al codice abbastanza bene. Se sto pianificando le mie analisi, imparando a usare un nuovo strumento o facendo riferimento a un risultato passato, è bello che posso semplicemente scorrere per guardare note/output/grafici all’interno del mio notebook invece di qualche riferimento esterno.
  • Faccio molto affidamento sui pacchetti. Ho quasi sempre importare Panda, Numpy, e Matplotlib per la gestione e l’organizzazione dei miei dati, facendo operazioni statistiche e matematiche di base, e fare visualizzazioni di base, rispettivamente. Progetto per progetto, importa anche pacchetti aggiuntivi per accedere a modelli e visualizzazioni speciali che potrebbero essere rilevanti.
  • Inizio caricando i miei dati. Posso caricarlo localmente da un file sul mio computer. Oppure, più spesso, quello che faccio è caricarlo su fogli Google, utilizzare la funzione “pubblica sul Web” per generare un link a un CSV e quindi utilizzare quel link per caricare i miei dati. Preferisco usare Google Sheets su un file locale perché ha una cronologia delle versioni e funzioni di collaborazione più belle.
  • Successivamente, mi impegno in un processo iterativo in cui ipotizzo una tendenza nei dati, faccio un’analisi per indagare l’ipotesi e quindi uso i risultati per generare più ipotesi. Con dati davvero interessanti o dispari, questo processo può andare avanti per un bel po’.

processo iterativo

Crea alcuni grafici

Mentre analizzo i dati, un modo utile per individuare modelli interessanti è creare visualizzazioni. Posso farlo con una varietà di grafici. La mia prima trama è spesso piuttosto brutta. Posso usare varie funzioni all’interno della mia libreria di plotting per far meglio evidenziare i dati, sia scientificamente che esteticamente. Ad esempio, è possibile regolare i colori e il dimensionamento di punti dati, linee e barre per dimostrare meglio le tendenze. Posso cambiare il modo in cui gli assi x e y sono rappresentati per rendere la trama più pulita.

Oltre a creare grafici statici, occasionalmente mi piace animare i grafici (vedi Green Building Challenge e dormspam-the-game (Parte 1)). Creare grafici è un processo creativo, specialmente quando si creano quelli animati in cui caratteristiche come il colore e le dimensioni possono servire a uno scopo diverso da quello che potrebbero fare in una trama statica.

Fare visualizzazioni è la mia parte preferita del processo. Amo lasciare che i miei lati artistici e ingegneristici si uniscano.

grafico a barre

una trama dal mio primo post sul blog che mostra il numero di passi che ho seguito, in migliaia, nel mio primo paio di settimane al MIT

Raccontare una storia

È importante pensare a come le mie analisi dati e le visualizzazioni possono contribuire a raccontare una storia circa l’andamento sto studiando o fenomeno sto quantificare. Cerco di creare trame in un modo che consenta a ogni trama di mostrare una nuova parte della storia. Cerco di ordinare loro le mie trame i miei post in un modo che ogni mia parola e le mie trame insieme raccontano progressivamente una storia su quello che sta succedendo. Ad esempio, quando ho visualizzato i dati di un gioco, potrei prima descrivere le regole del gioco, quindi descrivere chi ha vinto e poi immergermi nella comprensione di come le diverse strategie dei giocatori hanno influenzato il risultato.

Quindi, questo è praticamente il modo in cui scrivo i miei blog di analisi dei dati. L’ho separato in 6 passaggi, ma pensare “all’indietro” piuttosto che rigorosamente passo dopo passo può aiutare a rendere il tuo lavoro nei passaggi precedenti più significativo. Se pensi a come rendere la storia avvincente, puoi creare visualizzazioni migliori. Se sai quali visualizzazioni potresti voler creare, puoi indirizzare meglio la tua raccolta di dati.

Leave a Reply