cum scriu blogurile mele de analiză a datelor de Kathleen E. ’23

dragul meu prieten și coleg Blogger Kidist A. ’22 a solicitat să scriu o postare pentru a descrie cum mă duc să scriu blogurile mele de analiză a datelor. Deci, aici merge! Am subliniat pașii mei generale și legate de posturile mele vechi pentru a da exemple de ceea ce vorbesc despre.

identificați o întrebare

 ilustrarea unei fete care gândește

încep prin a mă întreba următoarele:

  • ce poveste vreau să spun?
  • cum ajută analiza datelor să spună această poveste?

dacă sunt blocat, încerc să mă gândesc la viața mea și la lumea din jurul meu. Există modele pe care aș vrea să le investighez sau fenomene pe care aș vrea să le cuantific?

iată câteva lucruri pe care mi le-am pus în trecut:

  • cum arată tiparele mele de lucru? Confuzie, după numerele
  • cum este să urci o clădire cu 20 de etaje de 22 de ori? Green Building Challenge
  • cum se simt studenții MIT despre noul sistem de spălătorie al căminelor noastre? Washlava! O analiză Sentiment

apoi, mă întreb ce fel de date ar fi de ajutor pentru a răspunde la întrebarea dumneavoastră. Acest lucru ne aduce la următorul pas:

adunați câteva date

colectarea datelor poate fi simplă sau destul de obositoare. Datele ar putea exista deja, frumos compilate într-o bază de date. Dacă baza de date este publică, am terminat cu acest pas! Dacă este privat, în general trimit o solicitare proprietarului să o folosească. Dacă datele se află într-o aplicație precum Facebook, caut modalități prin care pot solicita o descărcare de date. Datele ar putea exista, de asemenea, undeva un pic mai incomod (împrăștiate pe web, de exemplu) și ar trebui să merg să le colectez.

dacă datele nu există încă, pot începe să le creez. Dacă întrebarea la care încerc să răspund este mai personală, pot începe să urmăresc ceva din viața mea, fie automat (cum ar fi cu un ceas de numărare a pașilor), fie manual (cum ar fi înregistrarea a ceea ce arată Netflix pe care îl urmăresc în fiecare seară). Sau, dacă datele sunt despre alte persoane, aș putea efectua un experiment sau trimite un sondaj.

Iată o diagramă pe care am făcut-o care rezumă modul în care aș putea obține date:

diagramă care arată cum să obțineți un set de date

curățați datele

curățarea și editarea consumabilelor

datele rareori sunt gata de analiză. Pentru a-l pregăti, trebuie să-l “curăț”.

ce înseamnă ca datele să nu fie gata de analiză? Poate că există o mulțime de date care nu se referă la întrebarea mea. Poate că datele sunt reprezentate într-un mod cu adevărat dezorganizat sau inconsistent. Curățarea ar putea însemna extragerea subsetului relevant al datelor, organizarea acestora și schimbarea modului în care sunt reprezentate pentru a face o analiză mai simplă.

de exemplu, în dormspam-the-game (Partea 1) datele constau dintr-o listă de locații în care fiecare jucător (într-un joc virtual de ascundere) a ales să se ascundă și să caute. Cu toate acestea, au existat unele intrări în baza de date care au fost scrise greșit, provocând erori în codul meu în timp ce încerca să itereze o listă de locații. A trebuit să mă duc să înlocuiesc aceste intrări cu versiuni corect scrise ale locației.

faceți o analiză a datelor!

în general folosesc Python pentru a scrie scripturi pentru a analiza și vizualiza datele mele. Am pus o parte din Codul meu public pe Github, astfel încât să puteți arunca o privire la ea. Cu toate acestea, Python nu este singura opțiune. De asemenea, puteți utiliza o varietate de alte limbaje de scriptare care au instrumente excelente de analiză și vizualizare. De asemenea, puteți merge fără cod și puteți utiliza funcții de calcul tabelar. Acestea fiind spuse, iată cum lucrez cu Python:

  • îmi place să folosesc notebook-uri Jupyter (sau notebook-uri Google Colab). Îmi plac acestea mai bine decât un fișier text brut, deoarece permit ca notele/documentația și vizualizările markdown să existe alături de codul dvs. destul de frumos. Dacă îmi planific analizele, învăț să folosesc un instrument nou sau să fac referire la un rezultat trecut, este frumos să pot derula doar pentru a privi notele/ieșirea/parcelele din notebook-ul meu în loc de o referință externă.
  • mă bazez foarte mult pe pachete. Aproape întotdeauna import Panda, Numpy și Matplotlib pentru manipularea și organizarea datelor mele, efectuarea operațiilor statistice și matematice de bază și, respectiv, efectuarea vizualizărilor de bază. De asemenea, import pachete suplimentare pentru a accesa modele speciale și vizualizări care ar putea fi relevante.
  • încep prin încărcarea datelor mele. Îl pot încărca local dintr-un fișier de pe computerul meu. Sau, mai des, ceea ce fac este să îl încarc în foi de calcul Google, să folosesc funcția “publicați pe web” pentru a genera un link către un CSV, apoi să folosesc acel link pentru a-mi încărca datele. Prefer să folosesc foi de calcul google în locul unui fișier local, deoarece are un istoric de versiuni mai frumos și funcții de colaborare.
  • apoi, mă angajez într-un proces iterativ în care fac ipoteze despre o tendință a datelor, fac o analiză pentru a investiga ipoteza și apoi folosesc rezultatele pentru a genera mai multe ipoteze. Cu date cu adevărat interesante sau ciudate, acest proces poate continua destul de mult timp.

proces iterativ

faceți câteva parcele

pe măsură ce analizez datele, o modalitate utilă de a observa modele reci este de a face vizualizări. Pot face acest lucru cu o varietate de grafice. Primul meu complot este adesea destul de urât. Pot folosi diverse funcții în interiorul bibliotecii mele de complot pentru a evidenția mai bine datele, atât științific, cât și estetic. De exemplu, pot ajusta culorile și dimensionarea punctelor de date, liniilor și barelor pentru a demonstra mai bine tendințele. Pot schimba modul în care axa X și Y sunt reprezentate pentru a face complotul să pară mai curat.

în afară de a face parcele statice, îmi place ocazional animarea parcelelor (a se vedea Green Building Challenge și dormspam-the-game (Partea 1)). Realizarea comploturilor este un proces creativ, mai ales atunci când creați altele animate în care caracteristici precum culoarea și dimensiunea pot servi unui scop diferit decât ar putea într-un complot static.

efectuarea vizualizărilor este partea mea preferată a procesului. Îmi place să las părțile mele artistice și Inginerești să se unească.

grafic cu bare

un complot din prima mea postare pe blog care arată numărul de pași pe care i-am făcut, în mii, în primele mele săptămâni la MIT

spune o poveste

este important să ne gândim la modul în care analiza și vizualizările mele de date pot contribui la a spune o poveste despre tendința pe care o investighez sau fenomenul pe care îl cuantific. Încerc să fac comploturi într-un mod care să permită fiecărui complot să arate o nouă parte a poveștii. Încerc să le ordon comploturile mele postările mele într-un mod în care fiecare cuvintele Mele și comploturile mele împreună spun progresiv o poveste despre ceea ce se întâmplă. De exemplu, când am vizualizat datele dintr-un joc, s-ar putea să descriu mai întâi regulile jocului, apoi să descriu cine a câștigat și apoi să mă scufund în înțelegerea modului în care diferitele strategii ale jucătorilor au afectat rezultatul.

deci, cam așa mă ocup de scrierea blogurilor mele de analiză a datelor. L-am separat în 6 pași, dar gândirea “înapoi”, mai degrabă decât strict pas cu pas, vă poate ajuta să vă faceți munca în pașii anteriori mai semnificativă. Dacă vă gândiți cum să faceți povestea convingătoare, puteți face vizualizări mai bune. Dacă știți ce vizualizări doriți să faceți, puteți direcționa mai bine colecția de date.

Leave a Reply