How I Write My Data Analysis Blogs by Kathleen E. ’23
my dear friend and fellow blogger Kidist A. ’22 requested I write a post to describe how I go about writing my data analysis blogs. Tästä lähtee! Olen hahmotellut yleiset askeleeni ja linkitetty vanhoihin viesteihini antamaan esimerkkejä siitä, mistä puhun.
tunnista kysymys
aloitan kysymällä itseltäni seuraavaa:
- minkä tarinan haluan kertoa?
- miten data-analyysi auttaa kertomaan tämän tarinan?
jos olen jumissa, yritän ajatella elämääni ja ympäröivää maailmaa. Onko olemassa kaavoja, joita haluaisin tutkia, tai ilmiöitä, joita haluaisin kvantifioida?
Tässä muutamia asioita, joita olen aiemmin kysynyt itseltäni:
- miltä työkuvioni näyttävät? Sekaannus, numeroilla
- millaista on kiivetä 20-kerroksiseen rakennukseen 22 kertaa? Green Building Challenge
- mitä mieltä mit: n opiskelijat ovat asuntoloiden uudesta pesulajärjestelmästä? Washlava! Tunneanalyysi
seuraavaksi kysyn itseltäni, millaisista tiedoista olisi apua kysymykseesi vastaamisessa. Tästä päästään seuraavaan vaiheeseen:
kerää joitakin tietoja
tietojen kerääminen voi olla suoraviivaista tai melko työlästä. Tiedot saattavat olla jo olemassa, siististi koottuna tietokantaan. Jos tietokanta on julkinen, minulle riittää tämä vaihe! Jos se on yksityinen, yleensä lähetän pyynnön omistajalle käyttää sitä. Jos tiedot ovat Facebook-sovelluksen kaltaisen sovelluksen sisällä, etsin tapoja, joiden kautta voin pyytää tietojen lataamista. Tiedot voivat myös olla jossain hieman epämukavampi (hajallaan ympäri web, esimerkiksi) ja minun täytyy mennä kerätä sitä.
jos tietoa ei ole vielä olemassa, voin alkaa luoda sitä. Jos kysymys yritän vastata on henkilökohtaisempi, voin alkaa seurata jotain elämässäni, joko automaattisesti (kuten askel-laskenta katsella) tai manuaalisesti (kuten tallennus mitä Netflix näyttää katson joka ilta). Tai jos tiedot koskevat muita ihmisiä, voisin tehdä kokeen tai lähettää kyselyn.
tässä on tekemäni vuokaavio, jossa on yhteenveto siitä, miten voisin edetä tietojen saamisessa:
Puhdista aineisto
aineisto tulee harvoin analysoitavaksi. Jotta saan sen valmiiksi, minun täytyy “puhdistaa” se.
mitä tarkoittaa se, että aineisto ei ole valmis analysoitavaksi? Ehkä on paljon dataa, joka ei liity kysymykseeni. Ehkä tiedot esitetään todella epäjärjestelmällisellä tai epäjohdonmukaisella tavalla. Puhdistus voisi tarkoittaa, että tietojen osajoukko puretaan, järjestetään ja muutetaan sitä, miten se on edustettuna, jotta analyysi olisi suoraviivaisempi.
esimerkiksi dormspam-The-game-pelissä (osa 1) TIEDOT koostuivat listasta paikoista, joissa jokainen pelaaja (virtuaalisessa piiloleikissä) valitsi piilopaikan. Tietokannassa oli kuitenkin joitain merkintöjä, jotka oli kirjoitettu väärin, mikä aiheutti virheitä koodissani, kun se yritti iteroida sijaintiluetteloa. Minun piti korvata ne merkinnät oikein kirjoitetuilla versioilla paikasta.
tee data-analyysi!
käytän yleensä Pythonia kirjoittaakseni skriptejä analysoidakseni ja visualisoidakseni tietojani. Laitoin osan koodistani julkisesti GitHubiin, joten voit katsoa sitä. Python ei kuitenkaan ole ainoa vaihtoehto. Voit myös käyttää useita muita skriptauskieliä, joilla on hyvät analyysi-ja visualisointityökalut. Voit myös mennä no-code ja käyttää taulukkolaskentatoimintoja. Tämän sanoi, Näin työskentelen Python:
- tykkään käyttää Jupyter-muistikirjoja (tai Google Colab-muistikirjoja). Pidän näistä enemmän kuin raw tekstitiedosto, koska ne mahdollistavat markdown muistiinpanoja / dokumentointi ja visualisointeja olemassa rinnalla koodin melko hienosti. Jos suunnittelen analyysejäni, opettelen käyttämään uutta työkalua tai viittaan aikaisempaan tulokseen, on mukavaa, että voin vain vierittää ympärilleni katsomaan muistiinpanoja/tuotoksia/tontteja muistikirjani sisällä jonkin ulkoisen viitteen sijaan.
- olen vahvasti pakettien varassa. Olen lähes aina tuoda Pandas, Numpy, ja Matplotlib käsittelyä ja organisointia tietoni, tehdä perus tilastollisia ja matemaattisia operaatioita, ja tehdä perus visualisointeja, vastaavasti. Tuotan projektikohtaisesti myös lisäpaketteja, joilla pääsen käsiksi erikoismalleihin ja visualisointeihin, joilla voi olla merkitystä.
- aloitan lataamalla tietoni. Voin ladata sen paikallisesti tiedostosta tietokoneellani. Tai, useammin, mitä teen on ladata sen Google Sheets, käytä “julkaise web” toiminto luoda linkin CSV, ja sitten käyttää tätä linkkiä ladata tietoni. Käytän mieluummin google sheetsiä kuin paikallista tiedostoa, koska siinä on mukavampi versiohistoria ja yhteistyötoiminnot.
- seuraavaksi ryhdyn iteratiiviseen prosessiin, jossa esitän hypoteesin tietystä trendistä, teen analyysin tutkiakseni hypoteesia ja sitten käytän tuloksia luodakseni lisää hypoteeseja. Todella mielenkiintoinen tai outoa dataa, tämä prosessi voi jatkua jo jonkin aikaa.
tee joitakin tontteja
kun analysoin dataa, yksi hyödyllinen tapa havaita viileitä kuvioita on tehdä visualisointeja. Voin tehdä tämän erilaisilla kuvaajilla. Ensimmäinen juoneni on usein aika ruma. Voin käyttää erilaisia toimintoja piirtokirjastoni sisällä, jotta se korostaisi paremmin tietoja sekä tieteellisesti että esteettisesti. Voin esimerkiksi säätää datapisteiden, viivojen ja palkkien värejä ja mitoitusta siten, että trendit näkyvät paremmin. Voin muuttaa x-ja y-akselin esitystapaa, jotta juoni näyttäisi puhtaammalta.
sen lisäksi, että teen staattisia juonia, tykkään silloin tällöin animoida juonia (katso Green Building Challenge ja dormspam-The-game (Osa 1)). Tonttien tekeminen on luova prosessi, varsinkin kun luodaan animoituja, joissa ominaisuudet, kuten väri ja koko, voivat palvella eri tarkoitusta kuin staattisessa juonessa.
visualisointien tekeminen on mieluisin osa prosessia. On ihanaa antaa taiteellisen ja teknisen puoleni tulla yhteen.
a plot from my first ever blog post showing the number of steps I taken, in my first weeks at MIT
Tell A story
It ‘s important to think about my data analysis and visualizations can contribut to tell a story about the trend I’ m studying or Phenomen I ‘ m quantifying. Yritän tehdä juonia siten, että jokainen juoni näyttää uuden osan tarinasta. Yritän tilata heille minun tontit minun viestejä siten, että jokainen minun sanat ja minun tontit yhdessä vähitellen kertoa tarinan siitä, mitä on tekeillä. Esimerkiksi, kun olen visualisoinut Tietoja pelistä, saatan ensin kuvata pelin säännöt, sitten kuvata kuka voitti, ja sitten sukeltaa ymmärtämään, miten eri pelaaja strategioita vaikutti lopputulokseen.
so, that ‘ s pretty that I go about writing my data analysis blogs. Olen erottanut sen 6 vaiheet, mutta ajattelu “taaksepäin” eikä tiukasti askel-askeleelta voi auttaa tekemään työsi aiemmissa vaiheissa mielekkäämpää. Jos mietit, miten tehdä tarinasta kiehtova, voit tehdä parempia visualisointeja. Jos tiedät, mitä visualisointeja haluat tehdä, voit paremmin ohjata tiedonkeruuta.
Leave a Reply