jak píšu své blogy pro analýzu dat od Kathleen E. ‘ 23

můj drahý přítel a kolega blogger Kidist a. ’22 požádal, abych napsal příspěvek, abych popsal, jak jdu psát své blogy pro analýzu dat. Tak, tady to jde! Nastínil jsem své obecné kroky a odkazoval jsem na své staré příspěvky, abych uvedl příklady toho, o čem mluvím.

Identifikujte otázku

 ilustrace dívčího myšlení

začnu tím, že si položím následující:

  • jaký příběh chci vyprávět?
  • jak analýza dat pomáhá vyprávět tento příběh?

pokud jsem uvízl, snažím se přemýšlet o svém životě a světě kolem mě. Existují nějaké vzorce, které bych chtěl prozkoumat, nebo jevy, které bych chtěl kvantifikovat?

zde jsou některé věci, které jsem si v minulosti položil:

  • jak vypadají moje pracovní vzory? Zmatek, podle čísel
  • jaké to je vylézt 20patrovou budovu 22krát? Green Building Challenge
  • jak se studenti MIT cítí o novém prádelním systému našich kolejí? Washlavo! Analýza sentimentu

dále se ptám, jaké údaje by byly užitečné pro zodpovězení vaší otázky. To nás přivádí k dalšímu kroku:

shromáždit některá data

shromažďování dat může být jednoduché nebo docela únavné. Data mohou již existovat, úhledně sestavená v databázi. Pokud je databáze veřejná, s tímto krokem jsem skončil! Pokud je to soukromé, obvykle zasílám majiteli žádost o jeho použití. Pokud jsou data uvnitř aplikace, jako je Facebook, hledám způsoby, jak mohu požádat o stažení dat. Data by také mohla existovat někde trochu nepohodlnější (rozptýlené po webu, například) a musel bych je sbírat.

pokud data ještě neexistují, mohu je začít vytvářet. Pokud je otázka, na kterou se snažím odpovědět, osobnější, mohu začít sledovat něco v mém životě, buď automaticky (jako u hodinek s počítáním kroků) nebo ručně (jako je nahrávání toho, co Netflix ukazuje, že každou noc sleduji). Nebo, pokud jsou data o jiných lidech, mohl bych provést experiment nebo poslat průzkum.

zde je vývojový diagram jsem udělal, který shrnuje, jak bych mohl jít o získávání dat:

vývojový diagram ukazující, jak získat datovou sadu

vyčistěte data

 čisticí a editační potřeby

data jsou zřídka připravena k analýze. Abych to připravil, musím to “vyčistit”.

co to znamená, že data nejsou připravena k analýze? Možná existuje spousta údajů, které se netýkají mé otázky. Možná jsou data reprezentována opravdu neuspořádaným nebo nekonzistentním způsobem. Čištění by mohlo znamenat extrahování příslušné podmnožiny dat, jejich uspořádání a změnu způsobu jejich reprezentace, aby byla provedena přímočařejší analýza.

například v dormspam-the-game (Část 1) se data skládala ze seznamu míst, kde se každý hráč (ve virtuální hře na schovávanou) rozhodl skrýt a hledat. V databázi však byly některé položky, které byly chybně napsány, což způsobilo chyby v mém kódu, když se pokusil iterovat přes seznam umístění. Musel jsem jít nahradit tyto položky správně napsanými verzemi umístění.

proveďte analýzu dat!

obecně Používám Python k psaní skriptů pro analýzu a vizualizaci mých dat. Dal jsem nějaký svůj kód veřejně na Github, takže se můžete podívat na to. Python však není jedinou možností. Můžete také použít řadu dalších skriptovacích jazyků, které mají skvělé nástroje pro analýzu a vizualizaci. Můžete také jít bez kódu a používat funkce tabulky. S tím řekl, Zde je návod, jak pracuji s Pythonem:

  • rád používám notebooky Jupyter (nebo notebooky Google Colab). Líbí se mi tyto lepší než surový textový soubor, protože umožňují markdown poznámky / dokumentace a vizualizace existovat vedle kódu docela pěkně. Pokud plánuji své analýzy, učím se používat nový nástroj nebo odkazuji na minulý výsledek, je hezké, že se mohu jen posouvat a podívat se na poznámky/výstup/grafy uvnitř notebooku místo nějakého externího odkazu.
  • spoléhám na balíčky. Téměř vždy importuji pandy, Numpy a Matplotlib pro manipulaci a organizaci mých dat, provádění základních statistických a matematických operací a vytváření základních vizualizací. Na základě projektu od projektu také importuji další balíčky pro přístup ke speciálním modelům a vizualizacím, které by mohly být relevantní.
  • začnu načtením svých dat. Mohu jej načíst lokálně ze souboru v počítači. Nebo častěji to, co dělám, je nahrát do tabulek Google, pomocí funkce “publikovat na web” vygenerovat odkaz na CSV a poté pomocí tohoto odkazu načíst moje data. Dávám přednost používání tabulek google nad místním souborem, protože má hezčí historii verzí a funkce spolupráce.
  • dále se zapojím do iterativního procesu, kde předpokládám trend v datech, provedu analýzu k prozkoumání hypotézy a poté použiji výsledky k vytvoření více hypotéz. S opravdu zajímavými nebo lichými daty může tento proces trvat nějakou dobu.

iterativní proces

udělat nějaké grafy

jak jsem analyzovat data, jeden užitečný způsob, jak rozpoznat chladné vzory je, aby vizualizace. Mohu to udělat s různými grafy. Moje první spiknutí je často docela ošklivé. Mohu použít různé funkce uvnitř mé knihovny Vykreslování, aby bylo lépe zvýraznit data, vědecky i esteticky. Například mohu upravit barvy a dimenzování datových bodů, čar a pruhů, abych lépe demonstroval trendy. Mohu změnit způsob, jakým jsou znázorněny osy x a y, aby děj vypadal čistěji.

kromě vytváření statických pozemků se mi občas líbí animované pozemky (viz Green Building Challenge a dormspam-the-game (Část 1)). Vytváření grafů je kreativní proces, zejména při vytváření animovaných, kde funkce jako barva a velikost mohou sloužit jinému účelu, než by mohly ve statickém grafu.

tvorba vizualizací je moje oblíbená část procesu. Rád nechávám své umělecké a inženýrské stránky spojit.

sloupcový graf

zápletka z mého vůbec prvního blogu ukazující počet kroků, které jsem podnikl v tisících během prvních několika týdnů na MIT

vyprávějte příběh

je důležité přemýšlet o tom, jak moje analýza a vizualizace dat mohou přispět k vyprávění příběhu o trendu, který vyšetřuji, nebo fenoménu, který kvantifikuji. Snažím se dělat spiknutí způsobem, který umožňuje každému spiknutí ukázat novou část příběhu. Snažím se jim nařídit své pozemky své příspěvky tak, aby každá moje slova a moje spiknutí společně postupně vyprávěly příběh o tom, co se děje. Například, když jsem vizualizoval data ze hry, Mohl bych nejprve popsat pravidla hry, pak popsat, kdo vyhrál, a pak se ponořit do pochopení toho, jak různé strategie hráčů ovlivnily výsledek.

tak, to je do značné míry, jak jsem jít o psaní své analýzy dat blogy. Rozdělil jsem to na 6 kroků, ale myšlení “dozadu” spíše než striktně krok za krokem může pomoci, aby vaše práce v předchozích krocích byla smysluplnější. Pokud přemýšlíte o tom, jak udělat příběh přesvědčivým, můžete udělat lepší vizualizace. Pokud víte, jaké vizualizace byste mohli chtít provést, můžete lépe nasměrovat sběr dat.

Leave a Reply