hogyan írom adatelemzési Blogjaimat Kathleen E. ’23

kedves barátom és bloggertársam Kidist A. ’22 kérte, hogy írjak egy bejegyzést, hogy leírjam, hogyan írom az adatelemzési blogjaimat. Így, itt megy! Felvázoltam az Általános lépéseimet, és összekapcsoltam a régi bejegyzéseimmel, hogy példákat adjak arra, amiről beszélek.

kérdés azonosítása

 egy lány gondolkodásának illusztrációja

azzal kezdem, hogy felteszem magamnak a következőket:

  • milyen történetet akarok elmondani?
  • hogyan segít az adatelemzés elmondani ezt a történetet?

ha elakadok, megpróbálok az életemre és a körülöttem lévő világra gondolni. Vannak olyan minták, amelyeket meg szeretnék vizsgálni, vagy jelenségek, amelyeket számszerűsíteni Szeretnék?

íme néhány dolog, amit a múltban feltettem magamnak:

  • hogy néznek ki a munkamintáim? Zavartság, a számok szerint
  • milyen 20 emeletes épületet mászni 22 alkalommal? Green Building Challenge
  • hogyan vélekednek az MIT hallgatói kollégiumaink új mosodai rendszeréről? Washlava! A Sentiment Analysis

ezután azt kérdezem magamtól, hogy milyen adatok hasznosak lennének a kérdés megválaszolásához. Ez a következő lépéshez vezet:

gyűjtsön néhány adatot

az adatok gyűjtése egyszerű vagy meglehetősen unalmas lehet. Az adatok már létezhetnek, szépen összeállítva egy adatbázisban. Ha az adatbázis nyilvános, végeztem ezzel a lépéssel! Ha privát, általában kérést küldök a tulajdonosnak, hogy használja. Ha az adatok egy olyan alkalmazásban vannak, mint a Facebook, akkor olyan módszereket keresek, amelyeken keresztül adatletöltést kérhetek. Az adatok egy kicsit kényelmetlenebb helyen is létezhetnek (például szétszórva a weben), és el kell mennem gyűjteni.

ha az adatok még nem léteznek, elkezdhetem létrehozni. Ha a kérdés, amelyet megpróbálok megválaszolni, személyesebb, elkezdhetek nyomon követni valamit az életemben, akár automatikusan (például egy lépésszámláló órával), akár manuálisan (például rögzíthetem, amit a Netflix mutat, amit minden este nézek). Vagy, ha az adatok más emberekről szólnak, elvégezhetek egy kísérletet vagy felmérést küldhetek.

itt egy folyamatábra tettem, amely összefoglalja, hogyan lehet menni a szerzés adatok:

folyamatábra, amely bemutatja, hogyan lehet adatkészletet szerezni

tisztítsa meg az adatokat

tisztítási és szerkesztési kellékek

az adatok ritkán állnak készen az elemzésre. Annak érdekében, hogy készen álljak, “meg kell tisztítanom”.

mit jelent az, hogy az adatok nem állnak készen az elemzésre? Talán sok olyan adat van, ami nem kapcsolódik a kérdésemhez. Lehet, hogy az adatokat valóban rendezetlen vagy következetlen módon ábrázolják. A tisztítás jelentheti az adatok releváns részhalmazának kinyerését, rendezését, valamint az ábrázolás megváltoztatását az egyszerűbb elemzés érdekében.

például a dormspam-The-game-ben (1.rész) az adatok azon helyek listájából álltak, ahol minden játékos (egy virtuális bújócska játékban) úgy döntött, hogy bújócskát keres. Az adatbázisban azonban voltak olyan bejegyzések, amelyeket hibásan írtak, hibákat okozva a kódomban, amikor megpróbált iterálni a helyek listáján. Ki kellett cserélnem ezeket a bejegyzéseket a hely helyesen írt verzióival.

végezzen néhány adatelemzést!

általában Pythont használok szkriptek írására az adataim elemzésére és vizualizálására. A kódom egy részét nyilvánosan feltettem a githubra, így megnézheti. A Python azonban nem az egyetlen lehetőség. Számos más szkriptnyelvet is használhat, amelyek nagyszerű elemzési és vizualizációs eszközökkel rendelkeznek. Azt is megy No-code és használja táblázatkezelő funkciókat. Ezzel azt mondta, Itt van, hogyan dolgozom Python:

  • szeretem a Jupyter notebookokat (vagy a Google Colab notebookokat) használni. Ezeket jobban szeretem, mint egy nyers szöveges fájlt, mert lehetővé teszik a markdown jegyzetek/dokumentáció és vizualizációk létezését a kód mellett. Ha tervezem az elemzéseimet, megtanulok egy új eszköz használatát, vagy egy múltbeli eredményre hivatkozom, akkor jó, hogy csak görgethetek, hogy külső hivatkozás helyett a jegyzeteket/kimeneteket/telkeket nézzem meg a notebookomban.
  • erősen támaszkodom a csomagokra. Szinte mindig Importálok pandákat, Numpy-t és Matplotlib-et adataim kezelésére és rendszerezésére, alapvető statisztikai és matematikai műveletek elvégzésére, valamint alapvető vizualizációk készítésére. Projektenként további csomagokat is importálok a speciális modellek és megjelenítések eléréséhez, amelyek relevánsak lehetnek.
  • az adatok feltöltésével kezdem. Tudom betölteni helyileg egy fájlt a számítógépen. Vagy gyakrabban azt teszem, hogy feltöltöm a Google táblázatokba, a “közzététel az interneten” funkcióval létrehozok egy linket egy CSV-hez, majd ezt a linket használom az adataim betöltéséhez. Inkább a google táblázatokat használom egy helyi fájl helyett, mert szebb verzióelőzményekkel és együttműködési funkciókkal rendelkezik.
  • ezután egy iteratív folyamatban veszek részt, ahol feltételezem az adatok tendenciáját, elemzést végzek a hipotézis vizsgálatára, majd az eredmények felhasználásával további hipotéziseket generálok. Nagyon érdekes vagy furcsa adatokkal ez a folyamat jó ideig folytatódhat.

iteratív folyamat

készítsen néhány ábrát

az adatok elemzése során a hűvös minták észlelésének egyik hasznos módja a vizualizáció. Meg tudom csinálni ezt a különböző grafikonok. Az első cselekményem gyakran elég csúnya. Különböző funkciókat használhatok a rajzkönyvtáramban, hogy jobban kiemeljem az adatokat, mind tudományosan, mind esztétikailag. Például beállíthatom az adatpontok, vonalak és sávok színét és méretét, hogy jobban bemutassam a trendeket. Meg tudom változtatni az x és y tengely ábrázolását, hogy a telek tisztább legyen.

a statikus parcellák készítésén kívül néha szeretek animálni a parcellákat (lásd Green Building Challenge és dormspam-The-game (1.rész)). A parcellák készítése kreatív folyamat, különösen animált képek készítésekor, ahol az olyan funkciók, mint a szín és a méret, más célt szolgálhatnak, mint egy statikus cselekményben.

a vizualizáció a kedvenc részem a folyamatban. Szeretem hagyni, hogy a művészi és mérnöki oldalam összeálljon.

oszlopdiagram

az első blogbejegyzésemből származó grafikon, amely megmutatja, hogy az MIT-nél töltött első néhány hétben hány lépést tettem, ezrekben

mesélj el egy történetet

fontos elgondolkodni azon, hogy az adatelemzés és a vizualizációk hogyan járulhatnak hozzá egy történet elmeséléséhez az általam vizsgált trendről vagy jelenségről, amelyet számszerűsítek. Megpróbálok olyan parcellákat készíteni, amelyek lehetővé teszik, hogy minden cselekmény megmutassa a történet új részét. Megpróbálom megrendelni nekik a telkeket a hozzászólásaimat oly módon, hogy minden szavam és a telkek együtt fokozatosan elmondják a történetet arról, hogy mi folyik itt. Például, amikor vizualizáltam egy játék adatait, először leírhatom a játékszabályokat, majd leírom, ki nyert, majd belemerülök annak megértésébe, hogy a különböző játékosstratégiák hogyan befolyásolták az eredményt.

szóval, ez nagyjából hogyan megy az írás az én Adatelemzés blogok. 6 lépésre osztottam, de a “visszafelé” gondolkodás, nem pedig szigorúan lépésről lépésre segíthet az előző lépésekben végzett munka értelmesebbé tételében. Ha arra gondolsz, hogyan lehet a történetet lenyűgözővé tenni, jobb vizualizációkat készíthet. Ha tudja, hogy milyen vizualizációkat szeretne készíteni, jobban irányíthatja az adatgyűjtést.

Leave a Reply