jak piszę blogi do analizy danych Kathleen E. ’23

mój drogi przyjaciel i kolega bloger Kidist A.’ 22 poprosił o napisanie postu, aby opisać, w jaki sposób piszę blogi do analizy danych. Zaczynamy! Przedstawiłem moje ogólne kroki i powiązałem z moimi starymi postami, aby podać przykłady tego, o czym mówię.

zaczynam od zadania sobie następujących:

  • jaką historię chcę opowiedzieć?
  • jak analiza danych pomaga opowiedzieć tę historię?

jeśli utknąłem, staram się myśleć o moim życiu i otaczającym mnie świecie. Czy są jakieś wzorce, które chciałbym zbadać lub zjawiska, które chciałbym obliczyć?

oto kilka rzeczy, które zadawałem sobie w przeszłości:

  • jak wyglądają moje wzorce pracy? Zamieszanie, po numerach
  • Jak to jest wspiąć się na 20-piętrowy budynek 22 razy? Green Building Challenge
  • co uczniowie MIT myślą o nowym systemie prania w naszych akademikach? Washlava! Analiza nastrojów

następnie zadaję sobie pytanie, jakie dane byłyby pomocne w odpowiedzi na twoje pytanie. To prowadzi nas do następnego kroku:

Zbierz dane

zbieranie danych może być proste lub dość żmudne. Dane mogą już istnieć, starannie skompilowane w bazie danych. Jeśli baza danych jest publiczna, skończyłem z tym krokiem! Jeśli jest prywatny, Zwykle wysyłam prośbę do właściciela, aby go użył. Jeśli dane znajdują się w aplikacji takiej jak Facebook, szukam sposobów, za pomocą których mogę poprosić o pobranie danych. Dane mogą również istnieć gdzieś nieco bardziej niewygodne (rozproszone po sieci, na przykład) I musiałbym iść je zebrać.

jeśli DANE jeszcze nie istnieją, mogę zacząć je tworzyć. Jeśli pytanie, na które próbuję odpowiedzieć, jest bardziej osobiste, mogę rozpocząć śledzenie czegoś w moim życiu, albo automatycznie (jak w przypadku zegarka z liczeniem kroków) lub ręcznie (np. nagrywanie tego, co Oglądam każdego wieczoru w serwisie Netflix). Albo, jeśli dane dotyczą innych ludzi, mogę przeprowadzić eksperyment lub wysłać ankietę.

oto schemat, który zrobiłem, który podsumowuje, w jaki sposób mogę uzyskać dane:

schemat pokazujący, jak uzyskać zestaw danych

Wyczyść dane

czyszczenie i edycja materiałów eksploatacyjnych

dane rzadko są gotowe do analizy. Aby go przygotować, muszę go “wyczyścić”.

co oznacza, że dane nie są gotowe do analizy? Może jest wiele danych, które nie odnoszą się do mojego pytania. Może Dane są przedstawiane w sposób niezorganizowany lub niespójny. Czyszczenie może oznaczać wyodrębnienie odpowiedniego podzbioru danych, zorganizowanie go i zmianę sposobu reprezentacji, aby ułatwić analizę.

na przykład w dormspam-The-game (Część 1) Dane składały się z listy miejsc, w których każdy gracz (w wirtualnej grze W CHOWANEGO) wybrał chowanego. Jednak niektóre wpisy w bazie danych były błędnie napisane, co powodowało błędy w moim kodzie podczas próby iteracji nad listą lokalizacji. Musiałem zastąpić te wpisy poprawnymi wersjami lokalizacji.

zrób analizę danych!

generalnie używam Pythona do pisania skryptów do analizy i wizualizacji moich danych. Umieściłem część mojego kodu publicznie na Githubie, więc możesz na niego spojrzeć. Jednak Python nie jest jedyną opcją. Możesz także użyć wielu innych języków skryptowych, które mają świetne narzędzia do analizy i wizualizacji. Możesz również przejść bez kodu i korzystać z funkcji arkusza kalkulacyjnego. Mając to na uwadze, oto jak pracuję z Pythonem:

  • lubię używać notebooków Jupyter (lub Google Colab notebooks). Lubię je bardziej niż surowy plik tekstowy, ponieważ pozwalają one na notowanie/dokumentację i wizualizacje Markdown istnieć obok kodu całkiem ładnie. Jeśli planuję swoje analizy, uczę się używać nowego narzędzia lub odwołuję się do przeszłego wyniku, miło jest, że mogę po prostu przewijać, aby spojrzeć na notatki/wyjścia/wykresy w moim notatniku zamiast jakiegoś zewnętrznego odniesienia.
  • polegam głównie na pakietach. Prawie zawsze importuję Pandy, Numpy i Matplotlib do obsługi i organizowania moich danych, wykonywania podstawowych operacji statystycznych i matematycznych oraz tworzenia podstawowych wizualizacji. W zależności od projektu importuję również dodatkowe pakiety, aby uzyskać dostęp do specjalnych modeli i wizualizacji, które mogą być istotne.
  • zaczynam od załadowania moich danych. Mogę go załadować lokalnie z pliku na moim komputerze. Lub, częściej, to co robię, to przesyłanie go do Arkuszy Google, użycie funkcji “publikuj w sieci” do wygenerowania linku do pliku CSV, a następnie użycie tego linku do załadowania moich danych. Wolę używać arkuszy google niż lokalnego pliku, ponieważ ma ładniejszą historię wersji i funkcje współpracy.
  • następnie angażuję się w iteracyjny proces, w którym stawiam hipotezy na temat trendu w danych, przeprowadzam analizę w celu zbadania hipotezy, a następnie wykorzystuję wyniki do wygenerowania większej liczby hipotez. Z naprawdę ciekawymi lub dziwnymi danymi proces ten może trwać przez dłuższy czas.

proces iteracyjny

twórz wykresy

analizując dane, jednym z przydatnych sposobów na wykrycie fajnych wzorców jest tworzenie wizualizacji. Mogę to zrobić za pomocą różnych wykresów. Moja pierwsza fabuła jest często dość brzydka. Mogę korzystać z różnych funkcji wewnątrz mojej biblioteki wykresów, aby lepiej podświetlić dane, zarówno pod względem naukowym, jak i estetycznym. Na przykład mogę dostosować kolory i rozmiary punktów danych, linii i słupków, aby lepiej pokazać trendy. Mogę zmienić sposób reprezentacji osi x i y, aby Wykres wyglądał na czystszy.

poza tworzeniem statycznych Wykresów, czasami lubię animować wykresy (patrz Green Building Challenge i dormspam-The-game (Część 1)). Tworzenie wykresów jest procesem twórczym, zwłaszcza podczas tworzenia animowanych, w których funkcje takie jak kolor i rozmiar mogą służyć innym celom niż w statycznym wykresie.

tworzenie wizualizacji to moja ulubiona część procesu. Uwielbiam, gdy moje artystyczne I inżynierskie strony łączą się ze sobą.

wykres słupkowy

Wykres z mojego pierwszego posta na blogu pokazujący liczbę kroków, które wykonałem, w tysiącach, w ciągu pierwszych kilku tygodni w MIT

Opowiedz historię

ważne jest, aby zastanowić się, w jaki sposób moja analiza danych i wizualizacje mogą przyczynić się do opowiedzenia historii o trendzie, który badam lub zjawisku, które określam ilościowo. Staram się tworzyć fabuły w taki sposób, aby każda fabuła pokazywała nową część historii. Staram się zamówić im moje działki moje posty w taki sposób, aby każde moje słowa i moje działki razem stopniowo opowiadały historię o tym, co się dzieje. Na przykład, gdy zwizualizuję dane z gry, mogę najpierw opisać zasady gry, a następnie opisać, kto wygrał, a następnie zrozumieć, w jaki sposób różne strategie graczy wpłynęły na wynik.

tak więc piszę blogi z analizą danych. Podzieliłem go na 6 kroków, ale myślenie “wstecz” zamiast ściśle krok po kroku może pomóc w zwiększeniu znaczenia twojej pracy w poprzednich krokach. Jeśli zastanowisz się, jak sprawić, by historia była atrakcyjna, możesz tworzyć lepsze wizualizacje. Jeśli wiesz, jakie wizualizacje chcesz utworzyć, możesz lepiej kierować zbieraniem danych.

Leave a Reply