como escrevo meus Blogs de Análise de dados por Kathleen E. ’23

meu querido amigo e colega blogueiro Kidist A. ’22 solicitou que eu escrevesse um post para descrever como faço para escrever meus blogs de análise de dados. Então, aqui vai! Descrevi minhas etapas gerais e vinculei meus posts antigos para dar exemplos do que estou falando.

identifique uma pergunta

 ilustração de uma garota pensando

começo me perguntando o seguinte:

  • que história eu quero contar?
  • como a análise de dados ajuda a contar essa história?

se estou preso, tento pensar na minha vida e no mundo ao meu redor. Existem padrões que eu gostaria de investigar ou fenômenos que eu gostaria de quantificar?

Aqui estão algumas coisas que eu me perguntei no passado:

  • como são meus padrões de trabalho? Confusão, pelos números
  • como é escalar um prédio de 20 andares 22 vezes? Green Building Challenge
  • como os alunos do MIT se sentem sobre o novo sistema de lavanderia de nossos dormitórios? Washlava! Uma análise de sentimento

em seguida, pergunto-me que tipo de dados seria útil para responder à sua pergunta. Isso nos leva ao próximo passo:

reunir alguns dados

coletar dados pode ser simples ou bastante tedioso. Os dados já podem existir, bem compilados em um banco de dados. Se o banco de dados for Público, acabei com esta etapa! Se for privado, geralmente envio uma solicitação ao proprietário para usá-lo. Se os dados estiverem dentro de um aplicativo como o Facebook, procuro maneiras pelas quais posso solicitar um download de dados. Os dados também podem existir em algum lugar um pouco mais inconveniente (espalhados pela web, por exemplo) e eu teria que coletá-los.

se os dados ainda não existirem, posso começar a criá-los. Se a pergunta que estou tentando responder for mais pessoal, posso começar a rastrear algo na minha vida, seja automaticamente (como com um relógio de contagem de passos) ou manualmente (como gravar o que o Netflix mostra que assisto todas as noites). Ou, se os dados forem sobre outras pessoas, eu poderia realizar um experimento ou enviar uma pesquisa.

aqui está um fluxograma que fiz que resume como posso obter dados:

fluxograma mostrando como obter um conjunto de dados

Limpar dados

limpeza e edição de suprimentos

Os dados raramente vem pronto para analisar. Para prepará-lo, preciso “limpá-lo”.

o que significa que os dados não estão prontos para analisar? Talvez haja muitos dados que não se relacionam com a minha pergunta. Talvez os dados sejam representados de maneira realmente desorganizada ou inconsistente. A limpeza pode significar extrair o subconjunto relevante dos dados, organizá-los e alterar a forma como eles são representados para fazer uma análise mais direta.

por exemplo, em dormspam-the-game (Parte 1) os dados consistiam em uma lista de locais onde cada jogador (em um jogo virtual de esconde-esconde) escolheu se esconder e procurar. No entanto, houve algumas entradas no banco de dados que foram escritas incorretamente, causando erros no meu código, pois ele tentou iterar em uma lista de locais. Eu tive que ir substituir essas entradas por versões corretamente escritas do local.

faça alguma análise de dados!

eu geralmente uso Python para escrever scripts para analisar e visualizar meus dados. Coloquei parte do meu código publicamente no Github, para que você possa dar uma olhada nele. No entanto, Python não é a única opção. Você também pode usar uma variedade de outras linguagens de script que possuem ótimas ferramentas de análise e visualização. Você também pode ir sem código e usar funções de planilha. Com isso dito, Aqui está como eu trabalho com Python:

  • eu gosto de usar Notebooks Jupyter (ou notebooks do Google Colab). Eu gosto deles melhor do que um arquivo de texto bruto porque eles permitem que notas de redução/documentação e visualizações existam ao lado do seu código muito bem. Se estou planejando minhas análises, aprendendo a usar uma nova ferramenta ou referenciando um resultado passado, é bom que eu possa simplesmente rolar para olhar notas/saída/gráficos dentro do meu notebook em vez de alguma referência externa.
  • eu confio fortemente em pacotes. Quase sempre importo Pandas, Numpy e Matplotlib para manipular e organizar meus dados, fazer operações estatísticas e matemáticas básicas e fazer visualizações básicas, respectivamente. Em uma base projeto por projeto, também importo pacotes adicionais para acessar modelos e visualizações especiais que possam ser relevantes.
  • começo Carregando meus dados. Posso carregá-lo localmente a partir de um arquivo no meu computador. Ou, mais frequentemente, o que faço é enviá-lo para o Planilhas Google, usar a função “publicar na web” para gerar um link para um CSV e, em seguida, usar esse link para carregar meus dados. Prefiro usar o Planilhas google em vez de um arquivo local porque ele tem um histórico de versões e funções de colaboração mais agradáveis.
  • em seguida, eu me envolvo em um processo iterativo onde eu hipotetizo sobre uma tendência nos dados, faço uma análise para investigar a hipótese e, em seguida, uso os resultados para gerar mais hipóteses. Com dados realmente interessantes ou estranhos, esse processo pode durar um bom tempo.

processo iterativo

faça alguns gráficos

à medida que analiso os dados, uma maneira útil de detectar padrões legais é fazer visualizações. Eu posso fazer isso com uma variedade de gráficos. Meu primeiro enredo é muitas vezes bastante feio. Posso usar várias funções dentro da minha biblioteca de plotagem para destacar melhor os dados, tanto científica quanto esteticamente. Por exemplo, posso ajustar as cores e o tamanho dos pontos de dados, linhas e barras para demonstrar melhor as tendências. Posso mudar a maneira como os eixos x e y são representados para tornar o gráfico mais limpo.

além de fazer enredos estáticos, ocasionalmente gosto de enredos animados (veja Green Building Challenge e dormspam-the-game (Parte 1)). Fazer enredos é um processo criativo, especialmente ao criar animados, onde recursos como cor e tamanho podem servir a um propósito diferente do que em um enredo estático.Fazer visualizações é minha parte favorita do processo. Eu amo deixar meus lados artísticos e de engenharia se unirem.

gráfico de barras

um gráfico a partir de meu primeiro post no blog mostrando o número de passos que eu tomei, em milhares, nas minhas primeiras semanas do MIT

Contar uma história

É importante pensar sobre como a minha análise de dados e visualizações podem contribuir para contar uma história sobre a tendência que eu estou investigando ou fenômeno estou quantificação. Tento fazer enredos de uma forma que permita que cada enredo mostre uma nova parte da história. Eu tento ordená-los meus enredos meus posts de uma forma que cada minhas palavras e meus enredos juntos contem progressivamente uma história sobre o que está acontecendo. Por exemplo, quando visualizei os dados de um jogo, Posso primeiro descrever as regras do jogo, depois descrever quem ganhou e depois mergulhar na compreensão de como as diferentes estratégias dos jogadores afetaram o resultado.

então, é praticamente assim que eu escrevo meus blogs de análise de dados. Eu o separei em 6 etapas, mas pensar “para trás” em vez de estritamente passo a passo pode ajudar a tornar seu trabalho em etapas anteriores mais significativo. Se você pensar em como tornar a história atraente, poderá fazer melhores visualizações. Se você souber quais visualizações deseja fazer, poderá direcionar melhor sua coleta de dados.

Leave a Reply