Cómo Escribo Mis Blogs de Análisis de Datos por Kathleen E. ’23

Mi querido amigo y compañero bloguero Kidist A.’ 22 me pidió que escribiera un post para describir cómo escribo mis blogs de análisis de datos. Así que, aquí va! He esbozado mis pasos generales y enlazado a mis publicaciones antiguas para dar ejemplos de lo que estoy hablando.

Identificar una pregunta

ilustración de una niña de pensamiento

empiezo a hacerme la siguiente:

  • ¿Qué historia quieres contar?
  • ¿Cómo ayuda el análisis de datos a contar esa historia?

Si estoy atascado, trato de pensar en mi vida y en el mundo que me rodea. ¿Hay patrones que me gustaría investigar o fenómenos que me gustaría cuantificar?

Aquí hay algunas cosas que me he preguntado en el pasado:

  • ¿Cómo son mis patrones de trabajo? Confusión, por los números
  • ¿Cómo es escalar un edificio de 20 pisos 22 veces? Desafío de Construcción ecológica
  • ¿Cómo se sienten los estudiantes del MIT sobre el nuevo sistema de lavandería de nuestros dormitorios? ¡Washlava! Un Análisis de sentimientos

A continuación, me pregunto qué tipo de datos serían útiles para responder a su pregunta. Esto nos lleva al siguiente paso:

Recopilar algunos datos

Recopilar datos puede ser sencillo o bastante tedioso. Los datos pueden existir ya, cuidadosamente compilados en una base de datos. Si la base de datos es pública, ¡he terminado con este paso! Si es privado, generalmente envío una solicitud al propietario para que lo use. Si los datos están dentro de una aplicación como Facebook, busco formas de solicitar una descarga de datos. Los datos también podrían existir en algún lugar un poco más incómodo (dispersos por la web, por ejemplo) y tendría que ir a recogerlos.

Si los datos aún no existen, puedo comenzar a crearlos. Si la pregunta que estoy tratando de responder es más personal, puedo comenzar a rastrear algo en mi vida, ya sea automáticamente (como con un reloj de conteo de pasos) o manualmente (como grabar lo que veo en Netflix cada noche). O, si los datos son sobre otras personas, podría realizar un experimento o enviar una encuesta.

Aquí hay un diagrama de flujo que hice que resume cómo podría obtener datos:

diagrama de flujo que muestra cómo obtener un conjunto de datos

Limpiar los datos

suministros de limpieza y edición

Los datos rara vez están listos para analizar. Para prepararlo, necesito “limpiarlo”.

¿Qué significa que los datos no estén dispuestos a analizar? Tal vez haya muchos datos que no se relacionen con mi pregunta. Tal vez los datos se representan de una manera realmente desorganizada o inconsistente. La limpieza podría significar extraer el subconjunto relevante de los datos, organizarlo y cambiar la forma en que se representa para hacer un análisis más sencillo.

Por ejemplo, en dormspam-the-game (Parte 1) los datos consistían en una lista de lugares donde cada jugador (en un juego virtual de escondite) eligió esconderse. Sin embargo, había algunas entradas en la base de datos que estaban mal escritas, causando errores en mi código al intentar iterar sobre una lista de ubicaciones. Tuve que ir a reemplazar esas entradas con versiones correctamente escritas de la ubicación.

¡Haga un análisis de datos!

Generalmente uso Python para escribir scripts para analizar y visualizar mis datos. He puesto parte de mi código públicamente en Github, para que puedas echarle un vistazo. Sin embargo, Python no es la única opción. También puede usar una variedad de otros lenguajes de scripting que tienen excelentes herramientas de análisis y visualización. También puede ir sin código y usar funciones de hoja de cálculo. Dicho esto, así es como trabajo con Python:

  • Me gusta usar cuadernos de Jupyter (o cuadernos de Google Colab). Me gustan más que un archivo de texto sin procesar porque permiten que las notas de rebaja/documentación y las visualizaciones existan junto con su código bastante bien. Si estoy planeando mis análisis, aprendiendo a usar una nueva herramienta o haciendo referencia a un resultado pasado, es bueno que pueda desplazarme para ver notas/salida/gráficas dentro de mi cuaderno en lugar de alguna referencia externa.
  • Confío mucho en los paquetes. Casi siempre importo Pandas, Numpy y Matplotlib para manejar y organizar mis datos, realizar operaciones estadísticas y matemáticas básicas y realizar visualizaciones básicas, respectivamente. Proyecto por proyecto, también importo paquetes adicionales para acceder a modelos y visualizaciones especiales que podrían ser relevantes.
  • Comienzo cargando mis datos. Puedo cargarlo localmente desde un archivo en mi computadora. O, más a menudo, lo que hago es subirlo a Hojas de cálculo de Google, usar la función “publicar en la web” para generar un enlace a un CSV y luego usar ese enlace para cargar mis datos. Prefiero usar hojas de cálculo de Google en lugar de un archivo local porque tiene un mejor historial de versiones y funciones de colaboración.
  • A continuación, me involucro en un proceso iterativo donde hago hipótesis sobre una tendencia en los datos, hago un análisis para investigar la hipótesis y luego uso los resultados para generar más hipótesis. Con datos realmente interesantes o extraños, este proceso puede continuar durante bastante tiempo.

proceso iterativo

Hacer algunas parcelas

Como puedo analizar los datos, una manera útil para detectar patrones interesantes es hacer visualizaciones. Puedo hacer esto con una variedad de gráficos. Mi primer argumento es a menudo bastante feo. Puedo usar varias funciones dentro de mi biblioteca de gráficos para resaltar mejor los datos, tanto científica como estéticamente. Por ejemplo, puedo ajustar los colores y el tamaño de los puntos de datos, las líneas y las barras para demostrar mejor las tendencias. Puedo cambiar la forma en que se representan los ejes x e y para que la trama se vea más limpia.

Aparte de hacer gráficas estáticas, ocasionalmente me gustan las gráficas animadas (vea Green Building Challenge y dormspam-the-game (Parte 1)). Hacer tramas es un proceso creativo, especialmente cuando se crean dibujos animados donde características como el color y el tamaño pueden servir para un propósito diferente al que podrían tener en una trama estática.

Hacer visualizaciones es mi parte favorita del proceso. Me encanta que mi lado artístico y de ingeniería se unan.

 gráfico de barras

un gráfico de mi primera publicación de blog que muestra el número de pasos que tomé, en miles, en mis primeras semanas en el MIT

Contar una historia

Es importante pensar en cómo mi análisis de datos y visualizaciones pueden contribuir a contar una historia sobre la tendencia que estoy investigando o el fenómeno que estoy cuantificando. Trato de hacer tramas de una manera que permita que cada trama muestre una nueva parte de la historia. Trato de ordenar mis argumentos, mis publicaciones de una manera que cada una de mis palabras y mis argumentos juntos cuenten progresivamente una historia sobre lo que está sucediendo. Por ejemplo, cuando he visualizado los datos de un juego, primero podría describir las reglas del juego, luego describir quién ganó y luego sumergirme en la comprensión de cómo las diferentes estrategias de los jugadores afectaron el resultado.

Así que, así es como escribo mis blogs de análisis de datos. Lo separé en 6 pasos, pero pensar “hacia atrás” en lugar de estrictamente paso a paso puede ayudar a que su trabajo en los pasos anteriores sea más significativo. Si piensas en cómo hacer que la historia sea atractiva, puedes hacer mejores visualizaciones. Si sabe qué visualizaciones puede querer hacer, puede dirigir mejor su recopilación de datos.

Leave a Reply