Qué es EDA
EDA responde al nombre de Exploratory Data Analysis.EDA es especialmente importante para saber si tenemos valores nulos, si puede haber errores en nuestros datos o incluso comprender la distribución de estos por si debemos normalizarla para aplicarle determinados test no paramétricos o paramétricos. Así vamos aprender de nuestro dataset en plan primera cita.
via GIPHY
Echándole un vistazo a nuestro dataset
Primeras impresiones
Qué pinta tiene por delante
df. head()Y que tal se ve por detrás
df.tail()Qué tamano tiene
df.shape()df.columns
Eso es todo por ahora de un primer vistazo. Pasemos a las preguntas
Pasamos a las preguntas
Cómo te describes
df.describe
df.dtypes
Y en fin, nos pdría dar varias horas con esto.
Vale, que es perder un poco la magía, pero que tal si tuvieramos un informe completo de todas estas preguntas y muchas más, así nos hacemos a la idea de que preguntar despues, como una app de esas de ligoteo, donde además vamos a poder ver los gráficos de muchas de estas cosas.
Vale, pues eso ya lo tenemos en Python y lo podemos usar con pandas. Os presento a pandas-profiling
Cómo se usa pandas profiling
Pues lo primero que debemos hacer es instalarlo
Y todo lo que vamos a tener que hacer es
1. Instalar la libreria
pip install pandas-profiling
2. Importar ambas librerías
- import pandas as pd
- import pandas_profiling
3. Convertir los datos a un dataframe
5. Exportar el informe al formato que queramos (por ahora sí o sí en html)
6. Ya tenemos nuestor informe sin tener que programar todo la anterior.
Qué incluye el informe de pandas profiling
- Inferencia de tipos: detecta los tipos de columnas en un marco de datos.
- Elementos esenciales: tipo, valores únicos, valores faltantes
- Estadísticas cuantiles como valor mínimo, Q1, mediana, Q3, máximo, rango, rango intercuartil
- Estadísticas descriptivas como media, modo, desviación estándar, suma, desviación absoluta media, coeficiente de variación, curtosis, asimetría
- Valores más frecuentes
- Histograma
- Resaltado de correlaciones de variables altamente correlacionadas, matrices de Spearman, Pearson y Kendall
- Valores perdidos matriz, recuento, mapa de calor y dendrograma de valores perdidos
- El análisis de texto aprende sobre categorías (mayúsculas, espacio), guiones (latín, cirílico) y bloques (ASCII) de datos de texto.
- El análisis de archivos e imágenes extrae tamaños de archivos, fechas y dimensiones de creación y escanea en busca de imágenes truncadas o aquellas que contienen información EXIF.
Así que nada, ahora ya nos ha sobrado tiempo para hacer las cosas importante de nuestra vida.
Este informe nos ahorra mucho tiempo.
Si quieres saber más sobre él , aquí tienes la documentación