Durante el último año cada vez más analista que trabajan con Big Data usan Polars frente a Panda para el análisis de datos.
Entre ambas librerías existe una gran diferencia que hace que sea posible que Polars tenga un performance mejor, frente a Pandas, la librería por excelencia.
Cómo está creado Polards frente a Pandas
Polars está escrita en un lenguaje a bajo nivel llamado Rust y además hace uso de forma más fácil del paralelismo en python. Esto provoca que consuma menos recursos.
Cómo usar esta libreria
Igual que usamos pd para importar la librería de pandas, para usar polars puedes usar lo siguiente:
Para seleccionar columnas puedes usar select de la siguiente forma:
Y si quieres filtrar filas:
df.filter(pl.col("ref") == "c")
|
Si comparamos con pandas en cuanto a sintaxis puedes verla aquí que se similar pero necesitamos una chuleta ya que cambia. En comparación con pandas en más cercana al lenguaje natual, lo cual es de agradecer.
Eliminar filas con valores nulos: | Pandas: df.dropna() | Polars: df.drop_nulls() |
Visto todo esto para datasets grandes vale la pena medir el performance por si es tan grande la diferencia entre ambas librerias.
Más información
Y una comparación con pandas en cuanto a sintaxis :