Cómo está creado Polards frente a Pandas
Cómo usar esta libreria
import polars as pl
df.select(pl.all()) |
df.filter(pl.col("ref") == "c") |
Eliminar filas con valores nulos: | Pandas: | Polars: |
A Notebook Toolkit since 2013: //Tech// R, Python, GCP, Tableau //Methodologies// Scrum + Kanban, Design Thinking, Data Frameworks
import polars as pl
df.select(pl.all()) |
df.filter(pl.col("ref") == "c") |
Eliminar filas con valores nulos: | Pandas: | Polars: |
Podemos así ver 5 fases que pueden ser iterativas:
De dónde vienen los datos, tenemos que modificar el tipo de variable o la codificación?
Existen valores nulos? Debemos eliminar valores atípicos, valores duplicados.
Cómo se distribuye cada una de las variables? Valores máximos y mínimos, ...
Existe correlación entre dos variables. Una variabe ayuda a predecir a la otra?
Y cómo se comportan estas variables en su conjunto? Podemos añadir nuevas variables a partir de las que ya tenemos?
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
Visto en Leetcode:
Además queremos que aparezcan los nulls
En un primer momento lo más fácil sería pensar en usar un LEFT JOIN o un RIGHT JOIN
Sin embargo tenemos una claúsulas que nos puede ayudar a simplicar el código creada para estos casos concretos y sería USING
SELECT unique_id, name
FROM Employees e
LEFT JOIN EmployeeUNI u ON e.id = u.id
Using hace más legible el código y además nos ayuda a prevenir problemas más complejos.
SELECT cliente_id,
MIN(dias_desde_ultima_compra) AS 'recencia',
COUNT(*) AS 'frecuencia',
AVG(cantidad_comprada) AS 'valor monetario'
FROM data GROUP BY 1")
Al ser en SQL la podríamos usar tanto R como en Python, o cualquier otro lenguaje de programación.
library(installr)
updateR()
4.Vamos, super simple: llamamos a la librería y actualizamos R