Translate

Mostrando entradas con la etiqueta customer analytics. Mostrar todas las entradas
Mostrando entradas con la etiqueta customer analytics. Mostrar todas las entradas

martes, 2 de julio de 2024

K-means cluster - How to choose K

 One key step in K-means clustering is deciding on the number of clusters. Ideally, the data itself should guide us on the optimal number of groups.

There are several ways to detemine the number of cluster

This is what we want to achieve in a picture with our groups:


Elbow criterion

The elbow criterion helps us achieve this. It plots the ratio of within-cluster variance to between-cluster variance against the number of clusters. We want this ratio to be low, indicating tight clusters and high separation between them.

In a graph: 

It looks like this:


As we increase the number of clusters, this ratio initially drops significantly. However, there comes a point where adding more clusters doesn't lead to a substantial improvement. 

This point, known as the "elbow," is considered the ideal number of clusters.

More information about the elbow criterion

https://en.wikipedia.org/wiki/Elbow_method_(clustering)

domingo, 23 de junio de 2024

Customer segmentation with K-Means

 Today, let's unravel the magic of K-Means clustering, your trusty tool for discovering those hidden gems within your marketing data.

What's K-Means Clustering, you ask?

Think of K-Means as a way to group similar data points together, helping you uncover those underlying patterns that might not be obvious at first glance. It's like sorting your favorite candies into different piles based on their flavors – except in this case, we're using customer data like demographics or location.

How Does It Work?

  1. Choose K: First, you need to decide how many clusters (K) you want. It's like deciding how many candy piles you'll have! We'll talk about how to find the perfect K later.
  2. Random Centers: Imagine randomly picking K candies as the starting centers for your piles. That's what we do with your data – randomly select K points as the initial cluster centers (centroids).
  3. Calculate Distances: Now, measure the distance between each data point (candy) and each center (pile). We use the Euclidean distance formula (don't worry, it's not as scary as it sounds!).
  4. Group Them Up: Assign each data point to the closest center, creating your clusters!
  5. Find New Centers: Re-calculate the center of each new cluster (like finding the average position of all the candies in a pile).
  6. Repeat: Keep repeating steps 3-5 until your clusters stop changing much. You've found your final clusters!

Validate Your Clusters:

  • Check the Variance: How tightly packed are the data points within each cluster? Low variance is good, like having candies that are all very similar in flavor within each pile.
  • Dunn Index: This fancy index measures both the tightness of your clusters and how far apart they are. Aim for a high Dunn Index – it means your clusters are well-defined and distinct.

Remember:

  • K-Means is just a tool, not magic! You'll need to use your marketing expertise to interpret the clusters and give them meaningful names.
  • I´ll cover how to find the best K and name your segments in upcoming posts.

jueves, 8 de septiembre de 2022

Product Analytics: How to calculate retention and what does it means.

Understanding how well your business keeps customers engaged is crucial for success. Retention rate is a key metric to measure this success, but there's no one-size-fits-all approach. Depending of your goals and therefore your KPIs you can choose one of them to measure strategies or tactics.
Let's explore three common retention methodologies:

Classic Retention (Day N)

This method tracks the percentage of new users who return on a specific day. For example, if 3 out of 10 new users return on the second day, your Day 2 retention rate is 30%.

  • Benefits: Daily granularity, easy to explain and calculate.
  • Limitations: Sensitive to daily fluctuations.
  • Best for: Measuring the immediate impact of short-term campaigns or analyzing day-to-day retention trends.

Range Retention

This measures retention over a specific time interval, like a week or a month. For instance, if 9 out of 50 new users return within the first week, your first-week retention rate is 18%.

  • Benefits: Smooths out daily noise, easy to explain, good for long-term trend analysis.
  • Limitations: Less granular, longer lag time for results.
  • Best for: Monitoring overall business health and identifying weekly or monthly behavioral patterns.

Rolling Retention

This calculates the percentage of new users who return on or after a specific day. It provides a single metric representing long-term customer engagement.

  • Benefits: Fast to calculate, reflects overall stickiness.
  • Limitations: Open-ended, can be constantly changing, doesn't differentiate between frequent and infrequent users.
  • Best for: Supplementing other KPIs and understanding long-term customer relationships.

Choosing the Right Method

  • Classic Retention: Ideal for tracking short-term campaigns and daily engagement.
  • Range Retention: Best for monitoring overall business health and identifying behavioral patterns.
  • Rolling Retention: Useful for supplementing other metrics and understanding long-term customer relationships.

domingo, 20 de febrero de 2022

Product ideation: Diagrama de Ishikawa

Dentro de la metodología de innovación en design thinking se puede hacer uso del diagrama de Ishikawa. 

El Diagrama de Ishikawa, también conocido como Diagrama de Espina de Pescado, una herramienta visual poderosa que te ayudará a navegar por las complejidades del proceso creativo y a asegurar que tu producto final sea un éxito rotundo.

El Diagrama de Ishikawa es una herramienta versátil y valiosa para cualquier equipo de desarrollo de productos. Al utilizarlo de manera efectiva, podrás anticipar y superar obstáculos, optimizar tus procesos y, en última instancia, crear productos que deleiten a tus clientes y impulsen el éxito de tu negocio.

¿Qué es el Diagrama de Ishikawa?

Imagina el esqueleto de un pez: la cabeza representa el problema o efecto que quieres analizar (en este caso, un producto fallido o con margen de mejora), y las espinas son las posibles causas que contribuyen a ese resultado. Estas causas se clasifican en categorías principales, como:

  • Métodos: Procesos de diseño, desarrollo, producción.
  • Máquinas: Tecnología, herramientas, equipos utilizados.
  • Mano de Obra: Habilidades, capacitación, motivación del equipo.
  • Materiales: Calidad, disponibilidad, costo de los insumos.
  • Medio Ambiente: Condiciones de trabajo, factores externos.
  • Mediciones: Métricas, sistemas de control de calidad.

¿Cómo Aplicarlo en la Creación de Productos?

  1. Define el Problema: ¿Qué quieres lograr con tu producto? ¿Qué desafíos o problemas potenciales anticipas?
  2. Identifica las Categorías Principales: Adapta las categorías tradicionales (6M) a tu contexto específico. Por ejemplo, en desarrollo de software, podrías considerar "Código", "Diseño UX/UI", "Requisitos", etc.
  3. Lluvia de Ideas: Reúne a tu equipo y genera ideas sobre las posibles causas que podrían afectar el éxito del producto, asignándolas a las categorías correspondientes.
  4. Profundiza en las Causas Raíz: Analiza cada causa y busca subcausas más específicas. Utiliza preguntas como "¿Por qué sucede esto?" para llegar al fondo del asunto.
  5. Prioriza y Actúa: Identifica las causas más impactantes y desarrolla soluciones concretas para abordarlas.

Beneficios del Diagrama de Ishikawa:

  • Fomenta la Colaboración: Involucra a todo el equipo en la identificación y resolución de problemas.
  • Visualiza las Relaciones: Permite ver claramente cómo las diferentes causas interactúan y afectan el resultado final.
  • Promueve el Pensamiento Crítico: Estimula el análisis profundo y la búsqueda de soluciones efectivas.
  • Previene Problemas Futuros: Al identificar y abordar las causas raíz, se reducen las posibilidades de que los mismos problemas vuelvan a surgir.
Si quieres tener más información. Desde esta página puedes encontrar una template para trabajar este modelo:

viernes, 1 de mayo de 2020

Segmentando clientes en Python usando el modelo RFM

 Ya en 2016 escribía un post sobre el modelo RFM de segmentación de clientes, para qué servía o qué preguntas podíamos responder y cómo se podía hacer una sencilla consulta en SQL para conseguirlo.
Cinco annos más tarde puedo decir ya con bastante más experiencia que estos datos 
  • 'Recency
  • Frecuency
  • Monetary Value
no se encuentran tan facilmente en las empresas en las bases de datos. Así que para empezar nos va a tocar pasar bastante tiempo limpiando los datos. El modelo sigue siendo utilizado para la segmentación de CRMs y nos va a dar buenas pistas de los usuarios en lo que debemos que poner más atención ya que son nuestros mejores usuarios. 
También podemos usar el mismo modelo para ver que clientes nos han abandonados o qué clientes están inactivos y potencialmente podemos volver a activar. Email Marketing preparado.
Para esto hay diferentes formas de hacerlo. Aquí voy a tirar del usor de percentiles ya que es una de las formas másfáciles de calcular ya que tenemos funciones para ello y además de las que mejor resultado tienen.

Qué formato tienen que tener nuestros datos

Para poder realizar este análisis vamos a necesitar datos de forma transaccional. Es decir por cada acción que haga nuestro usuario como por ejemplo una compra de ecommerce, vamos a tener una línea. Estas transacciones normalmente tienen un ID Además vamos a necesitar que al hacer esa transacción también se guarde un id de cliente. Siempre es más fácil trabajar con numeros y id que con nombres, pero esto último lo podemos arreglar al limpiar los datos antes del analísis. Así que no cunda el pánico.

Para no hace muy largo este post voy a poner un ejemplo con código de la parte de frecuency y recency para poner labels a nuestros usuarios en función de estas dos variables. Así podremos saber en qué fase están nuestros clientes inactivos, activos, engaged, nos abandonado (churn). Estos nos va a ayudar a crear algunas métricas como el churn rate. Qué porcentaje de clientes no vuelven a comprarnos.

Etiquetar a nuestros clientes

Un ejemplo de como podemos etiquetar a nuestros clientes es
- Activos - Active
- Inactivos - Inactive
- Abandonado - Churn


Para llevar acabo el analisis completo de RFM, aquí puedes acceder a un script donde la analista usa también los percentiles. Así que va más allá de lo explicado aquí con la creación de etiquetado.
En este Jupyter Notebook además comenta con bastante detalles que preguntas hay que hacerse para limpiar los datos y qué decisiones toma en base a como están los datos.





jueves, 27 de septiembre de 2018

Tipos de análisis descriptivo: modelos descriptivos, modelos predictivos y modelos prescriptivos

Recien acabado el curso de Customer Analytics A la hora de hacer un análisis de nuestros clientes nos encontramos que existen tres formas de abordarlos.

  • Análisis descriptivo ( descriptive analysis).

    El objetivo de este es explicar las relaciones que hay entre diferentes variables. Así que estariamos hablando de un análisis del pasado o nuestros cliente actuales. Con estos modelos queremos entender a nuestros clientes para ello se usan análisis como la segmentación de clientes. En términos de análisis estadístico aquí podríamos usar la regresión, análisis de cluster,...

  • Análisis predictivo (predictive analisis)

    Con este tipo de análisis lo que queremos es crear modelos para predecir el futuro. Podemos usar por ejemplo

  • Análisis prescriptivo (prescriptive analysis)

    , cuyo fin es tomar una acción. Este último tipo de análisis es especialmente interesante y complejo ya que tiene en cuenta muchas variables y va más allá de los dos anteriores. Para para poder sacarle un mayor partido hace uso de métodos econométricos y la teoría de juegos.

miércoles, 2 de marzo de 2016

Jugando con Tableau y los datos del banco Mundial

He estado jugando con Tableau y echándole un ojo a los datos de Banco Mundial.Total, que me he acordado del marido de una amiga que conocí en Leeds que es de Pakistan. Bueno, de él no, es que durante una cena nos contó que Pakistan era uno de los países más poblados del Mundo. Fijate tú, que en España, o al menos por las zonas que yo he vivido nunca había oído hablar de este país. Qué  si, que intuía que estaba por dónde todos los países que terminan en nosequéTAN y cerca del país de Borat. Y dicho sea de paso a mi me sirvió este conocimiento  para ganar un quesito en el trivial...

Total, que una cosa llevó a la otra y me he puesto a juguetear con los datos. Estaba interesada principalmente en los países más poblados,pero como la cabra siempre tira al monte he acabado creando un dashboard con datos de acceso a Internet y de mortalidad infantil.

La verdad es que ha quedado muy bonito y muy fácil de revisar el treemap más el mapa y el diagrama de cajas y bigotes que es cómo lo llamaba una profe mía en la Universidad (boxplot para los amigos), Yo siempre me imaginaba una caja llena de bigotes de los de Movember y eso que se puede decir que es mi gráfico favoito,.. En fin, mejor me acuesto





Lo he puesto para que filtre por el treemap y eso, muy chulo y útil.Desde luego Tableau nos das los gráficos mascaicos y sólo hay que ocuparse de encontrarle sentido a los datos Otra cosa son las métrica que he cogido...jeje Estaba pensando en intentar hacer una correlación de número de hijos y países más poblados. ¿Eso tiene que ser significativo no? ¿Y mortalidad infantil con estas dos? Pues eso, que más para otro día. Pero si andas interesado en saber como crear un Dashboard con Tableau este video lo explica rápidico rapidico.


miércoles, 3 de febrero de 2016

Segmentando con el modelo RFM con SQL : Recency, Frequency & Monetary value

Si contamos con una base de datos de clientes podemos aplicar un modelo bastante fácil y que ya lleva bastante rodaje en el Marketing Directo:el modelo RFM.

¿Qué es RFM?

El fin de este modelo es poder segmentar a nuestros clientes para saber cuales son los que mayor beneficio nos puede aportar. Así a esos clientes podemos mandarles códigos promocionales, por poner un ejemplo.

Descuartizando el modelo RFM

¿Qué significan cada una de esas letras?
  • Recency: que podríamos describir como recencia.
  • ¿Hace cuánto que compró el cliente? Si el cliente hace mucho que no ha comprado puede ser que se haya ido a la competencia.
  • Frecuency: Frecuencia
  • ¿Con qué frecuencia suele comprar?
  • Monetary Value: valor monetario
Cantidad de dinero que ha gastado de media. Si un cliente suele gastar más será más valioso que otro que suele hacer una compra pequeña.

Cómo definimos RFM en una sentencia de SQL

  • La recencia ("recency") viene definida por el día de la última compra: MIN(dias_desde_la_ultima_compra).
  • La frecuencia ("frequency") viene definida por el total de veces que el cliente ha comprado.
  • El valor monetario ("monetary value"), en este caso, lo vamos a definir como la media de la cantidad comprada de cada uno de los clientes.
Imaginando un CRM con un id por cliente podríamos definir la query como: SELECT cliente_id,
MIN(dias_desde_ultima_compra) AS 'recencia',
COUNT(*) AS 'frecuencia',
AVG(cantidad_comprada) AS 'valor monetario'
FROM data GROUP BY 1")
Al ser en SQL la podríamos usar tanto R como en Python, o cualquier otro lenguaje de programación.