Translate

sábado, 21 de enero de 2017

Errores que pueden darse al analizar datos de forma visual

En el curso sobre Data Visualization and Communication with Tableau ya vamos por la semana tres y cada vez se pone más interesante sobre todo en lo que aplicación práctica se refiere. Sin duda, uno de los mejores cursos que me he encontrado últimamente ya que va más allá de Tableau y explica todo un framework a tener en cuenta para explicar los resultados obtenidos.

Esta semana además aparecen en los vídeos personal de AirBnB dando ejemplos reales de los problemas que pueden darse al analizar los datos.

Errores que se pueden dar al analizar datos de forma visual 

La generalizacion y el sesgo muestral (Overgeneralization ands sample bias)


Este error se refiere al problema que genera elegir un dataset que está demasiado lejos de la realizad por ser una muestra demasiada o pequeña y dar por real algo que no lo es. Igualmente podemos tener un dataset enorme pero que no se ajuste a la realidad. Por ejemplo The Guardian intentó analizar donde eran peores las consecuencias de los efectos del Huracán Sandy según el ruido que se formaba en twitter. En realidad como la población no está igualmente distribuida, habia más tweets desde las ciudades más pobladas. Así que si se hubieran quedado con ese dataset no hubiera servido para nada y los resultados no hubieran servido para nada.

Así que deberíamos tener más cuidado con la calidad de los datos.

Mala interpretación debido a la falta de controles


Cada vez que analizamos algo puede ser debido a diversas causas, no sólo a lo que nosotros pensamos que puede ser. Como ejemplo se da un análisis de una acción de email marketing que supuestamente hacer que aumente la compra de una bebida en una determinada fecha. Más allá de ello nos encontramos que en realidad el aumento de la compra de la bebida se dá, no sólo en nuestra empresa sino también en los mayores competidores. ¿Qué ha podido pasar? Justamente por esa fecha un actor sale en las revistas bebiendo ese tipo de bebida y todos los vendedores salen fortalecidos.

Por ello siempre debe hacerse un grupo de control para ver si el resultado de la acción se debe a alho intrínseco.


Correlación no implica causalidad


Esto siempre es debatido en el análisis. Dos variable que parecen que tienen correlación (por ejemplo cuando una aumenta la otra también) en realidad  pueden no tener relación. Por ejemplo google estuvo haciendo un estudio y dando los resultados sobre la gripe. Así podía predecir los brotes que se daban por zona geográfica. Aunque en un principio parecía correcto, llegó un momento en que dejo de serlo. Quizás había alguna variable que no se haya tenido en cuenta o que entra en juego a lo largo del tiempo, por ejemplo un cambio en Google suggest
A ese tipo de relación que gráficamente parece existir pero que no tiene lógica se le llama relación espurea. Y se pueden a modo de friki-chiste relaciones espureas en esta página web.

Recomendación para evitar estos errores en el análisis

¿Y qué podemos hacer para intentar cometer el mínimo de errores posible y que se vaya todo el trabajo al garete?

1. Podemos crear un grupo de control, al modo A/B testing.

2. Si no es posible, podemos estudiar otras variables relacionadas que podrían esta interfiriendo en el análisis.

3. Hay que tener en cuenta que cuanto más grande es un dataset, más probabilidad hay de que aparezca una variable durante un periodo de tiempo  que haga que la nuestra correlación no sea cierta.(por ejemplo para el caso de Google flu, un cambio en su algoritmo con Google suggest donde sugería a los usuarios términos a buscar ) Así que si queremos basarnos en las correlaciones primero debemos saber que estamos haciendo e investir tiempo y esfuerzo en ello.

Más allá de todo esto aquí dejo un artículo de Wired sobre lo que podemos aprender del fallo de Google Flu Trends (muy muy interesante)