Esta entrada es cortesía de Jordi Rosell, consultor y profesor de marketing online así como asesor y optimizador de e-commerce y negocios online, además de analista en triggerbit.com
¡Esperamos que os guste!
Conceptos previos
Z es el valor estadístico de la curva normal de frecuencias que se utiliza medir la diferencia entre un valor estadístico observado y su parámetro hipotético de población en unidades de desviación estándar.
El error estándar es una estimación de la desviación estándar de la distribución muestral de un estadístico que indica el tamaño de la incertidumbre debido a la estimación de la media poblacional a partir de las medias muestrales.
El nivel de confianza indica cuán probable es que el parámetro de población, como por ejemplo la media, esté dentro del intervalo de confianza.
Explicación
Dos variables estadísticas son estadísticamente independientes cuando el comportamiento estadístico de una de ellas no se ve afectado por los valores que toma la otra
Cómo requisito necesitamos un mínimo de n=10/p’ observaciones siendo p’ la proproción menor. Por ejemplo, esto son n=10/0.02=500 observaciones cuando p’=2%.
En ese caso, el error estándar para una proporción es:
SE(p’) = sqrt(p'(1-p’)/n)
Luego, para calcular el intervalo para una proporción de confianza, necesitamos:
p’+-z*SE(p’)
p’+-z*sqrt(p’*(1-p’)/n)
Es habitual usar un nivel de confianza de 95%. Este nivel indica que 19 de 20 muestras (95%) de la misma población generarán intervalos de confianza que contendrán el parámetro de población.
Al reducir el nivel de confianza, disminuye el valor Z y así los rangos de los intervalos de confianza pueden ser más reducidos al coste de aceptar mayor incertidumbre.
Nivel de confianza | Fuera del intervalo | Valores Z bilaterales |
99% | 1% | 2.58 |
95% | 5% | 1.960 |
90% | 10% | 1.645 |
80% | 20% | 1.282 |
75% | 25% | 1.15 |
68% | 32% | 1.0 |
Ejemplos
Imaginemos una encuesta con 100 respuestas y hay un 15% en una opción y un 40% en otra opción.
¿Qué intervalos de confianza tenemos con un nivel de confianza del 95%?
(Requisito: El número de respuestas como mínimo debe ser n=10/0.100=50 y es 100)
10%
p’+-z*sqrt(p’*(1-p’)/n)
0.1+-1.960*sqrt(0.1*(1-0.1)/100)
0.1+-1.960*0.03
0.1+-0.0588
(0.0412,0.1588)
30%
p’+-z*sqrt(p’*(1-p’)/n)
0.3+-1.960*sqrt(0.3*(1-0.3)/100)
0.3+-1.960*0.04582576
0.3+-0.08981849
(0.2101815,0.3898185)
Esto significa que aunque veamos una diferencia absoluta del 20% en las medias de las muestras, la diferencia puede ser mayor del 5,14% en un 95% de los casos (0.2101815-0.1588).
Ahora usaremos un nivel de confianza del 75%
10%
p’+-z*sqrt(p’*(1-p’)/n)
0.1+-1.15*sqrt(0.1*(1-0.1)/100)
0.1+-1.15*0.03
0.1+-0.0345
(0.0655,0.1345)
30%
p’+-z*sqrt(p’*(1-p’)/n)
0.3+-1.15*sqrt(0.3*(1-0.3)/100)
0.3+-1.15*0.04582576
0.3+-0.05269962
(0.2473004,0.3526996)
Aceptando una mayor incertidumbre, podemos decir que la diferencia puede ser mayor de 11,28% en un 75% de los casos (0.2473004-0.1345).
Consideraciones
Como analistas buscamos que nuestros datos sean precisos y para eso hay que valorar como juega el nivel de confianza en la amplitud del intervalo de confianza.
Los cálculos anteriores asumen una aproximación a la distribución normal y eso require independencia entre las variables y un n mínimo según la proporción mínima obtenida.
El cálculo del intervalo se basa únicamente en la variabilidad de la muestra sin tener que la estimación puede ser peor si existen sesgos en los datos recopilados (ej: palabras usadas, ratios de respuesta, etc.).