El coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias y cuantitativas. La diferencia entre el coeficiente de correlación y la covarianza no es otra que a éste primero no le afecta la escala de medida de las variables. ¿Qué quiere decir esto? Que si por ejemplo estamos estudiando el grado de relación entre el peso y la altura de un grupo de población, el coeficiente de correlación entre ambas variables no varía si expresamos la altura de algunos individuos en metros y la de otros en centímetros.
En definitiva, el coeficiente de correlación de Pearson podemos definirlo como un índice estadístico que permite evaluar el grado de relación lineal entre dos variables cuantitativas.
Valor del coeficiente de correlación de Pearson
Éste índice de correlación se encuentra en el intervalo [-1,1]:
- Si r=1 -> La correlación entre ambas variables es positiva y perfecta. Este valor indica una dependencia total y absoluta entre ellas; es lo que se conoce como relación directa, esto es, cuando una de ellas aumenta, la otra lo hace en la misma proporción, y viceversa.
- Si 0 < r < 1 -> Hay una correlación positiva entre las dos variables. Cuanto más cerca está el coeficiente del valor 1, la relación entre ambas es más lineal positiva.
- Si r = 0 -> No existe relación lineal entre las variables. ¡Ojo! Esto no significa que sean independientes ya que pueden existir relaciones no lineales entre ellas.
- Si -1 < r < 0 -> Hay una correlación negativa entre las dos variables. Cuanto más cerca está el coeficiente del valor -1, la relación entre ellas es más lineal negativa.
- Si r = -1 -> Existe una correlación negativa perfecta entre ambas variables. Éste índice indica una dependencia total entre ellas. Es lo que se denomina relación inversa; esto es, cuando una de ellas aumenta, la otra disminuye en la misma proporción, y viceversa.
Ejemplo de ejercicio de coeficiente de correlación
Las notas de 5 alumnos de una clase en Matemáticas y Lengua son:
Matemáticas (x) | Lengua (y) | xi.yi | xi2 | yi2 |
10 | 5 | 50 | 100 | 25 |
4 | 7 | 28 | 16 | 49 |
3 | 9 | 27 | 9 | 81 |
9 | 2 | 18 | 81 | 4 |
4 | 6 | 24 | 16 | 36 |
30 | 29 | 147 | 222 | 195 |
Hallamos las medias aritméticas de ambas variables
Media de x -> 6
Media de y -> 5,8
Calculamos la covarianza
Covarianza xy -> (147 / 5) – (6 * 5,8) = -5,4
Calculamos las desviaciones típicas
Desviación típica de x = V[(222/5)*62] = 39,97
Desviación típica de y = V[(195/5)*5,82] = 36,22
Aplicamos la fórmula del índice de correlación lineal
r = -5,4 / (36,97 * 36,22) = -0,004 -> El índice es prácticamente 0. Hay una correlación negativa entre las notas de los alumnos en matemáticas y lengua; el grado de relación lineal entre las notas es prácticamente nulo.