ESTADISTICANDO: COEFICIENTE DE CORRELACIÓN DE SPEARMAN

El coeficiente de correlación de Spearman, conocido también como rs o rho de Spearman (ρ), se puede definir como una medida no paramétrica que evalúa la fuerza y la dirección de una relación monotónica entre dos variables; a diferencia del coeficiente de correlación de Pearson que se encarga de medir relaciones lineales. El coeficiente de Spearman utiliza rangos de datos en lugar de valores que es útil para medir la relación entre dos variables que no cumplen el supuesto de normalidad en su distribución de datos; al igual que el coeficiente de Pearson su valor oscila entre -1 y +1, donde un valor cercano a ±1 indica una fuerte asociación y un valor cercano a 0 indica una asociación débil.

El uso de rangos en la correlación de Spearman permite manejar tanto variables continuas como discretas, proporcionando una medida robusta frente a valores atípicos; resultando así, una herramienta valiosa para múltiples disciplinas (como la psicología, la biología, las ciencias sociales, etc.), en donde los datos no siempre siguen una distribución normal. La correlación de Spearman fue desarrollado en el año 1904 por el psicólogo británico Charles Spearman, para demostrar que las variables tienden a cambiar entre sí de manera consistente, aunque no necesariamente de forma lineal.

Definición Matemática

El coeficiente de correlación de Spearman puede definirse como una correlación entre rangos de datos; la fórmula se expresa como:

\[\rho=r_s=\frac{Cov(rg(X), rg(Y))}{\sigma_{rg(X)} \sigma_{rg(Y)}}\]

Donde:

\(rg(X)\) y \(rg(Y)\) son los rangos de \(X\) e \(Y\), respectivamente.
\(Cov\) es la covarianza
\(\sigma_{rg(X)}\) y \(\sigma_{rg(Y)}\) son las desviaciones estándar de los rangos de \(X\) y \(Y\).

- Para datos sin empates, \(\rho\) se puede simplificar:

Donde:

\(d_i\) es la diferencia entre los rangos de cada par de observaciones.
\(n\) es el número de observaciones.

- Si hay empates (valores iguales), se asigna a cada valor el promedio de los rangos.

Tipos de Variables y Supuestos

La correlación de Spearman es adecuada para variables ordinales, de intervalos, discretas y continuas, y como se observó, es muy útil cuando los datos no están normalmente distribuidos o existe una relación monotónica no lineal; entonces los supuestos más importantes son:

- Las dos variables pueden medirse en escalas ordinal, de intervalo o de razón.
- Las variables tienen relación monotónica (cuando una variable aumenta la otra también, o cuando una variable aumenta la otra disminuye).
- Las variables pueden ser ordenadas.
- Las variables representan observaciones pareadas (cada par de valores proviene de un solo participante).

Ventajas y Desventajas

- Entre las ventajas tenemos que: no requiere normalidad, mide relaciones monotónicas para detectar relaciones no lineales, es robusto por ser menos sensible a outliers o valores extremos.
- Entre las desventajas tenemos que: al usar rangos se pierde información, puede ser menos potente que Pearson si la relación es verdaderamente lineal, no indica la naturaleza de la relación sino sólo su dirección y fuerza (en términos de orden).

Usos y Aplicaciones

Spearman se usa principalmente en disciplinas como psicología, biología y ciencias sociales, donde los datos a menudo no cumplen con los supuestos de normalidad y linealidad. Es útil para evaluar relaciones en donde no importan las magnitudes absolutas, sino sólo el orden de los datos.

Interpretación

El coeficiente de Spearman varía entre -1 y 1: cuando ρ = 1, la correlación es positiva perfecta (los rangos son idénticos), es decir, al aumentar una variable, la otra también aumenta de manera perfecta; cuando ρ = -1, la correlación es negativa perfecta (los rangos son inversos); al aumentar una variable, la otra disminuye de manera perfecta y si ρ = 0 entonces no hay correlación monotónica entre las variables; en la siguiente tabla, observamos valores más específicos sobre la fuerza de correlación:

Valor de \(\rho\) de Spearman	Significado
-1	Correlación negativa perfecta
[-0.90 a -0.99]	Correlación negativa muy alta
[-0.70 a -0.89]	Correlación negativa alta
[-0.40 a -0.69]	Correlación negativa moderada
[-0.20 a -0.39]	Correlación negativa baja
[-0.01 a -0.19]	Correlación negativa muy baja
0	Correlación nula
[0.01 a 0.19]	Correlación positiva muy baja
[0.20 a 0.39]	Correlación positiva baja
[0.40 a 0.69]	Correlación positiva moderada
[0.70 a 0.89]	Correlación positiva alta
[0.90 a 0.99]	Correlación positiva muy alta
1	Correlación positiva perfecta

Fuente: Martínez & Campos (2015)

Pasos para la prueba de significancia estadística

1. Establecer las hipótesis:

H₀: \(\rho = 0\) (No hay correlación entre las variables).
H₁: \(\rho ≠ 0\) (Existe una correlación entre las variables).

2. Elegir el nivel de significancia (\(\alpha\)):

Comúnmente, \(\alpha=0.05\)

3. Calcular el estadístico de prueba:

Para el coeficiente de correlación de Spearman, el estadístico de prueba \(t\) se calcula como:

Donde \(n\) es el número de observaciones y \(p\) es el coeficiente de correlación de Spearman.

4. Determinar el valor crítico:

Usar la distribución \(t\) de Student con \(n-2\) grados de libertad.

5. Decisión: Comparar el estadístico de prueba calculado con el valor crítico (tabla \(t\)) o también se puede determinar comparando el \(p-valor\) con \(\alpha\):

Con \(t\):
Si \(|t| > t_{\text{crítico}}\): se rechaza H₀, entonces existe correlación significativa entre las variables
Si \(|t| ≤ t_{\text{crítico}}\): no se rechaza H₀, entonces no hay correlación significativa entre las variables

Con \(p-valor\):
Si \(p-valor ≤ \alpha\): rechazamos H₀, entonces existe correlación significativa entre las variables
Si \(p-valor > \alpha\): no rechazamos H₀, entonces no existe correlación significativa entre las variables

Ejemplos

1. Ejemplo de cálculo de \(\rho\) para datos sin empates:

- Consideremos dos variables con 10 observaciones cada una:

X	Y
1	2
2	1
3	4
4	3
5	6
6	5
7	8
8	7
9	10
10	9

- Primero, asignamos rangos a X y Y:

X	Rangos X	Y	Rangos Y	\(d_i\)= Rangos X − Rangos Y	\(d_i^2\)
1	1	2	2	-1	1
2	2	1	1	1	1
3	3	4	4	-1	1
4	4	3	3	1	1
5	5	6	6	-1	1
6	6	5	5	1	1
7	7	8	8	-1	1
8	8	7	7	1	1
9	9	10	10	-1	1
10	10	9	9	1	1

- Ahora calculamos ρ o rs utilizando la fórmula de Spearman:

\(\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}== 1 - \frac{6*10}{10(10^2 - 1)}=1− 0.0606 = 0.9394\)

- Interpretación: El coeficiente de correlación de Spearman (\(\rho=0.9394\)) indica una fuerte correlación positiva monotónica entre las variables X y Y; entonces, a medida que los valores de X aumentan, los valores de Y también tienden a aumentar, estableciéndose una relación ordenada y consistente.

2. Ejemplo de cálculo de \(\rho\) para datos empatados:

- Consideremos un ejemplo con las siguientes observaciones:

X	Y
1	2
2	1
3	4
4	4
5	6
6	6
7	8
8	8

- Primero, asignamos rangos a X y Y, manejando los empates:

X	Rangos X	Y	Rangos Y	\(d_i\)= Rangos X − Rangos Y	\(d_i^2\)
1	1	2	1.5	-0.5	0.25
2	2	1	1	1	1
3	3	4	3.5	-0.5	0.25
4	4	4	3.5	0.5	0.25
5	5	6	5.5	-0.5	0.25
6	6	6	5.5	0.5	0.25
7	7	8	7.5	-0.5	0.25
8	8	8	7.5	0.5	0.25

- Sumamos los cuadrados de las diferencias:

\(\sum d_i^2 = 0.25 + 1 + 0.25 + 0.25 + 0.25 + 0.25 + 0.25 + 0.25 = 3\)

- Aplicamos la fórmula:

\(\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}= 1 - \frac{6 \times 3}{8(8^2 - 1)}=1 – 0.0357 = 0.9643\)

- Interpretación: el coeficiente de correlación de Spearman (\(\rho\)) es 0.9643, indicando una fuerte correlación positiva monotónica entre las variables X y Y.

3. Ejemplo para determinar la significancia estadística:

- Considerando el ejercicio anterior...

- Dado que:

\(n\) = 8
\(\rho\) = 0.9643

- Calculemos el estadístico de prueba \(t\):

\(t = 0.9643 \sqrt{\frac{8 - 2}{1 - 0.9643^2}}=0.9643 \times 9.316 \approx 8.98\)

- Determinamos el valor crítico:

Para α = 0.05 y n−2 = 6 grados de libertad, buscamos el valor crítico utilizando una tabla \(t\) o software estadístico, resultando el valor crítico de \(t\) aproximadamente 2.447.

- Comparamos el estadístico de prueba con el valor crítico:

Nuestro estadístico de prueba \(t\) ≈ 8.98 es mayor que el valor crítico de 2.447, por otro lado, al ubicar el p-valor, en una tabla \(t\)-student resulta ser muy pequeño (mucho menor a 0.05), indicando que la probabilidad de obtener el valor de \(\rho\) mediante el azar es extremadamente baja.

- Decisión:

Dado que \(t \) ≈ 8.98 es significativamente mayor que el valor crítico de 2.447 y p-valor es menor que α = 0.05, entonces, rechazamos la hipótesis nula H₀, lo que sugiere que hay una correlación significativa entre las variables X y Y.

- Interpretación

El coeficiente de correlación de Spearman (\(\rho\) = 0.9643) es estadísticamente significativo e indica una fuerte correlación positiva entre las variables.

Referencias: (1), (2), (3), (4), (5), (6), (7), (8), (9).

23/4/22

COEFICIENTE DE CORRELACIÓN DE SPEARMAN

No hay comentarios:

Publicar un comentario