10/6/23

REGRESIÓN LINEAL SIMPLE




La regresión lineal es una técnica estadística fundamental que sirve para modelar y explicar la relación entre una variable dependiente y una o más variables independientes, asumiendo una relación lineal entre ellas (buscando la línea recta que mejor se ajusta a los datos observados); esta técnica es empleada en diversos campos como: economía, ciencias sociales, medicina, ingeniería, entre otros; con el fin de predecir valores de manera generalizada en base a los datos observados.

 

Definición matemática

La ecuación del modelo de regresión lineal simple se define como:
\[y = \beta_0 + \beta_1 x + \epsilon\]

Donde:
- \(y\) es la variable dependiente.
- \(x\) es la variable independiente.
- \(\beta_0\) es el intercepto, el valor esperado de \(y\) cuando \(x=0\).
- \(\beta_1\) es la pendiente, que indica el cambio esperado en \(y\) por unidad de cambio en \(x\).
- \(\epsilon\) es el término de error, que representa la variabilidad en \(y\) que no puede ser explicada por \(x\).


Considerar:

\(\beta_1>0\) → Crecimiento de \(y\) por cada incremento unitario en \(x\).
\(\beta_1<0\) → Disminución de \(y\) por cada incremento unitario en \(x\).



Representación gráfica



 

Hipótesis del Modelo
 

* Hipótesis del intercepto: Se prueba para determinar si el intercepto es significativamente diferente de cero.

 H: β ​= 0

* Hipótesis de la pendiente: Se prueba para determinar si la variable independiente \(x\) tiene un efecto significativo sobre la variable dependiente \(y\).

  H​: β = 0 


Ajuste del Modelo

Ajustar el modelo de regresión, utilizando técnicas de Mínimos Cuadrados Ordinarios (MCO u OLS) para encontrar los coeficientes que minimizan la suma de los errores cuadrados.

 

a) Cálculo de la pendiente (β)

\[\beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}\]

Donde:
- \(x_i\) y \(y_i\) son los valores individuales de las observaciones.
- \(\bar{x}\) es la media de los valores de  \(x\).
- \(\bar{y}\) es la media de los valores de  \(y\).


b) Cálculo del intercepto (β₀)

\[\beta_0 = \bar{y} - \beta_1 \bar{x}\]

Donde:
- \(\beta_0\) es la pendiente calculada previamente.
- \(\bar{y}\) es la media de los valores de  \(y\).
- \(\bar{x}\) es la media de los valores de  \(x\).


Supuestos del Modelo

1. Linealidad

Hipótesis: La relación entre la variable dependiente \(y\) y la variable independiente \(x\) es lineal.

\(H_0\): La relación entre \(y\) y \(x\) es lineal.
\(H_1\): La relación entre \(y\) y \(x\) no es lineal.

Matemáticamente: \(y = \beta_0 + \beta_1 x + \epsilon\)

Verificación: Se puede verificar visualmente mediante un gráfico de dispersión (scatter plot), si los puntos muestran un patrón lineal, la regresión lineal es adecuada.


2. Independencia de los errores (residuos)

Hipótesis: Las observaciones son independientes entre sí, es decir, que no debe haber correlación entre los residuos de las distintas observaciones.

\(H_0\): Los errores son independientes.
\(H_1\): Los errores no son independientes.

Matemáticamente: La covarianza entre los errores debe ser cero:

\(H_0: Cov(\epsilon_i,\epsilon_j) =0\) para \(i ≠ j\)
\(H_1: Cov(\epsilon_i, \epsilon_j) ≠ 0\)
 

Verificación: Se puede verificar mediante Pruebas de Durbin-Watson para detectar autocorrelación en los residuos, un valor cercano a 2 indica independencia.


3. Homoscedasticidad

Hipótesis: La varianza de los errores es constante para todos los valores de \(x\), esto significa que la dispersión de los residuos debe ser aproximadamente la misma en todo el rango de valores de \(x\).

\(H_0\): La varianza de los errores es constante (homoscedasticidad).
\(H_1\): La varianza de los errores no es constante (heteroscedasticidad).

Matemáticamente:

\(H_0: Var(\epsilon_i) = \sigma^2\) para todo \(i\).
\(H_1: Var(\epsilon_i) ≠ \sigma^2\)

Verificación: Mediante gráficos de residuos vs. valores ajustados, donde la homoscedasticidad se cumple si los residuos se distribuyen de forma constante a lo largo de los valores de \(x\); si los residuos muestran un patrón sistemático, como un cono que se abre, entonces hay heteroscedasticidad; también se pueden utilizar las Pruebas de Breusch-Pagan y White.


4. Normalidad de los errores

Hipótesis: Los errores o residuos del modelo (\(\epsilon_i\)) siguen una distribución normal.

\(H_0\): Los errores siguen una distribución normal.
\(H_1\): Los errores no siguen una distribución normal.

Matemáticamente:

\(H_0: \epsilon∼N(0,\sigma^2)\)
\(H_1: \epsilon≁N(0,\sigma^2)\)
 

Verificación: Puede verificarse con los Gráficos Q-Q (Quantile-Quantile Plot), cuando los residuos se ajustan a la línea del gráfico Q-Q entonces se cumple la normalidad; también se puede probar mediante pruebas estadísticas como Shapiro-Wilk o Kolmogorov-Smirnov, para tales casos se evalúa el valor \(p\) con respecto al nivel de significancia (\(\alpha\)), entonces la interpretación sería:

Si \(p ≤ α\): Se rechaza la hipótesis nula y se concluye que los errores no siguen una distribución normal.
Si \(p > α\): No se rechaza la hipótesis nula y se concluye que no hay suficiente evidencia para afirmar que los errores no siguen una distribución normal.


Importancia de los Residuos

Los residuos son los errores del modelo que miden la diferencia entre los valores reales de la variable dependiente y los predichos por el modelo; si los residuos están distribuidos de forma aleatoria alrededor de cero, entonces el modelo es adecuado, si por otro lado, se distribuyen formando un patrón (curva o U), entonces el modelo no explica adecuadamente la relación entre las variables. Si estandarizamos los residuos (residuos divididos por su desviación estándar) podemos detectar posibles valores atípicos cuando superan un máximo de ±2; sin embargo, tengamos en cuenta que los residuos asumen que la distribución de los errores es normal, que no explican las causas de los valores atípicos y tampoco la causalidad entre las variables. 


Detección de Outliers

Los outliers o valores atípicos pueden detectarse usando gráficos de dispersión o gráficos de residuos o también técnicas como la distancia de Cook; para tratar los outliers, se pueden eliminar, transformar o utilizar métodos robustos a fin de minimizar su impacto.


 

Validación Matemática del Modelo

Para ajustar y validar un modelo de regresión lineal simple, se utilizan diversas métricas y técnicas como:


a) Coeficiente de determinación ()

Es una medida estadística que indica en que proporción o porcentaje los datos observados se ajustan al modelo de regresión, dicho de otro modo, es la proporción de la variabilidad de los datos que está explicada por el modelo. Cuanto más cercano a 1, el modelo explica mejor la variabilidad de la variable dependiente.

\[R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}\]

 Donde: \(\hat{y_i}\) son los valores predichos por el modelo y, \(\bar{y}\) es la media de los valores observados.
 

b) Raiz del Error Cuadrático Medio (RMSE)

RMSE (Root Mean Squared Error), es una medida de bondad de ajuste del modelo, un valor más bajo indica un mejor ajuste, demostrando que tan bien se ajusta el modelo a los datos.

\[RMSE = \sqrt{\frac{\sum (e_i)^2}{n}}=\sqrt{\frac{1}{n}\dot \sum(y_i - \hat{y}_i)^2}\]

 
c) Análisis de varianza (ANOVA)

Para evaluar la significancia global del modelo, usando el estadístico F.

\[F = \frac{SSR/k}{SSE/(n-k-1)}\]

Donde SSR es la suma de cuadrados de regresión, SSE es la suma de cuadrados de error, \(k\) es el número de variables independientes (en regresión simple \(k=1\)) y \(n\) es el número de observaciones.

- Si \(F_{calculado} > F_{crítico}\): Rechazamos la hipótesis nula \(H_0\) de que todos los coeficientes de regresión son iguales a cero; esto significa que el modelo de regresión tiene poder explicativo significativo para la variable dependiente.

- Si \(F_{calculado} \leq F_{crítico}\): No rechazamos la hipótesis nula \(H_0\), lo que indica que el modelo no tiene un poder explicativo significativo.

 

d) Valor de \(p\) o \(p-valor\)

Nos muestra la significancia estadística de los coeficientes del modelo.


Nota: En caso de usar técnicas actuales, la data se divide en entrenamiento y prueba, de esta forma se pueden hacer validaciones y predicciones.



Ejemplo de un análisis de Regresión Lineal Simple 


Paso 1. Definir el problema

Analizar el problema y determinar la variable dependiente (la que se quiere predecir) y la variable independiente (para hacer la predicción).


Paso 2. Recolección y descripción de los datos

Supongamos que nuestra data tiene las siguientes observaciones:

X Y
1 2
2 3
3 5
4 4
5 7

Paso 3. Preparación de los datos

Calculamos las sumatorias necesarias para el ajuste del modelo:

\(n=5\)
\(\sum X = 1 + 2 + 3 + 4 + 5 = 15\)
\(\sum Y = 2 + 3 + 5 + 4 + 7 = 21\)
\(\sum XY = (1 \cdot 2) + (2 \cdot 3) + (3 \cdot 5) + (4 \cdot 4) + (5 \cdot 7) = 74\)
\(\sum X^2 = 1^2 + 2^2 + 3^2 + 4^2 + 5^2 = 55\)

 

Paso 4: Análisis descriptivo

Media:

\(\bar{X} = \frac{1 + 2 + 3 + 4 + 5}{5} = \frac{15}{5} = 3\)
\(\bar{Y} = \frac{2 + 3 + 5 + 4 + 7}{5} = \frac{21}{5} = 4.2\)
 

Varianza:

\(s^2_X = \frac{\sum (X_i - \bar{X})^2}{n-1} = \frac{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2}{4} = 2.5\)
 
\(s^2_Y = \frac{\sum (Y_i - \bar{Y})^2}{n-1} = \frac{(2-4.2)^2 + (3-4.2)^2 + (5-4.2)^2 + (4-4.2)^2 + (7-4.2)^2}{4} = 3.2\)
 

Desviación estándar:

\(s_X = \sqrt{s^2_X} = \sqrt{2.5} = 1.58\)
\(s_Y = \sqrt{s^2_Y} = \sqrt{3.2} = 1.79\)

 

Paso 5: Construcción del modelo 

Calculamos los coeficientes de la recta de regresión:

\(\beta_1 = \frac{n \sum XY - \sum X \sum Y}{n \sum X^2 - (\sum X)^2} = \frac{5 \cdot 74 - 15 \cdot 21}{5 \cdot 55 - 15^2} = 1.1\)

\(\beta_0 = \frac{\sum Y - \beta_1 \sum X}{n} = \frac{21 - 1.1 \cdot 15}{5} = 0.9\)

 Entonces, la ecuación de la recta de regresión queda como:

\[\hat{Y} = 0.9 + 1.1X\]
 
 
Realizamos un gráfico de dispersión para observar la relación entre\(X\) y \(Y\).

Paso 6: Calcular los residuales

Calculamos los valores predichos (\(\hat{Y}\)) y los residuos: 

\(\text{Residuo}(e) = \text{Valor Observado} (Y) - \text{Valor Predicho} (\hat{Y})\)

X Y Ŷ Residuo (e)
1 2 0.9 + 1.1(1) = 2 2 - 2 = 0 0
2 3 0.9 + 1.1(2) = 3.1 3 - 3.1 = -0.1 0.01
3 5 0.9 + 1.1(3) = 4.2 5 - 4.2 = 0.8 0.64
4 4 0.9 + 1.1(4) = 5.3 4 - 5.3 = -1.3 1.69
5 7 0.9 + 1.1(5) = 6.4 7 - 6.4 = 0.6 0.36

Sumatoria de los errores al cuadrado:

\(\sum e^2 = 0 + 0.01 + 0.64 + 1.69 + 0.36 = 2.7\)



Paso 7. Verificar supuestos

a) Linealidad: Para verificar la linealidad, observamos el gráfico de dispersión y la relación entre \(x\) y \(y\); si la relación parece lineal, entonces el supuesto se cumple.

b) Homocedasticidad: Para verificar la homocedasticidad, observamos los residuos, deben estar distribuidos uniformemente a lo largo de los valores predichos; según los datos observados en la tabla anterior, los residuos (\(e\)), no parecen tener una variación creciente o decreciente, lo que sugiere homocedasticidad.

c) Independencia: Para verificar la independencia de los residuos, se puede realizar un test de Durbin-Watson.

d) Normalidad:  Para verificar la normalidad, calculamos los residuos estandarizados y los evaluamos.

Residuo
(\(e\))
Residuos estandarizados
(\(e/s_e\))
0 0
-0.1 -0.1/0.79   = -0.13
0.8 0.8/0.79     = 1.01
-1.3 -1.3/0.79  = -1.65
0.6 0.6/0.79     = 0.76

Los residuos estandarizados parecen estar distribuidos alrededor de 0.


Paso 8. Identificación de outliers o valores atípicos

Para identificar outliers, podemos observar los residuos estandarizados, un umbral común puede ser un residuo estandarizado mayor a 2 o menor a -2; y para nuestro caso, no se observan outliers.

 

Paso 9: Validación del moldelo

a) Cálculo de R² (Coeficiente de determinación)

\(\bar{Y} = 4.2\)
 
\(\sum (y_i - \bar{y})^2 = (2 - 4.2)^2 + (3 - 4.2)^2 + (5 - 4.2)^2 + (4 - 4.2)^2 + (7 - 4.2)^2=14.8\)
 
\(R^2 = 1 - \frac{\sum e^2}{\sum (y_i - \bar{y})^2} =  1 - 0.1824 \approx 0.8176\)
 

b) Cálculo del RMSE (Error cuadrático medio)

\(\text{RMSE} = \sqrt{\frac{\sum e^2}{n}} = \sqrt{\frac{2.7}{5}} = 0.735\)

El coeficiente de determinación () es aproximadamente 0.8176, lo que indica que el modelo explica alrededor del 81.76% de la variabilidad en los datos. Además, la precisión del modelo representado por RMSE es aproximadamente 0.735, considerando que RMSE se expresa en unidades de medida de la variable dependiente y si los valores son bajos, indican que el modelo realiza predicciones más precisas y se ajusta bien a los datos.


Paso 10: Verificación con ANOVA

Evaluar la significancia global del modelo

a) Suma de cuadrados

\(\text{SSR} = \sum (\hat{Y} - \bar{Y})^2 = (2 - 4.2)^2 + (3.1 - 4.2)^2 + (4.2 - 4.2)^2 + (5.3 - 4.2)^2 + (6.4 - 4.2)^2=12.1\)

\(\text{SSE} = \sum (Y - \hat{Y})^2 = 0 + 0.01 + 0.64 + 1.69 + 0.36 = 2.7\)

\(\text{SST} = SSR + SSE = 12.1 + 2.7 = 14.8\)

 
también se puede calcular como:

\(R^2 = \frac{SSR}{SST} = \frac{12.1}{14.8} = 0.818\)


b) Grados de libertad


Grados de libertad del modelo (regresión): 

\(Gl_{modelo} = k = 1\) (número de variables independientes)


Grados de libertad del error (residual): 

\(Gl_{error} = n - k - 1 = 5 - 1 - 1 = 3\) (número de observaciones menos el número de variables independientes menos 1)


c) Medias cuadráticas

Media cuadrática de la regresión (MSR):

\(\text{MSR} = \frac{\text{SSR}}{Gl_{modelo}} = \frac{12.1}{1} = 12.1\)


Media cuadrática del error (MSE): 

\(\text{MSE} = \frac{\text{SSE}}{Gl_{error}} = \frac{2.7}{3} = 0.9\)


d) Estadístico F

El estadístico F se calcula como el cociente de las medias cuadráticas:

\(F = \frac{\text{MSR}}{\text{MSE}} = \frac{12.1}{0.9} = 13.44\)

 
g) Interpretación

El valor del estadístico F calculado se compara con un valor crítico de la distribución F para los grados de libertad correspondientes (1 y 3) a un nivel de significancia especificado (generalmente \(\alpha\)=0.05), es aproximadamente 10.13.

Dado que \(F_{calculado} = 13.44\) es mayor que \(F_{crítico} = 10.13\), entonces rechazamos la hipótesis nula H0; esto significa que hay suficiente evidencia estadística para concluir que el modelo de regresión lineal simple es significativo y tiene un poder explicativo para la variable dependiente.

Además con \(F=13.44\), el valor de \(p \approx 0.0363\) es menor que el nivel de significancia \(\alpha = 0.05\), por lo que rechazamos la hipótesis nula y concluimos que nuestro modelo de regresión lineal simple presenta una relación estadísticamente significativa entre la variable dependiente y la variable independiente.


Paso 11. Implementación y monitoreo

Una vez se haya obtenido el modelo final, lo implementamos y lo ponemos en producción para hacer predicciones con nuevos datos, esto requiere de monitorizar su rendimiento con el tiempo, para asegurarnos de que siga siendo preciso. En el caso de no cumplirse los supuestos o siga habiendo problemas de outliers, se pueden seguir realizando transformaciones en el conjunto de datos o utilizar modelos alternativos como un modelo de orden distinto, ajustes de la curva, validaciones con machine learning, entre otros.


Referencias (1), (2), (3), (4), (5), (6).

 


No hay comentarios:

Publicar un comentario