El Análisis de Varianza o Analysis of Variance (ANOVA) es una familia de métodos estadísticos utilizados para comparar las medias de tres o más grupos y determinar si existen diferencias significativas entre ellas, se basa en la comparación de la variabilidad entre y dentro de los grupos para establecer si al menos una de las medias es diferente, para el contraste de hipótesis se usa la prueba F. El objetivo principal del ANOVA es evaluar si la variabilidad de los datos se debe a la influencia de ciertos factores o se debe al azar.
El ANOVA fue desarrollado por Ronald Fisher en 1918, al introducir el término “varianza” en un artículo sobre genética de poblaciones, más adelante en 1925, incluye al análisis de varianza (ANOVA) en su libro Statistical Methods for Research Workers, donde compara de una manera eficiente a diversos grupos sin aumentar la probabilidad de error tipo I (falsos positivos), realizando múltiples pruebas t independientes. En 1935 publica y formaliza los principios de experimentación en su libro The Design of Experiments, posteriormente surgen aplicaciones a los campos de psicología, biología, agricultura e ingeniería.
Cabe indicar que el ANOVA es una extensión de la Prueba t para comparar más de dos grupos y en caso de encontrar diferencias significativas es necesario utilizar pruebas post-hoc para identificar qué grupos son distintos; como se mencionó, para el contraste de hipótesis en una prueba de ANOVA, se utiliza la distribución F que, dicho sea de paso, también fue desarrollada por Fisher.
CONCEPTOS CLAVE
- Factor: Variable independiente categórica.
- Nivel: Diferentes valores dentro de un factor.
- Varianza: Medida de dispersión de los datos.
- Estadístico F: Razón de la varianza entre grupos y la varianza dentro de grupos.
- p-valor: Probabilidad de que las diferencias observadas sean debidas al azar (por ejemplo si p < 0.05, se rechaza la hipótesis nula).
- Efecto de interacción: Cuando dos factores combinados, por separado, tienen un efecto diferente al esperado.
- Diseño de experimentos: También Design of Experiments (DOE), es una metodología de la estadística aplicada de recopilación y análisis de datos que permite estudiar la relación entre múltiples variables de entrada o factores y variables de salida o respuesta.
SUPUESTOS PREVIOS DEL ANOVA
- Normalidad: Los datos de los grupos deben tener una distribución normal y se puede comprobar a través de pruebas como Shapiro-Wilk o Kolmogorov-Smirnov.
- Homocedasticidad: O también, homogeneidad de varianzas, las varianzas de los grupos deben ser aproximadamente iguales, puede ser medido mediante pruebas como Levene, Brown-Forsythe, entre otros.
- Independencia: Las observaciones deben ser independientes entre sí, determinándose a partir del diseño del estudio.
En caso de incumplir alguno de estos supuestos, se pueden emplear pruebas alternativas como ANOVA de Welch, ANOVA no paramétrico Kruskal-Wallis, etc.
PROCEDIMIENTO BÁSICO PARA UN ANÁLISIS DE VARIANZA
1. Planteamiento del Problema
- Definir la pregunta de investigación e identificar la variable dependiente o respuesta y la variable independiente o factor.
- Establecer las hipótesis estadísticas; por ejemplo para ANOVA de una vía:
Hipótesis nula (\(H_0\)): No hay diferencias significativas entre las medias de los grupos. \(\mu_1=\mu_2=...=\mu_k\)
Hipótesis alternativa (\(H_1\)): Al menos una de las medias es diferente. \(μ_i≠μ_j\)
2. Diseño del experimento
- Determinar la asignación de los tratamientos y las unidades experimentales.
- Establecer el número de grupos y muestras por grupo, asegurando la aleatorización y control de factores externos.
3. Recopilación de datos
- Obtener las observaciones para cada grupo.
- Verificar la calidad de los datos y detectar valores atípicos.
4. Verificación de supuestos
- Normalidad.
- Homocedasticidad.
- Independencia.
5. Cálculo del ANOVA
- Determinar la variabilidad total y dividirla en variabilidad entre grupos (efecto del factor) y variabilidad dentro de los grupos (error aleatorio).
- Calcular el estadístico F:
\[F=\frac{\text{Variabilidad entre grupos}}{\text{Variabilidad dentro de los grupos}}\]
- Comparar el estadístico \(F\) con el valor \(F_{crítico}\) de la tabla F,
Si \(F_{calculado} > F_{crítico}\), se rechaza \(H_0\).
Si \(F_{calculado} ≤ F_{crítico}\), no se rechaza \(H_0\).
También se puede obtener el \(p\)-valor para determinar la significancia estadística.
6. Interpretación de resultados
Por ejemplo, si comparamos \(p\)-valor con el nivel de significancia (p.e. \(\alpha\) = 0.05), entonces:
Si \(p ≤ 0.05\), se rechaza \(H_0\) y se concluye que hay diferencias significativas.
Si \(p > 0.05\), no se rechaza \(H_0\) y se concluye que no hay evidencia suficiente para afirmar diferencias.
7. Pruebas Post Hoc
Si concluimos que existen diferencias significativas, entonces aplicamos las pruebas post-hoc para identificar qué grupos difieren entre sí (por ejemplo pruebas de Tukey, Bonferroni, etc.).
CÁLCULO DE ANOVA (UNA VÍA)
MODELO MATEMÁTICO:
El ANOVA de una vía se utiliza para comparar las medias de tres o más grupos, un factor categórico o con diferentes niveles, la ecuación matemática es:
\[Y_{ij}
= \mu + \tau_i + \varepsilon_{ij}\]
Donde:
\(Y_{ij}\) : Valor observado del individuo 𝑗 en el grupo 𝑖.
\(\mu\) : Media general.
\(\tau_i\) : Efecto del grupo 𝑖.
\(\varepsilon_{ij}\) : Error aleatorio.
CÁLCULO DE ANOVA:
1. Media de cada grupo y media total
- Media de cada grupo:
\[\bar{X}_i = \frac{1}{n_i} \sum_{j=1}^{n_i} X_{ij}\]
- Media de total:
\[\bar{X}_T = \frac{1}{N} \sum_{i=1}^{k} \sum_{j=1}^{n_i} X_{ij}\]
2. Suma de Cuadrados (SC)
- Suma de cuadrados entre grupos (SC Tratamientos). Variabilidad debida a las diferencias entre grupos:
\[SC_{trat} = \sum_{i=1}^{k} n_i (\bar{X}_i - \bar{X}_T)^2\]
- Suma de cuadrados dentro de los grupos (SC Error). Variabilidad dentro de cada grupo:
\[SC_{error} = \sum_{i=1}^{k} \sum_{j=1}^{n_i}
(X_{ij} - \bar{X}_i)^2\]
- Suma de cuadrados total (SC Total). Variabilidad total de los datos:
\[SC_{total} = \sum_{i=1}^{k} \sum_{j=1}^{n_i}
(X_{ij} - \bar{X}_T)^2\]
También:
\[SC_{total} = SC_{trat} + SC_{error}\]
3. Grados de libertad (GL)
Entre grupos: \(GL_{tratamientos} = k - 1\)
Dentro de los grupos: \(GL_{error} = N - k\)
Total: \(GL_{total} = N - 1\)
4. Cálculo de los Cuadrados Medios (CM)
- Cuadrado medio entre grupos (CM Tratamientos):
\[CM_{tratamientos} = \frac{SC_{tratatamientos}}{GL_{tratamientos}}\]
- Cuadrado medio dentro de los grupos (CM Error):
\[CM_{error} = \frac{SC_{error}}{GL_{error}}\]
5. Cálculo del estadístico 𝐹
\[F = \frac{CM_{tratamientos}}{CM_{error}}\]
TABLA ANOVA:
Fuente de Variación | SC | GL | CM | F |
Entre grupos (tratamientos) | \(SC_{tratamientos}\) | \(k - 1\) | \(CM_{tratamientos}\) | \(F\) |
Dentro de grupos (error) | \(SC_{error}\) | \(N - k\) | \(CM_{error}\) | - |
Total | \(SC_{total}\) | \(N - 1\) | - | - |
INTERPRETACIÓN:
Puede interpretarse a través de la comparación del valor \(F_{crítico}\) (con un nivel de confianza \(\alpha\), \(GL_{trat}\) y \(GL_{error}\), que se encuentra en la tabla F y compararlo con el valor calculado de F de la tabla ANOVA:
Si \(F_{calculado} > F_{crítico}\), se rechaza \(H_0\).
Si \(F_{calculado} ≤ F_{crítico}\), no se rechaza \(H_0\).
También se puede interpretar mediante \(p\)-valor comparado con el nivel de significancia \(\alpha\):
DEFINICIÓN DE VARIABLES:
\(X_{ij}\): Valor de la observación 𝑗 en el grupo 𝑖.
\(\bar{X}_i\): Media del grupo 𝑖.
\(\bar{X}_T\): Media total de todas las observaciones.
\(n\): Cantidad de observaciones por grupo.
\(N\): Número total de observaciones.
\(k\): Número de grupos o tratamientos.
TIPOS DE ANOVA SEGÚN DISEÑO DE EXPERIMENTOS
REPRESENTACIÓN MATEMÁTICA DE LOS ANOVA
- ANOVA de una vía
Modelo:
\(Y_{ij} = \mu + \tau_i + \varepsilon_{ij}\)
Donde:
\(Y_{ij}\) : Valor observado en el grupo 𝑖, individuo 𝑗.
\(\mu\) : Media general.
\(\tau_i\) : Efecto del tratamiento.
\(\varepsilon_{ij}\) : Error aleatorio.
Hipótesis:
\(H_0\): \(\mu_1=\mu_2=...=\mu_k\).
\(H_1\): \(μi≠μj\) (al menos una de las medias es diferente).
Tabla ANOVA:
Fuente de Variación | SC | GL | CM | F |
Entre grupos (tratamientos) | \(SC_{trat} = n \sum (\bar{X}_i - \bar{X}_T)^2\) | \(GL_{trat} = k - 1\) | \(CM_{trat} = \frac{SC_{trat}}{GL_{trat}}\) | \(F = \frac{CM_{trat}}{CM_{error}}\) |
Dentro de grupos (error) | \(SC_{error} = \sum (X_{ij} - \bar{X}_i)^2\) | \(GL_{error} = N - k\) | \(CM_{error} = \frac{SC_{error}}{GL_{error}}\) | - |
Total | \(SC_{total} = \sum (X_{ij} - \bar{X}_T)^2\) | \(GL_{total} = N - 1\) | - | - |
- ANOVA de dos vías sin interacción
Modelo:
\(Y_{ijk} = \mu + \alpha_i + \beta_j + \varepsilon_{ijk}\)
Donde:
\(Y_{ij}\): Valor observado en el grupo con nivel 𝑖 de A y nivel 𝑗 de B.
\(\mu\) : Media general.
\(\alpha_i\) : Efecto del factor A en el nivel 𝑖.
\(\beta_j\): Efecto del factor B en el nivel 𝑗.
\(\varepsilon_{ijk}\): Error aleatorio.
Hipótesis para el factor A:
\(H_0: \mu_{A1} = \mu_{A2} = \dots = \mu_{Ak}\) (No hay diferencias significativas en las medias debido al factor A).
\(H_1\): Al menos una media difiere en el factor A.
Hipótesis para el factor B:
\(H_0: \mu_{B1} = \mu_{B2} = \dots = \mu_{Bm}\) (No hay diferencias significativas en las medias debido al factor B).
\(H_1\): Al menos una media difiere en el factor B.
Tabla ANOVA:
Fuente de Variación | SC | GL | CM | F |
Factor A | \(SC_A = bn \sum (\bar{X}_{i\cdot} - \bar{X}_T)^2\) | \(a - 1\) | \(CM_A = \frac{SC_A}{GL_A}\) | \(F_A = \frac{CM_A}{CM_{error}}\) |
Factor B | \(SC_B = an \sum (\bar{X}_{\cdot j} - \bar{X}_T)^2\) | \(b - 1\) | \(CM_B = \frac{SC_B}{GL_B}\) | \(F_B = \frac{CM_B}{CM_{error}}\) |
Error | \(SC_{error} = SC_{total} - SC_A - SC_B\) | \((a b n - 1) - GL_A - GL_B\) | \(CM_{error} = \frac{SC_{error}}{GL_{error}}\) | - |
Total | \(SC_{total} = \sum (X_{ijk} - \bar{X}_T)^2\) | \(N - 1\) | - | - |
- ANOVA de dos vías con interacción
Modelo:
\(Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk}\)
Donde:
\(Y_{ijk}\): Valor observado en el grupo con nivel 𝑖 de A y nivel 𝑗 de B.
\(\mu\) : Media general.
\(\alpha_i\): Efecto del factor A en el nivel 𝑖.
\(\beta_j\): Efecto del factor B en el nivel 𝑗.
\((\alpha\beta)_{ij}\): Interacción entre el factor A en el nivel 𝑖 y el factor B en el nivel 𝑗.
\(\varepsilon_{ijk}\): Error aleatorio.
Hipótesis para el factor A:
\(H_0: \mu_{A1} = \mu_{A2} = \dots = \mu_{Ak}\) (No hay diferencias significativas en las medias debido al factor A).
Hipótesis para el factor B:
\(H_0: \mu_{B1} = \mu_{B2} = \dots = \mu_{Bm}\) (No hay diferencias significativas en las medias debido al factor B).
Hipótesis para la interacción (AxB):
\(H_0: \mu_{B1} = \mu_{B2} = \dots = \mu_{Bm}\) (No hay interacción entre los factores A y B).
\(H_1\): Existe interacción entre los factores A y B.
Tabla ANOVA:
Fuente de Variación | SC | GL | CM | F |
Factor A | \(SC_A = bn \sum (\bar{X}_{i\cdot} - \bar{X}_T)^2\) | \(a - 1\) | \(CM_A = \frac{SC_A}{GL_A}\) | \(F_A = \frac{CM_A}{CM_{error}}\) |
Factor B | \(SC_B = an \sum (\bar{X}_{\cdot j} - \bar{X}_T)^2\) | \(b - 1\) | \(CM_B = \frac{SC_B}{GL_B}\) | \(F_B = \frac{CM_B}{CM_{error}}\) |
Interacción AxB | \(SC_{AB} = n \sum (\bar{X}_{ij} - \bar{X}_{i\cdot} - \bar{X}_{\cdot j} + \bar{X}_T)^2\) | \((a-1)(b-1)\) | \(CM_{AB} = \frac{SC_{AB}}{GL_{AB}}\) | \(F_{AB} = \frac{CM_{AB}}{CM_{error}}\) |
Error | \(SC_{error} = SC_{total} - SC_A - \) \(SC_B - SC_{AB}\) |
\((a b n - 1) - GL_A -\) \(GL_B - GL_{AB}\) |
\(CM_{error} = \frac{SC_{error}}{GL_{error}}\) | - |
Total | \(SC_{total} = \sum (X_{ijk} - \bar{X}_T)^2\) | \(N - 1\) | - | - |
- ANOVA en Bloques Completos Aleatorizados (BCA)
Modelo:
\(Y_{ij} = \mu + \tau_i + \beta_j + \varepsilon_{ij}\)
Donde:
\(Y_{ij}\) : Respuesta observada en el tratamiento 𝑖 y bloque 𝑗.
\(\mu\): Media general.
\(\tau_i\): Efecto del tratamiento 𝑖.
\(\beta_j\): Efecto del bloque 𝑗.
\(\varepsilon_{ij}\): Error aleatorio.
Hipótesis para los tratamientos:
\(H_0\): \(\tau_1 = \tau_2 = \dots = \tau_t = 0\) (Los tratamientos no tienen efecto).
\(H_1\): Al menos un tratamiento tiene efecto.
Hipótesis para los bloques:
\(H_0\): \(\beta_1 = \beta_2 = \dots = \beta_b = 0\) (No hay diferencias entre los bloques).
\(H_1\): Al menos un bloque es diferente.
Tabla ANOVA:
Fuente de Variación | SC | GL | CM | F |
Tratamientos | \(SC_{trat} = b \sum (\bar{X}_{i\cdot} - \bar{X}_T)^2\) | \(t - 1\) | \(CM_{trat} = \frac{SC_{trat}}{GL_{trat}}\) | \(F_{trat} = \frac{CM_{trat}}{CM_{error}}\) |
Bloques | \(SC_{blo} = t \sum (\bar{X}_{\cdot j} - \bar{X}_T)^2\) | \(b - 1\) | \(CM_{blo} = \frac{SC_{blo}}{GL_{blo}}\) | \(F_{blo} = \frac{CM_{blo}}{CM_{error}}\) |
Error(E) | \(SC_{error} = SC_{total} - SC_{trat} - SC_{blo}\) | \((t-1)(b-1)\) | \(CM_{error} = \frac{SC_{error}}{GL_{error}}\) | - |
Total | \(SC_{total} = \sum (X_{ij} - \bar{X}_T)^2\) | \(tb - 1\) | - | - |
- ANOVA con Cuadrado Latino
Modelo:
\(Y_{ijk} = \mu + \tau_i + \rho_j + \gamma_k + \varepsilon_{ijk}\)
Donde:
\(Y_{ijk}\): respuesta en el tratamiento 𝑖, fila 𝑗, columna 𝑘.
\(\mu\): Media general.
\(\tau_i\): Efecto del tratamiento 𝑖.
\(\rho_j\): Efecto de la fila 𝑗 (bloque 1).
\(\gamma_k\): Efecto de la columna 𝑘 (bloque 2).
\(\varepsilon_{ijk}\) : Error aleatorio.
Hipótesis para tratamientos:
\(H_0: \tau_1 = \tau_2 = \dots = \tau_t = 0\) (No hay diferencias entre tratamientos).
\(H_1\): Al menos un tratamiento difiere.
Hipótesis para filas:
\(H_0\): \(\rho_1 = \rho_2 = \dots = \rho_r = 0\) (No hay diferencias entre filas).
\(H_1\):Al menos una fila difiere.
Hipótesis para columnas:
\(H_0: \gamma_1 = \gamma_2 = \dots = \gamma_c = 0\) (No hay diferencias entre columnas).
\(H_1\): Al menos una columna difiere.
Tabla ANOVA:
Fuente de Variación | SC | GL | CM | F |
Tratamientos | \(SC_{trat} = b \sum (\bar{X}_{i\cdot\cdot} - \bar{X}_T)^2\) | \(t - 1\) | \(CM_{trat} = \frac{SC_{trat}}{GL_{trat}}\) | \(F_{trat} = \frac{CM_{trat}}{CM_{error}}\) |
Filas (bloque 1) | \(SC_{fil} = t \sum (\bar{X}_{\cdot j \cdot} - \bar{X}_T)^2\) | \(t - 1\) | \(CM_{fil} = \frac{SC_{fil}}{GL_{fil}}\) | \(F_{fil} = \frac{CM_{fil}}{CM_{error}}\) |
Columnas (bloque2) | \(SC_{col} = t \sum (\bar{X}_{\cdot \cdot k} - \bar{X}_T)^2\) | \(t - 1\) | \(CM_{col} = \frac{SC_{col}}{GL_{col}}\) | \(F_{col} = \frac{CM_{col}}{CM_{error}}\) |
Error(E) | \(SC_{error} = SC_{total} - SC_{trat}\) \(- SC_{fil} - SC_{col}\) | \((t-1)(t-2)\) | \(CM_{error} = \frac{SC_{error}}{GL_{error}}\) | - |
Total | \(SC_{total} = \sum (X_{ijk} - \bar{X}_T)^2\) | \(t^2 - 1\) | - | - |
- ANOVA con Cuadrado Grecolatino
Modelo:
\(Y_{ijkm} = \mu + \tau_i + \rho_j + \gamma_k + \delta_m + \varepsilon_{ijkm}\)
Donde:
\(Y_{ijkm}\): Observación en la celda con tratamiento 𝑖, fila 𝑗, columna 𝑘 y del factor grecolatino 𝑚.
\(\mu\) : Media general.
\(\tau_i\): Efecto del tratamiento 𝑖.
\(\rho_j\): Efecto de la fila 𝑗 (bloque 1).
\(\gamma_k\): Efecto de la columna 𝑘 (bloque 2).
\(\delta_m\): Efecto del factor 𝑚 (bloque 3).
\(\varepsilon_{ijk}\) : Error aleatorio.
Hipótesis para tratamientos:
\(H_0: \tau_1 = \tau_2 = \dots = \tau_t = 0\) (No hay diferencias entre tratamientos).
\(H_1\): Al menos un tratamiento difiere.
Hipótesis para filas (bloque 1):
\(H_0\): \(\rho_1 = \rho_2 = \dots = \rho_r = 0\) (No hay diferencias entre filas).
\(H_1\):Al menos una fila difiere
Hipótesis para columnas (bloque 2):
\(H_0: \gamma_1 = \gamma_2 = \dots = \gamma_c = 0\) (No hay diferencias entre columnas).
\(H_1\): Al menos una columna difiere.
Hipótesis para el factor grecolatino (bloque 3):
\(H_0\): \(\delta_1 = \delta_2 = \dots = \delta_t = 0\) (No hay diferencias con el factor grecolatino).
\(H_1\): Al menos un nivel del factor de \(\delta_m \neq 0\).
Fuente de Variación | SC | GL | CM | F |
Tratamientos | \(SC_{trat} = b \sum (\bar{X}_{i\cdot\cdot\cdot} - \bar{X}_T)^2\) | \(t - 1\) | \(CM_{trat} = \frac{SC_{trat}}{GL_{trat}}\) | \(F_{trat} = \frac{CM_{trat}}{CM_{error}}\) |
Filas (bloque 1) | \(SC_{fil} = t \sum (\bar{X}_{\cdot j \cdot \cdot} - \bar{X}_T)^2\) | \(t - 1\) | \(CM_{fil} = \frac{SC_{fil}}{GL_{fil}}\) | \(F_{fil} = \frac{CM_{fil}}{CM_{error}}\) |
Columnas (bloque 2) | \(SC_{col} = t \sum (\bar{X}_{\cdot \cdot k \cdot} - \bar{X}_T)^2\) | \(t - 1\) | \(CM_{col} = \frac{SC_{col}}{GL_{col}}\) | \(F_{col} = \frac{CM_{col}}{CM_{error}}\) |
Factor Grecolatino (bloque 3) | \(SC_{grec} = t \sum (\bar{X}_{\cdot \cdot \cdot m} - \bar{X}_T)^2\) | \(t - 1\) | \(CM_{grec} = \frac{SC_{grec}}{GL_{grec}}\) | \(F_{grec} = \frac{CM_{grec}}{CM_{error}}\) |
Error(E) | \(SC_{error} = SC_{total} - SC_{trat}\) \(- SC_{fil} - SC_{col} - SC_{grec}\) | \((t-1)(t-3)\) | \(CM_{error} = \frac{SC_{error}}{GL_{error}}\) | - |
Total | \(SC_{total} = \sum (X_{ijkm} - \bar{X}_T)^2\) | \(t^2 - 1\) | - | - |
- ANOVA Factorial (con interacción)
Modelo:
\(Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk}\)
Donde:
\(Y_{ijk}\): Respuesta del nivel 𝑖 de A y el nivel 𝑗 de B.
\(\mu\) : Media general.
\(\alpha_i\): Efecto del factor A en el nivel 𝑖.
\(\beta_j\): Efecto del factor B en el nivel 𝑗.
\((\alpha\beta)_{ij}\): Efecto de la interacción entre el factor A y el factor B.
\(\varepsilon_{ijk}\): Error aleatorio.
Hipótesis para el factor A:
\(H_0: \alpha_1 = \alpha_2 = \dots = \alpha_a = 0\).
\(H_1\): Al menos un \(\alpha_i \neq 0\).
Hipótesis para el factor B:
\(H_0: \beta_1 = \beta_2 = \dots = \beta_b = 0\).
\(H_1\): Al menos un \(\beta_j \neq 0\).
\(H_0: (\alpha\beta)_{ij} = 0, \quad \forall i,j\).
\(H_1\): Al menos una interacción \((\alpha\beta)_{ij} \neq 0\).
Tabla ANOVA:
Fuente de Variación | SC | GL | CM | F |
Factor A | \(SC_A = bn \sum (\bar{X}_{i\cdot\cdot} - \bar{X}_T)^2\) | \(a - 1\) | \(CM_A = \frac{SC_A}{GL_A}\) | \(F_A = \frac{CM_A}{CM_{error}}\) |
Factor B | \(SC_B = an \sum (\bar{X}_{\cdot j \cdot} - \bar{X}_T)^2\) | \(b - 1\) | \(CM_B = \frac{SC_B}{GL_B}\) | \(F_B = \frac{CM_B}{CM_{error}}\) |
Interacción AxB | \(SC_{AB} = n \sum (\bar{X}_{ij\cdot} - \bar{X}_{i\cdot\cdot} - \bar{X}_{\cdot j \cdot} + \bar{X}_T)^2\) | \((a-1)(b-1)\) | \(CM_{AB} = \frac{SC_{AB}}{GL_{AB}}\) | \(F_{AB} = \frac{CM_{AB}}{CM_{error}}\) |
Error | \(SC_{error} = SC_{total} - SC_A - SC_B - SC_{AB}\) | \(ab(n - 1)\) | \(CM_{error} = \frac{SC_{error}}{GL_{error}}\) | - |
Total | \(SC_{total}=\sum (X_{ijk} - \bar{X}_T)^2\) | \(abn - 1\) | - | - |
- ANOVA de Medidas Repetidas
Modelo:
\(Y_{ij} = \mu + \alpha_i + S_j + \varepsilon_{ij}\)
Donde:
\(Y_{ij}\): Observación del sujeto 𝑗 bajo la condición 𝑖.
\(\mu\): Media general.
\(\alpha_i\): Efecto del tratamiento 𝑖 (en diferentes condiciones o tiempos).
\(S_j\): Efecto del sujeto 𝑗 (fuente de variabilidad entre sujetos).
\(\varepsilon_{ijk}\): Error aleatorio.
Hipótesis para el efecto del tratamiento:
\(H_0: \mu_{1} = \mu_{2} = \dots = \mu_{t}\) (las medias de los tratamientos son iguales).
\(H_1\): Al menos una media es diferente.
Hipótesis para el efecto del sujeto:
\(H_0: S_1 = S_2 = \dots = S_n\) (No hay diferencias entre sujetos).
\(H_1\): Hay diferencias significativas entre sujetos.
Tabla ANOVA:
Fuente de Variación | SC | GL | CM | F |
Tratamiento | \(SC_{trat} = n \sum (\bar{X}_{i\cdot} - \bar{X}_T)^2\) | \(t - 1\) | \(CM_{trat} = \frac{SC_{trat}}{GL_{trat}}\) | \(F = \frac{CM_{trat}}{CM_{error}}\) |
Sujetos | \(SC_{sujetos} = t \sum (\bar{X}_{\cdot j} - \bar{X}_T)^2\) | \(n - 1\) | \(CM_{sujetos} = \frac{SC_{sujetos}}{GL_{sujetos}}\) | - |
Error | \(SC_{error} = SC_{total} - SC_{trat} - SC_{sujetos}\) | \((t - 1) (n-1)\) | \(CM_{error} = \frac{SC_{error}}{GL_{error}}\) | - |
Total | \(SC_{total}= \sum (X_{ij} - \bar{X}_T)^2\) | \(nt - 1\) | - | - |
- ANOVA de Covarianza - ANCOVA (sin centrar)
Modelo:
\(Y_{ij} = \mu + \tau_i + \beta X_{ij} + \varepsilon_{ij}\)
Donde:
\(Y_{ij}\): Variable dependiente del sujeto 𝑗 en el grupo 𝑖.
\(\mu\) : Media general.
\(\tau_i\): Efecto del tratamiento 𝑖.
\(X_{ij}\): Covariable continua del sujeto 𝑗 en el grupo 𝑖 (sin centrar).
\(\beta\): Coeficiente de la covariable.
\(\varepsilon_{ijk}\): Error aleatorio.
Hipótesis para el efecto del tratamiento:
\(H_0: \tau_1 = \tau_2 = \dots = \tau_k\) (No hay diferencias entre las medias ajustadas de los grupos).
\(H_1\): Al menos un grupo tiene una media ajustada diferente.
Hipótesis para el efecto de la covariable:
\(H_0: \beta = 0\) (La covariable no tiene efecto sobre la variable dependiente).
\(H_1\): \(\beta \neq 0\) (La covariable tiene un efecto significativo).
Tabla ANOVA:
Fuente de Variación | SC | GL | CM | F |
Tratamiento | \(SC_{trat} = \sum n_i (\bar{Y}_{i.} - \bar{Y}_T)^2\) | \(k - 1\) | \(CM_{trat} = \frac{SC_{trat}}{GL_{trat}}\) | \(F = \frac{CM_{trat}}{CM_{error}}\) |
Covariable (X) | \(SC_{X} = \sum (\hat{Y}_{ij} - \bar{Y}_{i.})^2\) | \(1\) | \(CM_{X} = \frac{SC_{X}}{GL_{X}}\) | \(F_{X} = \frac{CM_{X}}{CM_{error}}\) |
Error | \(SC_{error} = SC_{total} - SC_{trat} - SC_{X}\) | \(N-k-1\) | \(CM_{error} = \frac{SC_{error}}{GL_{error}}\) | - |
Total | \(SC_{total} = \sum \sum (Y_{ij} - \bar{Y}_T)^2\) | \(N - 1\) | - | - |
- ANOVA Multivariado (MANOVA)
Modelo:
Dado 𝑝 variables dependientes y 𝑘 grupos, el modelo MANOVA es:
\(\mathbf{Y} = \mathbf{X} \mathbf{B} + \mathbf{E}\)
Donde:
Y: Matriz de respuestas \(n\times p\), con \(p\) variables dependientes.
X: Matriz de diseño \(n \times (k+1)\), contiene el intercepto y los efectos del tratamiento.
B: Matriz de coeficientes \((k+1) \times p\), efectos del tratamiento en cada variable dependiente.
E: Matriz de errores \(n \times p\), contiene los errores de cada observación.
\(Y_{ij} = \mu_j + \tau_{ij} + \varepsilon_{ij}\)
Donde:
\(Y_{ij}\): Respuesta de la variable 𝑗 en el grupo 𝑖.
\(\mu\): Media general de la variable 𝑗.
\(\tau_i\): Efecto del tratamiento sobre 𝑗.
\(\varepsilon_{ij}\): Error aleatorio.
Hipótesis:
\(H_0\): \(\mathbf{\mu_1} = \mathbf{\mu_2} = \dots = \mathbf{\mu_k}\) (No hay diferencia en las medias de las variables dependientes entre grupos.)
\(H_1\): \(\mathbf{\mu_i} \neq \mathbf{\mu_j}\) (al menos un grupo tiene una media diferente en al menos una variable dependiente).
Tabla ANOVA:
Fuente de Variación | Matriz SCP (Suma de cuadrados y productos) | GL | Estadísticos Multivariados |
Tratamiento | \(SCP_{trat} = \sum n_i (\bar{Y}_{i\cdot} - \bar{Y}_T) (\bar{Y}_{i\cdot} - \bar{Y}_T)'\) | \(k-1\) | - Wilks’ Lambda, - Pillai’s Trace - Hotelling’s Trace - Roy’s Largest Root |
Error | \(SCP_{error}=SCP_{total}-SCP_{trat}\) | \(n-k\) | - |
Total | \(SCP_{total} = \sum (Y_i - \bar{Y}_T) (Y_i - \bar{Y}_T)'\) | \(n-1\) | - |
Pruebas de Significancia para MANOVA
* Wilks' Lambda \(\Lambda\) (Cuanto más pequeño es \(\Lambda\), mayor es la diferencia entre grupos.):
\(\Lambda = \frac{|SCP_{error}|}{|SCP_{total}|}\)
* Pillai’s Trace (Tiende a ser más robusto cuando hay violación de supuestos):
\(V = \text{tr}(SCP_{trat} (SCP_{trat} + SCP_{error})^{-1})\)
* Hotelling’s Trace (Es sensible a diferencias entre grupos):
\(T^2 = \text{tr}(SCP_{trat} SCP_{error}^{-1})\)
* Roy’s Largest Root:
\(\theta = \max \lambda_i\)
PRUEBAS POST-HOC
EJEMPLO DE UN ANOVA
Una empresa de producción de café desea evaluar si la altitud afecta el nivel de acidez (medido en pH), para lo cual, se tomaron 5 muestras de café de cada una de tres plantaciones ubicadas a diferentes altitudes, las medidas del nivel de acidez (pH), fueron:
- Media altitud (1000 m.s.n.m.): 4.8, 4.9, 5.0, 4.9, 4.7
- Alta altitud (1500 m.s.n.m.): 4.5, 4.6, 4.7, 4.5, 4.6
HIPÓTESIS ESTADÍSTICAS
* Considerando el cumplimiento de los supuestos, las hipótesis de estudio son:
\(H_0\): \(\mu_{\text{baja}} = \mu_{\text{media}} = \mu_{\text{alta}}\) (No hay diferencia en los niveles de acidez a diferentes altitudes de cultivo de café.
\(H_1\): \(μi≠μj\) (al menos una media es diferente).
CÁLCULO DE ANOVA:
1. Cálculo de medias:
Dados los datos:
Altitud | Muestra 1 | Muestra 2 | Muestra 3 | Muestra 4 | Muestra 5 | Promedio (\(\bar{X}_i\)) |
Baja (500 msnm) | 5.1 | 5.3 | 5.0 | 5.2 | 5.1 | 5.14 |
Media (1000 msnm) | 4.8 | 4.9 | 5.0 | 4.9 | 4.7 | 4.86 |
Alta (1500 msnm) | 4.5 | 4.6 | 4.7 | 4.5 | 4.6 | 4.58 |
Total | - | - | - | - | - | \(\bar{X}_T\) = 4.86 |
- Media de cada grupo:
- Media de total:
\(\bar{X}_T = \frac{1}{N} \sum_{i=1}^{k} \sum_{j=1}^{n_i} X_{ij}\)
\(\bar{X}_T = \frac{5.14 + 4.86 + 4.58}{3} = 4.86\)
2. Suma de Cuadrados (SC)
- SC total:
\(SC_{total} = \sum_{i=1}^{k} \sum_{j=1}^{n_i}(X_{ij} - \bar{X}_T)^2\)
Calculamos términos:
Entonces:
\(SC_{total} = 0.444 + 0.052 + 0.42 = 0.916\)
- SC entre grupos (tratamientos).
\(SC_{trat} = \sum_{i=1}^{k} n_i (\bar{X}_i - \bar{X}_T)^2\)
\(CS_{trat} = 5×(5.14 - 4.86)^2 + 5×(4.86 - 4.86)^2 + 5×(4.58 - 4.86)^2 = 0.392+0+0.392 = 0.784\)
- SC dentro de grupos (error).
\(SC_{error} = SC_{total} - SC_{trat} = 0.916 - 0.784 = 0.132\)
3. Grados de libertad (GL)
Número de grupos \(k=3\)
Número total de observaciones \(N=15\)
Entonces:
\(GL_{trat} = k - 1=3-1=2\)
\(GL_{error} = N - k=15-3=12\)
\(GL_{total} = N - 1=15-1=14\)
4. Cálculo de los Cuadrados Medios (CM)
\(CM_{trat} = \frac{SC_{trat}}{GL_{trat}}=\frac{0.784}{2}=0.392\)
\(CM_{error} = \frac{SC_{error}}{GL_{error}}=\frac{0.132}{12=0.011}\)
5. Cálculo del estadístico 𝐹
\(F = \frac{CM_{trat}}{CM_{error}}=\frac{0.392}{0.011}=35.64\)
TABLA ANOVA:
Fuente de Variación | SC | GL | CM | F |
Tratamientos (Altitud) | 0.784 | 2 | 0.392 | 35.64 |
Error | 0.132 | 12 | 0.011 | - |
Total | 0.916 | 14 | - | - |
INTERPRETACIÓN:
Buscando en la tabla F el valor crítico para \(GL_{trat} = 2\) y \(GL_{error} = 12\) y un nivel \(\alpha = 0.05\), resulta que \(F_{crit} \approx 3.89\) y como \(F_{calc} \approx 35.64\) es mucho mayor que 3.89, entonces se rechaza \(H_0\). Por lo tanto, existe diferencia significativa en los niveles de acidez del café, respecto a las altitudes de cultivo.
TAMAÑO DEL EFECTO (\(\eta^2\))
Para saber cuánta variabilidad en la acidez del café está explicada por el factor altitud, se calcula el tamaño del efecto:
Lo que nos indica que aproximadamente el 85.5% de la variabilidad en el pH se debe a la diferencia en la altitud.
Considerando además:
\(\eta^2\) | Efecto |
\(\eta^2<0 .01\) | Mínimo |
\(0.01≤\eta^2<0 .06\) | Pequeño |
\(0.06≤\eta^2<0 .14\) | Medio |
\(\eta^2 ≥0.14\) | Grande |
Con \(\eta^2 = 0.855\), la altitud tiene un efecto "grande" sobre la acidez del café.
Al obtener diferencias sigificativas entre los tratamientos a diferente altitudes y según los datos del estudio, realizamos la prueba de post hoc de Tukey, para deteminar que grupos se diferencian entre sí, a través del estadístico \(q\):
\(\bar{Y}_i\) y \(\bar{Y}_j\): Medias de dos grupos a comparar.
\(SE\): Error estándar para las comparaciones.
\(CM_{error}\): Cuadrado medio del error.
\(n\): Número de observaciones en cada grupo (suponiendo grupos balanceados).
- Calculando SE:
- Decisión:
A un nivel de significancia de \(\alpha = 0.05\) con \(k = 3\) grupos y \(GL_{error} = 12\), el valor crítico de \(q\) (según las tablas de la distribución del rango estandarizado) es \(q_{crit} \approx 3.77\), entonces las diferencias entre tratamientos son:
b) Para Baja vs. Alta: \(q\approx 11.94 > 3.77\) → Existe diferencia significativa.
c) Para Media vs. Alta: \(q \approx 5.97 > 3.77\) → Existe diferencia significativa.
Como todas las comparaciones de \(q\) son superiores al valor crítico 3.77, entonces afirmamos que las diferencias entre cada par de altitudes son estadísticamente significativas, es decir, que el nivel de acidez (pH) en la producción de café difiere significativamente entre las diferentes altitudes.
En caso la empresa quiera saber cuál es la mejor altitud para cultivar café, dependerá de sus objetivos, si se busca minimizar o maximizar el nivel de acidez, recordemos que en la escala de pH, los valores más bajos indican mayor acidez y los valores más altos indican menor acidez, entonces:
* Si se busca un café con un sabor más “brillante y vivaz”, es decir, con mayor acidez, entonces el tratamiento adecuado sería el de cultivar en regiones de Alta altitud (pH = 4.58).
* En Altitud media, se obtuvo un pH de 4.86, que coincide con la media total y que representaría un café de una acidez intermedia.
GRÁFICO DE RESULTADOS
EJEMPLO EN R:
```{r}
library(car)
library(effectsize)
library(ggplot2)
# 1. Datos
datos <- data.frame(
Altitud = rep(c("Baja", "Media", "Alta"), each = 5),
pH = c(5.1, 5.3, 5.0, 5.2, 5.1, # Baja (500m)
4.8, 4.9, 5.0, 4.9, 4.7, # Media (1000m)
4.5, 4.6, 4.7, 4.5, 4.6) # Alta (1500m)
)
# Verificación de supuestos
## a) Normalidad (Shapiro-Wilk)
shapiro.test(residuals(anova_resultado))
## b) Homocedasticidad (Levene)
leveneTest(pH ~ Altitud, data = datos)
## d) Independencia (Verificación visual)
plot(anova_resultado$fitted.values, residuals(anova_resultado),
main = "Residuos vs Valores Ajustados",
xlab = "Valores Ajustados", ylab = "Residuos")
abline(h = 0, col = "red")
# Cálculo de ANOVA
## Medias de cada grupo y media total con n=5
n <- 5
media_baja <- mean(datos$pH[datos$Altitud == "Baja"])
media_media <- mean(datos$pH[datos$Altitud == "Media"])
media_alta <- mean(datos$pH[datos$Altitud == "Alta"])
grand_mean <- mean(datos$pH)
cat("Media Baja =", media_baja, "\n")
cat("Media Media =", media_media, "\n")
cat("Media Alta =", media_alta, "\n")
cat("Media Total =", grand_mean, "\n\n")
## Sumas de cuadrados
SC_total <- sum((datos$pH - grand_mean)^2)
cat("SC_total =", round(SC_total, 4), "\n")
SC_trat <- n * ((media_baja - grand_mean)^2 +
(media_media - grand_mean)^2 +
(media_alta - grand_mean)^2)
cat("SC_trat =", round(SC_trat, 4), "\n")
SC_error <- SC_total - SC_trat
cat("SC_error =", round(SC_error, 4), "\n\n")
## Grados de libertad
k <- 3
N <- n * k
df_trat <- k - 1
df_error <- N - k
df_total <- N - 1
cat("GL_trat =", df_trat, "\n")
cat("GL_error =", df_error, "\n")
cat("GL_total =", df_total, "\n\n")
## Cuadrados Medios
CM_trat <- SC_trat / df_trat
CM_error <- SC_error / df_error
cat("CM_trat =", round(CM_trat, 4), "\n")
cat("CM_error =", round(CM_error, 4), "\n")
## Estadístico F
F_value <- CM_trat / CM_error
cat("F =", round(F_value, 2), "\n\n")
# Tabla ANOVA
anova_model <- aov(pH ~ Altitud, data = datos)
summary(anova_model)
# Comparación con el valor crítico y p-valor
alpha <- 0.05
F_crit <- stats::qf(1 - alpha, df_trat, df_error)
p_value <- 1 - stats::pf(F_value, df_trat, df_error)
cat("Valor crítico F =", round(F_crit, 2), "\n")
cat("p-valor =", round(p_value, 4), "\n\n")
# Tamaño del efecto (eta cuadrado)
eta_squared <- SC_trat / SC_total
cat("Eta^2 =", round(eta_squared, 3), "\n\n")
# Prueba Post Hoc: Tukey HSD
tukey_results <- TukeyHSD(anova_model, conf.level = 0.95)
print(tukey_results)
# Visualización de los resultados: Boxplot y gráfico de Tukey
par(mfrow = c(1,2))
boxplot(pH ~ Altitud, data = datos,
main = "Boxplot: Acidez vs Altitud",
xlab = "Altitud", ylab = "pH",
col = c("lightblue", "lightgreen", "lightcoral"))
plot(tukey_results, las = 1)
```
REFERENCIAS (1), (2), (3), (4), (5), (6), (7), (8), (9), (10), (11).
No hay comentarios:
Publicar un comentario