La prueba χ² de Pearson es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando en qué medida las diferencias existentes entre ambas, de haberlas, se deben al azar en el contraste de hipótesis.
La prueba Chi-cuadrado se utiliza con dos tipos de hipótesis que se denominan:
a) Pruebas de independencia, Cuando queremos averiguar si dos variables o dos vías de clasificación son independientes estadísticamente (dos criterios de clasificación, con cuadros de doble entrada)
b) Pruebas de bondad de ajuste, Cuando queremos comprobar si una variable, cuya descripción parece adecuada, tiene una determinada función de probabilidad (un solo criterio de clasificación, como cuando tenemos un grupo de sujetos, o de objetos, subdividido en varias categorías).
Esta metodología también puede ser usada en pruebas de homogeneidad de muestras y varianzas.
Fórmula general:
Cuanto mayor sea el valor de χ², menos verosímil es que la hipótesis sea correcta. De la misma forma, cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas distribuciones.
Definición de hipótesis:
a) En pruebas de bondad de ajuste
En una prueba de ajuste, la hipótesis nula establece que una variable X tiene una cierta distribución de probabilidad con unos determinados valores de los parámetros. El tipo de distribución se determina, según los casos, en función de: La propia definición de la variable, consideraciones teóricas al margen de esta y/o evidencia aportada por datos anteriores al experimento actual. A menudo, la propia definición del tipo de variable lleva implícitos los valores de sus parámetros o de parte de ellos; si esto no fuera así dichos parámetros se estimarán a partir de la muestra de valores de la variable que utilizaremos para realizar la prueba de ajuste.
Las hipótesis contrastadas en la prueba son:
Hipótesis nula (H0): X tiene distribución de probabilidad f(x) con parámetros y1,..., yp
Hipótesis alternativa (H1): X tiene cualquier otra distribución de probabilidad.
Es importante destacar que el rechazo de la hipótesis nula no implica que sean falsos todos sus aspectos sino únicamente el conjunto de ellos; por ejemplo, podría ocurrir que el tipo de distribución fuera correcto pero que nos hubiésemos equivocado en los valores de los parámetros.
b) En pruebas de independencia
La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de frecuencias entre dos variables aleatorias, X e Y.
Las hipótesis contrastadas en la prueba son:
Hipótesis nula (H0): X e Y son independientes.
Hipótesis alternativa (H1): X e Y no son independientes (No importa cual sea la relación que mantengan ni el grado de esta).
Condición de independencia: X e Y son independientes si y sólo si para cualquier pareja de valores x e y la probabilidad de que X tome el valor x e Y el valor y, simultáneamente, es igual al producto de las probabilidades de que cada una tome el valor correspondiente. X e Y son independientes ⇔ ∀ x, y f(x,y) = f(x) • f(y).
Por tanto, todo lo que necesitamos serán unas estimas de las funciones de probabilidad de ambas variables por separado (f(x) y f(y)) y de la función de probabilidad conjunta (f(x,y))
Frecuencias observadas (o empíricas) y frecuencias teóricas (o esperadas)
En todos los casos es importante la distinción entre dos tipos de frecuencias (o número de casos) porque en definitiva lo que hacemos mediante el chi-cuadrado es comparar estos dos tipos de frecuencias.
a) Frecuencias observadas (también denominadas empíricas), que son las que observamos y anotamos.
b) Frecuencias teóricas (también denominadas esperadas), que son las más probables (y ciertamente las más claras) en el caso de no relación o no diferencia.
El χ² lo que nos dice es si las frecuencias observadas están dentro de lo probable en el caso de no asociación. A mayor valor de χ² corresponde una menor probabilidad, por eso con un valor grande de χ² diremos que ese resultado es muy improbable si no hubiera relación, y por lo tanto decimos que sí la hay.
Cálculo de frecuencias teóricas o esperadas
a) En pruebas de bondad de ajuste
Por ejemplo tenemos un grupo de 300 sujetos clasificados en una categoría (preferencia por un color) dividida en tres niveles (tres colores: verde, azul y rojo que pueden ser los colores del envase de un producto comercial). Estas son las frecuencias observadas, ¿Cuáles serían las frecuencias teóricas o esperadas si los tres colores fueran igualmente atrayentes? Los 300 sujetos se repartirían por igual, y cada color tocaría a 100 sujetos; las frecuencias teóricas son por lo tanto 300/3 = 100.
b) En pruebas de independencia
Las frecuencias teóricas de cada casilla son iguales al producto de las sumas marginales dividido por el número total de sujetos (regla de tres simple). En el caso de dos categorías con dos niveles de tendríamos:
En este caso de cuatro casillas (tabla 2x2) interesa saber si todas las frecuencias teóricas son superiores a 5; ya que es recomendable que las frecuencias teóricas no sean muy pequeñas.
Cuando hay más de cuatro casillas, es necesario calcular todas las frecuencias teóricas.
Grados de libertad
Es el número de valores que pueden variar libremente manteniendo o imponiendo previamente unas determinadas restricciones a los datos. Dicho de una manera más sencilla, los grados de libertad son igual al número de valores o datos que pueden variar libremente dado un determinado resultado (o resultados). La Distribución Chi Cuadrada tiende a ser simétrica, a medida que los grados de libertad aumentan.
En los planteamientos más frecuentes se calculan de este modo:
a) En Pruebas de bondad de ajuste
Por ejemplo, 300 sujetos están clasificados según elijan A, B o C (tres categorías de clasificación) los grados de libertad serán 3-1 = 2. Si partimos de un total de 300 sujetos divididos en tres categorías, en dos de ellas podemos poner cualquier número (sus frecuencias pueden variar libremente) pero en la tercera ya no hay libertad para poner cualquier valor: habrá que poner lo que nos falte para llegar a 300.
b) En Pruebas de independencia
Es decir, tenemos varias columnas y varias filas:
Por ejemplo, en un cuadro 2x2: dos columnas (hombre/mujer) y dos filas (sí/no), los grados de libertad serán (2-1)(2-1) = 1. En este caso partimos, como datos fijos y previos, de los totales marginales; estas son las restricciones. En una tabla 2x2, con cuatro clasificaciones, podemos variar libremente solamente la frecuencia (número) de una de las casillas: las demás vendrán forzadas para mantener los totales marginales (si partimos de que a + b = 90, uno de los dos, a ó b, pueden variar libremente, pero el otro valor debe ser necesariamente lo que falte para llegar a 90).
Nivel de significancia
α = Nivel de Significancia
En estadística, un resultado se denomina estadísticamente significativo cuando no es probable que haya sido debido al azar. Son comunes los niveles de significancia del 0,05, 0,01 y 0,1. En algunas situaciones es conveniente expresar la significancia estadística como percentil 1 − α. Este valor hace referencia al nivel de confianza que deseamos que tengan los cálculos de la prueba; es decir, si queremos tener un nivel de confianza del 95%, el valor de alfa debe ser del 0.05, lo cual corresponde al complemento porcentual de la confianza.
Si un contraste de hipótesis proporciona un valor P inferior a α, la hipótesis nula es rechazada, siendo tal resultado denominado “estadísticamente significativo”. Cuanto menor sea el nivel de significancia, más fuerte será la evidencia de que un hecho no se debe a una mera coincidencia (al azar)
Regla de decisión
Se compara el χ2 calculado con el χ2 crítico tabulado (de la tabla de valores críticos chi cuadrado) en función del nivel de significación y del número de grados de libertad. Y si se tiene que:
1. χ2 calculado > χ2 crítico tabulado
Entonces se rechaza H0 (hipótesis nula), por lo tanto se concluye:
a) Para prueba de bondad de ajuste: La variable X, no se ajusta a la distribución de probabilidad propuesta, es decir, que las diferencias entre los valores esperados y los observados reflejan no solo el efecto del azar, sino también, que las frecuencias teóricas o esperadas (E) no son realmente, los valores esperados de las frecuencias.
b) Para prueba de independencia: Las variables X e Y, al nivel de significancia α, no son independientes o
existe asociación entre las variables medidas al grupo de individuos.
2. χ2 calculado < χ2 crítico tabulado
Entonces no se rechaza H0, por lo tanto, se dice que:
a) Para prueba de bondad de ajuste. La variable X, provienen de la distribución de probabilidad f(x) con parámetros y1,..., yp . Las diferencias entre valores observados y esperados son atribuibles, exclusivamente, al efecto del azar. En estas condiciones, se puede calcular un parámetro que depende de ambos, cuya distribución se ajusta a una chi-cuadrado.
b) Para prueba de independencia. que las variables X e Y al nivel de significancia α, son independientes
o que no parece existir asociación entre las variables estudiadas en el
grupo de individuos.
Consideraciones importantes:
- La prueba chi cuadrado es un método muy utilizado y muy útil cuando los datos disponibles son realmente nominales (o categóricos), lo único que sabemos de los sujetos es en qué categoría podemos clasificarlos.
- Frecuentemente sabemos algo más de los sujetos: no solamente, por ejemplo, si están por encima o por debajo de la media (o apto o no apto) sino una puntuación exacta. O los tenemos clasificados según respuestas que admiten un código en números (como nada, poco, mucho… que pueden equivaler a 1, 2 y 3). Muchas veces el uso de chi-cuadrado supone una pérdida de información, y debemos preguntarnos si en vez de o además de esta prueba, no disponemos de otros métodos preferibles de análisis (como puede ser un coeficiente de correlación) porque aprovechamos mejor la información que de hecho tenemos.
- La prueba chi-cuadrado es muy sensible al número de sujetos (como sucede en todas las pruebas de significación estadística). Con facilidad obtenemos unos valores no solamente estadísticamente significativos, sino de una magnitud muy grande. Esto no quiere decir que la diferencia o la relación sea grande, puede ser muy pequeña. Como otros métodos de análisis que nos remiten a una probabilidad, conviene calcular siempre algún coeficiente que nos cuantifique mejor la magnitud de la relación o de la diferencia. En tablas 2x2 y con datos genuinamente dicotómicos, el coeficiente φ es el preferible.
- El encontrar un valor significativo de chi-cuadrado no quiere decir que haya una relación lineal entre las dos variables que han servido para clasificar a los sujetos (es decir que a más de una más de la otra, cuando tenga sentido hablar de más y menos). Para interpretar bien los resultados hay que observar las frecuencias, y ayuda el convertirlas en porcentajes con respecto a los totales marginales.
- Cuando el número total de sujetos es muy pequeño (N < 20), podemos aplicar la prueba exacta de Fisher, que no requiere ningún cálculo, sino simplemente consultar las tablas apropiadas.
- En contrastes de independencia, para que se pueda considerar correcta la significación calculada por el estadístico chi-cuadrado, se debe cumplir que las frecuencias esperadas no sean muy pequeñas (inferiores a 5) mas que en unas pocas casillas. Si es en muchas casillas donde esto ocurre (mas del 20% por ejemplo) se debe usar una prueba que no incluya aproximaciones, como la prueba exacta de Fisher.
- Si las muestras son muy grandes, la prueba de independencia dará resultados significativos, es conveniente una inspección visual para confirmar si las diferencias observadas por filas (o columnas) que nos parece de interés.
- Si una de las variables es numérica u ordinal, posiblemente queramos hacer algo mas que contrastar la independencia, lo aconsejable es usar pruebas de tipo T-Student, Anova o contrastes no paramétricos.
-El contraste de Chi-cuadrado sirve para contrastar independencia, no hay que considerarla como una medida de la asociación entre variables. Si buscamos estudiar la asociación entre variables tenemos otros métodos a nuestra disposición como regresión logística.
- La corrección de Yates se aplica a la prueba chi-cuadrado cuando al menos el valor de una frecuencia esperada es menor que 5. En general, se aplica la corrección de Yates o también corrección por continuidad cuando aproximamos una variable discreta a una distribución continua.
Fuentes: 1, 2, 3, 4, 5.
Sería de mucha utilidad poder citar los trabajos encontrados, por favor poner su nombre o su apellido.
ResponderEliminarEl tema me es muy útil para un trabajo de investigación al cual debo poner normas APA 6ta edición y se me dificulta el poder referenciar
Disculpe Nathali Sandoval, estoy muy interesado también por el tema y otros de estadística inferencial y diseño de experimento, cuando no tengo datos específicos de autor y fecha del trabajo, como en este caso cito el trabajo por el nombre del blog o página más o menos así http://estadisticando.blogspot.com (2014) Prueba Chi Cuadrado, [Artículo en línea] disponible en: http://estadisticando.blogspot.com/2014/04/prueba-chi-cuadrado.html [Consulta: 2018, octubre 23] Este trabajo me parece un buen resumen del tema y utiliza muy buenas fuentes, las cuales ayudan a conocer más sobre el tema. Saludos
EliminarCreo que las partes b) de las reglas de decisión están invertidas. Lo correcto es:
ResponderEliminar1. Si χ2 calculado > χ2 crítico tabulado
Entonces se rechaza H0 (hipótesis nula), por lo tanto se concluye:
b) Para prueba de independencia. Las variables X e Y, al nivel de significancia α, no son independientes o existe asociación entre las variables medidas al grupo de individuos
2. Si χ2 calculado < χ2 crítico tabulado
Entonces no se rechaza H0, por lo tanto, se dice que:
b) Para prueba de independencia: que las variables X e Y al nivel de significancia α, son independientes o que no parece existir asociación entre las variables estudiadas en el grupo de individuo.
Igual hay que corroborar si no me equivoqué.
Más allá de eso, muy bien explicado.
Saludos
Si, así es,...,gracias por la observación. Procederá a hacer la corrección
ResponderEliminar