APLICACIONES DE LA DISTRIBUCIÓN CHI 2.
Además de la importancia de la distribución c2como la distribución a la que se ajusta la distribución muestral de la varianza de un población normal, y su posterior aplicación en el contraste de la varianza, otras aplicaciones importantes de dicha distribución son:
- Test de bondad de ajuste.
Consideramos una población y el carácter X que presenta las siguientes modalidades x1, x2, ......., xk excluyentes con sus correspondientes probabilidades p1, p2, ....., pk. Tenemos una muestra de tamaño n en la que observamos el carácter X y nos planteamos hasta qué punto esta muestra se puede considerar como perteneciente a una población con una distribución teórica ya conocida.
Independientemente de la distribución teórica que consideremos siempre existirán diferencias entre los valores teóricos esperados y los valores observados. El problema está en saber en qué medida dichos valores son debidos al azar o a que los datos no se ajustan a la distribución teórica considerada.
Si denotamos por:
Si denotamos por:
Oi=nº de elementos de la muestra con el carácter xi.
pi = probabilidad teórica de que la variable aleatoria X tome el valor xi verificándose que .
Si tenemos una muestra de tamaño n, el número de elementos que cabe esperar que tomen el valor xi es: ei = n.pi verificándose que
Podremos formar la siguiente tabla:
Variable X | x1 | x2 | ...................... | xk |
Frecuencias observadas | O1 | O2 | ...................... | OK |
Frecuencias esperadas | e1 | e2 | ...................... | ek |
Consideramos como hipótesis nula e hipótesis alternativa a:
HO: la distribución empírica se ajusta a la distribución teórica considerada.
H1: Se rechaza el ajuste.
Evidentemente, si aceptamos la hipótesis nula(aceptamos el ajuste), las diferencias entre los valores observados y los valores esperados son debidas al azar y podemos decir que no existen evidencias para rechazar dicha hipótesis; en otro caso diremos existen diferencias significativas para el nivel de significación marcado entre ambas distribuciones, no pudiendo atribuirse las diferencias entre las distribuciones empíricas y observadas al azar.
El estadístico que se utilizará para dicho contraste será:
El estadístico que se utilizará para dicho contraste será:
T = =
Pearson demostró que la distribución de dicho estadístico es una c2 con k-1 grados de libertad en el caso de no existir discrepancias entre los valores observados y los esperados.
Se acepta Ho si: T < (REGIÓN DE ACEPTACIÓN)
Se rechaza Ho si: T ³ (REGIÓN CRÍTICA).
- Contraste de dependencia o independencia de caracteres.
Deseamos saber si dos caracteres X e Y de una población son dependientes o independientes.
Suponemos que las modalidades que presentan cada una de las variables X e Y son:
X: x1, x2, .........., xk
Y: y1, y2,..........., ym
y se ha tomado una muestra de tamaño n midiéndose dichas características X e Y en cada uno de los elementos de la muestra.
Si denotamos por:
Oij = nº de elementos que presentan la característica xi e yj
eij = nº de elementos esperados que presenten los valores xi , yj si las variables son independientes.
Podríamos formar la siguiente tabla de contingencia en la que aparecen las frecuencias empíricas y las teóricas:
Y X | y1 | ...... | Yj | ....... | ym | Frecuencias absolutas X |
x1 | O11 e11 | ...... | O1j e1j | ......... | O1m e1m | Ox1 |
.......... | ......... | ...... | ......... | ......... | ........ | ............ |
xi | Oi1 ei1 | ...... | Oij eij | ......... | Oim eim | Oxi |
....... | ......... | ....... | ......... | ......... | ........ | ......... |
xk | Ok1 ek1 | ....... | Okj ekj | ......... | Okm ekm | Oxk |
Frecuencias absolutas Y | Oy1 | ....... | Oyj | ........ | Oym | n |
Test de homogeneidad de varias muestras.
Se trata de determinar si varias muestras que estudian el mismo carácter A han sido tomadas o no de la misma población, respecto de dicha característica A.
Supongamos que tenemos k muestras de tamaños n1, n2, ......,nk siendo y1, y2, ......, yk los elementos de cada muestra que presentan una determinada característica A y el resto no la presentan.
Si suponemos que todas las muestras provienen de la misma población, la proporción de elementos que presentan la característica A sería:
p =
Si suponemos que las muestras provienen de la misma población, los valores esperados para la característica A en cada muestra serían: n1.p, n2.p, n3.p ,....... nk.p.
Podríamos formar la siguiente tabla de contingencia en la que aparecen los valores observados y los valores esperados:
Muestras | Presentan el carácter A Se esperan con el carácter A | No presentan el carácter A Se esperan sin el carácter A | Tamaño de las muestras |
Primera muestra | y1 n1.p | n1-y1 n1(1-p) | n1 |
.......... | ......... | ........ | ............ |
i-ésima muestra | yi ni.p | ni-yi ni(1-p) | ni |
....... | ......... | ........ | ......... |
k-ésima muestra | yk nk.p | nk-yk nk(1-p) | nk |
Consideramos como hipótesis nula e hipótesis alternativa a:
HO: todas las muestras provienen de la misma de la población.
H1: se rechaza que provengan de la misma población.
TABLA DE CHI CUADRADO
No hay comentarios:
Publicar un comentario