lunes, 14 de marzo de 2011

PRUEBA DE HIPOTESIS

La estadística inferencial es el proceso de usar la información de una muestra para describir el estado de una población. Sin embargo es frecuente que usemos la información de una muestra para probar un reclamo o conjetura sobre la población.  El reclamo o conjetura se refiere a una hipótesis.  El proceso que corrobora si la información de una muestra sostiene o refuta el reclamo se llama prueba de hipótesis. 
Hipótesis y Niveles de Significancia
En la prueba de hipótesis se pone a prueba un reclamo hecho sobra la naturaleza de una población a base de la información de una muestra.  El reclamo se llama hipótesis estadística.
Hipótesis Estadística:      Una hipótesis estadística es un reclamo hecho
sobre la naturaleza de una población.
            Por ejemplo, la premisa formulada por un productor de baterías para autos de que su batería dura en promedio 48 meses, es una hipótesis estadística porque el manufacturero no inspecciona la vida de cada batería que él produce.
            Si surgieran quejas de parte de los clientes, entonces se pone a prueba el reclamo del manufacturero. La hipótesis estadística sometida a prueba se llama la hipótesis nula, y se denota como H0.
Como Establecer la hipótesis Nula y la Alterna
Hipótesis Nula (H0):          premisa, reclamo, o conjetura que se pronuncia sobre la naturaleza de una o varias poblaciones. Por ejemplo, para probar o desaprobar el reclamo pronunciado por el productor de baterías debemos probar la hipótesis estadística de que m 48. Por lo tanto, la hipótesis nula es:
                        H0 :  48.
            Luego se procede a tomar una muestra aleatoria de baterías y medir su vida media.  Si la información obtenida de la muestra no apoya el reclamo en la hipótesis nula (H0), entonces otra cosa es cierta.  La premisa alterna a la hipótesis nula se llama hipótesis alterna y se representa por H1.
Hipótesis Alterna: Una premisa que es cierta cuando la hipótesis nula es falsa. Por ejemplo, para el productor de baterías
                                               H0 :      48            y
                                               H1 :     < 48
            Para probar si la hipótesis nula es cierta, se toma una muestra aleatoria y se calcula la información, como el promedio, la proporción, etc.  Esta información muestral se llama estadística de prueba.
            Estadística de Prueba: Una estadística de prueba se basa en la información de la muestra como la media  o la proporción.

Error Tipo 1 y Error Tipo 2
            A base de la información de una muestra nosotros podemos cometer dos tipos de errores en nuestra decisión.
                        1.         Podemos rechazar un H0 que es cierto.
                        2.         Podemos aceptar un H0 que es falso.
            El primero se llama error Tipo 1
Error Tipo 1: Cuando rechazamos una Hipótesis Nula que es cierta cometemos error tipo 1.
           
            Y el segundo error se llama error Tipo 2.
Error Tipo 2:           Cuando aceptamos una Hipótesis Nula que es falsa cometemos error tipo 2.

Nivel de Significancia (a)
Para ser muy cuidadosos en no cometer el error tipo 1, debemos especificar la probabilidad de rechazar H0, denotada por . A ésta se le llama nivel de significancia.

Nivel de Significancia:     La probabilidad ( más alta de rechazar H0 cuando H0 es cierto se llama nivel de significancia.
Comentario:            Para mantener la probabilidad de cometer el error tipo 1 baja, debemos escoger un valor pequeño de .
            Usando un valor preasignado de   se construye una región de rechazo o región crítica en la curva normal estándar o en la curva t que indica si debemos rechazar H0.
Región Crítica o de Rechazo:   Una región crítica o de rechazo es una parte de la curva de z o de la curva t donde se rechaza H0.
            La región puede ser de una cola o de dos dependiendo de la hipótesis alterna.
 
REFERENCIA BIBLIOGRAFICA

EVANS, Michael J. Probabilidad y Estadistica: La Ciencia de la Incertidumbre. Editorial Reverte, S.A. Barcelona, España. 2004. pag 355

NUMEROS ALEATORIOS

PARA QUÉ SIRVEN
Los números aleatorios permiten a los modelos matemáticos representar la realidad.
En general cuando se requiere una impredecibilidad en unos determinados datos, se utilizan números aleatorios
Los seres humanos vivimos en un medio aleatorio y nuestro comportamiento lo es también. Si deseamos predecir el comportamiento de un material, de un fenómeno climatológico o de un grupo humano podemos inferir a partir de datos estadísticos. Para lograr una mejor aproximación a la realidad nuestra herramienta predictiva debe funcionar de manera similar: aleatoriamente. De esa necesidad surgieron los modelos de simulación.
En la vida cotidiana se utilizan números aleatorios en situaciones tan dispares como pueden ser los juegos de azar, en el diseño de la caída de los copos de nieve, en una animación por ordenador, en tests para localización de errores en chips, en la transmisión de datos desde un satélite o en las finanzas.
HISTORIA
CÓMO PUEDO GENERAR NÚMEROS ALEATORIOS
La lógica nos hace pensar que las personas somos generadores aleatorios imperfectos, hay estudios que demuestran que existen tendencias claras en los humanos para la elaboración de secuencias sesgadas y están relacionadas con características personales, con los conocimientos o informaciones previas o con la edad
Podemos aprovecharnos de situaciones reales para obtener una tabla de números aleatorios, como la lista de los números de Lotería Nacional premiados a lo largo de su historia, pues se caracterizan por que cada dígito tiene la misma probabilidad de ser elegido, y su elección es independiente de las demás extracciones.
Métodos manuales, lanzamiento de monedas, lanzamientos de dados, dispositivos mecánicos, dispositivos electrónicos
Métodos de computación analógica, son métodos que dependen de ciertos procesos físicos aleatorios, por ejemplo, el comportamiento de una corriente eléctrica.
Métodos de computación digital, cuando se usa el ordenador digital.
Tablas de bibliotecas, son números aleatorios que se han publicado; de los cuales podemos encontrar listas en los libros de probabilidad y tablas de matemáticas. Estos números fueron generados por alguno de los métodos de computación analógica.

PROPIEDADES DE LOS NUMEROS ALEATORIOS

  1. Uniformemente distribuidos: cualquier número que pertenezca al rango de interés debe tener la misma probabilidad de resultar sorteado.
  2. Estadísticamente independientes: tienen periodicidad cuando varios elementos, repetidos o no, formando una cadena, aparecen en la misma secuencia.
  3. Periodo largo (sin repetición).
  4. Reproducibles y mutables: cuando el Método comienza con la misma Semilla, debe dar la misma secuencia de números Pseudoaleatoreos.
  5. Sencillo en su implementación.
  6. Portabilidad: pueden ejecurtarse de diferentes maneras. (sistemas, manual, et)
  7. Método rápido de generación: velocidad de generación acorde a las necesidades.
  8. Poca memoria para la generación.


GENERACIÓN DE VARIABLES ALEATORIAS

La generación de cualquier variable aleatoria se va a basar en la generación previa de una distribución uniforme (0,1), visto en el tema anterior. En este capítulo vamos a estudiar ciertas transformaciones o algoritmos que nos van a transformar dichos números generados en valores de otras distribuciones.

La mayoría de las técnicas utilizadas para la generación se pueden agrupar en:
Ø  Método de la transformada inversa
Ø  Método de aceptación-rechazo
Ø  Método de composición
Ø  Método de convolución

MÉTODO DE LA TRANSFORMADA INVERSA
Es el método más directo para generar una variable aleatoria. Sea  una función de distribución cuya función de distribución inversa es:
Sea U una variable aleatoria de  se verifica que    tiene la función de distribución F.

 La prueba se sigue de la observación de que         
Esto sugiere inmediatamente el siguiente esquema de generación:
Algoritmo del método de la transformada inversa

Propósito: Generar Z aleatoriamente de

Entrada: Capacidad para evaluar
Salida: Z

Método: Generar aleatoriamente U de
Devolver Z.

Ejemplo. La distribución exponencial
Supongamos que  tiene una distribución exponencial de media beta. La función densidad de probabilidad es:

La función de distribución (acumulativa) es:

MÉTODO DE ACEPTACIÓN RECHAZO

Este método es más probabilístico que el anterior. Los métodos de inversión, composición y convolución son métodos de generación directos, en el sentido en que tratan directamente con la función de distribución. El método de aceptación-rechazo es menos directo en su aproximación.
Se va aplicar este método en el caso de que la variable aleatoria sea continua, el caso discreto es análogo y está tratado en Prob. 8.9
En este caso tenemos la función de densidad f(x) de la variable y necesitamos una función t(x) que la acote, es decir t(x)³f(x) "x. Hay que notar que t(x) no es, en general, una función de densidad

pero la función r(x)=t(x)/c, si es claramente una función de densidad. (Suponemos que t es tal que c<¥). Debemos de poder generar (esperamos que de forma fácil y rápida) un valor de la variable aleatoria que sigue la función r(x). El algoritmo general queda como sigue:
Generar x que siga la distribución r(x)
Generar u~U(0,1), independiente de x

Si  , entonces devolver x si no volver a repetir el algoritmo.
El algoritmo continúa repitiéndose hasta que se genera un valor que es aceptado.
Para hacer que se rechacen el menor número de puntos posibles la función t(x) debe ser la mínima función que acote a f(x).

MÉTODO DE COMPOSICIÓN

Este método va a poder ser aplicado cuando la función de densidad es fácil de descomponer en un conjunto de trozos, siendo n el número de trozos en los que se ha dividido la función.

Cada uno de los fragmentos se puede expresara como producto de un función de distribución y un peso  y la función de distribución global la podemos obtener como
El método consiste en generar dos números aleatorios, uno sirve para seleccionar un trozo y el otro se utiliza para generar un valor de una variable que sigue la distribución de dicho trozo. El valor de la variable obtenida es el valor buscado.
El algoritmo general queda como sigue:
Generar u1,u2~U(0,1)
Si u1=w1 entonces generar x~f1(x)
Si no
Si u1=w1+w2 entonces generar x~f2(x)

MÉTODO DE CONVOLUCIÓN

Muchas variables aleatorias incluyendo la normal, binomial, poisson, gamma, erlang, etc, se pueden expresar de forma exacta o aproximada mediante la suma lineal de otras variables aleatorias.
El método de convolución se puede usar siempre y cuando la variable aleatoria x se pueda expresar como una combinación lineal de k variables aleatorias:
En este método se necesita generar k números aleatorios (u1,u2,...,uk) para generar (x1,x2,...xk) variables aleatorias usando alguno de los métodos anteriores y así poder obtener un valor de la variable que se desea obtener por convolución.
Ejemplos de aplicación de este método los veremos cuando veamos métodos particulares de cada una de las distribuciones más utilizadas.

METODO DE MINIMOS CUADRADOS

El método de mínimos cuadrados sirve para interpolar valores, dicho en otras palabras, se usa para buscar valores desconocidos usando como referencia otras muestras del mismo evento.
El método consiste en acercar una línea o una curva, según se escoja, lo más posible a los puntos determinados por la coordenadas (x,f(x)), que normalmente corresponden a muestras de algún experimento.
Cabe aclarar que este método, aunque es sencillo de implantar no es del todo preciso, pero si proporciona una interpolación aceptable.
Se puede usar una recta o una curva como base para calcular nuevos valores.

A continuacion se muestra el diagrama de flujo de datos del metodo de minimos cuadrados:
ECUACION PARA LA LINEA DE TENDENCIAS
∑Y=na + b∑t
                  2
∑tY = a∑t + b∑t
Pero el mejor método para determinar a + b es:
                                        n∑tY-(∑Y)(∑t)
La Pendiente       b=_______________
                                         n∑t2-(∑t)2              
El punto donde n se intercepta al eje Y 
      ∑Y       ∑t
a=___ - b ____
        n            b 

INFORMACION ADICIONAL

MAPA DE DISTRIBUCION

PRUEBA DE KOLMOGOROV - SMIRNOV

EJERCICIO SMIRNOV - KOLMOGOROV
http://www.youtube.com/watch?v=UMaPrqEE3Xg


La prueba de Kolmogorov-Smirnov para una muestra se considera un procedimiento de "bondad de ajuste", es decir, permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen de una población que tiene la distribución teórica especificada.
Mediante la prueba se compara la distribución acumulada de las frecuencias teóricas (ft) con la distribución acumulada de las frecuencias observadas (f obs), se encuentra el punto de divergencia máxima y se determina qué probabilidad existe de que una diferencia de esa magnitud se deba al azar.
En las tareas de investigación se pudo obtener un conjunto de observaciones, en las cuales se supone que tienen una distribución normal, binomial, de Poisson, etc. Para el caso, las frecuencias de las distribuciones teóricas deben contrastar con las frecuencias observadas, a fin de conocer cuál distribución se adecua mejor al modelo.
Pasos:
1.     Calcular las frecuencias esperadas de la distribución teórica específica por considerar para determinado número de clases, en un arreglo de rangos de menor a mayor.
2.     Arreglar estos valores teóricos en frecuencias acumuladas.
3.     Arreglar acumulativamente las frecuencias observadas.
4.     Aplicar la ecuación D = ft - f obs, donde D es la máxima discrepancia de ambas.
5.     Comparar el valor estadístico D de Kolmogorov-Smirnov en la tabla de valores críticos de D.
6.     Decidir si se acepta o rechaza la hipótesis.
Ecuación:
D = ft - fobs
En esta ecuación se aprecia que el procedimiento es muy simple y quizá lo que parezca más complicado corresponde al cálculo de la frecuencia esperada de cada tipo de distribución teórica. Por lo tanto, en la marcha de los ejercicios se presentará cada uno de ellos y la manera de aplicar la prueba estadística.
Ejemplo:
En una investigación, consistente en medir la talla de 100 niños de 5 años de edad, se desea saber si las observaciones provienen de una población normal.
Elección de la prueba estadística.
El modelo experimental tiene una muestra y es factible un arreglo en el carácter ordinal o en los rangos de las series de clases.
Planteamiento de la hipótesis.
·         Hipótesis alterna (Ha). Los valores observados de las frecuencias para cada clase son diferentes de las frecuencias teóricas de una distribución normal.
·         Hipótesis nula (Ho). Las diferencias entre los valores observados y los teóricos de la distribución normal se deben al azar.

Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Tabla de 100 niños. Los valores X + s son 99.2 ± 2.85.

Aplicación de la prueba estadística.
Primero se elaboran los cálculos de los valores teóricos esperados para la distribución normal.
Inicialmente se determina el valor Z de los límites de cada clase en la serie, por ejemplo: en la primera clase se determinan el límite inferior y el superior (90 y 93), y en las subsecuentes sólo los límites superiores (97, 101, 105 y 109). Para cada valor de Z, se localiza el área bajo la curva norma tipificada. (Véase: tabla de áreas bajo la curva normal tipificada de 0 a 2).
Los cálculos de valores Z, son de la forma siguiente:
Y así sucesivamente.
Para cada valor Z, se localiza el área de la curva tipificada de la tabla de números aleatorios. A partir de estos valores, se obtiene la diferencia entre los límites de clases entre el superior y el inferior, por ejemplo: 0.4997 - 0.4793 = 0.020, 0.4793 - 0.2357 = 0.2436, 0.2357 - (-0.2794) = 0.5151, -0.2794 - (-0.4854) = 0.206 y -0.4854 - (-0.4994) = 0.014.
Estos resultados de diferencias se multiplican por el tamaño de la muestra (100 niños), luego se obtienen las frecuencias teóricas y después se arreglan en frecuencias acumuladas.
Cálculos de los valores teóricos.

Las frecuencias acumuladas teóricas y las observadas se arreglan en los rangos correspondientes, como se muestra en la siguiente tabla, y posteriormente se aplica la fórmula de Kolmogorov-Smirnov.
Cálculo estadístico D de Kolmogorov-Smirnov.


D = ft - fobs = - 0.036
La diferencia máxima D es igual a -0.049, valor que se compara con los valores críticos de D en la prueba muestral de Kolmogorov-Smirnov y se obtiene la probabilidad de la existencia de esa magnitud de acuerdo con la prueba de Kolmogorov-Smirnov. El valor N es 100 y el mayor número de N en la tabla es 35, por lo cual se aplica la fórmula al pie de la tabla:
Para la probabilidad de
Lo anterior quiere decir que para todo valor menor que el crítico para una probabilidad de 0.05, la probabilidad correspondiente es mayor que 0.05, y todo valor mayor que D al calculado tinen una probabilidad menor que 0.05, o sea, es inversamente proporcional al crítico determinado o localizado en la tabla.
Decisión.
En virtud de lo anterior, el estadístico de Kolmogorov-Smirnov obtendo es menor que el crítico y su probabilidad mayor que 0.05, por lo tanto, se acepta Ho y se rechaza Ha.
Interpretación.
Las frecuencias observadas y las teóricas calculadas no difieren significativamente. Por lo tanto, las observaciones tienen una distribución normal.


TABLA DE SMIRNOV KOLMOGOROV

REFERENCIA BIBLIOGRAFICA