miércoles, 28 de abril de 2010

ANALISIS DE LA VARIANZA EN EL MODELO Yi=µ + Єi

Como su nombre lo sugiere, el análisis de la varianza descansa fundamentalmente en el estudio de la variabilidad de las observaciones. Para mostrar el método y la lógica en que se sustenta, nos referimos al modelo lineal más simple Yi=µ + Єi En este modelo es claro que:

Єi = Yi - µ; i = 1,2,…,n ___________________________________( 1 )

Es decir que un error es la diferencia entre una observación y el valor verdadero del parámetro. En seguida partimos ese error en dos componentes mediante la igualdad trivial:

Yi - µ = ( Yi - Ȳ ) + ( Ȳ - µ ) _______________________________( 2 )

La igualdad ( 2 ), a pesar de su sencillez, es de extraordinaria importancia en nuestro desarrollo. Una forma de interpretarla seria diciendo que un error esta compuesto por la desviación de una observación con respecto a la media muestral, sumada con la distancia entre la media muestral y la media poblacional. De ( 2 ) se sigue además que:

( Yi - µ )2 - [( Yi - Ȳ ) + ( Ȳ - µ )]2__________________________( 3 )

Puesto que (3) es cierta parte para todas y cada una de las observaciones Yi (i= 1,2,…n), podemos escribir:
_____( 4 )



y mediante la aplicación de reglas ya conocidas obtenemos partiendo de (4):



ya que:

Este último resultado requiere atención especial y se anota en seguida para referencia posterior.

___(5)

Si observamos (2) y (5), notamos que la partición del error Єi en dos componentes nos ha llevado a una expresión similar que nos involucra sumas de cuadrados de las desviaciones originalmente consideradas en (2). Por esta razón a las 3 componentes de la ecuación (5) se les llama sumas de cuadrados. Bajo la suposición de que Y1,…,Yn es una muestra aleatoria de N(µ, σ2), dichas sumas de cuadrados tienen distribuciones probabilísticas muy sencillas de derivar, y pueden usarse para generar un procedimiento para probar hipótesis sobre µ. Con objeto de derivar las distribuciones de las sumas de cuadrados dividimos todos los términos en (5) por σ2, obteniendo:


De (6) es fácil obtener las distribuciones correspondientes. En efecto, puesto que cada
Yi ~ Ni (µ ,σ 2), es claro que:
Además, puesto que las Yi son independientes, y usando la propiedad aditiva de la distribución Ji- cuadrada, se obtiene:


__________(7)

El segundo resultado se obtiene todavía con mayor facilidad. Dadas nuestras suposiciones, la distribución de la media muestral es N (µ, σ2/n), y por lo tanto, la media estandarizada tienedistribución Normal estándar. Esto es:


y por lo tanto:



Por lo que toca a la distribución de la suma de cuadrados restante, el lector puede haber notado ya que es una antigua conocida. Si con la notación usual identificamos a la varianza muestral por S2, tenemos que:




y sabemos que su distribución es X2 (n-1). Es decir que:



__________(9)

Las ecuaciones anteriores nos permiten justificar informalmente el resultado sobre la distribución de (n-1) S2/δ2. Este resultado es sugerido fuertemente por la ecuación (10), haciendo uso de la propiedad aditiva de la distribución Ji- cuadrada. Reescribiendo (6) y añadiendo los resultados obtenidos posteriormente tenemos el siguiente esquema:

________( 10 )
Una vez obtenidas las distribuciones de A, B Y C en la ecuación (10), explicamos como puede usarse para probar hipótesis sobre µ. En primer lugar, asentamos que la partición de la variabilidad que hemos hecho sólo nos permite probar la hipótesis de dos colas sobre µ. Es decir, que en lo sucesivo nos referimos al juego de hipótesis:

Ho: µ = µ0 en oposición a Ha: µ ≠ µ0

Donde µ0 es el valor supuesto del parámetro desconocido. Que no sea posible probar hipótesis de una cola con esta técnica es una consecuencia de haber tomado los cuadros de las desviaciones, y sobre esto se dirá algo más posteriormente. Para derivar una estadística para probar hipótesis sobre µ es natural recurrir al componente C en (10), puesto que la variable aleatoria C involucra no sólo a Ȳ y a µ, sino además a la distancia Ȳ - µ. Sin embargo n( Ȳ - µ )2 / σ2 no es una estadística, dado que tanto µ como σ2 son parámetros desconocidos. Por lo que toca a µ el problema está resuelto, ya que µ debe tomar el valor µ0 para fijar el nivel de significancia. Con objeto de que la estadística no dependa de σ2 usaremos la componente B en (10). Dado que B y C son ambas variables aleatorias Ji- cuadradas ( además son independientes, hecho que asentamos sin probarlo) tenemos que:





de acuerdo con la definición de la distribución F, de aquí deducimos que, si la hipótesis nula µ = µ0 es cierta, la estadística:



y podemos usar F0 para probar el juego de la hipótesis propuesto. La regla de decisión que nos garantiza una prueba con nivel de significancia ∝ es: “Rechazar” Ho si F0 ≥ F1 n-1,∝ “. En realidad, y tal como lo hemos señalado varias veces, en este caso particular la técnica de Análisis de la Varianza ( que se abreviará A de V en lo sucedido ), para probar Ho: µ = µ0 en oposición a Ha: µ ≠ µ0 , la prueba usa la estadística:



rechazándose Ho si t0 ≥ α/2 (n-1) o si t0 ≤ - t α/2 (n-1). Ahora hemos concluido que también puede usarse la estadística:



Con la regla de decisión: “Rechazar Ho si F0 ≥ F1 n-1,∝ “. Una inspección cuidadosa de t0 y F0 nos muestra que están relacionados por la ecuación F0 = t20. En el caso del procedimiento basado en la distribución de F, la regla de decisión nos obliga a tomar una región de rechazo que es un intervalo en la cola derecha de la distribución de F, no obstante que la prueba es de dos colas. La razón es muy sencilla de entender; la estadística F0 depende de los cuadrados de las desviaciones, de manera que tanto una distancia negativa como positiva de Ȳ con respecto µ0 se reflejan en valores positivos de F0 y van en contra de Ho. Esto mismo explica que no puedan probarse mediante F0, hipótesis de una cola, ya que F0 no distingue entre valores positivos y negativos de Ȳ - µ0.
La correspondencia entre las distribuciones t y F existe únicamente para el caso en que la variable aleatoria F tiene un grado de libertad en el numerador. Si en la partición que se muestra en la ecuación Yi = µ + Єi ; i = 1,2,…10 la componente C tuviese dos o más grados de libertad, la distribución de F resultante no tendría correspondencia con la distribución t, y es por ello que la técnica de A de V es importante.

Para comparar las medidas de 3 o más poblaciones dependeremos completamente de la distribución de F a través del A de V, ya que la prueba de t nos limita a probar hipótesis sobre una media poblacional, o a comparar dos de ellas.
Todo el procedimiento para probar Ho: µ = µ0 en oposición a Ha: µ ≠ µ0 mediante la distribución de F se resume usualmente en una tabla conocida como Tabla de Análisis de la Varianza.

En la tabla de A de V, los tres componentes en la ecuación anterior aparecen sin el divisor σ2. Esto se debe a la estadística F0, al ser la razón de dos de ellas, no dependen de σ2. La hipótesis nula es Ho: µ = µ0, el valor de µ es sustituido µ0. La Suma de Cuadrados Total, es ∑ (Yi - µ0)2, la Suma de Cuadrados del Error es ∑ (Yi - Ȳ)2 y la Suma de Cuadrados debida a la Media es n(Ȳ - µ0). En lo sucesivo las identificaremos por las abreviaturas S.C TOTAL, S.C ERROR Y S.C MEDIA (µ).

TABLA DE ANALISIS DE LA VARIANZA PARA EL MODELO Yi = µ + Єi. Ho: µ = µ0 en oposición a Ha: µ ≠ µ0





La estadística F0, bajo la hipótesis nula, tiene una distribución F1 n-1, y por lo tanto la regla de decisión consiste en rechazar Ho si F0 ≥ F1 n-1,∝, de manera que una vez llenadas todas las celdas de la tabla de A de V, lo único que resta es obtener F1n-1,∝, y si F0 ≥ F1 n-1,∝, la decisión es rechazar Ho con un nivel de significancia α.

La tabla de Análisis de Varianza se desarrollo con objeto de probar el j uego de hipótesis Ho: µ = µ0 en oposición a Ha: µ ≠ µ0. Esta, se formula como si el propósito fuera probar Ho: µ = 0 en oposición a Ha: µ ≠ 0. Esta introducción aparentemente es más restringida que la anterior, y en realidad no lo es puesto que si tenemos observaciones Yi,…,Yn, que se supone son una muestra aleatoria de N(µ, σ2), y queremos probar la hipótesis nula Ho: µ = µ0 , siempre podemos definir variables aleatorias Xi=Yi - µ0 las cuales cuando la hipótesis nula es cierta, tiene distribución N(0,σ2), por lo que las variables Xi=Yi - µ0 pueden usarse para probar Ho: µ = 0, obteniéndose una prueba equivalente a la anterior.

TABLA DE ANALISIS DE LA VARIANZA PARA EL JUEGO DE HIPOTESIS: Ho: µ = 0 en oposición a Ha: µ ≠ 0.






Es indiscutible que esta tabla es una simplificación trivial de la tabla anterior. Si Ho es cierta, debemos esperar valores de X cercanos a cero,, de modo que si S.C (µ) es grande, esto se debe a que µ difiere el valor supuesto por una distancia grande. Razonando similarmente se justifican los nombres S.C ERROR Y S.C TOTAL.

No hay comentarios:

Publicar un comentario