6 contraste dos muestras.pdf

24
Contraste de dos muestras Josep Gibergans Bàguena P08/75057/02309

Transcript of 6 contraste dos muestras.pdf

  • Contraste de dos muestrasJosep Gibergans Bguena

    P08/75057/02309

  • FUOC P08/75057/02309 Contraste de dos muestras

    ndice

    Sesin 1

    Contrastes sobre la diferencia de medias........................................ 5

    1. Introduccin ......................................................................................... 5

    2. Contrastes sobre la diferencia de medias.............................................. 5

    2.1. Caso de varianzas poblacionales conocidas .................................. 6

    2.2. Caso de varianzas poblacionales desconocidas pero iguales......... 7

    2.3. Caso con muestras grandes no normales ...................................... 9

    3. Intervalos de confianza para la diferencia de medias........................... 10

    3.1. Caso de varianzas poblacionales conocidas .................................. 11

    3.2. Caso de varianzas poblacionales desconocidas e iguales .............. 12

    3.3. Caso con muestras no normales.................................................... 13

    4. Resumen................................................................................................ 14

    Ejercicios .................................................................................................... 15

    Sesin 2

    Contrastes sobre la diferencia de proporciones ............................ 18

    1. Introduccin ......................................................................................... 18

    2. Contrastes sobre la diferencia de proporciones.................................... 18

    3. Intervalos de confianza para la diferencia de proporciones................. 21

    4. Resumen................................................................................................ 22

    Ejercicios .................................................................................................... 23

  • FUOC P08/75057/02309 5 Contraste de dos muestras

    Contrastes sobre la diferencia de medias

    1. Introduccin

    En esta sesin veremos cmo debemos hacer un contraste de hiptesis sobre

    diferencias de medias poblacionales. Consideraremos dos muestras de obser-

    vaciones y compararemos sus medias contrastando hiptesis sobre su diferen-

    cia y construyendo intervalos de confianza para esta diferencia.

    Por ejemplo, podemos estar interesados en conocer si hay una diferencia sig-

    nificativa entre los aspectos siguientes:

    a) Los sueldos de los hombres y las mujeres que trabajan en una misma em-

    presa.

    b) El consumo de combustible de dos vehculos de marcas diferentes.

    c) El tiempo de vida de bombillas de dos marcas diferentes, etc.

    2. Contrastes sobre la diferencia de medias

    Supongamos que tenemos una muestra aleatoria de tamao n1 obtenida de una

    poblacin 1 de media 1 y una muestra aleatoria independiente de la anteriorde tamao n2 obtenida de una poblacin 2 de media 2. Queremos contrastar lahiptesis nula (H0) que afirma que los valores de las medias de las dos poblacio-

    nes son iguales:

    1) Hiptesis nula: H0: 1 = 2

    2) Hiptesis alternativa. La hiptesis alternativa (H1) puede ser bilateral o unila-

    teral:

    a) Bilateral. La media de una poblacin es superior o inferior a la de la otra

    poblacin.

    H1: 1 2

    b) Unilateral, en la que se consideran dos situaciones:

    La media de la poblacin 1 es superior a la media de la poblacin 2:

    H1: 1 > 2

    Atencin!

    Es muy importante no confun-dir este tipo de problemas con los de datos aparejados, en los que tenemos una mues-tra de observaciones de dosvariables.

    Notacin

    A veces en lugar de:H0: 1 2

    escribiremos:H0: 1 2 0

  • FUOC P08/75057/02309 6 Contraste de dos muestras

    La media de la poblacin 1 es inferior a la media de la poblacin 2:

    H1: 1 < 2

    De la misma manera que en el contraste de la media, supondremos poblacio-

    nes normales y consideraremos el caso de varianzas poblacionales conocidas

    y el de varianzas poblacionales desconocidas.

    2.1. Caso de varianzas poblacionales conocidas

    A partir de dos poblaciones normales N(1, 1) y N(2, 2) se toman dos mues-tras de tamaos n1 y n2. Las medias muestrales y estn distribuidas se-

    gn las distribuciones normales:

    A partir de las propiedades de la distribucin normal, la variable aleatoria

    tambin se distribuye normalmente:

    Tipificando esta variable aleatoria, obtenemos una nueva variable que se dis-

    tribuye segn una N(0,1):

    Si suponemos que la hiptesis nula es cierta, entonces 1 2 = 0; por tanto:

    En resumen, bajo el supuesto de la hiptesis nula cierta (H0: 1 = 2) te-nemos que el estadstico de contraste:

    , donde es el error es-

    tndar,

    corresponde a una observacin de una ley N(0,1).

    X1 X2

    X1 N 1, 1n1---------- y X2 N 2,

    2n2----------

    X1 X2Suma de distribuciones

    Recordemos que dadas dos distribuciones normales:Z1 ~ N(1, 1) y Z2 ~ N(2, 2) la variable Z1 Z2 se distribuye segn una normal:

    N 1 2+ , 12 22+

    X1 X2 N 1 2, 12

    n1------ 2

    2

    n2------+

    X1 X2 1 2 12n1------ 2

    2

    n2------+

    ----------------------------------------------------- N 0, 1

    X1 X2 12n1------ 2

    2

    n2------+

    ------------------------ N 0, 1

    Zx1 x2 12n1------ 2

    2

    n2------+

    ----------------------- x1 x2 X1 X2---------------------= = X1 X2

    12n1------ 2

    2

    n2------+ =

  • FUOC P08/75057/02309 7 Contraste de dos muestras

    Una vez que hemos calculado el valor del estadstico de contraste, debemos

    determinar el p-valor. El p-valor depende de la hiptesis alternativa planteada:

    Si H1: 1 2 0, entonces p = 2P(Z > |z|) Si H1: 1 2 < 0, entonces p = P(Z < z) Si H1: 1 2 > 0, entonces p = P(Z > z)

    Ejemplo de contraste sobre la diferencia de medias en el caso de varianzas poblacionales conocidas

    Un fabricante de vidrios quiere comparar la resistencia media de los vidrios que fabrica conla resistencia de los que fabrica la competencia. Se toma una muestra de cristales de cada fa-bricante y se miden las respectivas resistencias. Se obtienen los resultados siguientes:

    Fabricante: n1 = 150,

    Competencia: n2 = 125,

    Suponiendo que las muestras son independientes y se han obtenido de dos poblaciones nor-males con desviaciones tpicas conocidas 1 = 10,4 y 2 = 12,5, con qu conclusin pode-mos llegar al 5% de significacin?

    1. Expresamos las hiptesis:

    Hiptesis nula: H0: 1 2 = 0 Hiptesis alternativa: H1: 1 2 02. Determinamos el nivel de significacin: = 0,053. Calculamos el estadstico de contraste, que sigue una distribucin N(0,1):

    Sin embargo, antes hemos tenido que calcular el error estndar:

    4. Ahora ya estamos en condiciones de calcular el p-valor:

    p = 2P(Z > |z|) = 2 P(Z > 1,14) = 2 0,13 = 0,26

    5. Puesto que 0,26 > 0,05, no podemos rechazar la hiptesis nula, es decir, no podemos decirque las resistencias de los vidrios de los diferentes fabricantes sean diferentes.

    2.2. Caso de varianzas poblacionales desconocidas pero iguales

    En la vida real prcticamente nunca se conocen las varianzas poblacionales,

    por lo que es importante este caso, en el que consideramos que las varian-

    zas poblacionales son desconocidas pero iguales a cierto valor 2, es decir,

    Diremos que el p-valor es significativo y rechazaremos la hiptesis nula

    si es menor que el nivel de significacin fijado.

    El p-valor

    El p-valor es la probabilidadde que un resultado sea al menos tan extremo como el estadstico de contraste ob-tenido.

    x1 111,2=

    x2 109,6=

    zx1 x2 x1 x2--------------------- 111,2 109,6

    1,40------------------------------------- 1,14= = =

    x1 x212n1------ 2

    2

    n2------+ 10,4

    2

    150-------------- 12,5

    2

    125--------------+ 1,40= = =

  • FUOC P08/75057/02309 8 Contraste de dos muestras

    , con desconocida. Esta desviacin tpica comn se puede es-timar por medio de la frmula:

    donde xi1 es la i-sima observacin de la muestra 1 y xi2 es la i-sima observa-

    cin de la muestra 2. Tambin podemos escribir esta expresin de la manera

    siguiente:

    donde y son las varianzas muestrales obtenidas a partir de las muestras.

    Como siempre, a continuacin calcularemos el p-valor correspondiente al estads-

    tico de contraste calculado. Dependiendo de la hiptesis alternativa, tenemos:

    Si H1: 1 2 0, entonces p = 2P(tn1 + n2 2 t) Si H1: 1 2 0, entonces p = P(tn1 + n2 2 < t) Si H1: 1 2 0, entonces p = P(tn1 + n2 2 > t)

    Segn el pvalor obtenido en comparacin con el nivel de significacin es-cogido, rechazaremos o no la hiptesis nula de igualdad de medias.

    Ejemplo de contraste sobre la diferencia de medias en el caso de varianzas poblacionales desconocidas pero iguales

    Un fabricante de bombillas asegura que sus bombillas tienen una mayor duracin que las deuna nueva marca coreana. A partir de la duracin (en horas) de n1 = 25 bombillas del fabri-cante y de n2 = 15 bombillas de la nueva marca, elegidas de forma aleatoria, hemos obtenido:

    Para el fabricante: ,

    Para la nueva marca: ,

    Supondremos que las dos poblaciones se distribuyen normalmente con varianzas igualesy desconocidas. Haremos un contraste de hiptesis a un nivel del 0,05 para determinarsi, tal como parece, el fabricante tiene razn.

    Debemos contrastar la diferencia de medias para saber si hay una diferencia significativao podemos considerar que stas son iguales. Nos dan las medias y las varianzas muestra-

    Si la hiptesis nula es cierta (1 = 2), obtenemos el estadstico de con-traste siguiente:

    con un error estndar

    En este caso el estadstico de contraste corresponde a una observacin

    de una distribucin t de Student con n1 n2 2 grados de libertad.

    12 22 2= =

    s 1n1 n2 2+--------------------------- xi1 x1 2

    i 1=

    n1

    xi2 x2 2i 1=

    n2

    +

    =Frmula

    Esta frmula para estimar es parecida a la de la desviacin tpica para una nica muestra. La diferencia est en el hecho de que se suman los totales de los trminos al cuadrado por separado y despus se dividen por el tamao muestral total menos dos.

    s n1 1 s12 n2 1 s22+

    n1 n2 2+---------------------------------------------------------=

    s12 s2

    2

    tx1 x2

    s 1n1----- 1

    n2-----+

    ------------------------- x1 x2 s X1 X2 ---------------------= = s x1 x2 s

    1n1----- 1

    n2-----+=

    x1 827= s12 9.005=

    x2 812= s22 7.984=

  • FUOC P08/75057/02309 9 Contraste de dos muestras

    les y desconocemos las varianzas poblacionales, que supondremos iguales. Con todos es-tos supuestos, hacemos lo siguiente:

    1. Expresamos las hiptesis:

    Hiptesis nula: H0: 1 2 = 0 Hiptesis alternativa: H1: 1 2 > 02. Determinamos el nivel de significacin: = 0,053. Calculamos el estadstico de contraste:

    que sigue una distribucin t de Student con n1 + n2 2 = 38 grados de libertad y en la que:

    4. Calculamos el p-valor: p = P(t38 > t) 05. Puesto que 0 < 0,05, entonces rechazamos la hiptesis nula en favor de la hiptesisalternativa. Efectivamente, el fabricante tiene razn, es decir, la media de vida de susbombillas es superior a la de la nueva marca.

    2.3. Caso con muestras grandes no normales

    En el caso de que no se pueda asegurar que las muestras provienen de pobla-

    ciones normales, slo podremos contrastar la diferencia de medias si los tama-

    os de las muestras son superiores a treinta.

    En este mdulo no consideraremos el caso de muestras pequeas (n < 30) de

    distribuciones no normales.

    Ejemplo de contraste sobre la diferencia de medias en el caso de muestrasgrandes no normales

    Queremos saber si existe una diferencia significativa entre el consumo de gasolina de dosmotores de coche diferentes. Recogemos los datos sobre el consumo a partir de una mues-tra aleatoria e independiente de cada tipo de motor y obtenemos los resultados siguientes:

    Motor 1: n1 = 80, , s1 = 2,2

    Motor 2: n2 = 75, , s2 = 3,7

    El teorema del lmite central nos dice que si los tamaos de las muestras

    son superiores a 30, el estadstico de contraste:

    es una observacin de una variable aleatoria que se distribuye aproxi-

    madamente como una N(0,1).

    tx1 x2 sx1 x2--------------------- 827 812

    0,959-------------------------- 15,64= = =

    sx1 x2s 1

    n1----- 1

    n2-----+ 2.937 1

    25------ 1

    15------+ 0,959== =

    sn1 1 s12 n2 1 s22+

    n1 n2 2+--------------------------------------------------------- 25 1 9,005 15 1 7,984+

    25 15 2+---------------------------------------------------------------------------------- 24 9,005 14 7,984+

    38--------------------------------------------------------------= = = =

    216,120 111,776+38

    --------------------------------------------------- 327,89638

    ---------------------- 8,628842 2,937= = = =

    zx1 x2 s1

    2

    n1------- s2

    2

    n2-------+

    ------------------------- x1 x2 sx1 x2---------------------= =

    x1 11,2=

    x2 11,8=

  • FUOC P08/75057/02309 10 Contraste de dos muestras

    No tenemos informacin sobre el tipo de distribucin que tienen los consumos de estosmotores. Con un nivel de significacin del 1%, podemos asegurar que el consumo es elmismo?

    Siguiendo el mismo planteamiento de siempre, haremos un contraste de hiptesis de la di-ferencia de medias.

    1. Expresamos las hiptesis:

    Hiptesis nula: H0: 1 2 = 0 Hiptesis alternativa: H1: 1 2 02. Determinamos el nivel de significacin: = 0,013. Calculamos el estadstico de contraste: en este caso no conocemos la distribucin delconsumo, pero dado que las muestras tienen un tamao superior a 30, el estadstico decontraste viene dado por:

    que sigue una distribucin N(0,1) y donde:

    4. Calculamos el pvalor: p = 2P(Z z) = 2P(Z 1,22) = 2 0,1112 = 0,22245. Dado que 0,2224 0,01, entonces no rechazamos la hiptesis nula en favor de la hiptesisalternativa, es decir, el consumo no es significativamente diferente para cada tipo de motor.

    3. Intervalos de confianza para la diferencia de medias

    El procedimiento que hay que seguir para construir un intervalo de confianza

    en torno a la diferencia de medias es el siguiente:

    1) Fijamos el nivel de confianza, que escribimos como (1 ).

    2) Calculamos el error estndar de la diferencia de medias.

    3) Calculamos el valor crtico teniendo en cuenta el tipo de distribucin de

    nuestro estadstico de contraste.

    4) Calculamos el margen de error, que es el producto entre el valor crtico y

    el error estndar.

    El intervalo de confianza para la diferencia de medias viene dado por:

    Este intervalo de confianza contiene la diferencia de medias con un nivel de cer-

    teza igual a (1 )%.

    (valor crtico) (error estndar)

    zx1 x2 sx1 x2--------------------- 11,2 11,8

    0,493------------------------------- 1,217 1,22= = =

    sx1 x2s1

    2

    n1------- s2

    2

    n2-------+ 2,2

    2

    80----------- 3,7

    2

    75-----------+ 0,493= = =

    x1 x2

  • FUOC P08/75057/02309 11 Contraste de dos muestras

    Grficamente, podemos representarlo as:

    A continuacin buscaremos para cada caso el intervalo de confianza corres-

    pondiente.

    3.1. Caso de varianzas poblacionales conocidas

    Ya hemos dicho antes que, dadas dos muestras de tamaos n1 y n2 obtenidas

    de dos poblaciones normales N(1, 1) y N(2, 2), la diferencia de sus mediasse distribuye segn una ley normal:

    Supongamos que queremos un nivel de confianza del (1 )%. En primer lu-gar, consideraremos la variable tipificada:

    y a continuacin construiremos un intervalo centrado en Z = 0, de manera

    que la probabilidad de que la variable aleatoria Z tome un valor en este inter-

    valo sea de 1 :

    X1 X2 N 1 2, 12

    n1------ 2

    2

    n2------+

    ZX1 X2 1 2

    12n1------ 2

    2

    n2------+

    -----------------------------------------------------= N 0,1

  • FUOC P08/75057/02309 12 Contraste de dos muestras

    donde z/2 y z son los valores crticos. Son aquellos que hacen que P(Z z2) == 2 y P(Z z/2 = 2. Trabajando un poco con esta expresin, tenemos:

    Finalmente, sustituyendo los valores muestrales, obtendremos el correspon-

    diente intervalo de confianza para la diferencia de medias en el caso de varian-

    zas conocidas:

    Ejemplo de intervalos de confianza para la diferencia de medias en el casode varianzas poblacionales conocidas

    Si consideramos el ejemplo del fabricante de vidrios, podemos calcular un intervalo de con-fianza del 95% para la diferencia de las medias de las resistencias de la manera que explica-mos a continuacin.

    Ya tenemos la diferencia de medias y el error estndar de los clculos anteriores:

    y

    Los valores crticos para un 2 = 0,025 son . El intervalo de confianza es:

    1,6 1,96 1,40, es decir, 1,6 2,74Por tanto, el intervalo de confianza es (1,14; 4,34). Es importante observar que el intervalocontiene el valor cero, de manera que tenemos un 95% de confianza al pensar que la resis-tencia de los vidrios es la misma. Este resultado se ha obtenido antes haciendo el contrastede hiptesis.

    El intervalo de confianza tambin nos sirve para hacer contrastes de hiptesis

    en caso de que la hiptesis alternativa sea bilateral.

    3.2. Caso de varianzas poblacionales desconocidas e iguales

    En el contraste de hiptesis para diferencias de medias en el caso de varianzas

    desconocidas e iguales, hemos visto que la variable:

    P z 2X1 X2 1 2

    12n1------ 2

    2

    n2------+

    ----------------------------------------------------- z 2

    1 =

    Error estndar

    Recordad que el error estndar de la diferencia de medias es:

    X1 X212n1------

    22n2------+=

    X1 X2 z 2 X1 X2 u1 u2 X1 X2 z 2 X1 X2+

    x1 x2 z 2 x1 x2

    x1 x2 111,2 109,6 1,6= = x1 x2 1,40=

    z 2 1,96=

    x1 x2 z 2 x1 x2

    X1 X2 1 2 sx1 x2

    -----------------------------------------------------

  • FUOC P08/75057/02309 13 Contraste de dos muestras

    sigue una distribucin t de Student con n1 n2 2 grados de libertad. De ma-nera que si fijamos un nivel de confianza 1 , podemos determinar los valo-res crticos y que aseguran que:

    Por tanto:

    Y sustituyendo valores muestrales, tendremos el intervalo de confianza para

    la diferencia de medias en el caso de varianzas desconocidas e iguales:

    Ejemplo de intervalos de confianza para la diferencia de medias en el caso de varianzas poblacionales desconocidas e iguales

    Si consideramos ahora los datos del ejemplo del fabricante de bombillas, calcularemosun intervalo de confianza para la diferencia de duraciones. Ya habamos encontrado ladiferencia de medias y el error estndar:

    y

    Los valores crticos para /2 = 0,025 son

    El intervalo de confianza es:

    15 2,0244 0,959, es decir, 15 1,9414

    Por tanto, el intervalo de confianza para la diferencia de duraciones es: (13,06; 16,94). En estecaso podemos ver que el intervalo no contiene el cero y que es positivo, por lo que podemosconcluir que hay evidencias de que las bombillas del fabricante duran ms que las nuevasbombillas coreanas.

    3.3. Caso con muestras no normales

    Si las muestras no son normales pero sus tamaos son superiores a treinta, en-

    tonces, por el teorema del lmite central, tenemos que la variable:

    est distribuida N(0,1). De manera que hacemos las mismas consideraciones

    que en el caso del apartado 3.1.

    t 2,n1 n2 2+ t 2,n1 n2 2+

    P t 2,n1 n2 2+X1 X2 1 2

    sx1 x2----------------------------------------------------- t 2,n1 n2 2+

    1 =

    X1 X2 t 2,n1 n2 2+ sx1 x2 1 2 X1 X2 t 2,n1 n2 2+ sx1 x2+

    x1 x2 t 2,n1 n2 2+ sx1 x2

    x1 x2 827 812 15= = sx1 x2 0,959=

    t 2,n1 n2 2+ t0,025;38 2,0244= =

    x1 x2 t 2,n1 n2 2+ sx1 x2

    X1 X2 sx1 x2

    ------------------------

  • FUOC P08/75057/02309 14 Contraste de dos muestras

    Ejemplo de intervalos de confianza para la diferencia de medias en el casode muestras no normales

    Consideremos ahora el ejemplo del consumo de gasolina de dos tipos de motores para ilus-trar este ltimo caso. Tenamos los datos siguientes, la diferencia de medias y el error estn-dar:

    y

    Los valores crticos para 2 = 0,025 son z2 1,96.El intervalo de confianza es:

    0,6 1,96 0,493, es decir, 0,6 0,96628

    Por tanto, el intervalo de confianza es: (1,57; 0,366). Es importante observar que el inter-valo contiene el valor cero. Este resultado es totalmente coherente con el obtenido con elcontraste de hiptesis segn el cual el consumo no es significativamente diferente paracada tipo de motor.

    4. Resumen

    En esta sesin hemos visto cmo hacer contrastes de hiptesis para la diferen-

    cia de medias de dos muestras aleatorias e independientes. Hemos distinguido

    tres casos:

    1) Muestras normales con varianzas poblacionales conocidas

    2) Muestras normales con varianzas poblacionales desconocidas e iguales

    3) Muestras grandes no normales

    Tambin hemos aprendido a construir intervalos de confianza para la diferen-

    cia de medias considerando estos mismos tres casos.

    El intervalo de confianza para la diferencia de medias para el caso de

    muestras no normales grandes (tamao superior a treinta) viene dado

    por:

    x1 x2 z 2 sx1 x2

    x1 x2 11,2= 11,8 0,6= sx1 x2 0,493=

    x1 x2 z 2 sx1 x2

  • FUOC P08/75057/02309 15 Contraste de dos muestras

    Ejercicios

    1. Una tienda de ordenadores porttiles equipa sus modelos con bateras de

    la marca Durams. Estas bateras son de buena calidad, pero pasado cierto

    tiempo, comienzan a dar problemas. Para intentar dar una mejor calidad a las

    ventas, el responsable del negocio se plantea la posibilidad de cambiar la marca

    de bateras por la de Enerplus. Dado que el precio de estas nuevas bateras es su-

    perior al de las de la marca Durams, antes de tomar una decisin quiere tener

    la seguridad de que con este cambio gana calidad en el producto final. Se prue-

    ban cincuenta bateras Durams y cincuenta y cinco Enerplus, y se obtienen

    unas duraciones medias de treinta y siete, y cuarenta y tres meses, respectiva-

    mente. Suponiendo que las desviaciones tpicas de las dos marcas son conocidas

    e iguales a cinco meses, creis que se ganar calidad con el cambio de marca?

    2. Se quiere probar que, a la hora de cargarse al poner en funcionamiento un or-

    denador, el sistema operativo A es ms rpido que el sistema operativo B. Se han

    medido los tiempo de arranque en seis ordenadores equipados con el sistema A y

    en otros seis con el sistema B. Los tiempos (en segundos) han sido los siguientes:

    a) Se puede aceptar la afirmacin con un nivel de significacin del 5%?

    b) Calculad un intervalo de confianza del 90% para la diferencia de medias.

    Supondremos que los tiempos estn normalmente distribuidos y que las va-

    rianzas del tiempo son las mismas para las dos marcas.

    Solucionario

    1.

    Datos del problema:

    Bateras Durams: n1 = 50; ; 1 = 5Bateras Enerplus: n2 = 55; ; 2 = 5

    En este problema deberemos hacer un contraste de hiptesis sobre la diferen-

    cia de medias de las duraciones de las bateras. En este caso conocemos las des-

    viaciones tpicas de las poblaciones. Puesto que lo que nos piden es saber si se

    ganar en calidad, plantearemos un contraste de hiptesis con las hiptesis

    siguientes:

    1) Expresamos las hiptesis:

    Hiptesis nula. Las medias son iguales:

    H0: 1 = 2 (1 2 = 0)

    Sistema A 10,7 14,8 12,3 16,5 10,2 11,9

    Sistema B 13,4 11,5 11,2 15,1 13,3 12,9

    x1 37=x2 43=

    Tipos de contraste

    Contraste de diferencia de me-dias en el caso de varianzas co-nocidas.

  • FUOC P08/75057/02309 16 Contraste de dos muestras

    Hiptesis alternativa. Las medias no son iguales, ya que la media de dura-

    cin de la batera Enerplus es mayor que la media de la duracin de la ba-

    tera Durams, de manera que se gana calidad con el cambio:

    H1: 1 < 2 (1 2 < 0)

    2) Fijamos el nivel de significacin = 0,01.

    3) Calculamos el estadstico de contraste, pero antes tendremos que calcular

    el error estndar:

    El estadstico de contraste:

    4) Mediante las tablas de la ley normal (0,1) calculamos el p-valor correspondien-

    te a este estadstico de contraste. Tenemos que: p = P(Z z) = P(Z 6,14 ) = 0,0.

    5) Puesto que 0,0 < 0,05, entonces rechazamos la hiptesis nula y llegamos a

    la conclusin de que con el cambio de bateras ganaremos calidad.

    2. Es un problema de diferencia de medias.

    a) Debemos contrastar la diferencia de medias para saber si hay una diferencia

    significativa o podemos considerar que stas son iguales. A partir de los datos

    calculamos:

    Media de la muestra A:

    Desviacin tpica de la muestra A:

    Media de la muestra B:

    Desviacin tpica de la muestra B:

    A continuacin seguiremos el esquema general para hacer un contraste de hi-

    ptesis:

    1) Expresamos las hiptesis:

    Hiptesis nula: H0: A B 0 Hiptesis alternativa: H1: A B 0

    x1 x212n1------ 2

    2

    n2------+ 25

    50------ 25

    55------+ 0,977= = =

    z X1 X2 x1 x2------------------------ 37 43

    0,977------------------- 6,14= = =

    Tipos de contraste

    Contraste de diferencias de medias en el caso de varianzas desconocidas.

    xA1nA------ xAi

    i 1=

    n

    12,73= =

    sA1

    nA 1--------------- xA xAi 2

    i 1=

    n

    2,44= =

    xB1nB------ xBi

    i 1=

    n

    12,9= =

    sB1

    nB 1--------------- xB xBi 2

    i 1=

    n

    1,42= =

  • FUOC P08/75057/02309 17 Contraste de dos muestras

    2) Fijamos un nivel de significacin: = 0,05

    3) Estadstico de contraste:

    Este estadstico sigue una distribucin t de Student, con nA nB 2 = 10 gradosde libertad y en la que el error estndar viene dado por la expresin:

    , donde

    4) Finalmente calculamos el p-valor: p = P( < t ) = P(t100,144) = 0,444.

    5) Puesto que 0,444 > 0,05, no rechazamos la hiptesis nula en favor de la hi-

    ptesis alternativa, de manera que estos datos no confirman que el sistema A

    sea ms rpido que el sistema B.

    b) Calcularemos un intervalo de confianza del 90% para la diferencia de me-

    dias. Ahora tenemos que = 0,1, de manera que 2 = 0,05 y el valor crticocorrespondiente es t0,05;10 = 1,8125. Por tanto, el intervalo vendr dado por:

    con: ; ;

    De manera que obtenemos , y haciendo las operacio-

    nes tenemos el intervalo de confianza siguiente para la diferencia de medias:

    (2,259; 1,926)

    En este caso podemos observar que el intervalo de confianza contiene el cero,

    por lo que podemos concluir con una confianza del 95% que las medias de los

    tiempos de carga son iguales. Este resultado est totalmente de acuerdo con el

    obtenido en el contraste de hiptesis del apartado anterior.

    txA xB sxA xB---------------------- 0,144= =

    sxA xB

    sxA xB s1nA------ 1

    nB-----+ 1,155= = s nA 1 sA

    2 nB 1 sB2+nA nB 2+

    ---------------------------------------------------------- 1,999= =

    tnA nB 2+

    xA xB t 2, nA nB 2+ sxA xB

    xA xB 0,17= t0,05;10 1,8125= sxA xB 1,11=

    0,17 1,8125 1,155

  • FUOC P08/75057/02309 18 Contraste de dos muestras

    Contrastes sobre la diferencia de proporciones

    1. Introduccin

    En esta sesin veremos cmo tenemos que hacer un contraste de hiptesis sobre

    la diferencia entre dos proporciones y cmo tenemos que determinar un inter-

    valo de confianza con un nivel de significacin determinado.

    Este hecho puede ser de inters en algunos casos; veamos algunos ejemplos:

    Para saber si hay diferencia entre la proporcin de alumnos de la UOC que

    se conectan por la maana o los que lo hacen por la noche.

    Para saber si hay diferencia entre la proporcin de personas que estn a fa-

    vor de una propuesta y de las que estn en contra.

    Para saber si existe diferencia entre la proporcin de consumidores que pre-

    fieren un producto de un fabricante determinado y los que lo prefieren de la

    competencia, etc.

    Estudiaremos la diferencia de proporciones para saber cmo se distribuyen, de-

    terminaremos el error estndar y el estadstico de contraste. Con esto podremos

    hacer el contraste de hiptesis, as como encontrar intervalos de confianza para

    la diferencia de proporciones.

    2. Contrastes sobre la diferencia de proporciones

    Supongamos que tenemos una muestra de tamao n1 que proviene de una dis-

    tribucin de Bernoulli de parmetro p1. La proporcin muestral de xitos es

    y una muestra independiente de la anterior de tamao n2 y que proviene de

    una distribucin de Bernoulli de parmetro p2. La proporcin muestral de xi-

    tos es . Queremos comparar los parmetros poblacionales p1 y p2 a partir de

    las muestras para poder decir si stos son iguales. Esto lo haremos mediante el

    contraste de hiptesis:

    Hiptesis nula: H0: p1 = p2

    Hiptesis alternativa:

    Bilateral: H1: p1 p2 Unilateral: H1: p1 p2 Unilateral: H1: p1 p2

    p1

    p2

  • FUOC P08/75057/02309 19 Contraste de dos muestras

    Ya sabemos que si el tamo de las muestras es grande (superior a 30), entonces

    y presentan distribuciones aproximadamente normales, es decir:

    y

    la diferencia sigue tambin una distribucin normal:

    Y estandarizndola, obtenemos una nueva variable que sigue una distribucin

    normal tipificada:

    Si se verifica la hiptesis nula, entonces p1 = p2 = p y la anterior expresin nos

    queda as:

    El valor p desconocido que aparece en la expresin se tiene que sustituir por

    una estimacin , proporcin poblacional comn que podemos estimar a par-

    tir de la informacin proporcionada por las dos muestras:

    Dos formas de calcular la

    De una encuesta a 1.500 habitantes de Gerona se obtiene que 725 estn a favor de que la ve-locidad sea ilimitada en las autopistas. En otra encuesta realizada a 2.000 habitantes de Bar-celona, resulta que 1.050 estn a favor de lo mismo. En estos casos tenemos, como resultadode cada muestra, las proporciones siguientes:

    ;

    Si suponemos que la hiptesis nula es cierta, entonces las proporciones poblacionales de Ge-rona y Barcelona son iguales, y son iguales a un valor p. Este valor se puede estimar a partirdel cociente entre el nmero total de encuestados que estn a favor y el nmero total de en-cuestados:

    Este mismo resultado se puede obtener a partir de las proporciones muestrales, ya que:

    Nmero de encuestados de Gerona que estn a favor:

    P1 P2Nota

    Hay que tener presente que cuanto mayores sean las muestras, ms precisa serla aproximacin. Se obtienen resultados muy buenos con muestras de tamao superior a 100.

    P1 N p1, p1 1 p1

    n1----------------------- P2 N p2,

    p2 1 p2 n2

    -------------------------

    P1 P2

    P1 P2 N p1 p2, p1 1 p1

    n1------------------------- p2 1 p2

    n2-------------------------+

    ZP1 P2 p1 p2

    p1 1 p1 n1

    ------------------------- p2 1 p2 n2

    -------------------------+

    -------------------------------------------------------------- N 0,1 =

    Z P1 P2 p 1 p

    n1-------------------- p 1 p

    n2--------------------+

    ---------------------------------------------------- P1 P2 p 1 p 1

    n1----- 1

    n2-----+

    -------------------------------------------------= =

    p

    pn1p1 n2p2+

    n1 n2+-----------------------------=

    p

    p1725

    1.500--------------- 0,483= = p2

    1.0502.000--------------- 0,525= =

    p 725 1.050+1.500 2.000+------------------------------------- 1.775

    3.500--------------- 0,507= = =

    p1 n1 0,483= 1.500 724,5 725=

  • FUOC P08/75057/02309 20 Contraste de dos muestras

    Nmero de encuestados de Barcelona que estn a favor:

    Por tanto:

    En resumen, si la hiptesis nula (H0: p1 = p2) es cierta, el estadstico de con-

    traste que obtenemos y el error estndar son:

    y es la estimacin de la proporcin poblacional comn.

    Este estadstico de contraste es una observacin de una ley N(0,1).

    Como siempre, una vez calculado el valor del estadstico de contraste, deter-

    minaremos el p-valor. Este valor depende de la hiptesis alternativa planteada:

    Si H1: p1 p2 0, entonces p = 2 P(Z z) Si H1: p1 p2 0, entonces p = P(Z z) Si H1: p1 p2 0, entonces p = P(Z z)

    Ejemplo de contraste sobre la diferencia de proporciones

    Se quiere construir una central nuclear cerca de un pueblo. Por un lado, la central puede pro-porcionar puestos de trabajo tanto a gente del pueblo como del resto de la comarca; por elotro, algunas personas del pueblo creen que puede resultar peligrosa para la salud. Se haceuna encuesta entre los habitantes del pueblo y los del resto de la comarca. Los resultadosson los siguientes: 120 de 200 encuestados del pueblo y 240 de 500 encuestados del resto dela comarca estn de acuerdo con su construccin. Haremos un contraste de hiptesis a unnivel del 0,05 para determinar si la proporcin de encuestados del pueblo que estn a favorde la propuesta es mayor que la proporcin de encuestados del resto de la comarca.

    Sea p1 la proporcin real de votantes del pueblo y p2 la de la comarca que estn a favor dela propuesta. Ahora debemos hacer una prueba de la diferencia entre dos proporciones:

    1. Expresamos las hiptesis:

    Hiptesis nula: H0: p1 p2 = 0, es decir, p1 = p2Hiptesis alternativa: H1 : p1 p2 0, es decir, p1 p2

    2. Seleccionamos un nivel de significacin: = 0,05 3. Calculamos el valor del estadstico de contraste:

    Este valor es una observacin de una variable N(0,1). Sin embargo, antes hemos tenidoque calcular el error estndar:

    donde:

    p2 n2 0, 507= 2.000 1.050=

    pn1 p1 n2 p2+

    n1 n2+----------------------------- 0,507= =

    zp1 p2

    p 1 p 1n1----- 1

    n2-----+

    ------------------------------------------------- p1 p2sp

    -----------------; sp p 1 p 1n1-----1n2-----+ = = =

    pn1p1 n2p2+

    n1 n2+-----------------------------=

    Atencin!

    Es muy importante no confun-dir la p de la proporcin con la p del p-valor.

    zp1 p2

    sp---------------- 0,60 0,48

    0,0418------------------------------- 2,87= = =

    sp p 1 p 1n1-----1n2----- + 0,0418== p

    n1 p1 n2 p2+n1 n2+

    ----------------------------- 0,514= =

  • FUOC P08/75057/02309 21 Contraste de dos muestras

    con y

    4. Calculamos el p-valor: p = P(Z > 2,87) = 0,0021.

    5. Conclusin: puesto que 0,0021 < 0,05, entonces rechazamos H0 y estamos de acuerdocon el hecho de que la proporcin de votantes del pueblo a favor de la propuesta es su-perior que la proporcin de votantes de la comarca.

    3. Intervalos de confianza para la diferencia de proporciones

    El procedimiento que hay que seguir para construir un intervalo de confianza

    para la diferencia de proporciones es anlogo al que se sigue para la diferencia

    de medias y, en general, para cualquier tipo de intervalo de confianza:

    1) Fijamos el nivel de confianza, que escribimos como (1 ).

    2) Calculamos el error estndar de la diferencia de proporciones.

    3) Calculamos el valor crtico teniendo en cuenta el tipo de distribucin de

    nuestro estadstico de contraste. En este caso, una normal (0,1).

    4) Calculamos el margen de error a partir del valor crtico y el error estndar.

    El intervalo de confianza para la diferencia de proporciones viene dado por:

    es decir, , donde:

    y

    Ejemplo de clculo de los intervalos de confianza para la diferencia de proporciones

    Considerando de nuevo el ejemplo de la central nuclear, calcularemos el intervalo de con-fianza al 95%.

    Por tanto, tenemos: 0,12 1,96 0,0418.

    As pues, el intervalo de confianza es (0,0380; 0,2019).

    Dado que estamos tratando con proporciones que se pueden expresar en tanto por ciento,tambin es posible expresar el intervalo de confianza en tanto por ciento: el valor de la pro-porcin est entre el 3,80% y el 20,19%.

    Podemos observar que el cero no se incluye dentro de este intervalo. Este resultado estde acuerdo con el obtenido en el contraste de hiptesis efectuado anteriormente, en elque se ha rechazado la hiptesis nula, segn la cual la diferencia de proporciones es iguala cero.

    (valor crtico) (error estndar)

    p1x1n1----- 120

    200---------- 3

    5--- 0,60= = = = p2

    x2n2----- 240

    500---------- 12

    25------ 0,48= = = =

    p1 p2

    p1 p2 z 2 sp

    sp p 1 p 1n1-----1n2----- + = p

    n1p1 n2p2+n1 n2+

    -----------------------------=

    p1 p2 0,60 0,48 0,12; z 2 1,96; sp 0,0418== = =

  • FUOC P08/75057/02309 22 Contraste de dos muestras

    4. Resumen

    En esta sesin hemos aprendido a hacer contrastes de hiptesis para la diferen-

    cia de dos proporciones en el caso de muestras grandes. Despus hemos visto

    cul es el procedimiento para construir intervalos de confianza para la diferen-

    cia de proporciones.

  • FUOC P08/75057/02309 23 Contraste de dos muestras

    Ejercicios

    1. Una firma manufacturera de cigarrillos distribuye dos marcas. De una

    muestra de 150 fumadores, 29 prefieren la marca A, y de otra muestra de 200

    fumadores, 56 prefieren la marca B. A partir de estos datos, podemos concluir

    que los fumadores prefieren ms una marca que otra? Utilizad un nivel de sig-

    nificacin 0,1.

    2. Se realiza un estudio para determinar la efectividad de una nueva vacuna

    contra la gripe. Se administra la vacuna a una muestra aleatoria de 2.000 per-

    sonas y de este grupo, 23 sufren la enfermedad. Como grupo de control se se-

    leccionan al azar 2.500 personas que no han sido vacunadas. De este grupo, 98

    padecen la gripe. Construid un intervalo de confianza del 95% para la diferen-

    cia de proporciones. Qu podis decir de la efectividad de la nueva vacuna?

    Solucionario

    1.

    Sean p1 y p2 las proporciones reales de consumidores de la marca A y B, respec-

    tivamente. Ahora tenemos que hacer una prueba de la diferencia entre dos pro-

    porciones:

    1) Expresamos las hiptesis:

    Hiptesis nula: H0: p1 p2 = 0 Hiptesis alternativa: H1: p1 p2 0

    2) Determinamos un nivel de significacin: = 0,1

    3) Estadstico de contraste:

    donde:

    y

    es una observacin de una variable N(0,1).

    4) Calculamos el p-valor: p = 2P(Z z) = 2P(Z 1,871) = 2 0,031 = 0,062.

    5) Conclusin: puesto que 0,061 0,1, rechazamos H0 y, por tanto, s que haydiferencia en las preferencias de los consumidores.

    2.

    Datos:

    Personas vacunadas: n1 = 2.000, x1 = 23

    Personas no vacunadas: n2 = 2.500, x2 = 98

    zp1 p2

    p 1 p 1 n1 1 n2 + ------------------------------------------------------------------------- 1,871= = p 29 56+

    150 200+--------------------------- 0,243= =

    p129150---------- 0,193= = p2

    56200---------- 7

    25------ 0,280= = =

  • FUOC P08/75057/02309 24 Contraste de dos muestras

    Ya podemos calcular el intervalo de confianza:

    Por tanto, el intervalo de confianza es: (0,0373; 0,0181).

    Puesto que el valor cero no se encuentra dentro del intervalo, llegamos a la con-

    clusin de que las proporciones son diferentes y, dado que el intervalo es nega-

    tivo, la vacuna tiene realmente algn efecto beneficioso.

    p123

    2.000--------------- 0,0115, p2

    982.500--------------- 0,0392= = = =

    pn1p1 n2p2+

    n1 n2+----------------------------- 2.000 0,0115 2.500 0,0392+

    2.000 2.500+---------------------------------------------------------------------------------- 0,0269= = =

    sp p 1 p 1n1-----1n2----- + 0,0269 1 0,0296

    12.000--------------- 1

    2.500---------------+ 0,0049= = =

    p1 p2 z 2 sp

    0,0115 0,0392 1,96 0,0049; 0,0277 0,0096