Estadística II Tema 3: Comparaciones De Dos Poblaciones - UC3M

Transcription

Tema 3. Comparaciones de dos poblacionesContenidosIIHipótesis para la diferencia entre las medias de dos poblaciones:muestras pareadasHipótesis para la diferencia entre las medias de dos poblaciones:muestras independientesIIIDos poblaciones normales con varianzas iguales (y desconocidas)Dos poblaciones normales con varianzas conocidasDos poblaciones no normales y muestras grandesIIDos poblaciones BernoulliHipótesis para la razón de las varianzas de dos poblaciones:muestras independientes

Tema 3. Comparaciones de dos poblacionesObjetivos de aprendizajeAl finalizar este tema, debieras ser capaz de:ILlevar a cabo un contraste de hipótesis para la diferencia de lasmedias y para el cociente de las varianzas de dos poblacionesIConstruir intervalos de confianza para la diferencia o el cocienteIDiferenciar las situaciones en las que un contraste basado enmuestras pareadas es adecuado, de aquellas en las que se debeaplicar un contraste basado en muestras independientesICalcular la potencia de un contraste y la probabilidad de un error deTipo II

Tema 3. Comparaciones de dos poblacionesReferenciasINewbold, P. “Estadı́stica para administración y economı́a”IICapı́tulo 9 (9.6-9.9)Ross, S. “Introducción a la Estadı́stica”ICapı́tulo 10

IntroducciónEn este tema estudiamos el caso en el que en lugar de disponer de unamuestra aleatoria, tenemos dos muestras aleatorias de dos poblaciones, yestamos interesados en contrastar:I la diferencia entre las medias de las dos poblacionesIIIen el caso de muestras pareadasy en el caso de muestras independientesel cociente entre las varianzas de las dos poblacionesIen el caso de muestras independientesEmplearemos los procedimientos introducidos en los Temas 1 y 2 paraconstruir intervalos de confianza y realizar contrastes de hipótesis para lasdiferencias o cocientes de los parámetros de las poblaciones indicados.

Contrastes para la diferencia entre dos medias: muestraspareadasEjemplo: Se ha llevado a cabo un estudio sobre la relación entre laactividad cerebral mientras se ven anuncios en televisión y la capacidadde la persona para recordar dichos anuncios. Se han mostrado anunciosde dos marcas para diez productos a las personas en la muestra. Paracada anuncio se ha medido la capacidad de cada persona para recordarlopasadas 24 h., y a cada anuncio de un producto se le han asignado lasetiquetas “recuerdo fuerte” o “recuerdo débil”. La siguiente tablamuestra un ı́ndice de la actividad cerebral de las personas que han vistoestos anuncios en el estudio.producto: irecuerdo fuerte: xirecuerdo débil: yidif.: di xi yi1137538421351142138381241258639547341364666 207114892581571134495788 311014411133

Contrastes para la diferencia entre dos medias: muestraspareadasIISea X una población con media µX e Y otra población con mediaµY .Disponemos de una muestra aleatoria de n observaciones pareadasde ambas poblaciones, {(Xi , Yi )}. Denotaremos comod1 x1 y1 , d2 x2 y2 , . . . , dn xn ynlas n diferencias de valores con media d̄ y cuasi desviación tı́pica sd .IISupondremos que la población de las diferencias sigue unadistribución normal.Contraste bilateral H0 : µX µY D0 frente a H1 : µX µY 6 D0IEl estadı́stico del contraste esT ID̄ D0 H0 tn 1sD / nLa región de rechazo (a un nivel de significación α) es:RRα {t : t tn 1;α/2 o t tn 1;α/2 }

Contrastes para la diferencia entre dos medias: muestraspareadasEjemplo: cont.Población:D “diferencia entre recuerdofuerte y débil”2D N(µX µY , σD)'MAS: n 1021010 21142022 10(21)2 108810 1Muestra: d̄ sd2 Estadı́stico del contraste:T D̄ D0 tn 1sD / nValor observado del estadı́stico:D0 0d̄ 21t Objetivo: contrastarD0z} {H0 : µX µY 0 frente a H1 : µX µY 0(Contraste unilateral)n 10 sd 1088 32.98d̄ D0 sd / n21 2.01432.98/ 10

Contrastes para la diferencia entre dos medias: muestraspareadasEjemplo: cont.p-valor P(T 2.014) (0.025, 0.05) ya quet9;0.05t9;0.025z } {z } {1.833 2.014 2.262Por tanto, como p-valor α 0.05,rechazamos la hipótesis nula a estenivel.Densidad tn 1t 2.014p valor area 1.833 2.262Conclusión: La evidencia muestral apoya que en promedio la actividad cerebrales mayor para el grupo con recuerdo fuerte que para el grupo con recuerdodébil. Si la actividad cerebral promedio fuese igual para ambos grupos, laprobabilidad de obtener muestras tan extremas o más que la observada estarı́aentre 0.025 y 0.05 (un valor bajo).

Contrastes para la diferencia entre dos medias: muestraspareadasEjemplo: cont. En Excel: Ir al menu “Datos”, submenu “Análisis dedatos”, seleccionar la opción: “Prueba t para medias de dos muestrasemparejadas”Columnas A y B (datos), en amarillo se muestran el valor observado delestadı́stico y el p-valor.

Contraste bilateral para la diferencia entre dos medias viaIC: muestras pareadasEjemplo: cont. Construir un intervalo de confianza al 95% para µX µY . sdsdIC0.95 (µX µY ) d̄ tn 1;0.025 , d̄ tn 1;0.025 nn 32.9832.98 21 2.262 , 21 2.262 1010 ( 2.59, 44.59)Como el valor 0 pertenece a este intervalo, no podemos rechazar lahipótesis nula de la igualdad de las medias de las dos poblaciones a unnivel de significación de α 0.05.

Contrastes para la diferencia entre dos medias: muestrasnormales independientes, varianzas de poblaciones igualesIIISea X una población con media µX y varianza σX2 , e Y otra población conmedia µY y varianza σY2I ambas distribuidas normalmenteI con varianzas poblacionales desconocidas, pero iguales σ 2 σ 2 σ 2XYMuestras aleatorias de n1 observaciones de X y n2 observaciones de Y ,independientes.Contraste bilateral H0 : µX µY D0 frente a H1 : µX µY 6 D0I El estadı́stico del contraste esX̄ Ȳ D0 H0 tn1 n2 2T qsp n11 n12donde el estimador de la varianza común para las dos poblaciones es(n1 1)sX2 (n2 1)sY2n1 n2 2Nota: grados de libertad n1 n2 2 (número de observaciones delas muestras menos dos - por tener que estimar µX y µY )La región de rechazo (para un nivel de significación α) es:sp2 IRRα {t : t tn1 n2 2;α/2 o t tn1 n2 2;α/2 }

Contrastes para la diferencia entre dos medias: muestrasnormales independientes, varianzas de poblaciones igualesEjemplo: 9.8 (Newbold) Se estudia el efecto que la presencia de un moderadorpuede tener en el número de ideas generadas en un grupo de trabajo. Seobservan grupos de cuatro personas, con y sin moderador. En una muestraaleatoria de cuatro grupos con moderador el número promedio de ideasgeneradas por grupo fue 78.0, con cuasi desviación tı́pica muestral de 24.4.Para una muestra independiente de cuatro grupos sin moderador el promediode ideas generadas fue 63.5, y su cuasi desviación tı́pica fue 20.2. Suponiendoque distribuciones normales con varianzas iguales, contraste la hipótesis nula(para α 0.1) de igualdad de medias, frente a la alternativa de que la mediade la población es mayor para grupos con moderador.Población 1:Población 2:X “número de ideas en gruposY “número de ideas en grupos sincon moderador”moderador”X N(µX , σX2 )X N(µY , σY2 )'MAS: n1 4'MAS: n2 4Muestra: x̄ 78.0Muestra: ȳ 63.5sx 24.4sy 20.2Suponemos muestras normales independientes y σX2 σY2 σ 2

Contrastes para la diferencia entre dos medias: muestrasnormales independientes, varianzas de poblaciones igualesEjemplo: 9.8 (Newbold cont.)sp t 501.7 22.4x̄ ȳspObjetivo: contrastarH0 : µX µY D0z} {0frente a p1/n1 1/n278.0 63.5 0.915p22.4 1/4 1/4Región de rechazo:H1 : µX µY 0(Test unilateral)1.440z } {RR0.1 {t : t t6;0.1 }Estadı́stico del contraste:rX̄ ȲT H tn n 21 201 1spn1 n2Valor observado del estadı́stico:D0 0x̄ 78.0 sx 24.42spComo t 0.915 / RR0.1 , no podemos rechazar la hipótesisnula a un nivel del 10%.n1 4 n2 4ȳ 63.5 sy 20.2 (n1 1)sx2 (n2 1)sy2n1 n2 2(4 1)24.42 (4 1)20.22 4 4 2 501.7Conclusión: Los datos muestrales nocontienen suficiente evidencia parapensar que en promedio se generan másideas en grupos con moderador. Peropara tamaños muestrales tan pequeñosel contraste tiene potencia baja y serı́annecesarias diferencias muy grandesentre las medias de las poblaciones pararechazar la hipótesis nula.

Contrastes para la diferencia entre dos medias: muestrasnormales independientes, varianzas de poblaciones igualesEjemplo: 9.8 (Newbold cont.) Construya un intervalo de confianza al99% para µX µY .r 11IC0.99 (µX µY ) x̄ ȳ tn1 n2 2;0.005 sp n1n2!r1 1 78.0 63.5 3.707 · 22.44 4 ( 44.22, 73.22)Como el valor 0 pertenece a este intervalo, no podemos rechazar lahipótesis nula de igualdad de las medias de las dos poblaciones a un nivelde significación α 0.01.

Contrastes para la diferencia entre dos medias: muestrasgrandes independientes o dos poblaciones normales convarianzas conocidasIISea X una población con media µX y varianza σX2 , e Y otrapoblación con media µY y varianza σY2 .Muestras aleatorias de n1 observaciones de X y n2 observaciones deY , independientes, yIIIBien tanto n1 como n2 son grandes y σX2 y σY2 son desconocidas,O X e Y siguen distribuciones normales y σX2 y σY2 son conocidasContraste bilateral H0 : µX µY D0 frente a H1 : µX µY 6 D0IEl estadı́stico del contraste es:IBienX̄ Ȳ D0 H0 ,Z r2sXn1I 2sYn2aprox.N(0, 1)OX̄ Ȳ D0 H0 N(0, 1)Z r2σXn1I 2σYn2La región de rechazo (para un nivel de significación α) es:RRα {z : z zα/2 o z zα/2 }

Contrastes para la diferencia entre dos medias: muestrasgrandes independientes o dos poblaciones normales convarianzas conocidasEjemplo: 9.7 (Newbold) Se realiza un estudio entre auditores sobre la actividadde las mujeres en su profesión. A los encuestados se les pide que den su opinióncon un valor entre uno (muy en desacuerdo) y cinco (muy de acuerdo) sobre laafirmación “En auditorı́a se asignan los mismos trabajos a las mujeres y a loshombres”. De una muestra de 186 auditores (varones) se obtuvo una respuestapromedio de 4.059 con una cuasi desviación tı́pica de 0.839. Para una muestraindependiente de 172 mujeres auditoras la respuesta promedio fue de 3.680 conuna cuasi desviación tı́pica de 0.966. Contraste la hipótesis nula (paraα 0.0001) de que las medias de las dos poblaciones son iguales, frente a laalternativa de que la media de la población es mayor para auditores varones.Población 1:Población 2:X “respuesta de un auditor varón”Y “respuesta de una mujer auditora”X µX , σX2X µY , σY2'MAS: n1 186Muestra: x̄ 4.059sx 0.839'MAS: n2 172Muestra: ȳ 3.680sy 0.966

Contrastes para la diferencia entre dos medias: muestrasgrandes independientes o dos poblaciones normales convarianzas conocidasEjemplo: 9.7 (Newbold cont.)Región de rechazo:Objetivo: contrastar3.75z } {RR0.0001 {z : z z0.0001 }D0z} {H0 : µX µY 0Como z 3.95 RR0.0001 , rechazamos la hipótesis nula aun nivel del 0.01%.frente aH1 : µX µY 0(Contraste unilateral)Conclusión: Los datos contienen unaevidencia muy fuerte en favor de quela respuesta promedio entre losvarones es mayor que entre lasmujeres - esto es, en promedio losvarones están mas convencidos quelas mujeres de que se asignan losmismos trabajos a las mujeres que alos hombres.Estadı́stico del contraste:Z s X̄ Ȳ H , aprox. N(0, 1)0s2s2X Yn1n2Valor observado del estadı́stico:D0 0x̄ 4.059 sx 0.839n1 186 n2 172ȳ 3.680 sy 0.966x̄ ȳz qsx2 /n1 sy2 /n2 q0.8392 /186 0.9662 /1724.059 3.680 3.95

Contrastes para la diferencia entre dos medias: muestrasgrandes independientes o dos poblaciones normales convarianzas conocidasEjemplo: 9.7 (Newbold) Construya un intervalo de confianza al 95%para µX µY . s22ssyxIC0.95 (µX µY ) x̄ ȳ z0.025 n1n2 p 4.059 3.680 1.96 0.8392 /186 0.9662 /172 (0.19, 0.57)Como el valor 0 no pertenece a este intervalo, podemos rechazar lahipótesis nula de igualdad de las dos medias poblacionales a un nivel designificación α 0.05.

Contrastes para la diferencia entre dos proporciones:muestras grandes independientesIISea X Bernoulli(pX ) y sea Y Bernoulli(pY ), donde pX y pY sondos proporciones poblacionales para los individuos que cumplan unapropiedad de interés.Muestras aleatorias de n1 observaciones de X y n2 observaciones deY , independientes, yIItanto n1 como n2 son grandesContraste bilateral H0 : pX pY 0 frente a H1 : pX pY 6 0IEl estadı́stico del contraste es:p̂X p̂YZ r“p̂0 (1 p̂0 ) n11 1n2” H0 ,aprox.N(0, 1),donden1 p̂X n2 p̂Yn1 n2La región de rechazo (para un nivel de significación α) es:p̂0 IRRα {z : z zα/2 or z zα/2 }

Contrastes para la diferencia entre dos proporciones:muestras grandes independientesEjemplo: 9.9 (Newbold) En Investigación de Mercados, es importante conseguir unporcentaje de respuestas elevado para las encuestas. Para mejorar este porcentaje sepuede incluir una pregunta inicial de motivación que aumente el interés del encuestadopor completarlo. Se han enviado cuestionarios con pregunta de motivación sobre lamejora los espacios de ocio en una ciudad, a una muestra de 250 hogares, obteniendo101 respuestas. Otros cuestionarios idénticos sin pregunta de motivación se hanenviado a otra muestra independiente de 250 hogares, obteniendo 75 respuestas.Contraste la hipótesis nula de que las dos proporciones poblacionales sean iguales,frente a la alternativa de que la tasa de respuestas sea más elevada cuando se incluyepregunta de motivación.Población 1:X 1 si una persona completa elcuestionario con pregunta demotivación, y 0 en caso contrarioX Bernoulli(pX )'MAS: n1 250Muestra: p̂x 101250 0.404Población 2:Y 1 si una persona completa elcuestionario sin pregunta de motivación,y 0 en caso contrarioY Bernoulli(pY )'MAS: n2 250Muestra: p̂y 75250 0.300

Contrastes para la diferencia entre dos proporciones:muestras grandes independientesEjemplo: 9.9 (Newbold cont.)z r1Objetivo: contrastarH0 : pX pY frente aH 1 : pX pY(Contraste unilateral)Estadı́stico del contraste:p̂X p̂YZ s„« H0 ,p̂0 (1 p̂0 )aprox.p̂x p̂y“p̂0 (1 p̂0 ) n1 q1n2”0.404 0.300 10.352(1 0.352)250 1250 2.43p-valor P(Z z) P(Z 2.43) 0.0075N(0, 1)1 1n1 n2Como el p-value es muy pequeño, podemosrechazar la hipótesis nula a cualquier nivel designificación mayor que 0.0075.Valor observado del estadı́stico:n1 250n2 250p̂x 0.404p̂0p̂y 0.300 n1 p̂x n2 p̂yn1 n2250(0.404) (250)(0.300)250 2500.352Conclusión: Los datos muestralescontienen una fuerte evidencia deque al incluir una pregunta demotivación se obtiene una tasa derespuesta más elevada que cuandono se incluye.

Contrastes para la diferencia entre dos proporciones:muestras grandes independientesEjemplo: 9.9 (Newbold cont.) Construya un intervalo de confianza al95% para pX pY .sIC0.95 (pX pY ) p̂x p̂y z0.025„p̂0 (1 p̂0 )11 n1n2«!s 0.404 0.300 1.96„0.352(1 0.352)11 250250«!(0.1877, 0.0203)Como el valor 0 no pertenece a este intervalo, podemos rechazar lahipótesis nula de igualdad de las proporciones de las dos poblaciones paraun nivel de significación α 0.05.

Contrastes para el cociente de varianzas: muestrasnormalesISea X una población con media µX y varianza σX2 , e Y otrapoblación con media µY y varianza σY2 ,IIIambas distribuidas normalmenteMuestras aleatorias de n1 observaciones de X y n2 observaciones deY , independientes.Contraste bilateral H0 : σX2 σY2 ( σ 2 ) frente a H1 : σX2 6 σY2IEl estadı́stico del contraste esF IsX2 H0 Fn1 1,n2 1sY2La región de rechazo (para un nivel de significación α) es:RRα {f : f Fn1 1,n2 1;1 α/2 o f Fn1 1,n2 1;α/2 }

La distribución Fχ2n2 11.21.00.40.60.8gl1 30 gl2 30gl1 10 gl2 15gl1 8 gl2 8gl1 5 gl2 30.2sigue una distribución Fn,m con n ym grados de libertad. Para elresultado de la transparenciaanterior:χ2n1 1z } {(n1 1)sX212n 1sX1σ2 H0 Fn1 1,n2 1sY2(n2 1)sY21n2 12 σ{z}Densidades F0.0X1 , X2 , . . . , Xn y Y1 , Y2 , Y3 , . . . , Ymson dos conjuntos de variablesaleatorias independientes, condistribución N(0, 1). La variablealeatoria (cociente de dos v.a.schi-cuadrado normalizadas)1 Pn2i 1 XiF n1 Pm2i 1 Yim02468

Contrastes para el cociente de varianzas: muestrasnormalesEjemplo: 9.10 (Newbold) Para una muestra de 17 bonos industrialesemitidos recientemente con calificación AAA, la cuasi varianza de susvencimientos (en años al cuadrado) fue de 123.35. Para otra muestraindependiente de 11 bonos industriales emitidos con calificación CCC, lacuasi varianza de sus vencimientos fue de 8.02. Si se denotan lascorrespondientes varianzas poblacionales como σX2 y σY2 , lleve a cabo uncontraste bilateral para compararlas al 5%.Población 1:X vencimiento de bonos AAA (en años)X N(µX , σX2 )Población 2:Y vencimiento de bonos CCC (en años)Y N(µY , σY2 )MAS: n1 17MAS: n2 11'Muestra: sx2 123.35'Muestra: sy2 8.02

Contrastes para el cociente de varianzas: muestrasnormalesEjemplo: 9.10 (Newbold cont.)0.402z} {{f : f F16,10;1 0.05 }Región de rechazo:Objetivo: contrastarH0 : σX2 σY2frente aH1 : σX2 6 σY2(Contraste bilateral)Estadı́sticodel contraste:s2F sX2 H0 Fn1 1,n2 1YValor observado del estadı́stico:RR0.10 {f : f F16,10;0.05 } {z }2.83Nota: el cuantil F16,10;0.05 2.83aparece en la tabla de la F, pero noF16,10;1 0.05 . Para calcularlopodemos emplear la propiedad deesta distribución Fn,m;α 1Fm,n;1 αObtenemosn1 17n2 11sx2 123.35f sy2 8.02123.35 15.388.02F16,10;1 0.05 11 0.402F10,16;0.052.49Vemos que f 15.38 RR0.10 .Conclusión: Existe una fuerteevidencia de que las dos varianzaspoblacionales son distintas.

Contraste bilateral para el cociente de varianzas medianteintervalos de confianzaEjemplo: 9.10 (Newbold cont.) Construya un intervalo de confianza al90% para el cociente de las varianzas. 2 2sx2σXsx11,IC0.90 sy2 Fn1 1,n2 1;0.05 sy2 Fn1 1,n2 1;1 0.05σY2 123.35 1 123.35 1 ,8.02 2.83 8.02 0.402 (5.43, 38.26)Como era de esperar por el resultado anterior, el valor 1 no pertenece aeste intervalo, y podemos rechazar la hipótesis nula de que las dosvarianzas poblacionales sean iguales, para un nivel de significaciónα 0.1.

Estadı́sticos Muestras pareadasPobls. normalesVarianzas igualesµX µY D0Pobls. normalesVars. conocidasPobls. no normalesVars. desconocidasMuestras grandespX pY 0σX2 /σY2 1Pobls. BernoulliMuestras grandesPobls. normalesEstadı́stico del contrasteD̄ D0 sD / nX̄ Ȳ D0r1 1n1 n2X̄ Ȳ D0sσ2σ2X Yn1n2sp tn 1 H0 tn1 n2 2 H0 N(0, 1)X̄ Ȳ D0s H0 aprox N(0, 1)s2s2X Yn1n2p̂X p̂Ys„« H0 aprox N(0, 1)p̂0 (1 p̂0 ) 1 1n1 n22sX H0 Fn1 1,n2 1s2YPregunta: ¿Como definirı́as RRα para contrastes unilaterales?

Contrastes para la diferencia entre dos medias: muestras pareadas I Sea X una poblaci on con media X e Y otra poblaci on con media Y. I Disponemos de una muestra aleatoria de n observaciones pareadas de ambas poblaciones, f(X i;Y i)g.Denotaremos como d 1 x 1 y 1;d 2 x 2 y 2;:::;d n x n y n las n diferencias de valores con media d y cuasi desviaci on t pica s