Tema 5. Muestreo Y Distribuciones Muestrales - UC3M

Transcription

Tema 5. Muestreo y distribuciones muestralesContenidosMuestreo y muestras aleatorias simplesLa distribución de la media en el muestreoLa distribución de la varianza muestralLecturas recomendadas:Capı́tulo 7 del libro de Newbold, Carlson y Thorne (2009).Capı́tulo 7 del libro de Peña (2001).Capı́tulos 19 a 21 del libro de Peña y Romo (1997).1

Tema 5. Muestreo y distribuciones muestralesObjetivos de aprendizajeSaber qué es una muestra aleatoria simpleConocer la distribución de la media muestral Su media y su varianza Su distribución en el caso normal Su distribución aproximada en el caso general (teorema central del lı́mite)Conocer la distribución de la varianza muestral Su media Su distribución en el caso normal2

MuestreoMotivaciónEn muchos casos se desea obtener información estadı́stica sobre poblacionesnumerosas Situación laboral de las personas en edad de trabajar en España Fiabilidad de un modelo de automóvil en un año Precipitación anual en la Comunidad de MadridPuede ser imposible (por falta de recursos) obtener la información relativaa todos los individuosSe estudia una muestra representativa de la población Un subconjunto de la población que permita obtener información fiablesobre el total de dicha población3

Muestras aleatorias simplesCómo seleccionar una muestraTamaño reducidoAusencia de sesgos Conclusiones obtenidas de la muestra son válidas para la poblaciónFacilidad en la definición de la muestraMejor alternativa: Muestras aleatorias simples Cada miembro de la población tiene la misma probabilidad de pertenecera la muestra La selección se realiza de manera independiente La selección de un individuo concreto no afecta a la probabilidad deseleccionar cualquiera de los otros En la práctica, selección basada en números aleatorios4

Procedimiento de inferenciaInferenciaPartiendo de la distribución de la variable aleatoria en la muestraObtener información sobre distribución de la variable en la poblaciónValores de interés: cálculo de estadı́sticos para la media, varianza, proporcionesDATOS POBLACIÓN15,0011,257,50!Muestreo3,750Parámetros población, !DATOS ,50Parámetros muestra, l5

Ejemplo de muestreo e inferenciaEjemplo Consideremos el ejemplo de la figura anterior:Población compuesta por 24 individuosVariable aleatoria de interés: Tiempo para completar una consulta Promedio de la población: 4, 06

Ejemplo de muestreo e inferenciaMuestra 1Muestra seleccionada en la figura, tamaño 7:Muestra3,89,54,81,60,20,81,5Estadı́stico de interés: promedio de la muestra 3, 1Error (sesgo) relativo: (4, 0 3, 1)/4, 0 0, 225Cambios en el muestreoSelecciones alternativas de los elementos de la muestraAumento del tamaño de la muestra7

Ejemplo de muestreoCambios en el tamaño muestralSi a la muestra del ejemplo anterior le añadimos nuevos elementos, elpromedio muestral cambiaSe aproxima al valor de la media poblacionalCAMBIO EN EL PROMEDIO CON EL TAMAÑO 09101314Tamaño muestral8

Ejemplo de muestreoSi seleccionamos las primeras 7 observaciones obtenemos un promedio de lamuestra igual a 5, 8:Muestra5,11,00,93,818,22,19,5Si consideramos todas las selecciones posibles de 7 observaciones (346,104posibilidades):DISTRIBUCION DE MEDIAS MUESTRALES TAMAÑO 725000200001500010000500001 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 89

Distribuciones en el muestreoDistribución de la media muestralPara todas las muestras de tamaño 7 y 17 obtenemos:DISTRIBUCION DE MEDIAS MUESTRALES TAMAÑO 725000DISTRIBUCION DE MEDIAS MUESTRALES TAMAÑO 1760000200004500015000300001000015000500001 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 801 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 810

Distribuciones en el muestreoSe obtienen resultados similares para otros estadı́sticosPara la desviación tı́pica de muestras de tamaño 7 obtenemos:DESVIACIONES TIPICAS MUESTRAS TAMAÑO 7300002250015000750000,5 0,7 0,9 1,1 1,2 1,4 1,6 1,8 1,9 2,1 2,3 2,5 2,6 2,8 3,0 3,2 3,3 3,5 3,7 3,9 4,0 4,2 4,4 4,6 4,711

Distribuciones en el muestreo - ConclusionesEl valor del promedio muestral es una variable aleatoria (los estadı́sticos sonvariables aleatorias) Depende de la selección (aleatoria) de los individuos en la muestraDistribución muestral del estadı́stico: distribución de probabilidad del valorde interés para todas las muestras del mismo tamañoLa distribución muestral cambia con el tamaño de la muestra Variabilidad de estadı́sticos muestrales disminuye con el tamaño de lamuestra12

La distribución de la media muestralEl problema de interésLa media poblacional es un parámetro de gran interés en muchas situaciones prácticasPor ejemplo, queremos conocer el promedio de: los ingresos familiares en España el año 2007 la proporción de préstamos morosos el último mes el precio de compra de viviendas en la Comunidad de Madrid el pasadomesA partir de una muestra (reducida) de valores queremos calcular Una buena aproximación al valor correcto (inevitablemente con error) Y una estimación del error en la aproximación13

La distribución de la media muestral - EjemploInformación sobre el gasto familiar en EspañaDisponemos de los datos siguientes (gasto anual por hogar, 242,344740,00721,1610830,00GASTO ANUAL40000300002000010000014

La distribución de la media muestralValor de interés: estimación de la media nacional (media de la variablealeatoria) A partir de los datos disponibles en la muestra¿Qué estadı́stico de la muestra se parece al promedio nacional (media de lapoblación)?El valor esperado de la media de la muestra es la media de lapoblación" n#X1xi E[X]En i 1Estimamos la media de la población a partir de la media de la muestra En nuestro ejemplo: 10353,01 euros15

La distribución de la media muestralMás datos de la distribuciónMedia de una muestra en general diferente de la media de la población¿Podemos conocer la magnitud del error que estamos cometiendo? Depende de la distribución de la media muestral En particular, de su variabilidad (desviación respecto de la media) ¿En cual de los casos siguientes tenemos menos error?MEDIAS MUESTRA TAMAÑO 7 - MEDIA 4,025000MEDIAS MUESTRA TAMAÑO 17 - MEDIA 4,060000200004500015000300001000015000500001 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 801 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 816

Distribución de la media muestralLa variabilidad de la media muestralLa varianza de la media muestral x̄ (una medida del error) vale"V [x̄] V1nnX#1xi σ 2ni 1En el ejemplo anterior, V [x̄] 76,458,643 y s[x̄] 8,744 eurosEl valor de la varianza decrece si n aumentaPodemos reducir el error aumentando el tamaño de la muestra La reducción en el error es lenta Para reducir el error (medido por la desviación tı́pica) a la mitad debemosaumentar el tamaño de la muestra 4 veces17

Distribución de la media muestralLa distribución de la media muestralEl valor de la varianza de la media muestral solo nos dice si el error puedeser grande o pequeñoPara obtener una respuesta más precisa deberı́amos conocer la distribuciónde la media muestralSi la variable X tiene una distribución normal, entonces1nPni 1 xi E[X]p N (0, 1)2σ /n18

Distribución de la media muestralQueremos obtener una medida del error de estimaciónUtilizando el resultado1nPni 1 xi E[X]p N (0, 1)2σ /nPero habitualmente no conocemos σ 2 Aproximamos este valor con el correspondiente a la muestra (razonablesi n es grande)De las tablas de la normal construimos un intervalo que nos proporcionauna indicación del errorEl intervalo se selecciona de manera que P( β Z β) α para el nivelde error (confianza) α deseado19

Distribución de la media muestral - EjemploSuponemos una distribución normal de la variable gasto anual de hogares Escogemos un nivel de confianza de 0, 95 De las tablas de la normal estándar sabemos que para Z N (0, 1)P( 1, 96 Z 1, 96) 0, 95 De los datos muestrales, la media muestral vale x̄ 10,353 y la desviacióntı́pica muestral vale s 8,744 Por el resultado anterior sobre la distribución de la media muestral,x̄ E[X]10353 E[X]P( β β) P( 1, 96 1, 96) 0, 95s8744[10353 1, 96 8744, 10353 1, 96 8744] [ 6785, 27491]20

Distribución de la media muestralEl teorema central del lı́miteDistribución de la media muestral si X no es normalSi cumple ciertas condiciones: teorema central del lı́miteDada una muestra aleatoria simple {xi} de tamaño n obtenida de unavariable aleatoria X con media E[X] y varianza σ 2 finitas, se cumplequePn1i 1 xi E[X]np N (0, 1)2σ /nconforme n La distribución de la media muestral se parece a una distribución normalpara muestras grandes21

La distribución de la varianza muestralLa varianza muestralEn muchos casos es importante conocer el valor de la varianza de lapoblación Para aplicar el teorema central del lı́mite Para estimar riesgos en inversiones (el riesgo depende de la varianza) Para estimar desigualdades en ingresos, rentas, etc.Repetimos el estudio que hemos realizado para la media muestralPartimos de que la varianza muestral es una variable aleatoriaQueremos relacionar sus momentos con los de la poblaciónY si es posible, identificar su distribución22

La distribución de la varianza muestralEsperanza de la varianza muestralSi x̄ denota la media muestral, se tiene que"E1nnX#(xi x̄)2 i 1n 1 2σnEl valor esperado de la varianza muestral no es la varianza de la poblaciónDefinamos la varianza muestral comonX1s2 (xi x̄)2n 1 i 123

La distribución de la varianza muestralEsperanza de la varianza muestralCon esta definición, tenemos E[s2] σ 2 El valor esperado de s2 coincide con el valor deseado (varianza de lapoblación) s2 es un estimador insesgado de σ 2Distribución de la varianza muestralNos gustarı́a tener información adicional sobre la varianza muestral y sudistribución La distribución de la varianza muestral no es simétrica: tiene asimetrı́apositiva.24

La distribución de la varianza muestralDistribución de la varianza muestralSi la variable X tiene una distribución normal La distribución de (n 1)s2/σ 2 es una χ2 (chi-cuadrado) con n 1grados de libertad (χ2n 1)DENSIDAD CHI CUADRADO2,5%95%!!"#"! 2,5%!!"#%& 25

La distribucion de la media muestral - Ejemplo Informaci on sobre el gasto familiar en Espan a Disponemos de los datos siguientes (gasto anual por hogar, EPF) Gasto 32545,76 3140,24 25205,64 2474,28 10242,34 721,16 4855,80 7449,74 3466,50 4400,80 4740,00 10830,00 16240,88 9840,12 14534,96 14960,00 0 10000 20000