4. Medidas De Dispersión - UOC

Transcription

FUOC XP00/71004/00017274. Medidas de dispersiónLos cuartiles y la desviación estándarEn el capítulo 3 hemos aprendido varias maneras de medir el centro de unadistribución. Pero, para describir una distribución de forma adecuada no es suficiente con conocer el centro. También queremos resumir de una maneraconcisa hasta qué punto las observaciones se extienden alrededor del centro.En este capítulo se nos presentarán diferentes maneras de resumir la dispersión de una distribución. Una manera simple es identificar la menor y la mayor de las observaciones. Después podemos identificar los cuartiles de ladistribución, que son el punto medio de la mitad superior e inferior del conjunto de datos. Finalmente, definimos una medida muy conocida de dispersión de una distribución llamada la desviación estándar.En este capítulo sobre medidas de dispersión aprenderéis: Cómo se resume la dispersión de una distribución mediante cincocantidades: el mínimo, el primer cuartil, la mediana, el tercer cuartily el máximo. Cómo se representa el resumen de estas cinco cantidades en un diagrama de caja. Cómo se calcula la desviación estándar de un conjunto de valores.InstrucciónMirad el vídeo de la unidad 5.Resumen del vídeoEl recuento de calorías de los frankfurts varía con el tipo de bocadillo, así comode una marca a otra. Vemos a un analizador que examina frankfurts y nos damos cuenta de que el centro por sí solo no es una descripción numérica adecuada de una distribución, además necesitamos una medida de dispersión ovariabilidad.En el vídeo se muestra el diagrama de tallos y hojas del contenido en calorías de20 marcas de frankfurts de ternera, y tenemos como resultado que la medianadescribe el centro. Después vemos los cuartiles –de la misma manera que la mediana es el punto medio, los cuartiles son el punto del cuarto y los tres cuartosMedidas de dispersión

28 FUOC XP00/71004/00017Medidas de dispersiónen las observaciones ordenadas–. Los cuartiles son los puntos centrales respectode la primera mitad de los datos, bajo la mediana, y la segunda mitad de los datos, sobre ésta. Los cuartiles ofrecen una idea de hasta qué punto se extiendenlos datos, ya que la mitad de las observaciones caen entre los mismos. Ahora sepueden usar cinco cantidades para describir una distribución: el valor mínimo,el cuartil inferior, la mediana, el cuartil superior y el valor máximo. Estos elementos se denominan los cinco números resumen de los datos.El diagrama de caja es un gráfico de los cinco números resumen. Se dibuja uncuadro entre los cuartiles y dentro del mismo se marca la media. Se dibujanunos brazos que se extienden hasta los valores máximo y mínimo. Los diagramas de caja no muestran una distribución de manera tan detallada como losdiagramas de tallos y hojas, pero, a pesar de todo resultan útiles para compararvarias distribuciones.Medir la extensiónEn el capítulo 2 hemos considerado varias maneras de dibujar la distribuciónde una variable. En el capítulo 3 hemos definido diferentes modos de calcularlos números que miden el centro de una distribución, sabiendo que el centrono es suficiente para describir una distribución adecuadamente. También necesitamos medir hasta qué punto a lado y lado del centro se extienden las observaciones. Existen diferentes maneras de medir la dispersión, las cualestambién dependen de si la distribución es simétrica o no y de si se da la presencia de datos insólitos.Los valores mínimo y máximoLa manera más simple de medir la dispersión es identificar los valores mayory menor de un conjunto de datos. La diferencia entre los valores mínimo ymáximo se denomina el rango (o recorrido) de las observaciones.En términos de la notación definida en el capítulo 4, en que x(1), x(2), ., x(n)son el orden estadístico de una distribución:valor mínimo x(1)valor máximo x(n)rango x(n) – x(1)Los cuartilesMientras que la mediana divide la distribución en mitades, los cuartiles deuna distribución son una variación de la idea de una mediana. Los cuartilesNotaEl primer cuartil divide de manera similar la mitad inferior delos datos en dos partes iguales–es decir, es la mediana de lamitad inferior de éstos, mientras que el tercer cuartil es lamediana de la mitad superior–.Está claro entonces que loscuartiles primero y tercero suman la mitad de los datos.

29 FUOC XP00/71004/00017Medidas de dispersiónson los valores que dividen la distribución en cuartos. El primer cuartil presenta un cuarto de las observaciones por debajo del mismo, y tres cuartos porencima. El segundo cuartil tiene dos cuartos por debajo y dos por encima –portanto, el segundo cuartil es idéntico a la mediana–. Y el tercer cuartil tiene trescuartos de las observaciones por debajo y un cuarto por encima. Otra manerade pensar en esto es que la mediana, o segundo cuartil, divide los datos en dosgrupos del mismo tamaño, que denominaremos la mitad inferior de los datosy la mitad superior. A menudo se denominan el primer y el tercer cuartil cuartil inferior y superior, respectivamente.Calcular los cuartilesCalculamos los cuartiles exactamente de la misma manera que calculamos lamediana, excepto por el hecho de que aplicamos el cálculo a las mitades inferior y superior de los datos de forma separada. El vídeo muestra un ejemploque considera el contenido en calorías de los frankfurts, y nosotros mostramosotro ejemplo aquí. Observad los datos de la figura 3.1: para las 27 observaciones habíamos visto que la mediana era el valor decimocuarto en la lista ordenada, es decir, 7. La mitad inferior de los datos es, por lo tanto, el conjunto deobservaciones desde la primera a la decimotercera, y la mitad superior es elconjunto desde la decimoquinta a la vigesimoséptima. Fijaos en que el valordecimocuarto es el tercer 7 en la lista ordenada, y que hay cuatro 7 en los datos(consultad el diagrama de tallos y hojas en la figura 3.2), de manera que la mitad inferior de los datos incluye dos 7:23344449955667711 1112121317y la mitad superior incluye un 7:78888Para hallar los cuartiles, encontramos las medianas de estas mitades de los datos por separado. Cada mitad consta de 13 valores, por lo tanto, la mediana esel valor con el número de secuencia (13 1)/2 7 en cada lista. El séptimovalor en la mitad inferior es 4, y el séptimo en la mitad superior es 9.El rango intercuartílicoLa diferencia entre los cuartiles primero y tercero se denomina el rango intercuartílico. En nuestro ejemplo anterior, el rango intercuartílico es igual a9 – 4 5 minutos.

30 FUOC XP00/71004/00017Los cinco números resumen de los datosLos cinco números resumen de una distribución forman el siguiente conjunto: el mínimo el primer cuartil la mediana (el segundo cuartil) el tercer cuartil el máximoEn nuestro ejemplo de tiempo de espera, los cinco números resumen son 2, 4, 7,9 y 17. En otras palabras, la mediana del tiempo de espera es 7 minutos, la mitadde las esperas quedan entre 4 y 9 minutos (con un rango intercuartílico de 5 minutos), el tiempo mínimo de espera era 2 minutos y el máximo, 17 minutos (conun rango de 15 minutos). Estos datos conforman un resumen global de la distribución.Diagramas de cajaEl diagrama de caja es un gráfico simple de los cinco números resumen delos datos. Se dibuja una escala vertical u horizontal que se corresponde conla escala de la variable. Después se dibuja un cuadro con los niveles inferiory superior en los cuartiles primero y tercero respectivamente. Se traza unalínea en el cuadro que corresponde a la mediana. Después se dibujan dosbrazos arriba y abajo del cuadro hasta los valores máximo y mínimo respectivamente. Los ejemplos que se muestran en el vídeo ilustran perfectamentecómo se hace.Lo que tenemos ahora es una descripción gráfica compacta de toda la distribución de la variable. Se pueden dibujar los diagramas de caja correspondientes a los diferentes conjuntos de observaciones sobre la misma variable, unoal lado de otro, y después compararlos visualmente.InstrucciónAhora revisad el vídeo y volved a visionar la unidad 5. Centraos en la maneracomo se calculan los cuartiles y cómo se obtienen los cinco números resumen. Tomad nota de la manera como estos cinco números se transfieren auna forma gráfica como un diagrama de caja, y cómo estos diagramas permiten unas comparaciones muy sencillas de los diferentes conjuntos de observaciones de una misma variable.Medidas de dispersión

31 FUOC XP00/71004/00017Medidas de dispersiónActividad4.1. Los índices de desempleo, medidos como un porcentaje de la población activa, para27 países del primer mundo son los 11,112,3 8,28,2 4,614,5 14,34,78,42,214,45,411,82,92,612,7Calculad los cinco números resumen de estos datos.Ahora veremos una definición numérica, alternativa, de dispersión, llamadadesviación estándar. Se trata de un número único que se puede usar paracuantificar la dispersión de un conjunto de datos, más que diferentes números, como en el caso de los cinco números resumen.InstrucciónMirad el vídeo de la unidad 6.Resumen del vídeoObservamos que los investigadores e investigadoras estudian los análisis desangre automatizados y tratan de identificar lecturas anormales en los mismos. Para saber cuándo una observación es anormal, necesitamos saber hastadónde se extienden las lecturas normales. Vemos los resultados de un análisisespecífico realizado a diez personas. Un diagrama de tallos y hojas muestraque la distribución es aproximadamente simétrica, sin datos insólitos. Por tanto, podemos usar la media aritmética para describir el centro. Para medir la dispersión en torno a la media aritmética, primero calculamos las desviacionesentre las observaciones y la media aritmética. Algunas son positivas y otras negativas. Por este motivo, tomamos el cuadrado de estas desviaciones, las sumamos, y las dividimos por n – 1 (una menos que el número de observaciones),en este caso, 9. Esta operación nos da la varianza, indicada por s2. La desviación estándar, indicada por s, es la raíz cuadrada positiva de la varianza. Ladesviación estándar se usa para resumir la desviación de las observaciones respecto de la media aritmética, y se usa como base para decidir si un análisis desangre es anormal o no. Se presentan algunas propiedades básicas de las desviaciones estándar: s siempre es positivo o cero; s 0 sólo cuando no se produce dispersión, es decir, cuando todas las observaciones tienen el mismovalor; a medida que la dispersión aumenta, s se vuelve mayor; al igual que lamedia aritmética, las observaciones extremas influyen en gran medida sobre s.Un aspecto divertido de este vídeo es el uso que los investigadores e investigadoras dan a la música para “volver a oír” los datos en la forma de una melodíamuy conocida, incluyendo una nota estridente cada vez que encontramos unaobservación anormal.Reflexionad¿Qué valor obtenemos si sumamos todas las diferencias delos valores de una distribuciónrespecto de la media?

32 FUOC XP00/71004/00017Calcular las desviaciones de la media aritméticaRecordad que ahora estamos interesados en encontrar un único número que resuma la dispersión de datos, y nos interesa muy particularmente la dispersión entorno a la media aritmética. El primer paso a la hora de llevar a cabo esta operación es calcular todas las diferencias entre cada observación y la media aritméticadel conjunto. Está claro que cuanto mayores sean las diferencias, mayor es la dispersión de los datos, pero necesitamos combinar todas estas desviaciones en unafigura global.Calcular la varianzaCalcular la varianza es el siguiente paso. Realizamos el cuadrado de cada una deMedidas de dispersiónCálculo de la desviaciónestándarx variablex1, x2, x3, ., xn valores de lavariablen número de observacioneso valoresCálculo de la media xCálculo de las desviacionesxi – xCálculo de las desviacionescuadráticas (xi – x )2Cálculo de la varianza(xi – x)22------------------------s n–1Cálculo de la desviación estándars raíz cuadrada positiva de lavarianzalas desviaciones, los sumamos y después dividimos la suma resultante entre n – 1(el número de las observaciones menos 1). Más adelante explicaremos en otrocapítulo por qué dividimos por n – 1 y no por n, a pesar de que pueda parecermás intuitivo dividir por n para obtener la media del cuadrado de las desviaciones. El resultado de estos cálculos es la varianza. Ahora proporcionamos la fórmula para el cálculo de la varianza de n valores de los datos x1, x2, ., xn :221varianza s ------------ ( x i – x 2 )n–1Aquí tenemos otro ejemplo sencillo. Imaginad que tenemos los precios deun cierto producto comprado en seis comercios diferentes: 260, 240, 250,210, 230 y 250 u.m. La suma de estos valores es 1.440, de manera que elvalor medio es 1.440/6 240. Las desviacions del valor 240 son 20, 0, 10,–30, –10 y 10 (fijaos en que las desviaciones respecto de la media aritméticasiempre suman 0). Los cuadrados de estas desviaciones son: 400, 0, 100,900, 100 y 100, y suman 1600. Finalmente, dividimos por n – 1 5 paraobtener la varianza 1.600/5 320.Calcular la desviación estándarLa desviación estándar es simplemente la raíz cuadrada positiva de la varianza. Observad que la varianza se calcula en unidades que son los cuadrados delas unidades de los datos originales. Por tanto, tomando la raíz cuadrada de lavarianza para obtener la desviación estándar, la medida de extensión vuelve alas unidades originales. En nuestro sencillo ejemplo, la desviación estándar delos precios es la raíz cuadrada de 320, 17,9; es decir, unas 18 u.m .La interpretación de la desviación estándarDaremos una interpretación más exacta de la desviación estándar en el capítulosiguiente. De momento, simplemente fijaos en el hecho de que muchas de lasSignificado de ladesviación estándarUna vez calculada la desviaciónestándar de una distribución,hay que observar el porcentajede las observaciones o datosque quedan en los intervalos:( x – s, x s)( x – 2s, x 2s).

33 FUOC XP00/71004/00017Medidas de dispersióndesviaciones respecto de la media aritmética caen en una desviación estándar. Porejemplo, de las seis desviaciones 20, 0, 10, –30, –10 y 10 calculadas anteriormente,cuatro presentan valores absolutos menores de 18. El vídeo nos muestra cómo secompara la extensión de diferentes distribuciones simplemente comparando susrespectivas desviaciones estándar.Cuándo debemos usar desviaciones estándar y los cinco númerosresumenTanto los cinco números resumen (y su versión gráfica, el diagrama de caja),como la desviación estándar tratan de medir la dispersión, pero de maneras diferentes. La desviación estándar presenta la ventaja de ser un número único, perorealmente sólo se tendría que usar cuando las distribuciones son más o menos simétricas. Cuando las distribuciones son asimétricas, la dispersión bajo el centro yla dispersión sobre éste no son las mismas, y las indicarán los cinco números resumen, no la media aritmética. También, al igual que la media aritmética, la desviación estándar es altamente sensible a las observaciones alejadas. No obstante,la desviación estándar es, de lejos, el dato estadístico de uso más común para medir la dispersión, y nosotros la usaremos a menudo a lo largo de este curso. Confrecuencia, cuando los datos son asimétricos, se realiza un esfuerzo para transformarlos, de manera que estos valores transformados sean más simétricos. En estecaso, también resulta posible utilizar la desviación estándar para resumir la dispersión de las observaciones transformadas. Hablaremos de estas transformacionesen un capítulo posterior.InstrucciónAhora revisad el vídeo y ved de nuevo la unidad 6. Centrad vuestra atenciónen la manera como se calculan la varianza y la desviación estándar.Actividad4.2. Un grupo de consumidores comprueba la aseveración de los fabricantes de unas nuevas pilas de larga duración. Someten 20 pilas a una carga estándar hasta que están completamente vacías. La duración de las pilas son las siguientes (en 5,159,476,765,464,274,774,976,677,681,3Calculad la media aritmética y la desviación estándar de estos datos.Un comentario sobre los cálculosNo siempre se esperará de vosotros que efectuéis todos los cálculos para determinar la media aritmética y las desviaciones estándar. Más tarde os iniciaremos enlos programas informáticos que os facilitarán los cálculos. A pesar de que normalmente usaréis un ordenador como ayuda, deberíais estar familiarizados con la manera de realizarlos.

FUOC XP00/71004/0001734Glosariodesviación estándarRaíz cuadrada positiva de la varianza, una medida de extensión útil para distribucionesaproximadamente simétricas.diagrama de cajaVersión gráfica de los cinco números resumen, que muestra los cuartiles en un cuadro, y dosbrazos que se extienden hacia arriba y hacia abajo de los valores mínimo y máximo.los cinco números resumen de una distribuciónMínimo, cuartil inferior, mediana, cuartil superior y máximo de un conjunto de datos.primer cuartilValor del dato que tiene un cuarto de las observaciones por debajo y tres cuartos por encima.Sin.: Cuartil inferiorrango intercuartílicoDiferencia entre los cuartiles inferior y superior.tercer cuartil (o cuartil superior)Valor del dato que tiene tres cuartos de las observaciones por debajo y un cuarto por encima.varianzaTipo de valor medio de las desviaciones al cuadrado de las observaciones respecto de su media aritmética.Medidas de dispersión

27FUOC XP00/71004/00017 Medidas de dispersión 4. Medidas de dispersión Los cuartiles y la desviación estándar En el capítulo 3 hemos aprendido varias maneras de medir el centro de una distribución. Pero, para describir una distribución de forma adecuada no es su-ficiente con conocer el centro. También queremos resumir de una manera