Descriptiva [Modo De Compatibilidad] - UC3M

Transcription

SociologíaEstadística MUY aplicadaTeresa Villagarcía

¿Para qué sirve la estadística?PARA SUFRIR MUCHO

Estudiaremos Formaseficaces de obtener informaciónde los datos: medir. Muchos análisis gráficos Usaremos ordenadores: Statgraphics CASOS REALES QUE habrá queanalizar por equipos Software disponible en el mercado:Statgraphics, S, R,SPSS, SAS.

Índice de la primera parte Tiposde datos Análisis gráficos Medidas resumen numéricas Tablas

Tipos de datos: Datoscualitativos Datos cuantitativos Datos transversalesDatos temporales

Datos Cualitativos:(No son números) Sexode una persona Nacionalidad Estado civil Hoteles: céntrico o extrarradio ¿Datos de todo tipo?.

Datos Cuantitativos Alturade una persona Peso Ingresos Hotel:Número de habitaciones. ¿Datos de todo tipo?.

Datos transversales:Se obtienen de muchos individuos en el mismo instantede tiempo o en tiempos equivalentes.Típico de encuestas Númerode trabajadores en 45 hoteles Altura de 200 personas Ingresos de 3000 familias ¿Datos de todo tipo?.

Datos temporales:Evolución de una variable en el tiempoEvolución de la inflación en España desde1980 Evolución de las ventas de la empresa desdehace 5 años Evolución de la calidad percibida por nuestrosclientes. ¿.?

Vamos a estudiar cómo se representangráficamente Datos Transversales: Histograma, Box plot.Temporales: Gráfico de la serie Datos cuantitativoscualitativosTransversales: Tarta, BarrasAnálisis de ParetoTemporales: Gráfico de la serie

Datos cuantitativos transversales:Alturas de 117 alumnos míos:180 178 192 180 162 183 168 160 182 172 163 175163 182 179 174 182 178 159 157 175 175 178 179189 180 182 165 178 155 178 182 178 180 183 179170 165 185 162 170 174 190 178 163 170 180 189180 175 167 167 173 172 175 175 165 180 173 165163 169 162 169 178 163 184 172 169 176 164 178187 181 199 190 169 179 184 187 175 176 179 161178 178 169 179 175 177 169 175 178 177 184 180175 175 184 156 173 192 186 180 169 171 172 180193 182 185 177 170 173 192 166 173

Hacemos un histograma(Bueeeno lo hace el ordenador que para eso está)Histogram for 00210

¿Cómo ha hecho el ordenador elhistograma?1.2.3.4.5.Calcula el valor mínimo y máximoobservadoDivide ese rango en una serie de clasesCuenta cuantas personas hay en cadauna de esas clasesCalcula la proporción de observacionesen cada claseY.lo dibuja.

Aprender a ver histogramas:Histogram for peso30frequency2520151050375777peso97117

Aprender a ver histogramas:Satisfacción con los profesores (de 1 a 5).Encuesta en Ingeniería técnica mecánicaHistogram for Satis profesor50frequency4030201000123Satis profesor45

Aprender a ver histogramas:Satisfacción con los profesores.Encuesta en Ingeniería técnica mecánicaHistogram for Satis is profesorHistogram for Satis profesor1512frequencyTercerCurso9630123Satis profesor

Aprender a ver histogramas:Distribuciones bimodalesHistogram for RAND1frequency40302010002468Indice de Satisfacción10

Aprender a ver histogramas:Índice de satisfacción de dos empresas¿Qué hacer?frequency4030201000246810Indice de Satisfacción20frequency¿Qué hacer?16128400246Indice de Satisfacción810

Diagrama de tallo y hojas Parahacer a mano en un momento denecesidad

Un gráfico fantástico:El diagrama de caja: BoxBox-plot1. Se construye una caja que contiene el 50% central de los datos2. Se dibuja la mediana3. Se dibujan dos líneas hasta los puntos de corte (que calcula elordenador)4. Se dibujan los puntos que quedan fuera: Puntos atípicos

Interpretar BoxBox-plotsBox-and-Whisker Plot416181peso101121

Interpretar BoxBox-plots por sexoBox-and-Whisker Plotsexo01416181peso101121

Consumo de los automóviles vendidos en Estados Unidosdesde 1978 a 1981 por origenBox-and-Whisker PlotEEUUEuropaJapón15253545Millas recorridas por Galón55

Consumo de los automóviles vendidos en Estados Unidospor origen separando por años.Box-and-Whisker PlotEEUUEuropaJapón162126313641464146Millas recorridas por Galón 1978Box-and-Whisker PlotEEUUEuropaJapón1621263136Millas recorridas por Galón 1979

Box-and-Whisker PlotEEUUEuropaJapón1621263136414641464146Millas recorridas por Galón 1980Box-and-Whisker PlotEEUUEuropaJapón1621263136Millas recorridas por Galón 1981Box-and-Whisker PlotEEUUEuropaJapón1621263136Millas recorridas por Galón 1982

Interpretar BoxBox-plots:Satisfacción prácticas: Ing. Técnica mecánicaBox-and-Whisker Plot012345Sati claspracticaHay que identificar esas asignaturas complicadas.

Interpretar BoxBox-plots:Satisfacción prácticas: Ing. IndustrialBox-and-Whisker Plot012345Satis Prof PRacHay que identificar esas asignaturas complicadas.

Interpretar BoxBox-plots:Aumenta el interés: Ing. IndustrialBox-and-Whisker Plot1994anio1995199619981999012345InteresAumHay que identificar esas asignaturas complicadas

Interpretar BoxBox-plots:Aumenta el interés:Admón empresasBox-and-Whisker PlotCurso1234012345InteresAumentoHay que identificar esas asignaturas complicadas

Vamos a estudiar cómo se representangráficamente Datos Transversales: Histograma, Box plot.Temporales: Gráfico de la serie Datos cuantitativoscualitativosTransversales: Tarta, BarrasAnálisis de ParetoTemporales: Gráfico de la serie

Vamos a estudiar cómo se representangráficamente Datos Transversales: Histograma, Box plot.Temporales: Gráfico de la serie Datos cuantitativoscualitativosTransversales: Tarta, BarrasAnálisis de ParetoTemporales: Gráfico de la serie

Datos cualitativos: Bar chartEncuesta de satisfacción de clientes: Muy satisfechos Bastante satisfechos Medianamente satisfechos Descontentos0,5frequency0,40,30,20,10Muy satisfechosBastante satisfechosMedianamanete satisfechos DescontentosDiagrama de barras¿Diferencia con el histograma?

Datos cualitativos: Bar chartNivel de estudios de 75 personas:1 Analfabeto2 Sin estudios3 Primarios4 Secundarios5 Medios6 Estudios superiores50403020100112233345367

Datos cualitativos transversales : Pie chart

Datos cualitativos transversales : Pie chartGráfico de proporciones10,00%30,00%10,00%Tipo de clientesGrandes cuentasClientes intermediosConsumidores finalesServicios internos50,00%

Datos cualitativos transversales : Pie chart6,67%1,33%4,00%6,67%17,33%64,00%edc1234576

Datos cualitativos: Análisis de Pareto Muy apropiado para estudiar causas de problemas. Suele haber algunas causas que se repiten mucho. Varias causas son responsables de un importantenúmero de problemasEstamos estudiando las reclamacionesen un servicio de autobuses urbanos

Datos cualitativos: Análisis de ParetoCausa de la QuejaNúmero de quejasRetrasos21Masificación12Parada lejos3Frenazos3Otras4Pareto Chart for 00RetrasosMasificaciónOtrasFrenazosParada lejos

Vamos a estudiar cómo se representangráficamente Datos Transversales: Histograma, Box plot.Temporales: Gráfico de la serie Datos cuantitativoscualitativosTransversales: Tarta, BarrasAnálisis de ParetoTemporales: Gráfico de la serie

Series temporales:Datos de evolución de variablesen el tiempo: 1.2.3.4.Periodicidad: Frecuencia de recogida de datos. Anual,mensualTendencia: Si aumenta o disminuye con el tiempoVariabilidad-Volatilidad: Su variación (grosor)Ciclo estacional Se observa un ciclo ligado al momentodel año en que se ha recogido el dato

Periodicidad mensual- Ciclo estacionalTemperaturas en La Coruña3228242016128/948/968/988/00Periodicidad mensual- Tendencia- Ciclo estacionalParo registrado en 01/04

Tasa de actividad ene tendencia?Q3/01Q3/06

Mortalidad Española por edadese infantil en la UE desde 1975 Fuentede datos: INE. www.ine.esINEBASE

Mortalidad española. Número de personasPor edades desde Enero de 1980. Datos mensualesJóvenes: de 5 a 9 y de 20 a 24 añosMortalidad personas de 5 a 9 añosSeasonal Index Plot for De 5 a 9150seasonal index128De 5 a ason1/00Seasonal Index Plot for de 20 a 24Mortalidad personas de 20 a 24 años123seasonal index430380de 20 a 000369season1215

Personas mayores: 70 a 75 y 80 a 85Seasonal Index Plot for de 70 a 75Mortalidad personas de 70 a 75 años1264900seasonal indexde 70 a 921/9601/003691215seasonSeasonal Index Plot for de 80 a 85Mortalidad personas de 80 a 85 años132seasonal indexde 80 a 21/961/000369season1215

Mortalidad infantil en la UE Fuente:INE. Muertos por 1000 nacidos Desde 1975

Mortalidad por 1000 nacidos UE40VariablesE EspaniaFR FranciaIT ItaliaPT PortugalUK Reino UnidoCH SuizaD Alemania302010019701980199020002010

Box-and-Whisker Plot197501020304030403040En 1975Box-and-Whisker Plot1990010201990Box-and-Whisker Plot2002010202002¿A qué se debe el descenso?

Vamos a estudiar cómo se representangráficamente Datos Transversales: Histograma, Box plot.Temporales: Gráfico de la serie Datos cuantitativoscualitativosTransversales: Tarta, BarrasAnálisis de ParetoTemporales: Gráfico de la serie

Datos especiales Mortalidad por edades y sexo en España,Namibia, Afganistán y Francia Fuente OMS

Fichero

¿Cómo representamos estos datos?Mediante un diagrama de barras O de puntos Barchart for Muertes Nam. H(X 7570808590Plot of Muertes Nam. H vs EdadMuertes Nam. H(X 1000)1210864200204060Edad80100

Distribución de muertes Mujeres España(X 1000)24201612840020406080100EdadDistribución de muertes Hombres España(X 10000)21,61,20,80,400204060Edad80100

Distribución de muertes Hombres Namibia(X 1000)1614121086420020406080100EdadDistribución de muertes Mujeres Namibia(X 1000)16141210864200204060Edad80100

Muertes España(X 1000)24VariablesMuertes Esp. HomMuertes Esp. Muj.201612840020406080100EdadMuertes Namibia(X 1000)12VariablesMuertes Nam. HMuertes Nam. Muj10864200204060Edad80100

Medidas analíticas (números) para describir losdatos Posición de la variable:Media (No la explico por obvia)Mediana (Observación del medio) Dispersión o amplitud de la variableDesviación típica: Mide la amplitud de losdatos

Medidas analíticas (números) para describir losdatosMediana (Observación del medio de los datos)Representa estupendamente la ubicación de los datos.Es una medida con ventajas respecto a la media

Medidas analíticas (números) para describir losdatosDispersión: mide la amplitud de los datosRango mide la amplitud de los datos

Medidas analíticas (números) para describir losdatosDispersión: mide la amplitud de los datosRango mide la amplitud de los datosDesviación típica mide la amplitud de los datos

¿Por qué la mediana es muy útil?MediaEstá en el medio de los los datosDato maloMuy grande

¿Por qué la mediana es muy útil?MediaCambio en la media grandeEstá en el medio de los los datosMediaDato maloCambio en la mediana pequeñoMuy grande

Medidas analíticas para describir los datos La media no siempre es una medida satisfactoria.EjemploEn un hotel se pregunta a los clientes por suvaloración de: Limpieza de la habitación Rapidez en los trámites de entrada Iluminación del BAR

Las valoraciones para dos hoteles han sido:Variable – Atributode CalidadValor medioobtenido: 6HOTEL 1Valor medioobtenido: 6HOTEL 2Limpieza Habitación 38Rapidez trámitesentrada57Iluminación BAR103

¿Son todos los atributos de calidad igualmenteimportantes?Si pensamos que la importancia es: Limpieza habitación: 50% Recepción: 40% Iluminación del Bar: 10% HOTEL 1: HOTEL 2:4.50.5 x 8 0.4 x 7 0.1 x 3 7.10.5 x 3 0.4 x 5 0.1 x10

Relación entre dos variables Gráficode dispersión Gráfico de dispersión múltiple Correlaciones

Relación entre dos variables: Normalmentehay que analizar más de unaspecto de interés: VARIAS VARIABLES. Gráficode dispersión (Scatterplot) resultamuy útil.

Relación entre dos variables:PESO Y ALTURAGráfico de 0

No hay relación entre dos variables:Gráfico de Dispersión6Var 1543210-6-303Var 26912

¿Hay relación entre estas variables?Gráfico de encia200250300

Para medir el grado de relación entrevariables Utilizamosla correlación. Varía entre -1 y 1Interpretación de la correlación:-1Mucha relaciónDecreciente0No hay relación 1Mucha relaciónCreciente

Interpretación de la correlaciónr 1r -14000300-100200-200100-3000050100-4000r 0.8530010020050100050100r 0.351500501000050100 Relación creciente: Si una variable aumenta, la otra también- Relación decreciente: Si una variable aumenta, la otra disminuye

Interpretación de la correlaciónCorrelación 0,062,51,5Y0,5-0,5-1,5-2,50246810XSi la correlación es muy pequeña indica falta de relación entre lasvariables.

Dispersión múltiple Cuandotenemos muchas vaiables hacerlos gráficos de dos en dos es muy latoso Losgráficos múltiples hacen de golpetodas los graficos:

Dispersión múltiple Sacatodos los gráficos de dispersiónentre un grupo de variables Parapaíses del mundo en 1995

PIB CAPTasaMortTasaNataEsp vida FemEsp vida MascAlfabmascAlfabfem

Statgraphics, S, R,SPSS, SAS. Índice de la primera parte Tipos de datos Análisis gráficos Medidas resumen numéricas Tablas . Tipos de datos: Datos cualitativos . Pareto Chart for Quejas 0 10 20 30 40 50 frequency Retrasos Masificación Otras Frenazos Parada lejos 48,84 76,74 86,05 93,02 100,00. Vamos a estudiar cómo se representan