Statistica Descriptiva 1. Tendinta Centrala - Babeș-Bolyai University

Transcription

Statistica descriptiva1. Tendinta centrala- Media aritmetica- Median- Mod2. Variabilitatea- Deviatia standard- Deviatia cvartila- Domeniul de dispersie

1. Tendinta centralaMajoritatea seriilor de date au o distributie de frecventa sub forma unui clopot(se concentreaza in jurul valorii centrale)Tendinta centrala a unui set de date poate fi exprimat prin:Distributia de frecventa se obtineprin determinarea frecventei deaparitie a unor valori.FrequencyMedia aritmetica a valorilor din setul de dateMedianul setului de dateModul (clasa Variable X6570758085

Media aritmetica - masura valorii centrale a setului de date in jurul caruiafluctueaza datele setuluix xProprietati:in- media aritmetica este influentata de valorile extreme- suma diferentelor dintre valorile individuale ale seriei si medie estetotdeauna zero! Xni 1i X 0"Media aritmetica modificata" - media aritmetica obtinuta dupa ce s-au exclusvalorile extreme (5%) ce pot denatura valoarea medieiEx.: xi 20; 21; 22; 23; 24; 25x 20 21 22 23 24 25 22,55

Media aritmeticamedia suma valorilornumarul lorsuma valorilor: B3 B4 B5 B6 B7 B8sau SUM (B3:B8)functia SUMIF: aduna doar numerele din celulele care indeplinesc un criteriu dat!

numarul valorilor: COUNT (B3:B8)COUNT: numara numai celulelecare contin numere(numai numere!)COUNTA: numara celulelecare nu sunt goale(in celule pot fi si litere!)COUNTBLANK: numara celulele goale

COUNTIF: numara celulelecare indeplinesc o anumitaconditie.

media aritmetica: AVERAGE (B3:B8)

media aritmetica: (suma valorilor)/(numarul lor)Activand bara de functie (dupa selectarea unei celule care contine o formula),fiecare celula implicata in formula poate fi identificata, datorita codului de culoare!

Medianul- reprezinta valoarea centrala din setul de date ordonat- se ordoneaza datele si se determina valoarea din mijlocDaca datele sunt grupate in clase de frecventa, clasa mediana estecea care contine medianul.Proprietati:- medianul nu este afectat de valorile extreme- medianul poate fi nereprezentativ pentru distributie daca valorileindividuale nu se grupeaza in jurul valorii centrale!

Medianul este: - termenul al (n 1)/2-lea daca n este impar- media dintre termenii n/2 si n/2 1 daca n este parnimpar : M e X n 1n par : M e 2număr impar de date1(X n X n ) 12 22număr par de 22225454151576771071010610 Medianul5 Medianul(4 5) / 2 4.5

EXCEL:- functia MEDIAN calculeaza medianul unui set de date indiferent de numarul lor

Medianul este data care are ordinul egal cu (numarul valorilor)/2Functia RANK indica ordinul unei anumite valori dintr-un set de date!Daca vrem sa copiem formula incelelalte celule, domeniul dereferinta trebuie fixat!n impar: medianul estevaloarea ce are ordinul: (N 1)/2n par: medianul este mediavalorilor ce au ordinul: N/2 si(N/2 1)

Modul - valoarea ce are cea mai mare frecventa in seria de date.Daca datele sunt grupate in clase de frecventa, modul corespundeclasei de frecventa maxima.- în cazul datelor nominalevorbim de clasă modalăFrequencyDistributie - unimodala (un singur maxim)- multimodala (mai multe maxime)Clasă Variable X6570758085

EXCEL: functia MODEManual: se ordoneazasetul de date si sedetermina care estevaloarea cea maifrecventa.

Distributia in frecventa a datelor poate fi analizata folosind Histogramaa) trebuie definit setul de categorii ("bins") in care sa fie grupate valorileb) se activeaza "unealta" Histogram: "Tools" apoi "Data Analysisc) se selecteaza setulde date, setul decategorii si optiunea"Chart Output"Optiunea "Data Analysis" seinstaleaza din meniul "Tools"selectand "Add Ins."

2. VariabilitateaVariabilitatea unui set de date ne spune pe ce domeniu se intinde acel setde date (cat este de dispersat).Masura imprastierii (dispersiei) setului de date- ofera informatii privind extinderea datelor- este utila in stabilirea reprezentativitatii masurilor de centralitate- are rol in estimarea parametrilor statistici si in predictia (inferenta) statisticaVariabilitatea unui set de date poate fi exprimata prin:- Deviatia standard- Deviatia cvartila- Domeniul de dispersie

abatere standard X2nDeviatia standard (s):s i 1i X n- reprezinta "distanta euclidiana" a valorilor fata de media aritmeticaDeviatia standard are aceeasi unitate de masura cu media aritmetica si cuvalorile setului de date.Varianta (s2): raportul dintre suma patratelor abaterilor (erorilor) de la mediaaritmetica a seriei si gradul de libertate (df n-1). X2ns2 i 1i X n -1Unitatea de masura este egala cu patratul unitatii demasura a valorilor setului de date. X2nDaca volumul esantionului "n"este mare (n-1 n):s2 i 1i X nPentru un set ce contine un numar mare de date, varianta este patratul deviatieistandard.

Deviatia standard: X2ns i 1i X se poate calcula prin scrierea formulei sau folosindfunctia dedicata!functia radical: SQRT()ridicarea la patrat: 2functia suma: SUM()npentru rotunjire:ROUND()ROUNDUP()ROUNDDOWN()Varianta: X2ns2 i 1i X n -1calcul manual X2ns2 i 1in X

Deviatia standardEXCEL: functia STDEVP

VariantaEXCEL: functia VARP

Deviatia cvartila (DQ): măsoară dispersia datelor aflate in zona de mijloc adistribuţieiDQ (Q3-Q1)/2Mod de calcul:- se ordonează datele- se calculează - valoarea mediana a jumătăţii superioare (Q3 UQ: upper quartile)- valoarea mediana a jumătăţii inferioare (Q1 LQ: lower quartile)EXCEL: functia QUARTILEIndicatori de localizare:Primul cvartil (Q1) - valoare mai mare (sau egala) decat 25% din datele seriei.Al doilea cvartil (Q2) - este reprezentat de mediana (50% din datele seriei).Al treilea cvartil (Q3) - valoare mai mare (sau egala) decat 75% din datele seriei.

nr. crt.123456789101112131415161718192021Valori 4Valori LL sau Q0 (min)LQ sau Q1Md sau Q2UQ sau Q3UL sau Q4 (max)UL – Upper limitLL – Lower limit

Deviatia cvartilaEXCEL: functia QUARTILE

Domeniul de dispersie (DD):DD Xmax-XminXmax valoarea maxima din setul de date (UL - upper limit)(EXCEL: functia MAX)Xmin valoarea minima din setul de date (LL - lower limit)(EXCEL: functia MIN)Dezavantaj: se bazeaza doar pe valorile extreme.

Domeniul de dispersie:DD Xmax-Xminminimul unui set de date:functia MINmaximul unui set de date:functia MAX

Coeficientul de variatie (CV) – este o masura relativa a dispersiei datelor.CV reprezinta evaluarea deviatiei standard in raport cu media aritmetica.sCV xProprietati:- CV este independent de unitatile de masura- CV se foloseste pentru compararea variabilitatii relative a doua seturi de date- CV intervine in studiul omogenitatii unor populatii:CV 10% populatie omogena10% CV 20% populatie relativ omogena20% CV 30% populatie relativ eterogena30% CVpopulatie eterogena

Eroarea standard (ES):se foloseste in inferenta statistica in determinarea intervalelor deincredere pentru medie.ES snEXCEL: functia SQRT (radacina patrata), 2 (patrat)

Asimetria (Skewness):reprezinta abaterea de la aspectul simetric al distributiei de frecventa. xi x s 3 i 1 nn3 3 0 distributie simetrica 3 0 distributie cu coada spre dreapta 3 0 distributie cu coada spre stangaEXCEL: functia SKEW

Boltirea (Kurtosis): reprezinta aplatizarea/inaltimea unei distributii in raport cu odistributie normala.4n xi x s i 1 4 3 4 0 distributie normalan 4 0 distributie mai inalta decat cea normala 4 0 distributie mai joasaEXCEL: functia KURT

Importanta statistica a deviatiei standardPentru a prezice numarul (procentul) datelor cuprinse intre 2 valori simetricein jurul mediei, se foloseste teorema lui Cebasev:Fractiunea de date cuprinse intre limitele ( x k s,cel putin egala cu (1 - 1/k2)(s - deviatia standard,xx k s ) cu k 1 va fi- media aritmetica)Ex: proportia datelor situate de o parte si de alta a mediei la 3 deviatiistandard (k 3) este egala sau mai mare decat (1-1/9) 8/9 0,89. Deci cel putin89% dintre date vor fi situate de o parte si de alta a mediei la 3 deviatii standardDaca distributia este reprezentata prin curba lui Gauss (distributienormala), media aritmetica, mediana si modul au aceleasi valori.In acest caz sunt adevarate urmatoarele afirmatii:- in intervalulx 1 sx 2 s- in intervalulx 3 s- in intervalulse gasesc 68,3 % din valorile serieise gasesc 95,5 % din valorile serieise gasesc 99,7 % din valorile seriei

TemaP1. Pentru evaluarea eficacitatii unui regimdietetic vegetarian asupra nivelului seric alcolesterolului, s-a realizat un studiu pe un esantion de20 persoane, care a furnizat urmatoarele date:a) Calculati media diferentei nivelului colesterolului inurma curei vegetarieneb) Calculati varianta si deviatia standard a niveluluicolesterolului in urma curei vegetarienec) Calculati mediana diferentei nivelului colesteroluluiin urma curei vegetariened) Stabiliti gradul de omogenitate al esantionului dinpunctul de vedere al nivelului colesterolului inainte deregimul 47202215184208206169182127149178161187176145

TemaP2. Urmatoarele date reprezinta varsta inbolnavirii (in ani) de o boala "A"in 30 cazuri de aparitie a acestei boli (selectate aleator):26, 45, 71, 51, 40, 51, 62, 63, 36, 54, 43, 67, 45, 34, 44, 52, 48, 55, 57, 43, 54, 47,39, 50, 33, 40, 55, 29, 45, 42.a) Calculati cu o zecimala urmatoarele statistici: mediana, modul, media aritmetica,domeniul de dispersie, deviatia cvartala, varianta, deviatia standard, coeficientulde variatieb) Cate din observatii cad in afara urmatoarelor intervale:x 1 sx 2 sc) Determinati nivelul de omogenitate al esantionului din punctul de vedere alvarsei de imbolnavire.

Deviatia cvartila (DQ): măsoară dispersia datelor aflate in zona de mijloc a distribuţiei DQ (Q3-Q1)/2 Mod de calcul: - se ordonează datele - se calculează - valoarea mediana a jumătăţii superioare (Q3 UQ: upper quartile) - valoarea mediana a jumătăţii inferioare (Q1 LQ: lower quartile) Indicatori de localizare: