Obsah Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi;-) roman.biskup(at)email.cz 20. února 2012 Úvod do problému Míry polohy(úrovně) Míry centrální tendence Ostatní míry polohy Míry variability Rozptyl Směrodatná odchylka a variační koeficient Rozptyl pro ordinální data Rozpětí Míry šikmosti a špičatosti Míry šikmosti Míry špičatosti Grafická vizualizace Krabicový graf Statistika bybirom Statistika Deskriptivnícharakteristiky 1/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 2/28 Úvod do problému Popisné(deskriptivní) charakteristiky/statistiky jsoučíselnécharakteristiky,které koncentrovanou formou(jedinýmčíslem) vyjadřují určitou vlastnost statistického znaku, obvykle slouží pro popis kvantitativního(kardinálního) statistického znaku, ale některéjemožnopoužítipro jednodušší statistickéznaky(např.:modus) někdy je problém s jejich interpretací i u diskrétního kardinálního znaku( x je 1,87 dítěte,) v některých případech mají jiný tvar(předpis) pro populaci a výběr(viz rozptyl) odlehlé hodnoty(pozorování) pozorováníjehožhodnotaznakuvybočuje(reálná/nereálná) bývajívlivnýmihodnotami vlivné hodnoty(pozorování) ovlivňujívýsledekstatistickéanalýzy(výpočetcharakteristik,odhadů parametrů,...) Značení Úvod do problému n, rozsah souboru počet pozorování, x (i) pořadovéstatistiky, seřazeníhodnotpodlevelikosti, x(1) x (2) x (3)... x (n 1) x (n), n i absolutníčetnost, proi =1,...,k; k n i =, odděluje pojmenování respektive vzorce pro netříděná a tříděná data; navíc vše pro tříděná data je barevně odlišeno, w i pokudsevetříděnýchdatechformálněnahradín i symbolemw i ak symbolemn,pakseobvyklemluvíovaháchw i jednotlivýchhodnotx i pro i =1,...,naplatíčímvyššíhodnotaw i,tímvětšívlivhodnotyx i pro výslednývýsledek,pochopitelně= n w i protováženécharakteristiky, x i hodnotastatistickéhoznaku(i =1,...,n) hodnotastatistickéhoznaku při prostém třídění respektive středu intervalu pro třídění intervalové (i =1,...,k), Statistika bybirom Statistika Deskriptivnícharakteristiky 3/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 4/28
Míry polohy Míry polohy(úrovně) Mají být typickou hodnotou statistického znaku z daného statistického souboru, jsou jednoznačně definované a relativně jednoduše zjistitelné, slouží k porovnání úrovně různých statistických souborů, nebo vývoje statistického souboru v čase, mají co nejméně podléhat nahodilostem výběru respektive odlehlým hodnotám(pozorováním) požadavek robustnosti. Průměry I x aritmetický průměr vážený aritmetický průměr x = 1 n x i x = 1 1 x i n i ( x = n w i ) x i w i nerobustnímíraovlivněnáodlehlýmihodnotami, průměrmůžepředstavovatrovnoměrnostnebonormu,kterávůbecneexistuje a nemá odraz ve skutečnosti, jistěplatí: n x = n x i, (x i x) =0, (x i x) 2 n (x i a) 2,prolibovolnéa. α-useknutýprůměr průměr vypočtený klasickým způsobem bez α/2% největších a nejmenších hodnot(robustnějšínež obyčejný průměr) méněnerobustní Statistika bybirom Statistika Deskriptivnícharakteristiky 5/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 6/28 Průměry II x G geometrickýprůměr váženýgeometrickýprůměr kdex i 0, x G = n x 1 x 2...x n x G = x n1 1 xn2 2...xn k k, i =1,...,n i =1,...,k nerobustnímíraovlivněnáodlehlýmihodnotami, vevýpočtechčasovýchřadaněkterýchindexů(inflace,apod.). x H harmonickýprůměr váženýharmonickýprůměr kdex i 0, x H = n x H = 1 x i i =1,...,n i =1,...,k nerobustnímíraovlivněnáodlehlýmihodnotami, včasovýchvýpočtech(frekvence,...), n i x i ModusamediánI ˆx modus nejčetnějšíhodnotaznaku(unimodální,bimodální,vícenásobnýmodus) modálníinterval intervalsnejvětšíčetností(relativníčiabsolutní) odhadmódunazákladěintervalovéhotřídění ˆx x 0 + h n 1 n 1, 22n 0 n 1 n 1 kdex 0 jestředmodálníhointervalu,n 0 ječetnostmodálníhointervalu, n 1 ječetnostintervalu,kterýpředcházímodálnímuintervalu,n 1 ječetnost intervalu, který následuje za modálním intervalem a h je délka modálního intervalu x 0,5 medián ( x) hodnotaznaku,ježdělísoubornadvěpoloviny,natypozorovánísnižšími hodnotami znaku a ty yššími hodnotami znaku x 0,5 = x (n/2) +x (n/2+1) pronsudé 2 = x ((n+1)/2) pronliché mediánovýinterval intervalobsahujícímedián,tj.prvníinterval,prokterý platí:k pi 0,5 odhadmediánunazákladěintervalovéhotřídění Statistika bybirom Statistika Deskriptivnícharakteristiky 7/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 8/28
ModusamediánII j 1 n+1 ni 2 x x 0 + h, nj kdex 0 jestředmediánovéhointervalu, j 1 ni jekumulativníčetnost intervalu,kterýpředcházímediánovémuintervalu,n j ječetnostintervalu mediánového intervalu a h je délka mediánového intervalu Ostatní míry polohy I x min minimum x max maximum xmin =minx =x (1) = x 0 xmax =maxx =x (n) = x 1 x 0,25 dolníkvartil Míry polohy(úrovně) Ostatní míry polohy hodnotaznaku,ježdělísoubor(pozorování)nadvěčástí čtvrtinuatři čtvrtiny; na čtvrtinu pozorování s nižšími hodnotami znaku a tři čtvrtiny pozorování yššími hodnotami znaku x 0,75 horníkvartil hodnotaznaku,ježdělísoubornadvěčástí třičtvrtinyačtvrtinu;na čtvrtinu pozorování s nižšími hodnotami znaku a čtvrtinu pozorování yššími hodnotami znaku x p p 100%(výběrový)kvantil p 0;1 hodnotaznaku,ježdělísoubornadvěčástí p-tinua(1 p)-tinu;p-tinu pozorování s nižšími hodnotami znaku a (1 p)-tinu yššími hodnotami znaku xp = (1 P) x (S) +P x (H), Statistika bybirom Statistika Deskriptivnícharakteristiky 9/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 10/28 Ostatní míry polohy II Míry polohy(úrovně) Ostatní míry polohy kdes= p(n 1)+1,H= p(n 1)+1 ap=p(n 1) S +1 decil p =0;0,1;0,2;...;0,9;1 percentil p =0;0,01;0,02;...;0,99;1 Míry variability Míry variability Vypovídají o variabilitě/proměnlivosti hodnot statistického znaku z daného statistického souboru, jsou jednoznačně definované a relativně jednoduše zjistitelné, slouží k porovnání variability různých statistických souborů, nebo vývoje statistického souboru v čase, mají co nejméně podléhat nahodilostem výběru respektive odlehlým hodnotám požadavek robustnosti některé vycházejí v odlišných jednotkách než posuzovaný statistický znak (rozptyly), nebo jsou relativní mírou variability(variační koeficient). Statistika bybirom Statistika Deskriptivnícharakteristiky 11/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 12/28
Rozptyl I Míry variability Rozptyl s 2 p (populační)rozptyl vážený(populační)rozptyl s 2 p = 1 n (x i x) 2 sp 2 = 1 s 2 v výběrovýrozptyl váženývýběrovýrozptyl s 2 v = 1 n 1 (x i x) 2 (x i x) 2 s 2 v = 1 1 (x i x) 2 Rozptyl II Míry variability Rozptyl transformace(besselovaoprava) s 2 p = n 1 n s2 v s 2 p = 1 s2 v obecnámíravariabilitymezivšemihodnotami(nejenvůčiprůměru) s 2 p = 1 2n 2 (x i x j) 2 j=1 nerobustnímíryovlivněnéodlehlýmihodnotami, rozptylvycházívjednotkáchnadruhou!, s 2 p =x 2 x 2 výpočetnívzorecpopulačníhorozptylu s 2 p <s 2 v daň zavýběrovéšetření+požadaveknestrannostiodhadu, provelkánrespektiveneníznatelnýnumerickýrozdílmezipopulačníma výběrovým rozptylem, Statistika bybirom Statistika Deskriptivnícharakteristiky 13/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 14/28 Směrodatná odchylka (populační)směrodatnáodchylka výběrovásměrodatnáodchylka Míry variability Směrodatná odchylka a variační koeficient = s 2 p = s 2 v nerobustnímíryovlivněnéodlehlýmihodnotami, směrodatnéodchylkyvycházívjednotkáchanalyzovanéhostatistickéhoznaku, sp < daň zavýběrovéšetření+požadaveknestrannostiodhadu, provelkánrespektiveneníznatelnýnumerickýrozdílmezipopulačnía výběrovou směrodatnou odchylkou, Variační koeficient V X variačníkoeficient(populačníavýběrový) V X = x Míry variability Směrodatná odchylka a variační koeficient (V X 100%), V X = x (V X 100%) nerobustnímíryovlivněnéodlehlýmihodnotami, Vxjebezrozměrnácharakteristikarespektiveprocentuálněvyjádřená; Interpretaceprocentuálníhovyjádření: Vxudávázkolikaprocentsepodílí směrodatnáodchylkanaaritmetickémprůměru, Variačníkoeficientyjsourelativnímíryvariability( indexy ),cožumožňuje porovnávat variabilitu statistických znaků: s odlišnými jednotkami, mající sice stejné jednotky, ale odlišnou míru polohy. transformace n 1 sp = sv sp = n 1 sv Statistika bybirom Statistika Deskriptivnícharakteristiky 15/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 16/28
Rozptyl pro ordinální data dorvar Rozptyl pro ordinální data Míry variability Rozptyl pro ordinální data dorvar = 4 k 1 k pi (1 k pi ), kdekjepočetuspořádatelnýchkategoriíak pi,proi =1,...,kjsou kumulativní relativní četnosti. Dorvar je variantou rozptylu(míry variability) pro ordinální data. i 1 Rozpětí R variační rozpětí IQR (inter)kvartilové rozpětí Míry variability Rozpětí R =x max x min IQR = x 0,75 x 0,25 Statistika bybirom Statistika Deskriptivnícharakteristiky 17/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 18/28 Koeficient šikmosti I Míry šikmosti a špičatosti Míry šikmosti m t,3 koeficient(populační)šikmosti váženýkoeficient(populační)šikmosti m t,3 = 1 n ( xi x třetícentrálnímoment ) 3 m t,3 = 1 ( ) 3 xi x m t,3 koeficientvýběrovéšikmosti váženýkoeficientvýběrovéšikmosti (dle MS Excel 2000) Koeficient šikmosti II Míry šikmosti a špičatosti Míry šikmosti m t,3 >0,pakmluvímeokladnémzešikmení vyššíkoncentracipodprůměrných hodnot v porovnání s koncentrací hodnot nadprůměrných, m t,3 =0,pakmluvímesymetrickémzešikmení stejnékoncentracipodprůměrnýcha nadprůměrných hodnot, m t,3 <0,pakmluvímeozápornémzešikmení vyššíkoncentracinadprůměrných hodnot v porovnání s koncentrací hodnot podprůměrných. m t,3 = m t,3 = n (n 1)(n 2) ( 1)( 2) ( ) 3 xi x ( ) 3 xi x Je-li Statistika bybirom Statistika Deskriptivnícharakteristiky 19/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 20/28
Pearsonova míra šikmosti τ Pearsonova míra šikmosti Míry šikmosti a špičatosti Míry šikmosti τ = x ˆx s x mírašikmostizaloženána xa ˆx(přibližnámíra) Je-li τ > 0, pak mluvíme o kladném zešikmení koncentrace některých podprůměrných hodnot je vyšší v porovnání s koncentrací hodnot nadprůměrných, τ =0,pakmluvímesymetrickémzešikmení průměrné hodnotyjsounejčastější, τ < 0, pak mluvíme o záporném zešikmení koncentrace některých nadprůměrných hodnot je vyšší v porovnání s koncentrací hodnot podprůměrných. Míra špičatosti I Míry šikmosti a špičatosti Míry špičatosti m t,4 koeficient(populační)špičatosti váženýkoeficient(populační)špičatosti m t,4 = 1 n ( xi x čtvrtýcentrálnímoment ) 4 m t,4 = 1 kurt modifikovaný koeficient(populační) špičatosti kurt =m t,4 3 ( ) 4 xi x prolepšísrovnáváníseodčtvrtéhocentrálníhomomentuodečítá3,cožje hodnotakoeficientušpičatostinormálníhorozdělení; větší respektive menší špičatostpakurčujemevesrovnánísešpičatostínormálníhorozdělení Statistika bybirom Statistika Deskriptivnícharakteristiky 21/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 22/28 Míra špičatosti II Míry šikmosti a špičatosti Míry špičatosti m t,4 koeficientvýběrovéšpičatosti váženýkoeficientvýběrovéšpičatosti (dle MS Excel 2000) (n+1)n ( ) 4 xi x m t,4 = (n 1)(n 2)(n 3) m t,4 = ( +1) ( 1)( 2)( 3) ( ) 4 xi x kurt modifikovaný koeficient výběrové špičatosti vážený modifikovaný koeficient výběrové špičatosti(dle MS Excel 2000) Krabicový graf Box-plot vizualizace popisných statistik vybrané míry polohy a vybraných variabilit plným názvem Box-and-whisker(s) plot krabicový graf ousy celýgrafjesloženzboxu(krabice), vousů,příčnéčárkyrespektivečtverečku jakéhodnotyvolitpronastaveníkrabicovéhografuzáležípovazedatazáměru analýzy principiálnělzepronastavenívolitparametry xas,topro ilustraci statistickéindukce,nebo x 0,50aIQR,toproanalýzuodlehlýchpozorování kurt =m t,4 3(n 1)2 (n 2)(n 3) kurt =m t,4 3( 1)2 ( 2)( 3) stejnéjakprokoeficient(populační)špičatosti Je-li kurt >0,pakmluvímeokladnéšpičatosti koncentraceprůměrnýchhodnotjevyšší, než bývá u normálního rozdělení, kurt = 0, pak mluvíme o normální špičatosti koncentrace průměrných hodnot je Statistika bybirom právě taková jako u normálníhostatistika rozdělení, Deskriptivnícharakteristiky 23/28 kurt 0, pak mluvíme o záporné špičatosti koncentrace odlehlých hodnot je vyšší, Statistika bybirom Statistika Deskriptivnícharakteristiky 24/28
Box-plot Cena zaplacená za celkový spotřebitelský úvěr 2 26000 24000 22000 20000 1 16000 14000 12000 10000 6000 4000 2000 Vytvořeno 0 v programu STATISTICA komplet 6.1 Cz x 0,50 =6741 x 0,25 x 0,75 tj.4995 9086 Rozsahneodlehlýchhodnot = (1584;15093) Odlehléhodnoty Extrémníhodnoty Box-plot Cena zaplacená za celkový spotřebitelský úvěr dle provozoven I 2 26000 24000 22000 20000 1 16000 14000 12000 10000 6000 4000 2000 0 Vytvořeno Strakonice v programuprachatice STATISTICAKlatovy komplet 6.1 Cz x 0,50 x 0,25 x 0,75 Rozsahneodlehlýchhodnot Odlehléhodnoty Extrémníhodnoty Statistika bybirom Statistika Deskriptivnícharakteristiky 25/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 26/28 Box-plot Cena zaplacená za celkový spotřebitelský úvěr dle provozoven II 8200 Box-plot Cena zaplacená za celkový spotřebitelský úvěr dle provozoven III 16000 7800 7600 7400 x x ± x ±1,96 14000 12000 10000 x x ± sv n x ±1,96 sv n 7200 6000 7000 4000 6800 2000 6600 Vytvořeno Strakonice v programuprachatice STATISTICAKlatovy komplet 6.1 Cz 0 Vytvořeno Strakonice v programuprachatice STATISTICAKlatovy komplet 6.1 Cz Statistika bybirom Statistika Deskriptivnícharakteristiky 27/28 Statistika bybirom Statistika Deskriptivnícharakteristiky 28/28