Statistika MD360P03Z, MD360P03U) ak. rok 007/008 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara 8. října 007 18) charakteristiky variability charakteristiky tvaru závislost dvojice znaků 418) charakteristiky variability měří nestejnostvariabilitu) hodnot spojité veličiny obecně pro míru variability sx) sax)=sx), sb x)=b sx), b >0 přičtením stejné konstanty aposunutím) se charakteristika variability nezměnínezávisí na poloze) vynásobení kladnou konstantou znamená, že stejnou konstantou nutno vynásobit charakteristiku variability rozpětí[range] R=x n) x 1) kvartilovérozpětí[quartilerange] R Q =Q 3 Q 1 Úvod 1. října 007 Statistika MD360P03Z, MD360P03U)ak. rok 007/008 charakteristiky variability charakteristiky tvaru závislost dvojice znaků 48) rozptylvariance) výběrový) rozptylvariance)[variance][var.výběr][varx)] nevyhovujedruhémupožadavku,místotoho:s ab x =b s x) sx= 1 x1 x) x x)...x n x) ) = 1 ) x i x) = 1 xi n x = 1 k j=1 n j x j x) = 1 nechťx 1 =1,x =3,x 3 =8,pakje x=138)/3=1/3=4 k n j xj n x sx= 1 1 4) 3 4) 8 4) ) = 6 3 1 =13 =3,6. j=1 charakteristiky variability charakteristiky tvaru závislost dvojice znaků 438) směrodatná odchylka rozptyl měří průměrný čtverec vzdálenosti od průměru směrodatná odchylka[std. deviation]: odmocnina z rozptylu [SMODCH.VÝBĚR][sdx)] s x = sx zcela vyhovuje požadavkům na míry variability výhoda směrodatné odchylky: stejný fyzikální rozměr jako původní data výběrový rozptyl z třídních četností: Sheppardova korekcejsou-li všechny intervaly délky h): odečti h 1
charakteristiky variability charakteristiky tvaru závislost dvojice znaků 448) příklad věk matek charakteristiky variability charakteristiky tvaru závislost dvojice znaků 458) příklad věkmatek rozpětí: R=38 18=0 kvartilovérozpětí: R Q =8 3=5 rozptyl s = 1 6 35...1 3 ) 99 98 =16,97. =4,1 směrodatná odchylka je 4,1 ) ) 544 99 pomocí třídních četností s = 1 98 5 19 7... 37 ) 99 =16,36=4,05) navíc Sheppardova korekce s =16,36 3 1 =3,95) ) ) 547 99 Var. řada věku matek charakteristiky variability charakteristiky tvaru závislost dvojice znaků 468) střední odchylka střední odchylka[mean deviation]: průměr odchylek od mediánuněkdy od průměru) [meanabsx-medianx)))] d= 1 n x i x střednídiference:průměrvzájemnýchvzdálenostívšechn dvojic = 1 n j=1 x i x j = ) xj) n x i) j>i charakteristiky variability charakteristiky tvaru závislost dvojice znaků 478) normované charakteristiky rozptýlenosti dosud zavedené charakteristiky variability závisejí na volbě měřítkanapř.délkavmnebovkm) hledáme charakteristiky nezávislé na měřítku, nutně poměrové měřítko, kladné hodnoty umožní porovnání z různých souborů variační koeficient [sdx)/meanx)] v= s x x Giniho) koeficient koncentrace G= = n i x i) x n n x n1 ) i n například měří nerovnoměrnost příjmů, velikostí územních jednotek, souvisí s plochou u Lorenzovy křivky
charakteristiky variability charakteristiky tvaru závislost dvojice znaků 488) z-skór, standardizace charakteristiky variability charakteristiky tvaru závislost dvojice znaků 498) charakteristiky tvaru: šikmost variačníkoeficientv,ginihokoeficientg příklady bezrozměrných veličinzásluhou průměru ve jmenovateli závisí Givnaposunutí!) z-skóry [STANDARDIZEx;průměrx);smodch.výběrx))] *[x-meanx))/sdx)]nebo[cscalex))] z i = x i x s x,,,...,n dostanemenulovýprůměr z=0),jednotkovýrozptyls z =1) z-skóry jsou bezrozměrné umožní hodnotit vlastnosti nezávislé na poloze a variabilitě, např. tvar rozdělení x 1 =1,x =,x 3 =3 x=,s x =1 z 1 = 1 1 = 1,z = 1 =0,z 3 = 3 1 =1 invariantní vůči posunutí i změně měřítka: γax)=γx) γb x)=γx) b >0 šikmost b 1 průměrz3.mocninz-skórů [SKEW)] [meanscalex)ˆ3)] b1 = 1 n xi x prosymetrickýhistogram b 1 blízkénule s x ) 3 dopravaprotaženýhistogrampro b 1 >>0 dolevaprotaženýhistogrampro b 1 <<0 charakteristiky variability charakteristiky tvaru závislost dvojice znaků 508) charakteristiky tvaru: špičatost charakteristiky variability charakteristiky tvaru závislost dvojice znaků 518) přehled závislostí špičatostb průměrze4.mocninz-skórů někdy se odečítá 3)[KURT)] [meanscalex)ˆ4)] b = 1 n xi x někdy se počítají odhady populační šikmosti a špičatosti jinak Excel:s x jinak,fisherovog 1,g prozajímavost) n) g 1 = b1, g = n s x ) 4 n1)) b n )n 3) šikmost a špičatost slouží k hodnocení, zda lze předpokládat normální rozděleníbude zavedeno později) ) 3) n1 abychom mohli vyšetřovat závislost, musíme na jedné statistické jednotce měřit aspoň dva znaky postupyi grafické) závisí na měřítcích obou znaků kvalitativní kvalitativní vzdělání pracovní zařazení) kvalitativní kvantitativní vzdělání roční příjem) kvantitativní kvantitativní věk roční příjem) zatím popisné charakteristiky a grafy, prokazování závislosti později
charakteristiky variability charakteristiky tvaru závislost dvojice znaků 58) kvalitativní kvalitativní charakteristiky variability charakteristiky tvaru závislost dvojice znaků 538) příklad vzdělání matek pozor na orientaci grafu!) kvalitativní data znak v nominálnímordinálním) měřítku hodnoty vyjadřujeme pomocí četností dvaznaky četnostimožnýchdvojichodnotn ij sdružené četnosti) zapisujeme do kontingenční tabulky[contingency table] [tablex,y)] nebo[xtabs xy)] doplňujeme marginální četnosti[marginal frequencies] součtypořádcíchaposloupcích četnostijednotlivýchhodnotkaždéhozeznakůzvlášť oba znaky nula-jedničkové kontingenční tabulka, čtyřpolní tabulka[fourfold table] základní 3 11 34 střední 30 17 47 VŠ 17 1 18 celkem 70 9 99 základní 3,9% 37,9% 34,3% střední 4,8% 58,6% 47,5% VŠ 4,3% 3,5% 18,% celkem 100% 100% 100% 0 0 40 60 80 100 Praha venkov charakteristiky variability charakteristiky tvaru závislost dvojice znaků 548) příklad vzdělání matek pozor na orientaci) charakteristiky variability charakteristiky tvaru závislost dvojice znaků 558) kvalitativní kvantitativní základní 3 11 34 střední 30 17 47 VŠ 17 1 18 celkem 70 9 99 základní 67,6% 3,4% 100% střední 63,8% 36,% 100% VŠ 94,4% 6,6% 100% celkem 70,7% 9,3% 100% 0 0 40 60 80 100 zákl. str. V podle kvalitativní proměnné rozdělíme hodnoty kvantitativní proměnné do dílčích souborů porovnáme charakteristiky dílčích souborůzejména charakteristiky polohy) mezi sebou, pokud se hodně liší, svědčí to pro závislost celkový průměr = vážený průměr dílčích souborů. celkový rozptyl = vážený průměr rozptylů vážený rozptyl průměrůpřesně jen pro populační rozptyly s n ve jmenovateli) snáze jako rozklad součtu čtverců
charakteristiky variability charakteristiky tvaru závislost dvojice znaků 568) příklad: platy u tří skupin zaměstnanců skup. příjem n j x j s j sj žlutí 00 150 175,00 35,4 150,0 modří 80706060 4 67,50 9,6 91,7 černí 00181815151010 8 15,75 4,0 16, celkem 746 14 53,9 57,7 3334,4 x= 175,04 67,508 15,75 =53,9 48 s =3334,4 > 150,04 91,78 16, =14,0 48 neváženýnesmyslný) průměr by byl 86,08! rozptyl celkem je mnohem větší, než jsou rozptyly ve skupinách příčina: nestejné průměry charakteristiky variability charakteristiky tvaru závislost dvojice znaků 578) rozklad součtu čtverců velikost kolísání všech platůcelková variabilita): SST=00 53,9) 150 53,9) 80 53,9)... 10 53,9) =43346,86 velikost kolísání uvnitř skupin: SSE=00 175) 150 175) 80 67,5)... 10 15,75) =1638,5 kolísání průměrůmezi skupinami): SSA= 175 53,9) 4 67,5 53,9) 8 15,75 53,9) =41708,36 kontrola: 1 638,541 708,36=43 346,86 charakteristiky variability charakteristiky tvaru závislost dvojice znaků 588) rozklad součtu čtverců obecně x ij j-táhodnotavi-téskupiněplatj-téosobyvi-téskupině) n i počethodnotvi-téskupině,kpočetskupin x i průměrvi-téskupiněprůměrnýplatvi-téskupině) x celkovýprůměrprůměrvšechplatů) SST= = k n i x ij x ) j=1 k k n i n i x i x ) x ij x i ) j=1 =SSASSE charakteristiky variability charakteristiky tvaru závislost dvojice znaků 598) kvantitativní kvantitativní [plotiq zn7,data=iq,col=1divka,pch= )] IQ 70 80 90 110 130 záporná korelace 1.0 1.5.0.5 3.0 známky delka 65 70 75 kladná korelace 6000 8000 10000 hmotnost r= 0,69 r=0,45
charakteristiky variability charakteristiky tvaru závislost dvojice znaků 608) popis závislosti spojitých veličin charakteristiky variability charakteristiky tvaru závislost dvojice znaků 618) příklad: hmotnost a délka dětí4. týden věku) výběrová) kovariance[covariance] [covvek.o,vek.m)] s xy = 1 x i x)y i ȳ) zřejmějes xx = 1 n 1 n x i x)x i x)=s x,s yy =s y Pearsonův, momentový) korelační koeficient [Pearson, product-moment) correlation coefficient] lze zapsat pomocí z-skórů r= s xy s x s y = 1 ) xi x ȳ yi s x s y [corvek.o,vek.m)] délka[cm]: x=68,5 s x =3,8 hmotnost[g]:ȳ=7690, s y =845 kovariance[cm g]:s xy =157 korelačníkoeficient:r= 157 3,8 845 =0,45 hmotnost[kg]:ȳ=7,69 s y =0,845 kovariance[cm kg]:s xy =1,57 korelačníkoeficient:r= 1,57 3,8 0,845 =0,45 které charakteristiky závisí na použitém měřítku? charakteristiky variability charakteristiky tvaru závislost dvojice znaků 68) vlastnosti Pearsonova korelačního koeficient vypovídá o směru závislosti přir <0srostoucímxvprůměruyklesánapř.IQaznámky) přir >0srostoucímxvprůměruyrostenapř.váhaavýška) platí 1 r 1 r =1jedinětehdy,kdyžbody[x;y]ležínapřímce vzájemné nezávislosti x, y odpovídají r blízká nule upřesníme!) nemusí zachytit křivočarounelineární) závislost