Je statistick dokázáno Martina Litschmannová Katedra aplikované matematik, FEI, VŠB-TU Ostrava
Co vpovídá statistika o jednotlivci? Lukáš Pavlásek (jednotlivec) skaut podnikatel občan ČR Statistika nezkoumá jednotlivce jako individualitu, ale jako anonmního nositele některého znaku (činnosti, vlastnosti). Statistika je nauka o hromadných jevech. 2
Co je to statistika? teoretická disciplína, která se zabývá metodami sběru a analýz dat Jak provést statistické šetření? úplné šetření statistická jednotka statistické znak údaje, které u statistických znaků sledujeme (např. váha, výška, IQ, ) = ZÁKLADNÍ SOUBOR 3
Co je to statistika? teoretická disciplína, která se zabývá metodami sběru a analýz dat Jak provést statistické šetření? úplné šetření výběrové šetření REPREZENTATIVNÍ výběr 4
Co je to statistika? teoretická disciplína, která se zabývá metodami sběru a analýz dat Jak analzovat data? Eploratorní (popisná) statistika Eploratorní (popisná) statistika
Základní pojm ze statistické metodologie výběrové šetření Eploratorní (popisná) statistika Popisná statistika (angl. Eplorator Data Analsis, EDA) - uspořádání proměnných do názornější form a jejich popis několika málo hodnotami, které b obsahoval co největší množství informací obsažených v původním souboru. 6
Základní pojm ze statistické metodologie výběrové šetření Eploratorní (popisná) statistika 7
Několik nesouvislých poznámek EDA pro kvantitativní (číselné) znak ošidný průměr proč potřebujeme mír variabilit Analýza závislosti dvou kvantitativních znaků co nám říká korelační koeficient co nám neříká korelační koeficient 8
Ošidný průměr Statistik, který má hlavu v sauně a noh v ledničce, hovoří o příjemné průměrné teplotě. Autor neznámý 9
Ošidnost průměru Zdroj: [1] 1
Ošidnost průměru Země K Průměrná produkce kuřat (na osobu): 1, (denně) 11
Ošidnost průměru Průměrná rodina má 2,2 dítěte. Zdroj: [1] 12
Ošidnost průměru Aritmetický průměr: n i 1 n Na co si dát pozor? i Harmonický průměr používá se, pokud potřebujeme hodnotu, která zastupuje ostatní, co se týče převrácených hodnot, například při výpočtu průměrné rchlosti na úsecích stejné délk, k zjištění průměrné délk času nutné k provedení nějakého úkonu, kd jsou dané úkol prováděn současně několika osobami či stroji apod. Harmonický průměr je vžd menší nebo roven geometrickému průměru, což je snadný důsledek nerovnosti mezi aritmetickým a geometrickým průměrem. 13
Ošidnost průměru n i 1 n Na co si dát pozor? i Harmonický průměr H = n n 1 i=1 i 14
1. Nákladní automobil jel z města A do města B rchlostí 4 km/h, z města B do města C rchlostí km/h a z města C do města D rchlostí 6 km/h. Vpočítejte průměrnou rchlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná km. A B C D AB BC CD Dráha (km) Rchlost (km/h) 4 6 1
1. Nákladní automobil jel z města A do města B rchlostí 4 km/h, z města B do města C rchlostí km/h a z města C do města D rchlostí 6 km/h. Vpočítejte průměrnou rchlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná km. A B C D AB BC CD Dráha (km) Rchlost (km/h) 4 6 Čas (h) /4 / /6 16
1. Nákladní automobil jel z města A do města B rchlostí 4 km/h, z města B do města C rchlostí km/h a z města C do města D rchlostí 6 km/h. Vpočítejte průměrnou rchlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná km. A B C D AB BC CD AD Dráha (km) Rchlost (km/h) 4 6 Čas (h) /4 / /6 17
1. Nákladní automobil jel z města A do města B rchlostí 4 km/h, z města B do města C rchlostí km/h a z města C do města D rchlostí 6 km/h. Vpočítejte průměrnou rchlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná km. A B C D AB BC CD AD Dráha (km) 1 Rchlost (km/h) 4 6 Čas (h) /4 / /6 /4 + / + /6 v = + + 4 + + = 6 3 1 4 + 1 + 1 6 = 48,7 km h Harmonický průměr 18
1. Nákladní automobil jel z města A do města B rchlostí 4 km/h, z města B do města C rchlostí km/h a z města C do města D rchlostí 6 km/h. Vpočítejte průměrnou rchlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 1% tras a vzdálenost z C do D je 6% tras. A B C D AB BC CD Dráha (km),1ad,6ad Rchlost (km/h) 4 6 19
1. Nákladní automobil jel z města A do města B rchlostí 4 km/h, z města B do města C rchlostí km/h a z města C do města D rchlostí 6 km/h. Vpočítejte průměrnou rchlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 1% tras a vzdálenost z C do D je 6% tras. A B C D AB BC CD Dráha (km),1ad,2ad,6ad Rchlost (km/h) 4 6 2
1. Nákladní automobil jel z města A do města B rchlostí 4 km/h, z města B do města C rchlostí km/h a z města C do města D rchlostí 6 km/h. Vpočítejte průměrnou rchlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 1% tras a vzdálenost z C do D je 6% tras. A B C D AB BC CD Dráha (km),1ad,2ad,6ad Rchlost (km/h) 4 6 Čas (h),1ad/4,2ad/,6ad/6 21
1. Nákladní automobil jel z města A do města B rchlostí 4 km/h, z města B do města C rchlostí km/h a z města C do města D rchlostí 6 km/h. Vpočítejte průměrnou rchlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 1% tras a vzdálenost z C do D je 6% tras. A B C D AB BC CD AD Dráha (km),1ad,2ad,6ad AD Rchlost (km/h) 4 6 Čas (h),1ad/4,2ad/,6ad/6 v =,1AD +,2AD +,6AD,1AD +,2AD +,6AD 4 6 = 1,1 4 +,2 +,6 = 3,3 6,1AD/4 +,2AD/ +,6AD/6 km h Vážený harmonický 22 průměr
2. Jsou dva kopáči. Jeden kopáč kope jámu 48 hodin, druhý jí kope 2 krát rchleji. a) Za jak dlouho vkope jámu druhý kopáč? 24 hodin 23
2. Jsou dva kopáči. Jeden kopáč kope jámu 48 hodin, druhý jí kope 2 krát rchleji. b) Za jak dlouho vkope jámu průměrný kopáč? Výkon "průměrného" kopáče = "celková doba práce" "celkový rozsah práce" = 48 + 24 2? Hledáme průměrného kopáče musíme použít vztah, v němž budeme uvažovat výkon našich dvou kopáčů pracujících za stejných podmínek (po stejnou dobu). 1. kopáč za 1h vkope 1 48 jám 2. kopáč za 1h vkope 1 24 jám Oba (celkem) za 2h vkopali 1 48 + 1 24 jám Výkon "průměrného" kopáče = "celková doba práce" "celkový rozsah práce" = 2 1 48 + 1 (h) 24 Harmonický průměr 24
2. Jsou dva kopáči. Jeden kopáč kope jámu 48 hodin, druhý jí kope 2 krát rchleji. c) Za jak dlouho vkopou jámu společně? 1. kopáč za t h vkope t 48 jám 2. kopáč za t h vkope t 24 jám Oba (celkem) za t h vkopali t + t jám 48 24 1 = t 48 + t 24 1 t = 1 48 + 1 (h) 24 2
2. Jsou dva kopáči. Jeden kopáč kope jámu 48 hodin, druhý jí kope 2 krát rchleji. c) Za jak dlouho vkopou jámu společně? Jiný přístup: Dva kopáči vkopou jámu 2 krát rchleji než průměrný kopáč: Výkon "průměrného" kopáče = 2 1 48 + 1 (h) 24 1 t = 1 48 + 1 (h) 24 26
Ošidnost průměru n i 1 Na co si dát pozor? Harmonický průměr (rchlosti, proměnné vjadřující čas na jednotku výkonu) Geometrický průměr (tempa růstu) n i G = n 1 2 n = n n i i=1 27
3. Změn cen jedné akcie energetické společnosti na burze XY v období od 13. do 1. března jsou uveden v níže uvedené tabulce. Určete průměrné tempo růstu cen této akcie v uvedeném období. Cena akcie (Kč) 13. března 14. března 6 1. března 1 2 28
3. Změn cen jedné akcie energetické společnosti na burze XY v období od 13. do 1. března jsou uveden v níže uvedené tabulce. Určete průměrné tempo růstu cen této akcie v uvedeném období. Cena akcie (Kč) 13. března Tempo růstu 14. března 6 1,2 1. března 1 2 2, 2 = k 1 1 3 = k 2 2 = k 2 k 1 1 = k 2 1 k 2 = k 2 k 1 k = k 2 k 1 Geometrický průměr 29
3. Změn cen jedné akcie energetické společnosti na burze XY v období od 13. do 1. března jsou uveden v níže uvedené tabulce. Určete průměrné tempo růstu cen této akcie v uvedeném období. Cena akcie (Kč) 13. března Tempo růstu 14. března 6 1,2 1. března 1 2 2, 2 = k 1 1 3 = k 2 2 = k 2 k 1 1 = k 2 1 k 2 = k 2 k 1 k = k 2 k 1 = 2 1,2 1, 3
4. Z 13. března na 14. března vzrostla cena jedné akcie energetické společnosti na burze XY o 2%, z 14. března na 1. března vzrostla cena akcie o 1%. Určete průměrný denní procentuální růst cen této akcie v daném období. Cena akcie (Kč) 13. března? Tempo růstu 14. března?? 1. března?? 31
4. Z 13. března na 14. března vzrostla cena jedné akcie energetické společnosti na burze XY o 2%, z 14. března na 1. března vzrostla cena akcie o 1%. Určete průměrný denní procentuální růst cen této akcie v daném období. Cena akcie (Kč) 13. března? Tempo růstu 14. března? 1,2 1. března? 2, k = k 2 k 1 = 2 1,2 1, Cena akcie vzrostla v daném období denně průměrně o %. 32
. Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 1. března téhož roku z Kč na 1 2 Kč. Jaký bl průměrný denní procentuální přírůstek cen této akcie v daném? Cena akcie (Kč) 13. března Tempo růstu 14. března??/ 1. března 1 2 1 2/? k = k 2 k 1 = 3 2 = 3 = 1 2 2 1 1 = 2,4 1, Cena akcie vzrostla v daném období denně průměrně o %. 33
Ošidnost průměru n i 1 Na co si dát pozor? Harmonický průměr (rchlosti, proměnné vjadřující čas na jednotku výkonu) Geometrický průměr (tempa růstu) Průměrování na cirkulární škále n i 34
Ošidnost průměru n i 1 Na co si dát pozor? Harmonický průměr (rchlosti, proměnné vjadřující čas na jednotku výkonu) Geometrický průměr (tempa růstu) Průměrování na cirkulární škále n i Průměr není rezistentní vůči odlehlým pozorováním! 3
Ošidnost průměru V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $2 $27 $29 $3 $37 $38 Určete průměrný plat obvatel této vesnice. ($31 83) Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $4. $2 $27 $29 $3 $37 $38 $4 Určete průměrný plat obvatel této vesnice. ($ 741 71) 36
Ošidnost průměru 37
Ošidnost průměru Zdroj: Blesk, 9.4.213 38
Zdroj: http://www.czso.cz/csu/csu.nsf/informace/cpmz31114.doc 39
Zdroj: http://www.czso.cz/csu/csu.nsf/informace/cpmz31114.doc 4
Zdroj: http://www.czso.cz/csu/csu.nsf/informace/cpmz31114.doc 41
K čemu potřebujeme mír variabilit? 42
Zásah střelce A Zásah střelce B 4 1 6 9 Průměr?? 43
Zásah střelce A Zásah střelce B 4 1 6 9 Průměr Zdroj: [1] 44
Výběrový rozptl s 2 n i 1 i n 1 2 Na co si dát pozor? Rozměr rozptlu charakteristik je druhou mocninou rozměru proměnné. 4
Výběrová směrodatná odchlka s s 2 n i 1 i n 1 2 46
Jakou představu o variabilitě dat nám dává sm. odchlka? Čebševova nerovnost: k > : P μ kσ < X < μ + kσ > 1 1 k 2 k P μ kσ < X < μ + kσ 1 > 2 >,7 3 >,89 k P μ kσ < X < μ + kσ 1,682 2,94 3,998 Pravidlo 3 sigma 47
Variační koeficient (Směrodatná odchlka v procentech aritmetického průměru) V X = s 1 (%) Čím nižší var. koeficient, tím homogennější soubor. V > % značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variabilit? Umožňuje srovnání variabilit proměnných, které mají různé jednotk. 48
Analýza závislosti dvou kvantitativních proměnných 49
Korelační koeficient Pearsonův koeficient korelace vjadřuje míru závislosti dvou znaků. 2 lineární spojitých 2 1 1 r=,88 1 2 r X,Y = n i=1 n i=1 i i i 2 n i=1 i 2
Korelační koeficient Hodnota korelačního koeficientu se pohbuje od -1 do 1. Hodnot ±1 nabývá tehd, pokud všechn bod [ i, i ] leží na přímce. Nule je roven v případě, že veličin jsou lineárně nezávislé. Při měření lineární závislosti je znaménko korelačního koeficientu kladné, kdž obě veličin X a Y zároveň rostou nebo obě zároveň klesají, a záporné, kdž jedna z veličin roste, zatímco druhá klesá. Při užití Pearsonova korelačního koeficientu je vžd třeba posoudit, zda je jeho aplikace vhodná. 1
Korelační koeficient 2 2 1 1 1 2 2
Korelační koeficient 2 2 1 1 r=1 1 2 3
Korelační koeficient 2 2 2 1 1 1 r=1 1 1 2 1 2 4
Korelační koeficient 2 2 2 1 1 1 r=1 1 r= 1 1 2 1 2
Korelační koeficient 2 2 2 2 1 2 1 1 r=1 1 r= 1 1 1 1 2 1 2 1 2 6
Korelační koeficient 2 2 2 1 2 2 r=,1 1 1 r=1 1 r= 1 1 1 1 2 1 2 1 2 7
Korelační koeficient 2 2 2 1 2 2 r=,1 1 1 r=1 1 r= 1 1 1 1 2 1 2 1 2 2 2 1 1 1 2 8
Korelační koeficient 2 2 2 1 2 2 r=,1 1 1 r=1 1 r= 1 1 1 1 2 1 2 1 2 2 2 1 1 r=,88 1 2 9
Korelační koeficient 2 2 2 1 2 2 r=,1 1 1 r=1 1 r= 1 1 1 1 2 1 2 1 2 2 2 2 2 1 1 1 1 r=,88 1 2 1 2 6
Korelační koeficient 2 2 2 1 2 2 r=,1 1 1 r=1 1 r= 1 1 1 1 2 1 2 1 2 2 2 2 2 1 1 1 1 r=,88 r=,86 1 2 1 2 61
Korelační koeficient 2 2 2 1 2 2 r=,1 1 1 r=1 1 r= 1 1 1 1 2 1 2 1 2 2 2 7 2 1 2 1 6 4 1 r=,88 1 r=,86 3 2 1 1 2 1 2 1 2 62
Korelační koeficient 2 2 2 1 2 2 r=,1 1 1 r=1 1 r= 1 1 1 1 2 1 2 1 2 2 2 7 2 1 1 r=,88 2 1 1 r=,86 6 4 3 2 1 r=,4 1 2 1 2 1 2 63
Korelační koeficient 3, 3 2, 2 1, 1, 1 2 64
Korelační koeficient 3, 3 2, 2 1, 1, r=,93 1 2 6
Korelační koeficient 3, 1 3 8 2, 2 6 1, 4 1, r=,93 1 2 2 1 2 66
Korelační koeficient 3, 1 3 8 2, 2 1, 6 4 r= 1, r=,93 1 2 2 1 2 67
Korelační koeficient 3, 1 3 8 2, 2 1, 6 4 r= 1, 7 r=,93 1 2 2 1 2 6 4 3 2 1 1 2 3 4 6 68
Korelační koeficient 3, 1 3 8 2, 2 1, 6 4 r= 1, 7 r=,93 1 2 2 1 2 6 4 3 2 1 1 2 3 4 6 69
Korelační koeficient 3, 1 3 8 2, 2 1, 6 4 r= 1, 7 6 4 3 2 1 r=,93 1 2 1 2 3 4 6 2 7 6 4 3 2 1 1 2 r=,8 1 2 3 4 6 7
Korelační koeficient Pokud jsou dvě náhodné veličin korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že b jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout. Silná korelace
Korelační koeficient Pokud jsou dvě náhodné veličin korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že b jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout. Silná korelace
Sebevražd oběšením a uškrcením (počet mertvých v USA) tisíce Americké výdaje na vědu, vesmírná výzkum a technologie (miliard dolarů) Korelační koeficient Pokud jsou dvě náhodné veličin korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že b jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout. 1 3 9 8 3 7 2 6 2 4 1 3 r=,99 1 2 1 1998 2 22 24 26 28 21 ear Sebevražd oběšením a uškrcením (počet mertvých v USA) Americké výdaje na vědu, vesmírná výzkum a technologie (miliard dolarů)
Zdroj: http://zprav.aktualne.cz/zahranici/k-nobelove-cene-dopomaha-cokolada-naznacujestudie/r~i:article:76147/
Korelační koeficient V prai se zpravidla hodnota koeficientu korelace interpretuje takto: Korelační koeficient r =, Tp lineární závislosti neeistující r (,;,3 velmi slabá r (,3;,7 středně silná r (,7; 1,) těsná r = 1, funkční Mezi proudem a napětím na odporu bl zjištěn korelační koeficient,6. Mezi školním prospěchem a pocitem deprese u dětí bl zjištěn korelační koeficient,6. Výsledk interpretujte!
Něco ke čtení 1. SWOBODA, H. (1977): Moderní statistika, Praha. 76
Závěrečný test Bod mass inde (BMI) 18 letých dívek má střední hodnotu 21,3 kg m 2 a směrodatnou odchlku 2, kg m 2. S vužitím Čebševov nerovnosti odhadněte kolik procent 18 letých dívek má BMI v rozmezí 16,3 kg m 2 až 26,3 kg m 2? a) nejméně % b) nejméně 7% c) nejméně 89% 77
A to už je opravdu konec! Děkuji za pozornost 78