STATISTIKA 1 Adam Čabla Katedra statistiky a pravděpodobnosti VŠE
KONTAKTY WWW: sites.google.com/site/adamcabla E-mail: adam.cabla@vse.cz Telefon: 777 701 783 NB367 na VŠE, konzultační hodiny: Pondělí 13:25 14:25 Čtvrtek 9:05 10:05 Možnost dohody
NÁPLŇ KURZU STATISTIKA 1 Základní pojmy Četnosti Tabulky a grafy Míry polohy Míry variability Indexní analýza
ZKOUŠKA Písemná forma 1 test za 100 bodů 60 bodů příklady 20 bodů teoretické otázky typu a,b,c,d (5x4) 20 bodů tvrzení ano x ne (5x4) Literatura: Hindls, Hronová Statistika pro ekonomy
STATISTIKA Statistics is the study of the collection, organization, analysis, and interpretation of data. It deals with all aspects of this, including the planning of data collection in terms of the design of surveys and experiments. [wiki] Popisná statistika je základem poznání dat shrnuje zjištěné poznatky, popisuje nasbíraná data.
STATISTICKÁ JEDNOTKA Prvek, jehož vlastnosti zkoumáme Př.: lidé, podniky, státy, psi, studenti.. Statistika se obvykle zabývá souhrnným zkoumáním vlastností vícero statistických jednotek.
STATISTICKÝ ZNAK Vlastnost, kterou zkoumáme Př.: národnost, zisk, HDP, rasa, spotřeba alkoholu.. Statistické znaky mají různé vlastnosti, podle kterých se dělí. Nazývá se též statistickou proměnnou
KVALITATIVNÍ STATISTICKÉ ZNAKY Kvalitativní je takový znak (vlastnost), kterou lze vyjádřit slovně Nominální: takové vlastnosti, které jsou u prvků buď stejné nebo odlišné (př.: národnost) Ordinální: takové vlastnosti, které můžeme seřadit logicky vzestupně či sestupně (př.: pořadí, známka(!))
KVANTITATIVNÍ STATISTICKÉ ZNAKY Kvantitativní je takový znak, který lze vyjádřit číselně. Spojité jsou takové znaky, které můžou nabýt teoreticky libovolnou číselnou hodnotu (Př.: teplota) Diskrétní jsou takové znaky, které můžou nabýt pouze omezené (byť nekonečné) množství hodnot (Př.: počet dětí)
STATISTICKÝ SOUBOR Statistický soubor je souhrnem statistických jednotek Základní soubor je souborem všech jednotek, o kterých chceme činit závěry (Př.: obyvatelstvo ČR) Výběrový soubor je vybranou částí základního souboru, kterou většinou prakticky zkoumáme (Př.: vybraní respondenti průzkumu)
ŠETŘENÍ Úplné šetření je zkoumáním celého základního souboru (Př.: SLDB) Výběrové šetření je zkoumáním části základního souboru tzv. výběrového souboru (Př.: průzkum veřejného mínění) Vždy je dobré si uvědomit, co přesně je základním souborem (např. chci zkoumat životní podmínky důchodců, tak nebudu chodit s dotazníkem po středních školách)
STATISTICKÉ TABULKY Výsledky výzkumu se obvykle shrnují do statistický tabulek, ve kterých je úzus: Ve sloupcích psát statistické znaky V řádcích psát statistické jednotky V průsečíku řádku a sloupce psát hodnotu daného znaku u dané jednotky
domac STATISTICKÁ osob vek_p TABULKA vek_m pohl_p PŘ.: vzd_p vzd_m prac_prij soc_prij cp_prij 310100011 1 70 0 2 6 0 0 374 37400 310100031 2 55 0 1 2 0 240 288 60800 310100061 3 38 0 1 6 0 1049,36 536 158536 310100071 1 63 0 2 2 0 0 373 37300 310100101 1 80 0 2 3 0 0 326 32600 310100111 2 69 70 1 1 1 198 547 74500 310100131 2 80 73 1 6 6 0 677 67700 310100141 1 72 0 1 1 0 0 306 30600 310100151 1 63 0 1 4 0 0 405 40500 310100161 1 33 0 2 2 0 475,42 0 47542 310100171 1 66 0 2 3 0 0 355 35500 310100181 2 60 66 1 6 4 0 642 64200 310100191 3 61 57 1 4 1 0 590 59000 310100211 1 71 0 1 2 0 0 316 31600 310100221 3 46 0 2 2 0 911,37 297 120837 310100261 4 47 38 1 2 2 1948,08 50 208208 310100301 1 73 0 2 3 0 0 306 30600 310100302 1 21 0 1 4 0 778,85 0 77885 310100311 1 69 0 2 5 0 0 386 38600 310100312 1 32 0 2 6 0 875,47 0 87547 310100321 1 82 0 2 3 0 0 302 30200 310100391 2 24 0 1 6 0 266,04 411 126204 310100392 1 57 0 2 1 0 0 280 28000 310100411 1 67 0 2 3 0 0 278 27800 310100471 1 72 0 2 5 0 0 286 28600 310100491 2 67 63 1 4 3 0 643 99300 310100492 4 36 30 1 6 4 699,17 280 97917 310100501 2 77 0 2 2 0 0 373 52300 310100511 4 37 35 1 4 6 3461,93 131 359293 310100521 1 69 0 2 1 0 0 276 33600 310100531 2 45 0 2 1 0 444,6 81 54260 310100532 3 25 24 1 1 1 919,69 180 109969 310100541 2 87 80 1 6 3 0 452 45200 310100542 3 29 30 1 6 6 756,67 105 86167 310100551 2 67 63 1 4 3 0 642 84500 310100561 3 40 38 1 6 4 1279,72 50 132972 310100591 1 40 0 1 2 0 792,87 0 79287 310100611 1 78 0 2 5 0 0 298 29800 310100621 4 38 0 2 2 0 488,07 224 83207
ČETNOST Má smysl u všech proměnných s výjimkou spojitých Absolutní četnost je počet výskytů varianty sledovaného znaku Relativní četnost je podíl zastoupení varianty sledovaného znaku
ČETNOST - ZNAČENÍ Varianty značíme obvykle x i pro i = 1, 2,, k Máme tedy k variant daného znaku Absolutní četnosti značíme obvykle n i Součet všech četností všech znaků je n, což je zároveň počet zkoumaných jednotek Relativní četnosti značíme obvykle p i Relativní četnost je podíl absolutní četnosti a počtu zkoumaných jednotek Součet všech relativních četnosti se rovná 1.
TABULKA ČETNOSTÍ Tabulka četností je shrnutím četnosti zastoupení variant daného znaku. Jedná se o shrnutí poznatku o zastoupení jednotlivých variant. i n i p i 1 n 1 p 1 2 n 2 p 2 k-1 n k-1 p k-1 k n k p k Součet n 1
PŘÍKLAD Domácnost Počet členů A 2 B 3 C 1 D 2 E 2 F 3 G 5 H 3 I 2 J 1 K 2 L 3 Vytvořte tabulku absolutních a relativních četností
PŘÍKLAD - VÝSLEDEK Počet členů n i p i 1 2 0,17 2 5 0,42 3 4 0,33 5 1 0,08 Součet 12 1
KUMULATIVNÍ ČETNOSTI Kumulativní četnosti jsou četnosti daného znaku, které nabyly hodnoty menší nebo rovné té variantě znaku, pro kterou se počítá Kumulativní četnosti jsou absolutní i relativní Kumulativní četnosti (logicky) lze počítat pouze tam, kde lze varianty seřadit podle velikosti
KUMULATIVNÍ ČETNOSTI i n i Kumulativní n i 1 n 1 n 1 2 n 2 n 1 + n 2.. k n k n 1 + n 2 + + n k = n Příklad: z výsledku předchozího příkladu zjistěte kumulativní četnosti absolutní i relativní
PŘÍKLAD - VÝSLEDEK Počet členů n i Kumul n i p i kumul p i 1 2 2 0,17 0,17 2 5 7 0,42 0,59 3 4 11 0,33 0,92 5 1 12 0,08 1 Součet 12 xxx 1 xxx
INTERVALOVÉ ROZDĚLENÍ ČETNOSTÍ Používá se u spojitých znaků nebo u diskrétních znaků, které nabývají příliš mnoha obměn (např. platy) Hodnoty znaku rozdělíme do počtu k intervalů o ideálně jednotné délce takové, aby pokryly všechny hodnoty
POČET INTERVALŮ Neexistuje jednotné pravidlo na vytvoření počtu a délky intervalů. Nemělo by jich být málo, ale v jednotlivých intervalech by mělo být dost pozorování. Existují ovšem některá návodná pravidla, z nich zde budeme používat Sturgessovo: Pro daný počet intervalů se pak vytvoří vhodná délka tak, aby byla jednotná a obsáhla všechny varianty znaku. V případě extrému můžou být krajní intervaly jiné (obvykle delší typu do plus nekonečna )
PŘÍKLAD Domácnost Příjem A 7 853 B 12 332 C 28 885 D 14 442 E 17 774 F 24 554 G 13 846 H 25 523 I 41 945 J 27 950 Vytvořte tabulku intervalových četností absolutních i relativních včetně kumulativních
PŘÍKLAD ŘEŠENÍ 1 Počet intervalů: k = 1+3,3 * log 10 = 4,3; tedy 4 Min = 7 853, Max = 41 945; Rozdíl = 34 092 Délka intervalu: 34 092/4 = 8 523; zaokrouhleno nahoru (!) 8 600 Intervaly n i kumul. n i p i kumul. p i <7 800 16 400) 4 4 0,4 0,4 <16 400 25 000) 2 6 0,2 0,6 <25 000 33 600) 3 9 0,3 0,9 <33 600 42 200) 1 10 0,1 1
PŘÍKLAD Pro statistické znaky Počet členů a Automobil vytvořte tabulku rozdělení absolutních a relativních četností. Pokud to dává smysl, vytvořte i sloupec kumulativních četností. Pro statistický znak Měsíční příjem vytvořte tabulku intervalových četností Č Počet členů Měsíční příjem Automobil 1 2 17 364 n 2 3 19 334 a 3 5 29 242 a 4 1 54 253 a 5 3 18 831 a 6 4 35 292 a 7 4 43 292 a 8 3 29 188 a 9 2 9 782 n 10 5 25 123 n
PŘÍKLAD - VÝSLEDEK Automobil n i p i ano 7 0,7 ne 3 0,3 Počet členů n i kumul. n i p i kumul. p i 1 1 1 0,1 0,1 2 2 3 0,2 0,3 3 3 6 0,3 0,6 4 2 8 0,2 0,8 5 2 10 0,2 1 Celkem 10 xxx 10 xxx
PŘÍKLAD - VÝSLEDEK Intervaly n i kumul. n i p i kumul. p i <9 700 20 900) 4 4 0,4 0,4 <20 900 32 100) 3 7 0,3 0,7 <32 100 43 300) 2 9 0,2 0,9 <43 300 54 500) 1 10 0,1 1
GRAFY Grafy v popisné statistice jsou shrnutím informací z tabulek četností v (ideálně) přehledné formě. Základní typy grafů: Sloupcový graf Polygon četností Histogram četností Výsečový graf
SLOUPCOVÝ GRAF Ve sloupcovém grafu znázorňuje každý sloupec variantu daného znaku a jeho výška četnost výskytu. Stupnice může být absolutní i relativní 3,5 3 2,5 2 1,5 1 0,5 0 Porsche Škoda Trabant Ferrari Řada 1
POLYGON ČETNOSTÍ Polygon četností spojuje body v grafu, kde výška bodu určuje četnost zastoupení varianty a vzdálenost od nuly číselnou hodnotu znaku. Použitelné pouze pro kvantitativní znaky. 3,5 3 2,5 2 1,5 1 0,5 0 5 7 9 11 Řada 1
HISTOGRAM ČETNOSTÍ Obdoba sloupcového grafu užívána pro intervalové rozdělení četností. Sloupce na sebe naléhají, což naznačuje spojitost intervalů. 3,5 3 2,5 2 1,5 1 0,5 0 Řada 1
VÝSEČOVÝ GRAF Prodej 1. čtvrt. 2. čtvrt. 3. čtvrt. 4. čtvrt. 10% 9% 23% 58%
PŘÍKLAD U předchozího příkladu nakreslete vhodné grafy
VÝSLEDKY 3,5 3 2,5 2 1,5 Řada 1 1 0,5 0 1 2 3 4 5
VÝSLEDKY Automobil ne 30% ano 70%
VÝSLEDKY 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Řada 1
MÍRY POLOHY Míra polohy je pokusem shrnout údaje o zkoumaném znaku do jednoho čísla Míra polohy má určit úroveň, typickou hodnotu daného znaku Existují v zásadě tří míry polohy: Průměry Modus Medián
PRŮMĚRY Průměr je míra polohy počítaná zahrnutím všech hodnot daného znaku. Pro smysluplný výpočet průměru je tedy nutné, aby znak byl kvantitativní. Průměry užíváme: Aritmetický Harmonický Geometrický
ARITMETICKÝ PRŮMĚR Aritmetický průměr se získá vydělením součtu všech hodnot daného znaku počtem těchto hodnot. Tzv. vážený tvar se používá pro výpočet z četnostních tabulek. Jedná se pouze o jiný zápis téhož (viz. následující příklad). Vážený tvar v horním součtu násobí četnost varianty její hodnotou (znak je kvantitativní(!)).
VLASTNOSTI ARITMETICKÉHO PRŮMĚRU Součet jednotlivých odchylek od průměru je nulový Aritmetický průměr konstanty je roven konstantě Přičteme-li k jednotlivým hodnotám konstantu, průměr se zvýší o tuto konstantu Vynásobíme-li jednotlivé hodnoty konstantou, průměr se znásobí touto konstantou
PŘÍKLAD Z následujících čísel spočítejte průměr: 3, 5, 6, 3, 3, 3, 5, 3, 5, 6, 2, 4 Tato čísla zapište do tabulky absolutních četností a s její pomocí vypočtěte aritmetický průměr váženým tvarem.
VÝSLEDEK Průměr = 48/12 = 4 x i n i x i *n i 2 1 2 3 5 15 4 1 4 5 3 15 6 2 12 Součet 12 48 Průměr = 48/12 = 4
HARMONICKÝ PRŮMĚR Používá se k průměrování v případě, kdy je znakem poměrné číslo (např. km/hod, obyv/km 2 ) a váhou (četností) je jednotka v čitateli. Př.: jaká je průměrná rychlost, jestliže na dané dráze byly změřeny dané průměrné rychlosti.
PŘÍKLAD Následující tabulka udává hustoty obyvatel a počty obyvatel zemí Visegrádské čtyřky. Určete průměrnou hustotu obyvatel celku. Země Hustota obyvatel na km 2 Počet obyvatel ČR 132 10 400 000 SR 110 5 400 000 Polsko 122 38 100 000 Maďarsko 108 10 000 000
VÝSLEDEK x i n i n i /x i 132 10 400 000 78 787,88 110 5 400 000 49 090,91 122 38 100 000 312 295,08 109 10 000 000 92 592,59 Součet 63 900 000 532 766 Průměr: 63 900 000/532 766 = 119,94
GEOMETRICKÝ PRŮMĚR Používá se k průměrování hodnot indexů bude součástí indexní analýzy
MODUS Modus je nejčastější varianta sledovaného znaku Lze ho použít pro popis míry polohy všech typů znaků Modální interval je interval s největší četností zastoupení Příklad: Jaký byl modus v příkladě na aritmetický průměr?
MEDIÁN Výsledek příkladu: 3 Medián je prostřední hodnota souboru seřazeného podle hodnot sledovaného znaku Má-li soubor sudý počet jednotek, je medián průměrem dvou prostředních hodnot Medián je tzv. 50% kvantil. Příklad: určete medián v příkladě na aritmetický průměr a modus
KVANTILY Výsledek: 3,5 (6. hodnota je 3 a 7. hodnota je 4) Kvantil je hodnota, která rozděluje soubor hodnot určitého znaku seřazených dle velikosti na dvě části tu, kde jsou hodnoty menší nebo stejné, a tu, kde jsou větší. Kolik procent hodnot je pod hodnotou kvantilu určuje kolikaprocentní daný kvantil je 50% kvantil znamená, že právě polovina hodnot je pod hodnotou kvantilu Další užívané kvantily: 25% a 75% (dolní a horní kvartil), 10% a 90% (dolní a horní decil) 1% a 99% (dolní a horní percentil)
URČENÍ KVANTILU U mála hodnot stačí jednoduše hodnoty seřadit a vybrat z nich tu nejnižší, která splňuje podmínku daného kvantilu (% hodnot nižších nebo rovných než kvantil) U více hodnot se kvantil určí z tabulky kumulovaných relativních četností tam kde kumulovaná relativní četnost vyrovná překročí požadované procento. Je-li kumulovaná četnost rovna % kvantilu, leží ten mezi danou hodnotou a hodnotou další x i n i p i kumul p i 2 1 0,08 0,08 3 5 0,42 0,50 4 1 0,08 0,58 5 3 0,25 0,83 6 2 0,17 1