. Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch (1950)
Co se dozvíte Míry polohy, střední hodnoty. Míry variability, rozptyl a směrodatná odchylka. Střední poloha a variabilita nečíselných znaků. Normované hodnoty, míry tvaru rozdělení. Kvantily, explorační analýza dat. Lorenzova křivka, Giniho koeficient.
Číselné charakteristiky agregují informaci o statistickém znaku do několika hodnot jsou stručnější a přehlednější než výchozí data snaží se charakterizovat rozdělení hodnot znaku typy charakteristik míry polohy umístění hodnot znaku (na číselné ose) míry variability - rozptýlení hodnot kolem typické polohy míry tvaru rozdělení symetrie, koncentrace hodnot znaku 3
Míry polohy určují pomyslný střed statistického znaku (souboru) střední hodnota aritmetický průměr vyjadřuje geometrický střed (těžiště) statistického znaku na číselné ose 4
Vážený aritmetický průměr střední hodnota pro tabulku rozdělení četností počet tříd (kategorií) četnosti jednotlivých tříd jednotlivé hodnoty znaku u intervalového rozdělení četností hodnotu x i nahradíme středem třídy 5
Modus a medián x ) modus obměna znaku s nejvyšší četností, tedy hodnota, která se vyskytuje nejčastěji x% medián prostřední hodnota znaku (ve smyslu pořadí) uspořádaného podle velikosti u sudého počtu prvků souboru se medián počítá jako průměr ze dvou hodnot nejbližších středu x10 + x11 n = 1 x% = x 11 n = 0 x% = 6
Jakou střední hodnotu použít? aritmetický průměr u číselných znaků, které nevykazují extrémní hodnoty medián u číselných znaků s extrémy, u ordinálních nečíselných znaků modus u nominálních nečíselných znaků Otázka: proč aritmetický průměr není vhodnou střední hodnotou pro znak měsíční příjem zaměstnance??? 7
Příklad portfolio akcií cena akcie počet 00 Kč 3 300 Kč 5 500 Kč 1 000 Kč 1 1 500 Kč 1 průměrná cena akcie: modus (nejčetnější hodnota) 300 Kč medián: n = 1 x6 + x7 300 + 300 x% = = = 300 x 00 3 + 300 5 + 500 + 1000 1+ 1500 1 5600 = = = 3 + 5 + + 1+ 1 1 466, 67 8
Variabilita znaku variabilita určuje, jak se hodnoty znaku liší od průměru malý rozptyl velký rozptyl 9
Rozptyl populační a výběrový rozptyl - variabilita znaku v základním souboru vzorec vhodnější pro ruční výpočet výběrový rozptyl variabilita ve vzorku 10
Další ukazatele variability směrodatná odchylka průměrná odchylka od průměru (kvadratický průměr) variační koeficient použití pro znaky s nezápornými hodnotami srovnání znaků s různou velikostí hodnot obvykle se vyjadřuje v % ( x 100) 11
Příklad portfolio akcií rozptyl ceny akcie: 00 3 + 300 5 + 500 + 1000 1+ 1500 1 1 466, 67 s = = 155148 11 směrodatná odchylka: s = s = = variační koeficient: V x 155148 394 s 394 = = = 0,844 = 84, 4% x 466, 67 vysoká variabilita znamená, že střední hodnota (průměr) není dobrým reprezentantem znaku 1
Normovaná hodnota z určuje vzdálenost hodnoty znaku od střední hodnoty (v násobcích směrodatné odchylky) z > 0 z < 0 hodnota je větší než průměr hodnota je menší než průměr hodnoty z větší než 3 (menší než -3) značí extrémní hodnoty někdy se normovaná hodnota označuje též jako u 13
Míry tvaru rozdělení šikmost - vyjadřuje asymetrii rozložení hodnot znaku 1 1 1 10 10 10 8 8 8 6 4 6 4 6 4 0 1 3 4 5 6 7 0 1 3 4 5 6 7 0 1 3 4 5 6 7 α = 0 α > 0 α < 0 kladné sešikmení záporné sešikmení špičatost - vyjadřuje koncentraci hodnot znaku 1 1 1 10 10 10 8 8 8 6 6 6 4 4 4 0 1 3 4 5 6 7 0 1 3 4 5 6 7 0 1 3 4 5 6 7 β = 0 β > 0 β < 0 špičaté rozdělení ploché rozdělení 14
Příklad portfolio akcií cena akcie počet z 00 Kč 3-0,68 300 Kč 5-0,4 500 Kč 0,08 1 000 Kč 1 1,35 1 500 Kč 1,6 šikmost: 3 3 3 3 3 ( 0,68) 3 + ( 0,4) 5 + 0,08 + 1,35 1+,6 1 α = = 1,59 1 kladné sešikmení vyšší koncentrace menších hodnot 15
Příklad portfolio akcií špičatost: 4 4 4 4 4 ( 0,68) 3 + ( 0,4) 5 + 0,08 + 1,35 1+,6 1 3 1, 7 β = = 1 kladná špičatost vyšší koncentrace hodnot kolem průměru 6 5 4 3 1 0 00-300 400-500 600-700 800-900 1000-1100 100-1300 1400-1500 16
Kvantily kvantil hodnota, která rozdělí statistický soubor na dvě části s danými relativními četnostmi p% kvantil x p% odděluje p% nejnižších hodnot od zbytku souboru p % (100 p) % x min x p% x max medián x 50% = x 0,5 kvartily x 5% x 50% x 75% decily x 10% x 0% x 90% percentily x 1% x % x 99% 17
Jak určit kvantil z p% pořadí kvantilu v rámci souboru Příklad: Soubor o velikosti n = 1 má polohy kvartilů: z 5% 1 5 = + 0,5 = 3,5 z50% 100 1 50 = + 0,5 = 6,5 z75% 100 1 75 = + 0,5 = 9,5 100 průměr ze 3. a 4. hodnoty znaku 18
Explorační analýza dat (EAD) box plot (with whiskers) = vousatá krabička 19
Využití EAD porovnání rozložení dvou znaků porovnání rozložení znaku kategorizovaného podle jiného znaku 0
Příklad portfolio akcií kvartily: z z z = 3,5 x 00 + 300 = = 50 = 6,5 x 300 + 300 = = 300 = 9,5 x 500 + 500 = = 500 5% 5% 50% 50% 75% 75% IQR = x x = 500 50 = 50 75% 5% LCL = x 1,5 IQR = 50 375 = 15 5% UCL = x + 1,5 IQR = 500 + 375 = 875 75% 0 00 400 600 800 1000 100 1400 1600 1
Lorenzova křivka grafické znázornění koncentrace hodnot znaku kumulativní součty sledova ané proměnné 100% 0 100% kumulativní četnosti počtu jednotek
Giniho koeficient koeficient koncentrace z Lorenzovy křivky G = 0 G 1 rovnoměrné rozdělení koncentrace do jedné kategorie kp i kumulativní relativní četnost (ne v %) 3
Příklad portfolio akcií x i x i+1 -x i n i p i kp i 1-kp i CIT 00 100 3 0,50 0,50 0,750 18,75 300 00 5 0,417 0,667 0,333 44,4 500 500 0,167 0,833 0,167 69,56 1000 500 1 0,083 0,917 0,083 38,06 1500 x 1 0,083 1,000 0,000 S = 170,8 Giniho koeficient: 170,8 G = = 466,6 0,37 Poměrně vysoká hodnota G velká nerovnoměrnost rozložení cen akcií 4
Příště se dozvíte 3.1 Základy teorie pravděpodobnosti Náhodný pokus a náhodný jev. Pravděpodobnost, počítání s pravděpodobnostmi. Podmíněná a úplná pravděpodobnost, Bayesova věta. Rozhodovací stromy. 5