Analýza dat v ekonomii



Podobné dokumenty
Statistika pro geografy

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Základní statistické charakteristiky

Popisná statistika. Statistika pro sociology

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.


Číselné charakteristiky

Analýza dat na PC I.

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Praktická statistika. Petr Ponížil Eva Kutálková

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

23. Matematická statistika

Zápočtová práce STATISTIKA I

Číselné charakteristiky a jejich výpočet

Mnohorozměrná statistická data

7. Rozdělení pravděpodobnosti ve statistice

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Náhodná veličina a rozdělení pravděpodobnosti

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Základy pravděpodobnosti a statistiky. Popisná statistika

Základy popisné statistiky

Základní statistické pojmy

Mnohorozměrná statistická data

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Základy biostatistiky

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Metodologie pro ISK II

Předmět studia: Ekonomická statistika a analytické metody I, II

Renáta Bednárová STATISTIKA PRO EKONOMY

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

STATISTICKÉ CHARAKTERISTIKY

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Charakteristika datového souboru

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

Vybraná rozdělení náhodné veličiny

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Pojem a úkoly statistiky

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Popisná statistika kvantitativní veličiny

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Statistika I (KMI/PSTAT)

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

KGG/STG Statistika pro geografy

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Informační technologie a statistika 1

Popisná statistika. Komentované řešení pomocí MS Excel

Vybrané statistické metody. You created this PDF from an application that is not licensed to print to novapdf printer (

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

MATEMATIKA III V PŘÍKLADECH

I. D i s k r é t n í r o z d ě l e n í

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

p(x) = P (X = x), x R,

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Statistika pro gymnázia

Jevy a náhodná veličina

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Pravděpodobnost a aplikovaná statistika

Diskrétní náhodná veličina

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Metodologie pro Informační studia a knihovnictví 2

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Pravděpodobnost a statistika

Chyby měření 210DPSM

Tomáš Karel LS 2012/2013

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Charakterizace rozdělení

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Výběrové charakteristiky a jejich rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Kontingenční tabulky v Excelu. Představení programu Statistica

STATISTICKÉ METODY. (kombinovaná forma, 8.4., ) Matěj Bulant, Ph.D., VŠEM

Základy popisné statistiky

Statistika. zpracování statistického souboru

Metodologie pro Informační studia a knihovnictví 2

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1.

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Téma 22. Ondřej Nývlt

Transkript:

Vysoká škola ekonomie a managementu Ekonomický institut VŠEM Analýza dat v ekonomii (dříve Statistické metody a demografie) Mgr. Milena Opletalová, VŠEM milena.opletalova@vsem.cz Na základě materiálů Matěje Bulanta, Ph.D.

Probíraná témata 9.01. Popisná statistika (1. část) 16.01. Popisná statistika (2. část) 23.01. Teorie odhadu, Časové řady 29.01. Indení analýza, Úvod do demografie

Popisná statistika Obecný úvod Základní statistické pojmy Grafické znázornění dat Statistické šetření Tabulky četností Souhrnné charakteristiky

Data, informace, znalosti

Jak porozumět datům Data analyzujeme abychom z nich získali informace. Pomůže: znát odkud se data vzala (zdroj/původ) znát co to je za data (jejich význam) přesně vědět čeho musím dosáhnout znalosti + zkušenosti

Historický vývoj 2000 let před n.l. Čína popis státu 17. st. sir William Petty a John Graunt - Politická aritmetika 18. st. Gottfried Achenwall, Edmond Halley - Světská úřední statistika 19. st. Adolphe Quételet, Karl Pearson, Karl F. Gauss - Matematická statistika, normální rozdělení, průměr, pravděpodobnost 20. st. akademik Čěbyšev, Aleandr Ljapunov, Andrej Kolmogorov - Moderní statistka, induktivní statistika a statistická analýza, teorie věrohodnosti

Normální rozdělení Čím více náhodných vzájemně nezávislých jevů sčítáme, tím více se bude výsledné rozdělení blížit normálnímu. 2 0 = 1 kombinace 2 1 = 2 kombinace 2 2 = 4 kombinace 2 3 = 8 kombinací 2 4 = 16 kombinací Obr.1 Zdroj: http://en.wikipedia.org/wiki/bean_machine

Vývoj moderní statistiky První vnímání nejistoty Statistiky hazardních her Kombinatorika Pascal, Newton, J. Bernoulli, Euler Proces návratu k průměru Sir Francis Galton (1822 1911) Směrodatná odchylka, otisky prstů, eugenismus Riziko a nejistota Frank H. Knight (1885 1972) Riziko Náhoda se známými pravděpodobnostmi Nejistota Náhoda s neznámými pravděpodobnostmi nejistota statistická - způsobena náhodou, je tedy nepředvídatelná nejistota systematická - způsobena naší neznalostí nebo nedostatkem/ nepřesností informací.

Základní definice 1 Hromadné jevy a procesy - jevy a procesy vyskytují se u velkého množství prvků. Statistická jednotka popisovaný prvek souboru, u něhož jsou sledované různé vlastnosti Statistický znak /proměnná/ zachycuje určitou vlastnost statistické jednotky. Hodnota statistického znaku ( pozorování) - míra dané vlastnosti (statistického znaku) u každé jednotky statistického souboru.! Počet hodnot (pozorování) = rozsah souboru. Obměna ( varianta) statistického znaku - hodnota ve smyslu vyjádření různého stupně dané vlastnosti.! Počet variant rozsah souboru.

Základní definice 2 Statistický soubor soubor, vytvořený ze statistických jednotek, u nichž se sleduji stejné statistické znaky. základní soubor (populace) soubor všech statistských prvků daných výčtem, nebo vymezením některých společných vlastností. výběrový soubor část jednotek základního souboru Rozsah souboru počet statistických jednotek ve statistickém souboru. Bývá označován písmenem n.

Základní definice 3 Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter Číselné údaje o hromadných jevech Praktická činnost spočívající ve sběru, zpracování a vyhodnocování statistických údajů. Teoretická disciplína, která se zabývá metodami sloužícími k popisu a odhalování zákonitostí při působení podstatných, relativně stálých činitelů na hromadné jevy.

Klasifikace statistických znaků Statistické znaky Kvantitativní - číselná Kvalitativní kategoriální Diskrétní - celočíselná Spojité - libovolné hodnoty z intervalu Nominální - slovní Ordinální - pořadové Obr. 2 Zdroj: Hindls, R., Hronová, S.,Seger, J., Statistika pro ekonomy, Professional Publishing, Praha, 2007

Klasifikace statistických znaků Kvantitativní - nabývají číselných hodnot (hmotnost, délka, pevnost, cena, doba, životnost) Diskrétní - nabývají pouze oddělených číselných hodnot (počet vad, kusová produkce apod.) Spojité - nabývají všech hodnot z nějakého intervalu reálných čísel (rozměr výrobku, doba do poruchy, cenový inde apod.) Kvalitativní /kategoriální/ - většinou slovní, používá se kódování Nominální /slovní/ - nelze uspořádat dle stupně vlastnosti, hodnoty jsou buď jen stejné nebo rozdílné Ordinální /pořadová/ - lze seřadit, nelze říci o kolík se liší Dichotomická /alternativní/ - ano/ne

Statistické zjišťování /šetření/ - získávání hodnot proměnných u statistických jednotek, které tvoří statistický soubor Etapy statistického zjišťování: Příprava statistického šetření co, kdo, kdy a jakým způsobem bude měřit rozhodný okamžik přímé zjišťování, výkaz, rozhovor, dotazník Provedení statistického šetření Statistické zpracování zjištěných údajů /dat/ - souhrny, tabulky četnosti, grafy Statistické vyhodnocování /analýza/ Publikace výsledků, prezentace

Příklad výkazu Zdroj: archiv MŠMT, www.uiv.cz

Vzor publikace statistické ročenky Obr.3 Zdroj: archiv MŠMT, www.uiv.cz

Statistické grafy, vizualizace dat Obr.4 Zdroj: http://www.obt-volgograd.ru/product/bars_upr_region1/

Nezamšstnanost v % Statistické grafy Porovnání nezaměstnanosti ve Středočeském a Ústeckém kraji 19,00 18,00 17,00 16,00 15,00 14,00 13,00 12,00 11,00 10,00 9,00 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 0,00 199 0 199 1 199 2 199 3 199 4 199 5 199 6 199 7 199 8 Česká republika 0,66 4,13 2,57 3,52 3,19 2,93 3,52 5,23 7,48 9,37 8,78 8,90 9,81 10,3 9,47 8,88 7,67 5,98 5,96 9,24 9,57 Středočeský 0,65 4,86 3,37 3,98 2,86 2,57 2,98 4,62 6,06 7,46 6,80 6,76 7,21 7,43 6,85 6,25 5,32 4,25 4,47 7,01 7,73 Ústecký 0,67 4,47 3,58 5,23 5,24 5,79 7,05 10,0 13,1 15,9 16,1 15,8 17,1 17,9 15,8 15,4 13,7 10,9 10,2 13,6 13,9 199 9 200 0 200 1 200 2 200 3 200 4 200 5 200 6 200 7 200 8 200 9 201 0

Statistické grafy, vizualizace dat Spojnicové a sloupkové grafy Polygon četností (spojnicový graf) vhodné zobrazení při srovnávání struktury různých souborů. Sloupcový graf Obr.5 Zdroj: Finanční analýza podnikové sféry za rok 2010, http://www.mpo.cz/dokument89407.html

% celkové populace Statistické grafy, sloupcový graf 40 Vývoj podílu obézních mužů a žen na celkové populaci ČR 35 30 25 17,5 20 15 12,3 12,1 13,6 16,1 Obézní ženy Obézní muži 10 5 10,4 10,4 15 13,4 17,4 0 1993 1996 1999 2002 2008

Statistické grafy, vizualizace dat Histogram rozdělení četností vhodný pro znázornění spojitých proměnných (intervalové rozdělení četností) Obr.6 Zdroj:http://upload.wikimedia.org/wikipedia/commons/f/f7/Population_pyramid_CZE_2007rel.png

Statistické grafy, vizualizace dat Bodové grafy - slouží ke znázornění závislostí mezi dvěma kvantitativními znaky (nebo průběhové časové řady) Vzor bodového grafu ze stránky Microsoft Obr.7 Zdroj: http://technet.microsoft.com/cs-cz/library/dd207047.asp

Statistické grafy, vizualizace dat Výsečové grafy Vzor výsečového grafu ze stránky Microsoft Obr.8 Zdroj: http://technet.microsoft.com/cs-cz/library/dd220426

Statistické grafy, výsečový graf Podíl využití jednotlivých verzí Android Ice Cream Sandwich 26% Jelly Bean 3% Honeycomb 2% Gingerbread 54% Froyo 12% Eclair 3% Другой 2% Cupcake 0% Donut 0%

Statistické grafy, vizualizace dat Krabicový graf slouží k zakreslení základních výběrových charakteristik kvantitativní proměnné, v jednom obrázku poskytuje informaci o maimální a minimální hodnotě v souboru naměřených hodnot, o mediánu a horním a dolním kvartilu tohoto souboru atd. Příklad: Porovnáme statistické údaje hmotnosti 10. kaprů v jedné kádi i = {1.4; 0.8; 1.2; 1.6; 2.3; 1.3; 1.3; 0.9; 1.5; 2.1} Obr.9 Zdroj: http://vydavatelstvi.vscht.cz/knihy/uid_isbn-80-7080-569-2/pdf/012.pdf

Statistické grafy, vizualizace dat Tornádo a Pavoučí grafy (Spider analýza) Obr.10 Zdroj: Ing. Ondřej Nowak, prezentace k přednášce Analýza rizika a finanční modelování, KPE FPH VŠE, 2011

Statistické grafy, spider-graf Solvency ratio (%) Liquidity ratio Return on shareholders funds (%) ROE 50,00 40,00 30,00 20,00 10,00 0,00-10,00-20,00-30,00-40,00 Return on capital employed (%) ROIC Return on total assets (%) ROA VOLKSWAGEN General Motors DAIMLER AG BAYERISCHE MOTOREN WERKE Peugeot S.A. Current ratio () Profit margin (%) EAT/Sales ROS EAT RENAULT ŠKODA Auto a.s. /součástí VW/ Interest cover () EBIT Margin (%) EBIT/Sales Net assets turnover

Úhrn srážek v mm Průměrná teplota v C Statistické grafy, histogram 120 100 80 Průměrná teplota a srážky v ČR 20 18 16 14 12 60 10 8 40 20 0 29 29 35 49 77 86 88 69 59 41 43 37 6 4 2 0-2 Srážky Průměrná teplota

Statistické grafy, vizualizace dat 14 Výroba motorů a plán výroby 12 10 8 6 4 2 0 37 38 39 40 41 42 43 44 Above Plan Below Plan Engine Input Plan

Statistické grafy, dashboard I&I 0.6 0.8 0.9 0.5 1.1 0.3 0.2 0 0.4 1.2 1.4 1.5 150 100 50 0 Turn-Around Time 2324252627282930313233343536373839 Customer OTD Delinquent Engines 100% 8 6 50% 4 2 0% 0 23 25 27 29 31 33 35 37 39 CFM TAT GE90 TAT Delinquent Engines OTD $280 000 $80 000 -$120 000 Inventory (tis $) 23 25 27 29 31 33 35 37 39 Inventory 12 10 8 6 4 2 0 Engine Inputs 23 25 27 29 31 33 35 37 39 100% 50% FTY 160 Revenue QTD ($MM) 320 400 480 240 560 640 33 OCPH YTD ($ per hr) 49.5 66 82.5 99 115.5 132 0% 80 0 236 720 800 16.5 0 96. 148.5 165 H80 FTY M601 FTY

Základní pojmy, příklady Př.1 n i1 i

Základní pojmy, příklady Př.1 n i 1 2 3... n i1

Základní pojmy, příklady Př.1 n i 1 2 3... n i1 5 i 1 2 3 4 5 i1

Základní pojmy, příklady Př.1 n n i i... 3 2 1 1 5 4 3 2 1 5 1 i i 8 7 6 5 4 3 8 3 i i

Základní pojmy, příklady Př.1 n n i i... 3 2 1 1 5 4 3 2 1 5 1 i i 8 7 6 5 4 3 8 3 i i 1 2 3 4 5 6 7 8 9 25 24 18 17 22 25 18 19 25 i

Základní pojmy, příklady Př.1 n n i i... 3 2 1 1 5 4 3 2 1 5 1 i i 8 7 6 5 4 3 8 3 i i 1 2 3 4 5 6 7 8 9 25 24 18 17 22 25 18 19 25 i 5 1 i i 8 3 i i

Základní pojmy, příklady Př.1 n n i i... 3 2 1 1 5 4 3 2 1 5 1 i i 8 7 6 5 4 3 8 3 i i 1 2 3 4 5 6 7 8 9 25 24 18 17 22 25 18 19 25 i 5 1 i i 8 3 i i 106

Základní pojmy, příklady Př.1 n n i i... 3 2 1 1 5 4 3 2 1 5 1 i i 8 7 6 5 4 3 8 3 i i 1 2 3 4 5 6 7 8 9 25 24 18 17 22 25 18 19 25 i 5 1 i i 8 3 i i 106 119

Př.2

Rozdělení četností Tab 1.1 Rozdělení četností, pravidlo Varianta Četnost Kumulativní četnost znaku X i Absolutní n i Relativní p i Absolutní Relativní 1 n 1 p 1 n 1 p 1 2 k n 2 n k p 2 p k n 1 +n 2 p 1 +p 2 k k Celkem ni n pi 1 i1 i1 k i1 ni n k i1 pi 1 Podává informaci o počtu (četnosti) výskytu jednotlivých variant znaku v souboru Absolutní/relativní četnosti ni k pi k n pi i i1 i1 k i1 ni n 1 n k n i1 i 1 n n 1

Rozdělení četností, příklad Př. 1.1 Z personálního oddělení průmyslového podniku jsme získali údaje o zařazení do tarifních tříd v souboru 75 pracovníků. Údaje jsou v tabulce 1.2 Zdroj: Hindls, R., Hronová, S.,Seger, J., Statistika pro ekonomy, Professional Publishing, Praha, 2007

Rozdělení četností, příklad

Rozdělení četností, příklad

Příklady Zdroj: Jarošová, E.,Marek, L., Statistika pro ekonomy, II vydání, 2007

a) Typ domácnosti Varianta znaku Z Četnost Absolutní n i Relativní p i Celkem

a) Typ domácnosti Varianta znaku Z Četnost Absolutní n i Relativní p i Zaměstnanecká jiná 13 18 0,42 0,58 Celkem 31 1,00

b) Počet členů domácnosti Varianta znaku Četnost Kumulativní četnost Absolutní n i Relativní p i Absolutní Relativní 1 2 3 4 5 6 Celkem

b) Počet členů domácnosti Varianta znaku Četnost Kumulativní četnost Absolutní n i Relativní p i Absolutní Relativní 1 3 0,0968 3 0,0968 2 6 0,1935 9 0,2903 3 4 0,1290 13 0,4194 4 10 0,3226 23 0,7419 5 5 0,1613 28 0,9032 6 3 0,0968 31 1,000 Celkem 31 1,0000

c) Měsíční výdaje domácnosti za potraviny Interval pro měsíční výdaje za potraviny Četnost Kumulativní četnost Absolutní n i Relativní p i Absolutní Relativní 3000 a méně 3001 4000 4001 5000 5001 6000 6001 7000 7001 8000 8001 a více Celkem

c) Měsíční výdaje domácnosti za potraviny Interval pro měsíční výdaje za potraviny Četnost Kumulativní četnost Absolutní n i Relativní p i Absolutní Relativní 3000 a méně 3 0,0968 3 0,0968 3001 4000 5 0,1613 8 0,2581 4001 5000 6 0,1935 14 0,4516 5001 6000 5 0,1613 19 0,6129 6001 7000 8 0,2581 27 0,8710 7001 8000 2 0,0645 29 0,9355 8001 a více 2 0,0645 31 1,0000 Celkem 31 1,0000

Souhrnné charakteristiky Problém s průměry Obr.11 Zdroj: SAVAGE, S. L.; DANZIGER, J.: The Flaw of Averages: Why We Underestimate Risk in the Face of Uncertainty. New York : John Wiley & Sons, 2009

Souhrnné charakteristiky Potíže, které má mnoho inteligentních lidí se sčítáním, jsou nekonečné. M. Greenwood Míry polohy určují typické rozložení hodnot souboru Střední hodnoty Kvantily Míry variability určují variabilitu (rozptyl) hodnot kolem své typické hodnoty Šikmost Špičatost Absolutní Relativní

Četnost Histogram Graf četností Četnost jednotlivých hodnot Četnost intervalu hodnot Histogram 6 5 5 4 4 3 2 2 1 1 0 1 2 3 4 Hodnota

Souhrnné charakteristiky Příklad Rozdělení chlapců ve věku 9,5-10 let podle tělesné výšky (délka třídního intervalu 5 cm) Střed třídy i Absolutní četnost n i Relativní četnost n i /n Kumulativní absolutní četnost Kumulativní relativní četnost 120 13 0,0040 13 0,0040 125 95 0,0294 108 0,0334 130 414 0,1281 522 0,1615 135 880 0,2724 1402 0,4339 140 1013 0,3135 2415 0,7474 145 582 0,1801 2997 0,9275 150 199 0,0616 3196 0,9891 155 29 0,0090 3225 0,9981 160 6 0,0019 3231 1,0000 Celkem 3231 1,0000 - -

Souhrnné charakteristiky Histogram výběrového rozdělení tělesné výšky 3231 chlapců ve věku 9,5-10 let (délka třídního intervalu 5 cm) a teoretická hustota normálního rozdělení

Souhrnné charakteristiky Míry polohy Aritmetický průměr - součet hodnot dělený jejich počtem. Průměr (aritmetický průměr) používáme, když čísla můžeme opravdu sčítat, tj. znaky jsou kvantitativní, měřené na číselné stupnici. X k k i i i 1 i1 X k n prostý tvar i1 * n n i i vážený tvar X k i1 * i pi Příklad: Vypočtěte průměr následujících výsledků vyšetření: 39, 42, 73, 67, 24, 55.

Souhrnné charakteristiky Míry polohy Aritmetický průměr - součet hodnot dělený jejich počtem. Průměr (aritmetický průměr) používáme, když čísla můžeme opravdu sčítat, tj. znaky jsou kvantitativní, měřené na číselné stupnici. X k k i i i 1 i1 X k n prostý tvar i1 * n n i i vážený tvar X k i1 * i pi Příklad 1: Vypočtěte průměr následujících výsledků vyšetření: 39, 42, 73, 67, 24, 55. Řešení: Součet pozorování je 300. Počet pozorování je 6. Průměrem je podíl 300/6 = 50.

Souhrnné charakteristiky k i i k i i i n n X 1 1 * Příklad 2: Rozdělení chlapců ve věku 9,5-10 let. Aritmetický průměr vážený pro n = 3231, k = 9 a 447570 * 1 k i i ni Míry polohy

Souhrnné charakteristiky Míry polohy Příklad 2: Rozdělení chlapců ve věku 9,5-10 let. Aritmetický průměr vážený pro n = 3231, k = 9 a k i1 * i ni 447570 X k i1 i * n 447570 3231 i1 k n i i 138,52

Souhrnné charakteristiky Míry polohy Geometrický průměr - n-tá odmocnina ze součinu kladných hodnot. Využívá se k výpočtu průměrného růstu k ni n n n X G n i 1 2 1 * 2*... * i1 prostý tvar nk k n n X G n i 1* 2*... * i1 vážený tvar n Příklad 3: Spočtěte geometrický průměr z následujících pěti hodnot: 4, 8, 16, 16 a 64 5 4*8*16*16* 64 a) 5 aritm.průměr 21,6

Souhrnné charakteristiky Míry polohy Geometrický průměr - n-tá odmocnina ze součinu kladných hodnot. Využívá se k výpočtu průměrného růstu k ni n n n X G n i 1 2 1 * 2*... * i1 prostý tvar nk k n n X G n i 1* 2*... * i1 vážený tvar n Příklad 3: Spočtěte geometrický průměr z následujících pěti hodnot: 4, 8, 16, 16 a 64 5 5 4*8*16*16*64 524288 13,929 n 1 log X * log n a) aritm.průměr 21,6 G i b) Zjednodušení postupu:, logaritmus geometrického průměru je roven průměru zlogaritmovaných pozorování. Zlogaritmováním zjištěných hodnot dostaneme čísla 0,60, 0,90, 1,20, 1,20 a 1,81. Jejich aritmetický průměr je 1,142., 10 142 1 Odlogaritmováním této hodnoty dostaneme hodnotu geometrického průměru jako 13,9. i1 13,9

Souhrnné charakteristiky Harmonický průměr - počet hodnot proměnné dělený součtem jednotlivých obrácených hodnot. Hodnota, obracená aritmetickému průměru obracených hodnot původních dat. Využití v případech, kdy pracujeme s proměnnou vyjadřující relativní změny (např. průměrná rychlost, průměrná délka potřebná ke splnění určitého úkonu). X Míry polohy H k i1 n 1 i prostý tvar X H k i1 1 p i i vážený tvar Příklad 3: Spočtěte harmonický průměr z následujících pěti hodnot: 4, 8, 16, 16 a 64 X H k i1 k i1 n i n i i XH 1 4 1 8 5 1 16 1 16 1 64 9,69

Souhrnné charakteristiky Míry polohy X Modus - nejčastěji se vyskytující kategorie sledované proměnné ve vztahu k nejbližšímu okolí Příklad 4: Co je modus v následujících výsledcích zjišťování krevních skupin: A, 0, 0, B, B, AB, A, A, 0, 0, 0, AB, B, 0, B, A, 0, AB, 0, 0, B, 0, A? krevní skupina A B AB 0 četnost výskytu

Souhrnné charakteristiky Míry polohy X Modus - nejčastěji se vyskytující kategorie sledované proměnné ve vztahu k nejbližšímu okolí Příklad 4: Co je modus v následujících výsledcích zjišťování krevních skupin: A, 0, 0, B, B, AB, A, A, 0, 0, 0, AB, B, 0, B, A, 0, AB, 0, 0, B, 0, A? krevní skupina A 5 B 5 AB 3 četnost výskytu 0 10

Medián Souhrnné charakteristiky Míry polohy X ~ Máme-li pozorování uspořádána vzestupně nebo sestupně, potom medián je ta hodnota, která rozdělí pozorování na dvě stejně velké skupiny. Přesněji řečeno, máme-li lichý počet uspořádaných pozorování, pak mediánem je prostřední z nich. U sudého počtu se mediánem rozumí obvykle průměr ze dvou prostředních pozorování. Medián využívá pouze informaci o pořadí hodnot, a proto ho má smysl používat pouze pro kvantitativní a ordinální veličiny. Příklad 5: Co je mediánem následujících výsledků vyšetření: 61, 49, 35, 74, 53, 82? Řešení: Uspořádejme pozorování vzestupně: 35, 49, 53, 61, 74, 82. Mediánem je průměr z hodnot 53 a 61, tj. (53 + 61)/2 = 57

Souhrnné charakteristiky Míry polohy p-procentní kvantil Určení pořadí jednotky 1) Datový soubor uspořádáme vzestupně podle velikosti 2) Seřazeným pozorováním přiřadíme pořadí od 1 do n 3) p%-ní kvantil je potom roven pozorování s pořadím zp n p p * Zp n* 1 X ~ 100 100 pojmenované kvantily kvartily (25%, 50% a 75% kvantily) decily (10%, 20%,..., 90% kvantily) percentily (1%, 2%,..., 99% kvantily)

Souhrnné charakteristiky Příklad 6: Porovnáme statistické údaje hmotnosti 10. kaprů v jedné kádi i = {1.4; 0.8; 1.2; 1.6; 2.3; 1.3; 1.3; 0.9; 1.5; 2.1} Medián hmotnosti kapru je Konce dolního a horního fousu jsou (nejmenší hodnota vůbec) Největší hodnota Aritmetický průměr Kvartily jsou Mezikvartilové rozpětí Zdroj: http://vydavatelstvi.vscht.cz/knihy/uid_isbn-80-7080-569-2/pdf/012.pdf

Souhrnné charakteristiky Příklad: Porovnáme statistické údaje hmotnosti 10. kaprů v jedné kádi i = {1.4; 0.8; 1.2; 1.6; 2.3; 1.3; 1.3; 0.9; 1.5; 2.1} Medián hmotnosti kapru je 1,35 Konce dolního a horního fousu jsou (nejmenší a největší hodnota) 0,8 a 2,1 Největší hodnota 2,3 odlehlá Aritmetický průměr 1,4 Kvartily jsou 1,2 a 1,6 Mezikvartilové rozpětí 0,4 Zdroj: http://vydavatelstvi.vscht.cz/knihy/uid_isbn-80-7080-569-2/pdf/012.pdf

Souhrnné charakteristiky Míry variability Absolutní míry variability Variační rozpětí R - rozdíl největší a nejmenší hodnoty znaku R X ma X min Rozptyl - průměr čtverců odchylek jednotlivých hodnot znaku od jeho aritmetického průměru S 2 X n ( i1 i n ) 2 prostý tvar

Souhrnné charakteristiky Míry variability Absolutní míry variability - rozptyl k i i n i i i n n S 1 1 2 2 * ) ( vážený tvar k i i k i i i k i i n i i i n n n n S 1 1 1 1 2 2 2 2 * * Míry variability Souhrnné charakteristiky Míry variability Souhrnné charakteristiky Míry variability

Souhrnné charakteristiky Míry variability Absolutní míry variability Směrodatná odchylka - druhá odmocnina z rozptylu. Uvedena ve stejných jednotkách jako zkoumaný statistický znak. S S 2

Souhrnné charakteristiky Míry variability Relativní míry variability Variační koeficient - podíl směrodatné odchylky a aritmetického průměru sledované proměnné. V S Bezrozměrný, vyjadřuje relativní míru variability. Pro porovnání variability proměnných vyjádřených v různých jednotkách

Souhrnné charakteristiky Příklad Zdroj: Simulační nástroj Profeta Risk Analyzer

Souhrnné charakteristiky Příklad Navštívili jsme dvě restaurace a sledovali počet objednaných jídel v průběhu stejného časového úseku. V první restauraci bylo objednáno během pěti hodin: 1,1,2,1,10 a ve druhé: 2,4,3,4,2. Pro každou restauraci spočítejte následující míry: 1. Průměr 2. Medián 3. Rozptyl 4. Variační rozpětí 5. Variační koeficient Výsledky porovnejte a interpretujte

Souhrnné charakteristiky Výsledky 1

Souhrnné charakteristiky Výsledky 2

Souhrnné charakteristiky Rozklad rozptylu Máme-li datový soubor, který je rozdělen na skupiny a jsou-li zadané skupinové četnosti, skupinové průměry a skupinové rozptyly, počítáme celkový rozptyl pomocí rozkladu rozptylu na meziskupinovou a vnitroskupinovou variabilitu.

Souhrnné charakteristiky Rozklad rozptylu - vzorec Pokud máme statistický soubor o n jednotek rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly, dílčí průměry a dílčí četnosti, potom rozptyl celého souboru je dán součtem rozptylu skupinových průměrů a průměrů ze skupinových rozptylů.

Souhrnné charakteristiky Rozklad rozptylu - příklad Dvě restaurace nabízejí v rámci polední nabídky hotová jídla. Restaurace číslo 1 prodala za měsíc 2000 hotových jídel, za průměrnou cenu 75 Kč, cena má směrodatnou odchylku 5. Restaurace číslo 2 prodala za měsíc 1500 hotových jídel za průměrnou cenu 85 Kč, cena má směrodatnou odchylku 10 Kč. Jaký je variační koeficient ceny hotových jídel za obě cukrárny? Zajímá nás, jak variabilita ceny hotových jídel kolísá během měsíce.

Souhrnné charakteristiky Rozklad rozptylu příklad Výsledky

Souhrnné charakteristiky Rozklad rozptylu - příklad

Souhrnné charakteristiky Šikmost a špičatost Charakteristika šikmosti popisuje soubor hodnot sledované proměnné z hlediska koncentrace malých a velkých hodnot sledované proměnné v porovnání se symetrickým rozdělením četností. a) Pokud je koeficient šikmosti kladný = větší koncentrace malých hodnot v souboru. b) Pokud je koeficient šikmosti záporný = větší koncentrace velkých hodnot v souboru. c) Pokud je koeficient šikmosti roven nule = rozdělení hodnot je symetrické. Zdroj: Mandelbrot, B. a Richard, L. H.: The Misbehavior of Markets: A Fractal View of Financial Turbulence. Basic Books, 2006.

Popisná statistika v Ecelu Každá funkce v Ecelu má své klíčové slovo. Průvodce funkcí (tlačítko f na začátku stavového řádku). Je třeba zadat do závorky z čeho má být příslušná funkce počítána. Funkce pro popisnou statistiku Rozsah souboru Aritmetický průměr Harmonický průměr Geometrický průměr Modus Medián POPISNÁ CHARAKTERISTIKA NÁZEV FUNKCE V EXCELU =POČET =PRŮMĚR =HARMEAN =GEOMEAN =MODE =MEDIAN 25 % kvartil =PERCENTIL Součet hodnot Rozptyl Výběrový rozptyl Směrodatná odchylka Výběrová směrodatná odchylka Maimum Minimum Šikmost Špičatost =SUMA =VAR =VAR.VÝBĚR =SMODCH =SMODCH.VÝBĚR =MAX =MIN =SKEW =KURT

Souhrnné charakteristiky Šikmost a špičatost Charakteristika špičatosti popisuje soubor hodnot sledované proměnné z hlediska koncentrace hodnot v souboru kolem střední hodnoty (v porovnání s tzv. Gaussovou křivkou). Čím je hodnota koeficientu špičatosti vyšší, tím je rozdělení četností strmější a v souboru je vyšší koncentrace hodnot blízkých střední hodnotě. Zdroj: Mandelbrot, B. a Richard, L. H.: The Misbehavior of Markets: A Fractal View of Financial Turbulence. Basic Books, 2006.

Vlastností aritmetického průměru n 1. i=1 i = 0 2. k = k 3. k = k 4. + k = +k n 2 n 5. i=1 i < i=1 i a 2 6. ± y = ± y 7. H G

Výpočet váženého aritmetického průměru Příklad 1.1 Tarifní třída dělníků i n í 6 44 95 162 112 419 = 419 75 = 5,6

Grafy Polygon rozdělení četností

Kvantily Kvantil hodnota, která rozděluje soubor hodnot statistických znaků na 2 části, p % hodnot menších nebo rovných hodnotě p% kvantilu a (100-p) % větších p% kvantilu. Hodnoty menší, než ta, co leží na kvantilu, tvoří stanovenou část rozsahu souboru. Zp pořadové číslo jednotky p p n* Zp n* 1 100 100

Příklady Kvantily Příklad 1.1 Počet odpracovaných hodin, n=75 pracovníků. 25% kvantil 0,25 : 75 25 100 < Z p < 75 25 100 + 1 18,75 < Zp < 19,75 Zp = 19 = 0,25 leží v intervalu 160-180, střed 170

Výpočet kvantilu na intervalovém rozdělení četnosti p = z p n 1 n 2 h p + a p, Z p = n p + 0,5 Zp pořadové číslo jednotky, jejíž hodnota bude hledaný kvantil. n rozsah souboru p relativní četnost hodnot n 1 kumulativní četnost jednotek ležících před kvantilovým intervalem n 2 četnost intervalu, v němž leží hledaný kvantil hp délka kvantilového intervalu ap dolní hranici kvantilového intervalu

Interval pro měsíční výdaje za potraviny Výpočet mediánu na intervalovém rozdělení četnosti c) Měsíční výdaje domácností za potraviny Četnost Kumulativní četnost Absolutní n i Relativní p i Absolutní Relativní 3000 a méně 3001 4000 4001 5000 5001 6000 6001 7000 7001 8000 8001 a více 3 5 6 5 8 2 2 0,0968 0,1613 0,1935 0,1613 0,2581 0,0645 0,0645 3 8 14 19 27 29 31 0,0968 0,2581 0,4516 0,6129 0,8710 0,9355 1,0000 Celkem 31 1,0000 Z 0,25 = 31 0,25 + 0,5 = 8,25 0,25 = 8,25 3 5 1000 + 3001 = 4051 Z 0,5 = 31 0,5 + 0,5 = 16 = 16 14 1000 + 5001 =5401 5

Míry absolutní variability Rozptyl Míra variability, která současně měří variabilitu kolem aritmetického průměru a variabilitu přes vzájemné odchylky jednotlivých hodnot znaků je rozptyl. Rozptyl průměr čtverců odchylek jednotlivých hodnot od jejích aritmetického průměru.

S 2 = Výpočet rozptylu n i=1 i 2 n n i=1 2 i = n i 2 1. S 2 = i 2 - základní tvar, definice n i=1 2 i=1 i + n 2 Výpočtové tvary rozptylu i n n 2. S 2 = i 2 n 2 3. S 2 = 1 n n 2 = 2 2 i 2 1 n i 2

Výpočet rozptylu příklad V tabulce jsou údaje o tydenních mzdách ve dvou dílnách. Prorvnáme variabilitu v obou dílnách výpočtem rozptylu ve tvaru (1)

S 2 = 100220862 12 S 2 = 112820518 12 34246 12 36500 12 2 = 207375,708 I dílna 2 = 149971,694 II dílna S 2 I > S 2 II Směrodatná odchylka S = S 2 = n i=1 i 2 n S1= 207375 = 455,4 S2= 149971 = 387,3

Výpočet rozptylu ve váženém tvaru S 2 = 5407 33 359 33 = 45,5

Vlastnosti rozptylu 1. S 2 const =0 2. S 2 2 +const =S 3. S const 2 =const 2 S 2 4. S ±y 2 = S 2 +S y 2 ± 2 S y, kde S y - kovariance dvou proměnných charakterizuje jejích vzájemnou závislost S y = 1 n n i=1 i 5. Rozklad rozptylu Variabilita uvnitř skupiny, dílčí rozptyly y i y = i y i n S 2 = S 2 + S 2 y = y y Variabilita mezi skupinami, dílčí průměry

Příklad Rozklad rozptylu

Příklad Variační rozpětí

2. Teorie pravděpodobnosti Náhodná veličina X, Y, Z spojitá nespojitá Náhodný jev, y, z Zákon rozdělení náhodné veličiny pravidlo, které každé hodnotě přiřadí pravděpodobnost její výskytu Pravděpodobnostní funkce - nejjednodušší forma vyjádření zákonu rozdělení, pravděpodobnost, že diskrétní veličina X nabude hodnoty právě. P = P X = 1. 0 P 1 2. P = 1 2 3. P 1 X 2 = P = 1

Distribuční funkce - je forma popisu spojité a nespojité náhodné veličiny, pravděpodobnost, že veličina X nabude hodnoty nejvýše. Hustota pravděpodobnosti f = F ()

Charakteristiky náhodné veličiny Střední, očekávaná hodnota Rozptyl Směrodatná odchylka Rozdělení pravděpodobností náhodné veličiny, obdobně jako rozdělení četností, mají svoje charakteristické vlastnosti: polohu, variabilitu, šikmost a špičatost

Rozdělení diskrétních veličin Sledováním nebo měřením náhodné veličiny lze určit rozdělení četností (např. relativních četností) naměřených hodnot. Můžeme ale také uvažovat rozdělení pravděpodobností hodnot náhodné veličiny Alternativní, Geometrické rozdělení hod kostky P 0 = 1 π; P 1 = π; E = π; D = π(1 π) Poissonovo rozdělení s parametrem λ >0 pepř v polívce E = λ; D = λ Binomické rozdělení hod minci E = nπ, D = nπ(1 π) Hypergeometrické rozdělení kontrola kvality součástek, nevíme předem kolik z toho jsou zmetky

Rovnoměrné Rozdělení spojitých veličin Normální Laplaceovo Gaussovo E = μ D = σ 2 Trojúhelníkové Lognormální

Normální rozdělení Rozdělení pravděpodobnosti spojité náhodné veličiny Charakterizováno střední hodnotou a směrodatnou odchylkou Normované normální rozdělení Střední hodnota = 0 Směrodatná odchylka = 1

3. Teorie odhadu Odhadování vlastností (parametrů) celého základního souboru (populace) na základě výběrového souboru a jeho výběrových charakteristik je zevšeobecňující úsudek Předpokladem zobecňujících úsudků je náhodný výběr při získávání jednotek do výběrového souboru (losování, výběr pomocí tabulek náhodných čísel, systematický výběr). K odhadu charakteristiky nelze využít jakoukoliv charakteristiku, ale takovou, která splňuje určitá kritéria.

Kritéria použití charakteristiky k odhadu 1) Nestrannost = zvolená statistika by neměla vést k systematickému nadhodnocování nebo podhodnocování odhadované charakteristiky (zkreslení) 2) Konzistence = s rostoucím rozsahem výběru by se měl odhad charakteristiky blížit hodnotě charakteristiky základního souboru 3) Vydatnost = velikost rozptylu (čím nižší hodnoty rozptylu výběrové charakteristiky, tím menší zkreslení odhadu základní charakteristiky) 4) Dostatečnost = mimo výběrové statistiky neeistuje žádná jiná statistika, která by poskytovala další doplňující informace o odhadované charakteristice základního souboru

Bodový odhad Odhadované charakteristiky Základní soubor sigma σ, mi μ, pi π

Bodový odhad

Intervalový odhad intervalový odhad je interval, který bude s vysokou pravděpodobností obsahovat skutečnou hodnotu odhadované charakteristiky základního odhadované souboru charakteristiky intervalový odhad = interval, který bude s vysokou pravděpodobností obsahovat skutečnou hodnotu odhadované charakteristiky základního souboru základní střední hodnota při známém základním rozptylu

Příklad

Výsledek

Příklad 2

Výsledek

Časové řady časová řada: posloupnost hodnot sledovaného ukazatele, která je uspořádána v čase.

Příklad

Výsledek

Dekompozice časové řady

Typy trendů

Lineární trend s prognózou 170 160 150 140 130 120 110 100 90 80 Pohyb cen akcí VW s porgnózováním lineární trend y = 0,0399-1513,6 R² = 0,3956 Pohyb cen akcí VW Линейная (Pohyb cen akcí VW)

Další trendové křivky 170 160 150 140 130 120 110 100 90 80 Pohyb cen akcí VW s porgnózováním y = 2E-07 3-0,0212 2 + 859,84-1E+07 R² = 0,5399 y = 0,0399-1513,6 R² = 0,3956 Pohyb cen akcí VW Линейная (Pohyb cen akcí VW) Полиномиальная (Pohyb cen akcí VW)

Příklad

Výsledek

Klouzavé průměry

Praktické využití klouzavých průměrů 170 Price VW zkrácená řada každá třetí 160 150 140 130 120 110 100 90 80 Price VW zkrácená řada každá třetí Klouzavý průměr 5

Trendová analýza na finančním trhu Býčí a medvědí trend na finančním trhu: Klouzavé průměr y 5 10 období nebo 12-24

3.1.2011 3.2.2011 3.3.2011 3.4.2011 3.5.2011 3.6.2011 3.7.2011 3.8.2011 3.9.2011 3.10.2011 3.11.2011 3.12.2011 3.1.2012 3.2.2012 3.3.2012 3.4.2012 3.5.2012 3.6.2012 3.7.2012 3.8.2012 3.9.2012 3.10.2012 3.11.2012 Skutečné prodeje 180 Prodej akcí VW 25000 160 140 20000 120 100 15000 80 60 10000 40 20 5000 0 0 Price VW Volume

4. Indení analýza

Indení analýza Inde bezrozměrné číslo vyjadřující změnu sledovaného ukazatele mezi dvěma obdobími nebo místech srovnání v relativním vyjádření I Diference absolutní rozdíl, číslo vyjadřující změnu sledovaného ukazatele mezi dvěma obdobími nebo místech srovnání (ve stejných měrných jednotkách jako sledovaný ukazatel) Δ bazický inde versus řetězový inde individuální indey souhrnné (cenové a množstevní) jednoduché (p,q,q) a složené (Σq,ΣQ,ppr) Paascheho, Laspeyresův, Fisherův inde

Bazické a řetězové indey

Příklad

Řešení

Souhrnné indey

Objemové indey

Příklad

Řešení

5. Demografie

Demografická struktura

Pohyb obyvatel

Zahraniční a vnitřní migrace