STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Podobné dokumenty
Statistika pro geografy

Popisná statistika. Statistika pro sociology

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika I (KMI/PSTAT)

Základy popisné statistiky

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Číselné charakteristiky a jejich výpočet

23. Matematická statistika

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Tomáš Karel LS 2012/2013

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Renáta Bednárová STATISTIKA PRO EKONOMY

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

1. cvičení 4ST201. Základní informace: Vyučující: Obsah: Informace o kurzu Popisná statistika Úvod do SASu

Mnohorozměrná statistická data

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Třídění statistických dat

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Popisná statistika kvantitativní veličiny

Číselné charakteristiky

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Mnohorozměrná statistická data

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Praktická statistika. Petr Ponížil Eva Kutálková

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Statistika. zpracování statistického souboru

Statistika pro gymnázia

Metodologie pro ISK II

Základní statistické charakteristiky

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Aplikovaná statistika v R

Náhodná veličina a rozdělení pravděpodobnosti

Základy pravděpodobnosti a statistiky. Popisná statistika

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Základy statistiky. pracovní list. Základní škola Zaječí, okres Břeclav Školní 402, , příspěvková organizace

Zápočtová práce STATISTIKA I


TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Předmět studia: Ekonomická statistika a analytické metody I, II

7. Rozdělení pravděpodobnosti ve statistice

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Statistika I (KMI/PSTAT)

Pojem a úkoly statistiky

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Písemná práce k modulu Statistika

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Analýza dat na PC I.

Obecné momenty prosté tvary

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

zcela převažující druh průměru, který má uplatnění při řešení téměř všech úloh statistiky široké využití: v ekonomických

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Seminarni prace. 2 3 stranky staci, dat nema byt 3 a nema jich byt pul milionu. k te seminarce

MATEMATIKA III V PŘÍKLADECH

Informační technologie a statistika 1

Popisná statistika v praxi aneb Je statistika nuda? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistika. pro žáky 8. ročníku. úterý, 26. března 13

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Charakteristika datového souboru

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

EXPLORATORNÍ ANALÝZA DAT. 7. cvičení

Základy štatistiky. Charakteristiky štatistického znaku

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Základy biostatistiky

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Základní statistické pojmy

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Pravděpodobnost a statistika

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

Škály podle informace v datech:

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Přípravný kurz - Matematika

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Jevy a náhodná veličina

Cvičení 12: Binární logistická regrese

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

Statistika v současnosti

Kontingenční tabulky v Excelu. Představení programu Statistica

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Deskriptivní statistika (kategorizované proměnné)

Statistika - charakteristiky variability

Nejčastější chyby v explorační analýze

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Tabulka 1. Výběr z datové tabulky

Přípravný kurz - Matematika

Transkript:

STATISTIKA 1 Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

KONTAKTY WWW: sites.google.com/site/adamcabla E-mail: adam.cabla@vse.cz Telefon: 777 701 783 NB367 na VŠE, konzultační hodiny: Pondělí 13:25 14:25 Čtvrtek 9:05 10:05 Možnost dohody

NÁPLŇ KURZU STATISTIKA 1 Základní pojmy Četnosti Tabulky a grafy Míry polohy Míry variability Indexní analýza

ZKOUŠKA Písemná forma 1 test za 100 bodů 60 bodů příklady 20 bodů teoretické otázky typu a,b,c,d (5x4) 20 bodů tvrzení ano x ne (5x4) Literatura: Hindls, Hronová Statistika pro ekonomy

STATISTIKA Statistics is the study of the collection, organization, analysis, and interpretation of data. It deals with all aspects of this, including the planning of data collection in terms of the design of surveys and experiments. [wiki] Popisná statistika je základem poznání dat shrnuje zjištěné poznatky, popisuje nasbíraná data.

STATISTICKÁ JEDNOTKA Prvek, jehož vlastnosti zkoumáme Př.: lidé, podniky, státy, psi, studenti.. Statistika se obvykle zabývá souhrnným zkoumáním vlastností vícero statistických jednotek.

STATISTICKÝ ZNAK Vlastnost, kterou zkoumáme Př.: národnost, zisk, HDP, rasa, spotřeba alkoholu.. Statistické znaky mají různé vlastnosti, podle kterých se dělí. Nazývá se též statistickou proměnnou

KVALITATIVNÍ STATISTICKÉ ZNAKY Kvalitativní je takový znak (vlastnost), kterou lze vyjádřit slovně Nominální: takové vlastnosti, které jsou u prvků buď stejné nebo odlišné (př.: národnost) Ordinální: takové vlastnosti, které můžeme seřadit logicky vzestupně či sestupně (př.: pořadí, známka(!))

KVANTITATIVNÍ STATISTICKÉ ZNAKY Kvantitativní je takový znak, který lze vyjádřit číselně. Spojité jsou takové znaky, které můžou nabýt teoreticky libovolnou číselnou hodnotu (Př.: teplota) Diskrétní jsou takové znaky, které můžou nabýt pouze omezené (byť nekonečné) množství hodnot (Př.: počet dětí)

STATISTICKÝ SOUBOR Statistický soubor je souhrnem statistických jednotek Základní soubor je souborem všech jednotek, o kterých chceme činit závěry (Př.: obyvatelstvo ČR) Výběrový soubor je vybranou částí základního souboru, kterou většinou prakticky zkoumáme (Př.: vybraní respondenti průzkumu)

ŠETŘENÍ Úplné šetření je zkoumáním celého základního souboru (Př.: SLDB) Výběrové šetření je zkoumáním části základního souboru tzv. výběrového souboru (Př.: průzkum veřejného mínění) Vždy je dobré si uvědomit, co přesně je základním souborem (např. chci zkoumat životní podmínky důchodců, tak nebudu chodit s dotazníkem po středních školách)

STATISTICKÉ TABULKY Výsledky výzkumu se obvykle shrnují do statistický tabulek, ve kterých je úzus: Ve sloupcích psát statistické znaky V řádcích psát statistické jednotky V průsečíku řádku a sloupce psát hodnotu daného znaku u dané jednotky

domac STATISTICKÁ osob vek_p TABULKA vek_m pohl_p PŘ.: vzd_p vzd_m prac_prij soc_prij cp_prij 310100011 1 70 0 2 6 0 0 374 37400 310100031 2 55 0 1 2 0 240 288 60800 310100061 3 38 0 1 6 0 1049,36 536 158536 310100071 1 63 0 2 2 0 0 373 37300 310100101 1 80 0 2 3 0 0 326 32600 310100111 2 69 70 1 1 1 198 547 74500 310100131 2 80 73 1 6 6 0 677 67700 310100141 1 72 0 1 1 0 0 306 30600 310100151 1 63 0 1 4 0 0 405 40500 310100161 1 33 0 2 2 0 475,42 0 47542 310100171 1 66 0 2 3 0 0 355 35500 310100181 2 60 66 1 6 4 0 642 64200 310100191 3 61 57 1 4 1 0 590 59000 310100211 1 71 0 1 2 0 0 316 31600 310100221 3 46 0 2 2 0 911,37 297 120837 310100261 4 47 38 1 2 2 1948,08 50 208208 310100301 1 73 0 2 3 0 0 306 30600 310100302 1 21 0 1 4 0 778,85 0 77885 310100311 1 69 0 2 5 0 0 386 38600 310100312 1 32 0 2 6 0 875,47 0 87547 310100321 1 82 0 2 3 0 0 302 30200 310100391 2 24 0 1 6 0 266,04 411 126204 310100392 1 57 0 2 1 0 0 280 28000 310100411 1 67 0 2 3 0 0 278 27800 310100471 1 72 0 2 5 0 0 286 28600 310100491 2 67 63 1 4 3 0 643 99300 310100492 4 36 30 1 6 4 699,17 280 97917 310100501 2 77 0 2 2 0 0 373 52300 310100511 4 37 35 1 4 6 3461,93 131 359293 310100521 1 69 0 2 1 0 0 276 33600 310100531 2 45 0 2 1 0 444,6 81 54260 310100532 3 25 24 1 1 1 919,69 180 109969 310100541 2 87 80 1 6 3 0 452 45200 310100542 3 29 30 1 6 6 756,67 105 86167 310100551 2 67 63 1 4 3 0 642 84500 310100561 3 40 38 1 6 4 1279,72 50 132972 310100591 1 40 0 1 2 0 792,87 0 79287 310100611 1 78 0 2 5 0 0 298 29800 310100621 4 38 0 2 2 0 488,07 224 83207

ČETNOST Má smysl u všech proměnných s výjimkou spojitých Absolutní četnost je počet výskytů varianty sledovaného znaku Relativní četnost je podíl zastoupení varianty sledovaného znaku

ČETNOST - ZNAČENÍ Varianty značíme obvykle x i pro i = 1, 2,, k Máme tedy k variant daného znaku Absolutní četnosti značíme obvykle n i Součet všech četností všech znaků je n, což je zároveň počet zkoumaných jednotek Relativní četnosti značíme obvykle p i Relativní četnost je podíl absolutní četnosti a počtu zkoumaných jednotek Součet všech relativních četnosti se rovná 1.

TABULKA ČETNOSTÍ Tabulka četností je shrnutím četnosti zastoupení variant daného znaku. Jedná se o shrnutí poznatku o zastoupení jednotlivých variant. i n i p i 1 n 1 p 1 2 n 2 p 2 k-1 n k-1 p k-1 k n k p k Součet n 1

PŘÍKLAD Domácnost Počet členů A 2 B 3 C 1 D 2 E 2 F 3 G 5 H 3 I 2 J 1 K 2 L 3 Vytvořte tabulku absolutních a relativních četností

PŘÍKLAD - VÝSLEDEK Počet členů n i p i 1 2 0,17 2 5 0,42 3 4 0,33 5 1 0,08 Součet 12 1

KUMULATIVNÍ ČETNOSTI Kumulativní četnosti jsou četnosti daného znaku, které nabyly hodnoty menší nebo rovné té variantě znaku, pro kterou se počítá Kumulativní četnosti jsou absolutní i relativní Kumulativní četnosti (logicky) lze počítat pouze tam, kde lze varianty seřadit podle velikosti

KUMULATIVNÍ ČETNOSTI i n i Kumulativní n i 1 n 1 n 1 2 n 2 n 1 + n 2.. k n k n 1 + n 2 + + n k = n Příklad: z výsledku předchozího příkladu zjistěte kumulativní četnosti absolutní i relativní

PŘÍKLAD - VÝSLEDEK Počet členů n i Kumul n i p i kumul p i 1 2 2 0,17 0,17 2 5 7 0,42 0,59 3 4 11 0,33 0,92 5 1 12 0,08 1 Součet 12 xxx 1 xxx

INTERVALOVÉ ROZDĚLENÍ ČETNOSTÍ Používá se u spojitých znaků nebo u diskrétních znaků, které nabývají příliš mnoha obměn (např. platy) Hodnoty znaku rozdělíme do počtu k intervalů o ideálně jednotné délce takové, aby pokryly všechny hodnoty

POČET INTERVALŮ Neexistuje jednotné pravidlo na vytvoření počtu a délky intervalů. Nemělo by jich být málo, ale v jednotlivých intervalech by mělo být dost pozorování. Existují ovšem některá návodná pravidla, z nich zde budeme používat Sturgessovo: Pro daný počet intervalů se pak vytvoří vhodná délka tak, aby byla jednotná a obsáhla všechny varianty znaku. V případě extrému můžou být krajní intervaly jiné (obvykle delší typu do plus nekonečna )

PŘÍKLAD Domácnost Příjem A 7 853 B 12 332 C 28 885 D 14 442 E 17 774 F 24 554 G 13 846 H 25 523 I 41 945 J 27 950 Vytvořte tabulku intervalových četností absolutních i relativních včetně kumulativních

PŘÍKLAD ŘEŠENÍ 1 Počet intervalů: k = 1+3,3 * log 10 = 4,3; tedy 4 Min = 7 853, Max = 41 945; Rozdíl = 34 092 Délka intervalu: 34 092/4 = 8 523; zaokrouhleno nahoru (!) 8 600 Intervaly n i kumul. n i p i kumul. p i <7 800 16 400) 4 4 0,4 0,4 <16 400 25 000) 2 6 0,2 0,6 <25 000 33 600) 3 9 0,3 0,9 <33 600 42 200) 1 10 0,1 1

PŘÍKLAD Pro statistické znaky Počet členů a Automobil vytvořte tabulku rozdělení absolutních a relativních četností. Pokud to dává smysl, vytvořte i sloupec kumulativních četností. Pro statistický znak Měsíční příjem vytvořte tabulku intervalových četností Č Počet členů Měsíční příjem Automobil 1 2 17 364 n 2 3 19 334 a 3 5 29 242 a 4 1 54 253 a 5 3 18 831 a 6 4 35 292 a 7 4 43 292 a 8 3 29 188 a 9 2 9 782 n 10 5 25 123 n

PŘÍKLAD - VÝSLEDEK Automobil n i p i ano 7 0,7 ne 3 0,3 Počet členů n i kumul. n i p i kumul. p i 1 1 1 0,1 0,1 2 2 3 0,2 0,3 3 3 6 0,3 0,6 4 2 8 0,2 0,8 5 2 10 0,2 1 Celkem 10 xxx 10 xxx

PŘÍKLAD - VÝSLEDEK Intervaly n i kumul. n i p i kumul. p i <9 700 20 900) 4 4 0,4 0,4 <20 900 32 100) 3 7 0,3 0,7 <32 100 43 300) 2 9 0,2 0,9 <43 300 54 500) 1 10 0,1 1

GRAFY Grafy v popisné statistice jsou shrnutím informací z tabulek četností v (ideálně) přehledné formě. Základní typy grafů: Sloupcový graf Polygon četností Histogram četností Výsečový graf

SLOUPCOVÝ GRAF Ve sloupcovém grafu znázorňuje každý sloupec variantu daného znaku a jeho výška četnost výskytu. Stupnice může být absolutní i relativní 3,5 3 2,5 2 1,5 1 0,5 0 Porsche Škoda Trabant Ferrari Řada 1

POLYGON ČETNOSTÍ Polygon četností spojuje body v grafu, kde výška bodu určuje četnost zastoupení varianty a vzdálenost od nuly číselnou hodnotu znaku. Použitelné pouze pro kvantitativní znaky. 3,5 3 2,5 2 1,5 1 0,5 0 5 7 9 11 Řada 1

HISTOGRAM ČETNOSTÍ Obdoba sloupcového grafu užívána pro intervalové rozdělení četností. Sloupce na sebe naléhají, což naznačuje spojitost intervalů. 3,5 3 2,5 2 1,5 1 0,5 0 Řada 1

VÝSEČOVÝ GRAF Prodej 1. čtvrt. 2. čtvrt. 3. čtvrt. 4. čtvrt. 10% 9% 23% 58%

PŘÍKLAD U předchozího příkladu nakreslete vhodné grafy

VÝSLEDKY 3,5 3 2,5 2 1,5 Řada 1 1 0,5 0 1 2 3 4 5

VÝSLEDKY Automobil ne 30% ano 70%

VÝSLEDKY 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Řada 1

MÍRY POLOHY Míra polohy je pokusem shrnout údaje o zkoumaném znaku do jednoho čísla Míra polohy má určit úroveň, typickou hodnotu daného znaku Existují v zásadě tří míry polohy: Průměry Modus Medián

PRŮMĚRY Průměr je míra polohy počítaná zahrnutím všech hodnot daného znaku. Pro smysluplný výpočet průměru je tedy nutné, aby znak byl kvantitativní. Průměry užíváme: Aritmetický Harmonický Geometrický

ARITMETICKÝ PRŮMĚR Aritmetický průměr se získá vydělením součtu všech hodnot daného znaku počtem těchto hodnot. Tzv. vážený tvar se používá pro výpočet z četnostních tabulek. Jedná se pouze o jiný zápis téhož (viz. následující příklad). Vážený tvar v horním součtu násobí četnost varianty její hodnotou (znak je kvantitativní(!)).

VLASTNOSTI ARITMETICKÉHO PRŮMĚRU Součet jednotlivých odchylek od průměru je nulový Aritmetický průměr konstanty je roven konstantě Přičteme-li k jednotlivým hodnotám konstantu, průměr se zvýší o tuto konstantu Vynásobíme-li jednotlivé hodnoty konstantou, průměr se znásobí touto konstantou

PŘÍKLAD Z následujících čísel spočítejte průměr: 3, 5, 6, 3, 3, 3, 5, 3, 5, 6, 2, 4 Tato čísla zapište do tabulky absolutních četností a s její pomocí vypočtěte aritmetický průměr váženým tvarem.

VÝSLEDEK Průměr = 48/12 = 4 x i n i x i *n i 2 1 2 3 5 15 4 1 4 5 3 15 6 2 12 Součet 12 48 Průměr = 48/12 = 4

HARMONICKÝ PRŮMĚR Používá se k průměrování v případě, kdy je znakem poměrné číslo (např. km/hod, obyv/km 2 ) a váhou (četností) je jednotka v čitateli. Př.: jaká je průměrná rychlost, jestliže na dané dráze byly změřeny dané průměrné rychlosti.

PŘÍKLAD Následující tabulka udává hustoty obyvatel a počty obyvatel zemí Visegrádské čtyřky. Určete průměrnou hustotu obyvatel celku. Země Hustota obyvatel na km 2 Počet obyvatel ČR 132 10 400 000 SR 110 5 400 000 Polsko 122 38 100 000 Maďarsko 108 10 000 000

VÝSLEDEK x i n i n i /x i 132 10 400 000 78 787,88 110 5 400 000 49 090,91 122 38 100 000 312 295,08 109 10 000 000 92 592,59 Součet 63 900 000 532 766 Průměr: 63 900 000/532 766 = 119,94

GEOMETRICKÝ PRŮMĚR Používá se k průměrování hodnot indexů bude součástí indexní analýzy

MODUS Modus je nejčastější varianta sledovaného znaku Lze ho použít pro popis míry polohy všech typů znaků Modální interval je interval s největší četností zastoupení Příklad: Jaký byl modus v příkladě na aritmetický průměr?

MEDIÁN Výsledek příkladu: 3 Medián je prostřední hodnota souboru seřazeného podle hodnot sledovaného znaku Má-li soubor sudý počet jednotek, je medián průměrem dvou prostředních hodnot Medián je tzv. 50% kvantil. Příklad: určete medián v příkladě na aritmetický průměr a modus

KVANTILY Výsledek: 3,5 (6. hodnota je 3 a 7. hodnota je 4) Kvantil je hodnota, která rozděluje soubor hodnot určitého znaku seřazených dle velikosti na dvě části tu, kde jsou hodnoty menší nebo stejné, a tu, kde jsou větší. Kolik procent hodnot je pod hodnotou kvantilu určuje kolikaprocentní daný kvantil je 50% kvantil znamená, že právě polovina hodnot je pod hodnotou kvantilu Další užívané kvantily: 25% a 75% (dolní a horní kvartil), 10% a 90% (dolní a horní decil) 1% a 99% (dolní a horní percentil)

URČENÍ KVANTILU U mála hodnot stačí jednoduše hodnoty seřadit a vybrat z nich tu nejnižší, která splňuje podmínku daného kvantilu (% hodnot nižších nebo rovných než kvantil) U více hodnot se kvantil určí z tabulky kumulovaných relativních četností tam kde kumulovaná relativní četnost vyrovná překročí požadované procento. Je-li kumulovaná četnost rovna % kvantilu, leží ten mezi danou hodnotou a hodnotou další x i n i p i kumul p i 2 1 0,08 0,08 3 5 0,42 0,50 4 1 0,08 0,58 5 3 0,25 0,83 6 2 0,17 1