Statistika. Zpracování informací ze statistického šetření. Roman Biskup

Podobné dokumenty
Obsah. Statistika Zpracování informací ze statistického šetření Třídění statistického souboru. Třídění dle statistického znaku.

Základy teorie pravděpodobnosti

Škály podle informace v datech:

Třídění statistických dat

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

2. Bodové a intervalové rozložení četností

Pojem a úkoly statistiky

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Základní pojmy a cíle statistiky 1

Mnohorozměrná statistická data

Statistika pro geografy

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Základy popisné statistiky

Statistika I (KMI/PSTAT)

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistická prezentace je umění vytvořit dobrou tabulku nebo graf, které přitáhnou oko k tomu, co je zajímavé. Mgr. Ing.

Zápočtová práce STATISTIKA I

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Renáta Bednárová STATISTIKA PRO EKONOMY

Základy popisné statistiky

STATISTICA Téma 1. Práce s datovým souborem

Popisná statistika. Statistika pro sociology

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

9.7 TŘÍDĚNÍ PODLE JEDNOHO SPOJITÉHO ČÍSELNÉHO ZNAKU. INTERVALOVÉ ROZDĚLENÍ ČETNOSTI

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Základy teorie pravděpodobnosti

Nejčastější chyby v explorační analýze

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)

Mnohorozměrná statistická data

Popisná statistika. Komentované řešení pomocí MS Excel

Analýza dat na PC I.

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

23. Matematická statistika

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Statistika pro geografy. Rozd lení etností DEPARTMENT OF GEOGRAPHY

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Statistika I (KMI/PSTAT)

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Základy biostatistiky

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Kontingenční tabulky v Excelu. Představení programu Statistica

7. Rozdělení pravděpodobnosti ve statistice

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

PREZENTACE DAT: SLOŽITĚJŠÍ GRAFY


Statistika. pro žáky 8. ročníku. úterý, 26. března 13

Cvičení 12: Binární logistická regrese

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Praktická statistika. Petr Ponížil Eva Kutálková

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Statistika pro gymnázia

Předmět studia: Ekonomická statistika a analytické metody I, II

Popisná statistika kvantitativní veličiny

Deskriptivní statistika (kategorizované proměnné)

HODNOCENÍ VÝUKY STUDENTY PEDF UK ZS 2016/2017

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

9.6 TŘÍDĚNÍ PODLE JEDNOHO NESPOJITÉHO ČÍSELNÉHO ZNAKU

Základy pravděpodobnosti a statistiky. Popisná statistika

Tomáš Karel LS 2012/2013

Analýza dat s využitím MS Excel

PREZENTACE DAT: JEDNODUCHÉ GRAFY

Základy teorie pravděpodobnosti

Základy štatistiky. Charakteristiky štatistického znaku

PŘÍKLAD NA TŘÍDĚNÍ PODLE JEDNOHO SPOJITÉHO ČÍSELNÉHO ZNAKU. INTERVALOVÉ ROZDĚLENÍ ČETNOSTI

Protokol č. 1. Tloušťková struktura. Zadání:

Soukromá střední odborná škola Frýdek-Místek, s.r.o.

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Statistika. zpracování statistického souboru

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Obsah. Funkce grafu Zdrojová data pro graf Typ grafu Formátování prvků grafu Doporučení pro tvorbu grafů Zdroje

Vzorová prezentace do předmětu Statistika

MATEMATIKA III V PŘÍKLADECH

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Charakteristika datového souboru

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Matematické modelování dopravního proudu

Tabulka 1. Výběr z datové tabulky

Měření zrychlení volného pádu

Metodologie pro Informační studia a knihovnictví 2

Písemná práce k modulu Statistika

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

Informační technologie a statistika 1

Chyby měření 210DPSM

Statistická šetření a zpracování dat.

Níže uvedená tabulka obsahuje technické údaje a omezení aplikace Excel (viz také článek Technické údaje a omezení aplikace Excel (2007).

Transkript:

Statistika Zpracování informací ze statistického šetření Třídění statistického souboru Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 20. února 2012 Statistika by Birom Statistika Třídění 1 / 20

Obsah Třídění dle statistického znaku Prosté a intervalové třídění Četnosti statistického znaku Tabulky četností Prosté třídění Intervalové třídění Grafická vizualizace rozložení četností Polygon četností Histogram četnosti Výsečový graf Statistika by Birom Statistika Třídění 2 / 20

Třídění dle statistického znaku Prosté a intervalové třídění Třídění dle statistického znaku Důvody třídění: zpřehlednění souboru, zjištění empirického rozdělení statistického souboru, snížení numerické náročnosti výpočtu statistických charakteristik. Dle počtu třídících znaků: jednostupňové, dvoustupňové (kontingenční tabulky), vícestupňové. Dle typu třídění: třídění prosté (malý počet různých hodnot znaku), třídění intervalové (velký počet různých hodnot znaku, spojitý numerický znak). Základní zásady při třídění: zásada úplnosti (každá jednotka musí někam patřit), zásada jednoznačnosti (každá jednotka musí mít právě jedno místo při třídění). Statistika by Birom Statistika Třídění 3 / 20

Třídění dle statistického znaku Prosté a intervalové třídění Postup třídění I Prosté třídění libovolný statistický znak 1. stanovení počtu pozorování různých hodnot znaku (předpokládejme k různých hodnot) Intervalové třídění numerický statistický znak 1. stanovení počtu intervalů k, optimálně 8 k 20 k 1 + 3,3 log n (Sturgesovo pravidlo) k 8 (max x minx) 100 k n 2. stanovení délky intervalu h max x min x h = k 3. rozdělení na intervaly ; ), ; ),..., ; min x + i h ; min x + (i + 1) h), pro i = 0,..., k 2 a min x + (k 1) h ; max x Pro popis statistického znaku je vhodné jak délku intervalů, tak hranice intervalů učesat, tj. vhodně zaokrouhlit; je však třeba zajistit, aby takto upravené intervaly pokryly všechny hodnoty statistického znaku. Statistika by Birom Statistika Třídění 4 / 20

Třídění dle statistického znaku Prosté a intervalové třídění Postup třídění II Meze jednotlivých intervalů je třeba volit tak, aby nedocházelo k nejasnostem, tj. aby se každé pozorování jednoznačně spadalo do určitého intervalu. 4. stanovení počtu pozorovaní s hodnotou znaku spadajícího do příslušného intervalu Statistika by Birom Statistika Třídění 5 / 20

Třídění dle statistického znaku Četnosti statistického znaku Absolutní a relativní četnost I Označme sledovaný statistický znak x, nechť má N pozorování, pak pro i = 1,..., k: n i absolutní četnost počet pozorování s hodnotou znaku rovnou x i, respektive počet pozorování s hodnotou znaku spadající do i-tého intervalu, p i zřejmě platí: k n i = N. i=1 relativní četnost poměr počtu pozorování s hodnotou znaku rovnou x i vzhledem celkovému počtu pozorování, respektive poměr počtu pozorování s hodnotou znaku spadající do i-tého intervalu vzhledem celkovému počtu pozorování, p i = n i N (p i 100 %), i = 1,..., k; Statistika by Birom Statistika Třídění 6 / 20

Třídění dle statistického znaku Četnosti statistického znaku Absolutní a relativní četnost II i zde zřejmě: k p i = 1 (100 %). i=1 Statistika by Birom Statistika Třídění 7 / 20

Třídění dle statistického znaku Četnosti statistického znaku Kumulativní četnosti I k ni k pi kumulativní (absolutní) četnost počet pozorování, u nichž je hodnota statistického znaku x x i, respektive počet pozorování zařazených díky hodnotě statistického znaku od prvního až do i-tého intervalu včetně, tj. k ni = n 1 + n 2 + + n i = i n j. kumulativní relativní četnost udává poměr počtu pozorování, u nichž je hodnota statistického znaku x x i, vzhledem k celkovému počtu pozorování respektive poměr počtu pozorování zařazených díky hodnotě statistického znaku od prvního až do i-tého intervalu včetně vzhledem k celkovému počtu pozorování, tj. k pi = p 1 + p 2 + + p i = j=1 i p j. Je nutné uspořádání znaku x, tj. má smysl dělat minimálně pro ordinální znak. Nebo ne? Jakou by pak měla kumulativní četnost interpretaci? k nk = N, k pk = 1 (100 %) j=1 Statistika by Birom Statistika Třídění 8 / 20

Tabulky četností Prosté třídění Datový soubor Evidence studijních výsledků LS 2005 Obor Počet Zameškáno Zápočet Body Hodnocení PUPN 4 0 Ano 4 1 VZ 0 3 Ano 1,5 4 OP 0 2 Rost 4 2 PP 0 0 Biskup 2 4 VZ 0 3 Ano 1 4 OP 0 1 Rost 2 4 ZOO 1 0 Ano 4 2 BT 13 1 Ano 4 2 OP 0 0 Rost 0,5 4 VZ 1 2 Ano 4 2 VZ 0 3 Ne 0 4 VZ 0 2 Ano 1,5 4 ZOO 2 1 Ano 1,5 4. Statistika by Birom Statistika Třídění 9 / 20

Tabulky četností Prosté třídění Přípravné práce Evidence studijních výsledků LS 2005 Body počet bodů získaných z písemné části zkoušky ze statistiky LS 2005 (řádný termín) 1. N = 139; k = 13 (0; 0,5;... ; 6 bodů) stanovení počtu pozorování jednotlivých hodnot znaku... Statistika by Birom Statistika Třídění 10 / 20

Tabulky četností Prosté třídění Tabulka četností Evidence studijních výsledků LS 2005 Počet bodů získaných z písemné části zkoušky ze statistiky LS 2005 (řádný termín) x i n i p i (%) k ni k pi (%) 0,0 27 19,42 27 19,42 0,5 11 7,91 38 27,34 1,0 20 14,39 58 41,73 1,5 15 10,79 73 52,52 2,0 14 10,07 87 62,59 2,5 11 7,91 98 70,50 3,0 22 15,83 120 86,33 3,5 8 5,76 128 92,09 4,0 7 5,04 135 97,12 4,5 3 2,16 138 99,28 5,0 1 0,72 139 100,00 5,5 0 0,00 139 100,00 6,0 0 0,00 139 100,00 Σ 139 100,00 Statistika by Birom Statistika Třídění 11 / 20

Tabulky četností Intervalové třídění Datový soubor Splátkový prodej (2004) Věk Pohlaví Stav Vzdělání Zaměstnání Příjem (Kč) Úvěr (Kč) Splátek 59 žena ženatý základní důchodce 7 200 5 390 20 27 žena ženatý střední dělník 7 000 7 542 20 50 muž rozvedený střední kuchař 61 000 6 216 10 29 muž svobodný vyučený dělník 10 000 7 002 20 31 muž ženatý vyučený řidič 15 000 8 982 10 19 žena druh základní mateř dovolená 5 500 6 696 10 22 muž svobodný vyučený malíř, natěrač 10 000 4 621 20 34 muž ženatý střední stát. zam. 15 159 7 624 30 45 žena ženatý vyučený podnikatel 10 000 7 515 20 24 muž rozvedený vyučený technik 12 000 6 680 20 30 muž rozvedený vyučený pekař 12 500 3 228 20 25 muž svobodný střední pol. inspektor 14 000 14 229 30. Statistika by Birom Statistika Třídění 12 / 20

Tabulky četností Intervalové třídění Příprava intervalů Splátkový prodej (2004) Úvěr cena zaplacená za celkový spotřebitelský úvěr; 1. N = 737; k 1 + 3,3 log 737 = 10,463, zvolme k = 11; 2. min x = 1 584 a max x = 25 164; 25 164 1 584 3. h = = 2 151,273, položme h = 2 200 a dolní mez prvního 11 intervalu rovnu 1 500 pak: 1. 1 500 ; 3 700) 2. 3 700 ; 5 900) 3. 5 900 ; 8 100). 10. 21 300 ; 23 500) 11. 23 500 ; 25 700 4. stanovení počtu pozorovaní v jednotlivých intervalech... Statistika by Birom Statistika Třídění 13 / 20

Tabulky četností Intervalové třídění Tabulka četností Splátkový prodej (2004) Cena zaplacená za celkový spotřebitelský úvěr Tabulka četností:celková výše úvěru Četnost Kumulativní Rel.četnost Kumulativní OD DO četnost rel.četnost 1 500 Kč<=x<3 700 Kč 69 69 9,36228 9,3623 3 700 Kč<=x<5 900 Kč 217 286 29,44369 38,8060 5 900 Kč<=x<8 100 Kč 218 504 29,57938 68,3853 8 100 Kč<=x<10 300 Kč 104 608 14,11126 82,4966 10 300 Kč<=x<12 500 Kč 55 663 7,46269 89,9593 12 500 Kč<=x<14 700 Kč 54 717 7,32700 97,2863 14 700 Kč<=x<16 900 Kč 15 732 2,03528 99,3216 16 900 Kč<=x<19 100 Kč 3 735 0,40706 99,7286 19 100 Kč<=x<21 300 Kč 0 735 0,00000 99,7286 21 300 Kč<=x<23 500 Kč 1 736 0,13569 99,8643 23 500 Kč<=x<25 700 Kč 1 737 0,13569 100,0000 Vytvořeno ChD 0 737 0,00000 100,0000 Statistika by Birom Statistika Třídění 14 / 20

Grafická vizualizace rozložení četností Polygon četností Polygon četností vizualizace absolutních četností prosté třídění na vodorovnou osu se vynáší hodnoty sledovaného znaku na svislou osu se pak vynáší absolutní četnosti nad jednotlivými hodnotami znaku jsou vynášeny hodnoty odpovídající příslušným absolutním četnostem jednotlivé hodnoty jsou navíc spojeny lomenou čárou Statistika by Birom Statistika Třídění 15 / 20

Grafická vizualizace rozložení četností Polygon četností Polygon četností Počet bodů získaných z písemné části zkoušky ze statistiky LS 2005 řádný termín 30 25 20 Počet pozor. 15 10 5 0 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 Vytvořeno v programu MS Excel 2000 Body Statistika by Birom Statistika Třídění 16 / 20

Grafická vizualizace rozložení četností Histogram četnosti Histogram četnosti vizualizace absolutních četností intervalového třídění na vodorovnou osu se vynáší meze intervalů na svislou osu pak absolutní četnosti nad jednotlivými intervaly jsou vykresleny sloupce s podstavou šířky intervalu a výškou absolutní četnosti někdy jsou hodnoty vynášené na svislou osu modifikovány tak, aby celková plocha sloupců byla rovná jedné vše pochopitelně v měřítku ;-) Statistika by Birom Statistika Třídění 17 / 20

Grafická vizualizace rozložení četností Histogram četnosti Histogram četnosti Cena zaplacená za celkový spotřebitelský úvěr 250 Histogram: Celková výše úvěru 200 Počet pozor. 150 100 50 0 1 500 Kč<=x<3 700 Kč 3 700 Kč<=x<5 900 Kč 5 900 Kč<=x<8 100 Kč 8 100 Kč<=x<10 300 Kč Vytvořeno v programu STATISTICA komplet 6.1 Cz 10 300 Kč<=x<12 500 Kč 12 500 Kč<=x<14 700 Kč Kategorie 14 700 Kč<=x<16 900 Kč 16 900 Kč<=x<19 100 Kč 19 100 Kč<=x<21 300 Kč 21 300 Kč<=x<23 500 Kč 23 500 Kč<=x<25 700 Kč 25 700 Kč<=x<27 900 Kč Statistika by Birom Statistika Třídění 18 / 20

Grafická vizualizace rozložení četností Výsečový graf Výsečový (koláčový) graf vizualizace relativních četností plocha grafu je dělena na kruhové výseče v poměru, který je dán relativní četnosti, tj. i = 360 p i, zřejmě platí: k i=1 i = 360. Graf je obvykle doplněn o legendu a relativní četnosti v procentech Statistika by Birom Statistika Třídění 19 / 20

Grafická vizualizace rozložení četností Výsečový graf Výsečový graf Výsledné známky ze Statistiky 2004/05 LS Vysledne znamky ze Statistiky 2004/05 - LS 10,43% 45,40% 17,18% 26,99% Vytvořeno v programu MS Excel 2000 1 2 3 4 Statistika by Birom Statistika Třídění 20 / 20