MÁME DATA A CO DÁL? Martina Litschmannová

Podobné dokumenty
VADÍ - NEVADÍ ANEB STATISTIKA KOLEM NÁS

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Přednáška 5. Výběrová šetření, Exploratorní analýza

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Popisná statistika v praxi aneb Je statistika nuda? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Popisná statistika. Statistika pro sociology

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Nejčastější chyby v explorační analýze

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Analýza dat na PC I.

Zápočtová práce STATISTIKA I

Metodologie pro ISK II

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Statistika pro geografy

Popisná statistika. Komentované řešení pomocí MS Excel

Základy popisné statistiky

Manuál pro zaokrouhlování

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Charakteristika datového souboru

Číselné charakteristiky

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.


Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Základy pravděpodobnosti a statistiky. Popisná statistika

Náhodná veličina a rozdělení pravděpodobnosti

STATISTICKÉ CHARAKTERISTIKY

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Analýza dat s využitím MS Excel

Popisná statistika kvantitativní veličiny

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Praktická statistika. Petr Ponížil Eva Kutálková

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Náhodné chyby přímých měření

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Renáta Bednárová STATISTIKA PRO EKONOMY

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Základní statistické charakteristiky

Tabulka 1. Výběr z datové tabulky

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Náhodné (statistické) chyby přímých měření

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Aplikovaná statistika v R

VŠB Technická univerzita Ostrava

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Deskriptivní statistika (kategorizované proměnné)

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Metodologie pro Informační studia a knihovnictví 2

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

STATISTICKÉ ODHADY Odhady populačních charakteristik

JAK MODELOVAT VÝSLEDKY

Třídění statistických dat

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

23. Matematická statistika

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Normální (Gaussovo) rozdělení

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Průzkumová analýza dat

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Metodologie pro Informační studia a knihovnictví 2

Kontingenční tabulky v Excelu. Představení programu Statistica

Mnohorozměrná statistická data

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Číselné charakteristiky a jejich výpočet

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

Statistika. pro žáky 8. ročníku. úterý, 26. března 13

Chyby měření 210DPSM

TECHNICKÁ UNIVERZITA V LIBERCI

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Pojem a úkoly statistiky

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Mnohorozměrná statistická data

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

NÁHODNÁ VELIČINA. 3. cvičení

Transkript:

MÁME DATA A CO DÁL? Martina Litschmannová

Obsah Část 1 Analýza dat Základní pojmy Popisná statistika kvalitativního znaku Tabulky četnosti, vizualizace Jak to vypadá v praxi Část 2 Popisná statistika kvantitativního znaku Míry polohy, míry variability, vizualizace, zaokrouhlování

Co je to statistika? Google 83.10 6 odkazů (čeština), 1,3.10 9 odkazů (angličtina) Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) Číselný údaj syntetizující vlastnosti datových souborů (četnost, průměr, rozptyl, ) Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, ) Real Time Statistics Project pěkná ukázka toho, k čemu lze použít statistické modely

Co vypovídá statistika o jednotlivci? Donald Trump podnikatel politik (prezident) američan Statistika nezkoumá jednotlivce jako individualitu, ale jako anonymního nositele některého znaku (činnosti, vlastnosti).

Základní pojmy Populace (základní soubor) je soubor nějakých prvků, o kterém chceme statistickými metodami něco vypovídat. Definuje se výčtem nebo pomocí zvolené vlastnosti. O každém prvku umíme rozhodnout, zda do populace patří či nikoliv. Výběr je část dané populace, která má sloužit k odvození závěrů platných pro celou populaci. (Pozor na reprezentativnost výběru!) Statistická jednotka je prvek populace. Statistický znak (proměnná) je nějaká měřitelná (zjistitelná) charakteristika statistické jednotky (hmotnost, pohlaví, ). statistická jednotka výběr populace

Typy statistických znaků (proměnných) Nominální varianty jsou ve formátu text nebo číselný kód o každých dvou variantách lze říci, zda jsou různé např. škola, fakulta, obor, výrobce, Další dělení: dichotomické (alternativní), vícekategoriální (množné) Ordinální (pořadová) varianty jsou ve fomátu text, datum nebo číslo u každých dvou variant lze stanovit jejich pořadí např. úroveň vzdělání, známka (A, B,, E), úroveň spokojenosti, Kvalitativní Intervalové (rozdílové) varianty jsou v číselném formátu u každých dvou variant lze určit jejich pořadí a rozdíl např. teplota ve C, chyba měření, Poměrové varianty jsou v číselném formátu (pouze kladná čísla + nulový bod) u každých dvou variant lze určit jejich pořadí, rozdíl a podíl (poměr) např. teplota v K, velikost chyby měření, Kvantitativní (numerické, kardinální) Další dělení: diskrétní, spojité

Vlastní pokus o výběrové šetření Dotazník pro studenty (např. pomocí Google Apps) - http://goo.gl/forms/z289s0alpy

Základní pojmy Populace (základní soubor) je soubor nějakých prvků, o kterém chceme statistickými metodami něco vypovídat. Výběr je část dané populace, která má sloužit k odvození závěrů platných pro celou populaci. Statistická jednotka je prvek populace. Statistický znak je nějaká měřitelná (zjistitelná) charakteristika statistické jednotky. Časová značka Pohlaví Výška (cm) Váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? Kolik času týdně obvykle věnujete brigádě? 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Kolik času týdně obvykle věnujete studiu?

Základní pojmy Časová značka Pohlaví Výška (cm) Váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? Kolik času týdně obvykle věnujete brigádě? 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Kolik času týdně obvykle věnujete studiu? Statistický znak je nějaká měřitelná (zjistitelná) charakteristika prvků základního souboru.

Základní pojmy Časová značka ID Pohlaví pohlaví Výška (cm) výška (cm) Váha (kg) váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? brigáda frekvence brigády charakteristika brigády Kolik času týdně obvykle věnujete brigádě? čas věnovaný brigádě (h/týden) Kolik času týdně obvykle věnujete studiu? čas věnovaný studiu (h/týden) 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Statistický znak je nějaká měřitelná (zjistitelná) charakteristika prvků základního souboru.

Základní pojmy Časová značka ID Pohlaví pohlaví Výška (cm) výška (cm) Váha (kg) váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? brigáda frekvence brigády charakteristika brigády Kolik času týdně obvykle věnujete brigádě? čas věnovaný brigádě (h/týden) Kolik času týdně obvykle věnujete studiu? čas věnovaný studiu (h/týden) 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Statistický znak je nějaká měřitelná (zjistitelná) charakteristika prvků základního souboru. Kvantitativní znak znak, jehož varianty mají číselné hodnoty (má smysl posuzovat rozdíly a poměry)

Základní pojmy Časová značka ID Pohlaví pohlaví Výška (cm) výška (cm) Váha (kg) váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? brigáda frekvence brigády charakteristika brigády Kolik času týdně obvykle věnujete brigádě? čas věnovaný brigádě (h/týden) Kolik času týdně obvykle věnujete studiu? čas věnovaný studiu (h/týden) 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Statistický znak je nějaká měřitelná (zjistitelná) charakteristika prvků základního souboru. Kvantitativní znak znak, jehož varianty mají číselné hodnoty (má smysl posuzovat rozdíly a poměry)

Základní pojmy Časová značka ID Pohlaví pohlaví Výška (cm) výška (cm) Váha (kg) váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? brigáda frekvence brigády charakteristika brigády Kolik času týdně obvykle věnujete brigádě? čas věnovaný brigádě (h/týden) Kolik času týdně obvykle věnujete studiu? čas věnovaný studiu (h/týden) 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Statistický znak je nějaká měřitelná (zjistitelná) charakteristika prvků základního souboru. Kvantitativní znak znak, jehož varianty mají číselné hodnoty (má smysl posuzovat rozdíly a poměry) Kvalitativní znak znak, jehož varianty se liší kvalitou (může jít i o číselné hodnoty např. známka z matematiky)

Základní pojmy Časová značka ID Pohlaví pohlaví Výška (cm) výška (cm) Váha (kg) váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? brigáda frekvence brigády charakteristika brigády Kolik času týdně obvykle věnujete brigádě? čas věnovaný brigádě (h/týden) Kolik času týdně obvykle věnujete studiu? čas věnovaný studiu (h/týden) 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Statistický znak je nějaká měřitelná (zjistitelná) charakteristika prvků základního souboru. Kvantitativní znak znak, jehož varianty mají číselné hodnoty (má smysl posuzovat rozdíly a poměry) Kvalitativní znak znak, jehož varianty se liší kvalitou (může jít i o číselné hodnoty např. známka z matematiky)

Základní pojmy Časová značka ID Pohlaví pohlaví Výška (cm) výška (cm) Váha (kg) váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? brigáda frekvence brigády charakteristika brigády Kolik času týdně obvykle věnujete brigádě? čas věnovaný brigádě (h/týden) Kolik času týdně obvykle věnujete studiu? čas věnovaný studiu (h/týden) 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Statistický znak je nějaká měřitelná (zjistitelná) charakteristika prvků základního souboru. Kvantitativní znak znak, jehož varianty mají číselné hodnoty (má smysl posuzovat rozdíly a poměry) Kvalitativní znak znak, jehož varianty se liší kvalitou (může jít i o číselné hodnoty např. známka z matematiky) Alternativní (dichotomický) znak znak, který nabývá pouze dvou variant

Základní pojmy Časová značka ID Pohlaví pohlaví Výška (cm) výška (cm) Váha (kg) váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? brigáda frekvence brigády charakteristika brigády Kolik času týdně obvykle věnujete brigádě? čas věnovaný brigádě (h/týden) Kolik času týdně obvykle věnujete studiu? čas věnovaný studiu (h/týden) 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Statistický znak je nějaká měřitelná (zjistitelná) charakteristika prvků základního souboru. Kvantitativní znak znak, jehož varianty mají číselné hodnoty (má smysl posuzovat rozdíly a poměry) Kvalitativní znak znak, jehož varianty se liší kvalitou (může jít i o číselné hodnoty např. známka z matematiky) Alternativní (dichotomický) znak znak, který nabývá pouze dvou variant

Popisná statistika aneb Jak efektivně popsat a vizualizovat data Část 1 Kvalitativní znak

Popisná statistika Kvalitativní znak Časová značka ID Pohlaví pohlaví Výška (cm) výška (cm) Váha (kg) váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? brigáda frekvence brigády charakteristika brigády Kolik času týdně obvykle věnujete brigádě? čas věnovaný brigádě (h/týden) Kolik času týdně obvykle věnujete studiu? čas věnovaný studiu (h/týden) 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Respondent (proband) označení statistické jednotky v dotazníkovém šetření Popište strukturu datového souboru v závislosti na pohlaví respondentů.

Popisná statistika Kvalitativní znak Tabulka četností Varianta znaku x i Tabulka četností Absolutní četnost n i Relativní četnost p i x 1 n 1 p 1 =n 1 /n x 2 n 2 p 2 =n 2 /n x k n k p k =n k /n Celkem: n 1 +n 2 + +n k =n 1 + Modus (varianta, které znak nabývá s nejvyšší četností)

Popisná statistika Kvalitativní znak Tabulka četností Tabulka četností Pohlaví Absolutní četnost Relativní četnost muž 66 0,776470588 žena 19 0,223529412 Celkem: 85 1,000000000

Popisná statistika Kvalitativní znak Tabulka četností Tabulka četností Pohlaví Absolutní četnost Relativní četnost (%) muž 66 77,6470588 žena 19 22,3529412 Celkem: 85 100,0000000 Jak zaokrouhlovat relativní četnosti? 1,0 % 0,85 osob 0,1 % 0,085 osob

Popisná statistika Kvalitativní znak Tabulka četností Tabulka četností Pohlaví Absolutní četnost Relativní četnost (%) muž 66 77,6470588 žena 19 22,3529412 Celkem: 85 100,0000000 Pozor na zaokrouhlovací chybu! Jak zaokrouhlovat relativní četnosti? 1,0 % 0,85 osob 0,1 % 0,085 osob

Popisná statistika Kvalitativní znak Tabulka četností Tabulka četností Pohlaví Absolutní četnost Relativní četnost (%) muž 66 78 žena 19 22 Celkem: 85 100 Pozor na zaokrouhlovací chybu! Součet musí být 100 %! Jak zaokrouhlovat relativní četnosti? 1,0 % 0,85 osob 0,1 % 0,085 osob

Příklad demonstrující problém zaokrouhlovací chyby TABULKA ROZDĚLENÍ ČETNOSTI Typ pasažéra Absolutní četnosti Relativní četnosti (%) Muž 77 37,37864 Žena 85 41,26214 Dítě 44 21,35922 Celkem: 206 100,00000 1 % 2,06 osob 0,1 % 0,206 osob Jak zaokrouhlit relativní četnost?

Příklad demonstrující problém zaokrouhlovací chyby TABULKA ROZDĚLENÍ ČETNOSTI Typ pasažéra Absolutní četnosti Relativní četnosti (%) Muž 77 37,4 Žena 85 41,3 Dítě 44 21,4 POZOR na zaokrouhlovací chybu! Celkem: 206 100,1

Příklad demonstrující problém zaokrouhlovací chyby TABULKA ROZDĚLENÍ ČETNOSTI Typ pasažéra Absolutní četnosti Relativní četnosti (%) Muž 77 37,4 Žena 85 41,3 Dítě 44 21,3 Celkem: 206 100,0 Dopočet do 100 %!

Popisná statistika Kvalitativní znak Tabulka četností Tabulka četností Pohlaví Absolutní četnost Relativní četnost (%) muž? 78 žena? 22 Celkem: 85 100 Relativní četnosti používejte pouze jako doplněk absolutních četností!

Popisná statistika Kvalitativní znak Tabulka četností Tabulka četností Pohlaví Absolutní četnost Relativní četnost (%) muž 66 78 žena 19 22 Celkem: 85 100 Určete modus proměnné pohlaví.

Popisná statistika Kvalitativní znak Tabulka četností Tabulka četností Pohlaví Absolutní četnost Relativní četnost (%) muž 66 78 žena 19 22 Celkem: 85 100 Modus = muž Mezi respondenty převažovali muži.

Popisná statistika Kvalitativní znak Tabulka četností Tabulka četností Pohlaví Absolutní četnost Relativní četnost (%) muž 66 78 žena 19 22 Celkem: 85 100 Jak data vizualizovat?

počet respondentů počet respondentů Popisná statistika kvalitativní znak Sloupcový graf (Bar Chart) 70 60 50 40 70 60 50 40 66 30 20 30 20 19 10 10 0 muž žena 0 muž žena Nejsou-li v grafu uvedeny absolutní (relativní) četnosti, obvykle je nedokážeme od oka přesně odečíst.

Popisná statistika kvalitativní znak Sloupcový graf (Bar Chart) 70 66 80 78 60 70 50 40 30 20 19 60 50 40 30 20 22 10 10 0 muž žena 0 muž žena Nejsou-li v grafu uvedeny absolutní (relativní) četnosti, obvykle je nedokážeme od oka přesně odečíst.

počet respondentů relativní počet respondentů (%) Popisná statistika kvalitativní znak Sloupcový graf (Bar Chart) 70 66 80 78 60 70 50 40 30 20 19 60 50 40 30 20 22 10 10 0 muž žena 0 muž žena Nejsou-li v grafu uvedeny absolutní (relativní) četnosti, obvykle je nedokážeme od oka přesně odečíst. Pozor na uvádění popisu os!

Popisná statistika Kvalitativní znak Zdroj: Srovnávací testy pro žáky 9. tříd Určete pravdivost tvrzení: V žádných dvou letech nebyl počet studentů stejný.

Popisná statistika Kvalitativní znak Zdroj: Srovnávací testy pro žáky 9. tříd Určete pravdivost tvrzení: V žádných dvou letech nebyl počet studentů stejný. 241 240 Pozor na omezenou vypovídací schopnost grafů!

počet respondentů Popisná statistika Kvalitativní znak Sloupcový graf 70 60 50 40 30 20 10 0 muž žena Nezapomínejte, že méně mnohdy znamená více

Popisná statistika Kvalitativní znak I takto může vypadat sloupcový graf Počet 20 15 10 5 0

Popisná statistika Kvalitativní znak I takto může vypadat sloupcový graf Počet 20 15 10 5 0

Popisná statistika Kvalitativní znak 3D sloupcový graf Opravdu musí být v každé efektní prezentaci / publikaci? 3D graf může být pro čtenáře matoucí Modrý a zelený sloupec mají stejnou výšku. Odpovídá to tomu, jak obrázek vnímáte? Zvětšíte-li k krát stranu krychle, její objem (to, co vnímáte) se zvětší k 3 krát. Zdroj: Whitbread, David (2001). The design manual (2nd ed.). Sydney: University of New South Wales Press. ISBN 0868406589.

CENA PRODUKTU Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Nepoužívejte barevné pozadí grafů! Cena produktů k 1. 9. 2018 16000 14000 12000 10000 8000 6000 4000 2000 0 produkt A produkt B produkt C produkt D produkt E produkt F PRODUKT produkt G produkt H produkt I cena produktu

cena produktu Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Neopakujte informace! Cena produktů k 1. 9. 2018 16000 14000 12000 10000 8000 6000 cena produktu 4000 2000 0 produkt A produkt B produkt C produkt D produkt E produkt F produkt G produkt H produkt I produkt

cena produktu Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Neopakujte informace! V tomto případě je legenda zcela nadbytečná. V případě, že ji potřebujete, zvažte její umístění! Cena produktů k 1. 9. 2018 16000 14000 12000 10000 8000 6000 cena produktu 4000 2000 0 produkt A produkt B produkt C produkt D produkt E produkt F produkt G produkt H produkt I produkt

cena Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Zvažte úpravu popisku horizontální osy! Cena produktů k 1. 9. 2018 16000 14000 12000 10000 8000 6000 4000 2000 0 produkt A produkt B produkt C produkt D produkt E produkt F produkt produkt G produkt H produkt I

produkt A produkt B produkt C produkt D produkt E produkt F produkt G produkt H produkt I cena Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Zvažte úpravu popisku horizontální osy! Cena produktů k 1. 9. 2018 16000 14000 12000 10000 8000 6000 4000 2000 0 produkt

cena Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Vždy uvádějte jednotky! Cena produktů k 1. 9. 2018 16000 14000 12000 10000 8000 6000 4000 2000 0 A B C D E F G H I produkt

cena (Kč) Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Nepoužívejte neefektivní nuly! (Nebo alespoň použijte oddělovače tisíců!) Cena produktů k 1. 9. 2018 16000 14000 12000 10000 8000 6000 4000 2000 0 A B C D E F G H I produkt

cena (Kč) Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Nepoužívejte neefektivní nuly! (Nebo alespoň použijte oddělovače tisíců!) Cena produktů k 1. 9. 2018 16 000 14 000 12 000 10 000 8 000 6 000 4 000 2 000 0 A B C D E F G H I produkt

cena (tis. Kč) Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Používejte strukturované nadpisy! Cena produktů k 1. 9. 2018 16 14 12 10 8 6 4 2 0 A B C D E F G H I produkt

cena (tis. Kč) Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Zvažte zvýraznění mřížky! Cena produktů (k 1. 9. 2018) 16 14 12 10 8 6 4 2 0 A B C D E F G H I produkt

cena (tis. Kč) Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Nepoužívejte 3D grafy! Cena produktů (k 1. 9. 2018) 16 14 12 10 8 6 4 2 0 A B C D E F G H I produkt

cena (tis. Kč) Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy 16 14 12 10 8 6 4 2 Pokud je to vhodné, seřaďte varianty proměnné! Cena produktů (k 1. 9. 2018) 0 A B C D E F G H I produkt

cena (tis. Kč) Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy Nejsou-li v grafu uvedeny absolutní četnosti, obvykle je nedokážeme od oka přesně odečíst! 16 14 12 10 8 6 4 2 Cena produktů (k 1. 9. 2018) 0 B H E F I C D G A produkt

cena (tis. Kč) Popisná statistika Kvalitativní znak Tipy nejen pro sloupcové grafy V případě, že graf je součástí publikace, musí obsahovat titulek. V tomto případě obvykle není třeba používat nadpis grafu. Informace obsažena v nadpisu bývá uváděna v titulku. Cena produktů (k 1. 9. 2018) 16 15 14 12 11 12 13 13 10 8 7 7 8 9 6 4 2 0 B H E F I C D G A produkt

Produkce CO2 (tuny na osobu) (% roku 1993) Produkce CO2 (tuny na osobu) 25 20 15 10 5 0 20 18 16 14 12 10 1993 2007 1993 2007 USA ČR Který z grafů je správný? USA ČR 120% 100% 100% 80% 60% 40% 20% 98% 96% 94% 92% 0% 1993 2007 90% 1993 2007 USA ČR USA ČR

Popisná statistika Kvalitativní znak Výsečový graf 19; 22% 66; 78% muž žena

Popisná statistika Kvalitativní znak Prstencový graf 19; 22% muž žena 66; 78%

Popisná statistika Kvalitativní znak 3D výsečový graf 19; 22% muž žena 66; 78%

Popisná statistika Kvalitativní znak 3D výsečový graf 66; 78% muž žena 19; 22% Pozor na vypovídací schopnost 3D grafů!

Popisná statistika Kvalitativní znak 3D vs 2D výsečový graf Jaký je poměr výsečí A a C? Jaký je poměr výsečí B a D?

Anketa Jste pro navýšení hodinové dotace matematiky? TAKHLE NE!!! Nezapomínejte, že relativní četnosti byste měli uvádět pouze jako doplněk četností absolutních!

Je výsečový graf tou správnou volbou? zdroj: https://blog.funnel.io/why-we-dont-use-pie-charts-and-some-tips-on-better-data-visualizations

Obrázkové grafy užiteční pomocníci?

Obrázkové grafy Srovnání průměrných ročních nástupních platů učitelů středních škol v ČR (17 244 $) a Irsku (34 604 $)

Obrázkové grafy Srovnání průměrných ročních nástupních platů učitelů středních škol v ČR (17 244 $) a Irsku (34 604 $)

Obrázkové grafy Zdroj: UTTS, Jessica M. Seeing through statistics. 3rd ed. Belmont, CA: Thomson, Brooks/Cole, c2005. ISBN 0-534-39402-7.

Obrázkové grafy Zdroj: UTTS, Jessica M. Seeing through statistics. 3rd ed. Belmont, CA: Thomson, Brooks/Cole, c2005. ISBN 0-534-39402-7.

Pár příkladů z praxe

Obrázkové grafy užiteční pomocníci? (Zdroj: Mf Dnes, 10. 7. 2014: Zemědělci si rozdělí miliardy. Krávy a vepři se budou mít lépe.

Úžasná infografika o výdajích státního rozpočtu České republiky v roce 2013 Zdroj: http://www.estat.cz/zpravy/informace-k-projektum/kde-konci-vase-dane/

Zdroj: http://www.estat.cz/zpravy/informace-k-projektum/kde-konci-vase-dane/

Příklad s klobásou

Příklad s klobásou

minimální mzda (Kč) Zdroj: Twitter @strakovka 10 000 (20. srpna 2015) 8 000 Kč 8 000 6 000 4 000 2 000 Vývoj minimální mzdy v ČR od roku 2007 (zdroj: MPSV) 9 900 Kč 9 200 Kč 8 500 Kč 0 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

Zdroj: Dotyk, týdeník, 34. číslo, 21. 8. 2015, ISSN: 1805-9465

Pozor na logaritmické měřítko!

Český export Zdroj: https://www.souki.cz/kouzelne-grafy

Průzkum o představách studentů o budoucím zaměstnání Zdroj: Mimořádná příloha Mf Dnes, 27. 3. 2014 výsledky šetření spol. Studenta Media (typ šetření: online dotazování, specifikace výběru: přes tisíc vysokoškoláků ze všech ročníků po celé republice )

Průzkum o představách studentů o budoucím zaměstnání Zdroj: Mimořádná příloha Mf Dnes, 27. 3. 2014 výsledky šetření spol. Studenta Media (typ šetření: online dotazování, specifikace výběru: přes tisíc vysokoškoláků ze všech ročníků po celé republice )

Jak výsledky šetření zobrazit správně? Co je pro Vás důležité při výběru zaměstnání? (vyberte 3 pro Vás nejdůležitější faktory) četnost rel. četnost (%) rel. četnost (%) vzhledem k počtu respondentů plat 692 22 67 profesní růst 550 18 53 atraktivita pracovní pozice 493 16 48 pracovní prostředí 479 16 47 work-life balance 443 14 43 benefity 234 8 23 reputace společnosti 199 6 19 celkem 3090 100 % ---

rel. četnost z 1030 respondentů Jak výsledky šetření zobrazit správně? Co je pro Vás důležité při výběru zaměstnání? 80% 70% 67% 60% 50% 40% 53% 48% 47% 43% 30% 20% 23% 19% 10% 0% plat profesní růst atraktivita pracovní pozice pracovní prostředí work-life balance benefity reputace společnosti

Pokuste se o interpretaci! V prezentaci se můžete dozvědět, že průzkumu se zúčastnilo 219 (11,20 %) z 1 955 oslovených občanů. Žádné další informace k dané otázce uvedeny nejsou. Zdroj: https://www.krmelin.cz/evt_file.php?file=1673&original=dotaznikove_setreni_obce_krmelin_vysledky_10_18.pdf (18. 11. 2018)

Informace z vyžádané podrobnější zprávy (na webu není zveřejněna)

Analýza je jedním z podkladů pro tvorbu Strategického plánu obce! Pokuste se o interpretaci! V prezentaci se můžete dozvědět, že průzkumu se zúčastnilo 219 (11,20 %) z 1 955 oslovených občanů. Žádné další informace k dané otázce uvedeny nejsou. Informace z vyžádané zprávy: Celkový počet odpovědí na tuto otázku byl 686. Celkem 120 občanů (18 % z celkového počtu odpovědí) je nespokojeno s chodníky Titulek k grafu: Graf 10 Podíl výskytu odpovědi na vyjádření občanů, které prvky infrastruktury v obci nejvíce chybí nebo jsou v nevyhovujícím stavu dle podílu z celkového počtu odpovědí Zdroj: https://www.krmelin.cz/evt_file.php?file=1673&original=dotaznikove_setreni_obce_krmelin_vysledky_10_18.pdf (18. 11. 2018)

Zdroj: https://www.krmelin.cz/evt_file.php?file=1673& original=dotaznikove_setreni_obce_krmelin_vys ledky_10_18.pdf (18. 11. 2018) Co je pro respondenty palčivějším problémem stav chodníků nebo chybějící bankomat? V prezentaci se můžete dozvědět, že průzkumu se zúčastnilo 219 (11,20 %) z 1 955 oslovených občanů. Žádné další informace k dané otázce uvedeny nejsou. Informace z vyžádané zprávy: Občané uvedli celkem 160 námětů na chybějící služby v obci. Občanům nejčastěji chybí v obci bankomat (20 % z celkového počtu odpovědí, 32 odpovědí) Titulek k grafu: Graf 6 Vyjádření občanů k otázce, jaké služby jim v obci chybí dle podílů z celkového počtu odpovědí

Popisná statistika aneb Jak efektivně popsat a vizualizovat data Část 2 Kvantitativní znak

Popisná statistika - Kvantitativní znak Časová značka ID Pohlaví pohlaví Výška (cm) výška (cm) Váha (kg) váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? brigáda frekvence brigády charakteristika brigády Kolik času týdně obvykle věnujete brigádě? čas věnovaný brigádě (h/týden) Kolik času týdně obvykle věnujete studiu? čas věnovaný studiu (h/týden) 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Popište a vizualizujte hmotnost respondentů.

Popisná statistika - Kvantitativní znak Časová značka ID Pohlaví pohlaví Výška (cm) výška (cm) Váha (kg) váha (kg) Přivyděláváte si v rámci prezenčního studia na brigádách? Jak často brigádu máte? Jak byste svou brigádu charakterizoval(a)? brigáda frekvence brigády charakteristika brigády Kolik času týdně obvykle věnujete brigádě? čas věnovaný brigádě (h/týden) Kolik času týdně obvykle věnujete studiu? čas věnovaný studiu (h/týden) 1.4.2016 10:38 muž 180 70 ano každý pracovní den praxe v oboru během studia 20 15 1.4.2016 10:41 muž 186 85 ano nepravidelně kancelářská práce a na ní navazující práce manuální při realizaci projektů 30 20 1.4.2016 10:41 muž 172 75 ano nepravidelně praxe v oboru během studia 5 36 1.4.2016 10:45 žena 166 56 ano Různě, 2-3 týdně Hlídání dětí 12 10 1.4.2016 10:52 žena 188 70 ano 3 dny v tydnu praxe v oboru během studia 24 26 Míry polohy: průměr, kvantily Míry variability: rozptyl, směrodatná odchylka, variační koeficient

ҧ Popisná statistika - Kvantitativní znak Míry polohy (Aritmetický) průměr: n x = σ i=1 n xi

Popisná statistika kvantitativní znak Míry polohy Aritmetický průměr: x ҧ = σ n i=1 n xi Zdroj: Swoboda Helmut, Moderní statistika, 1977

Popisná statistika kvantitativní znak Míry polohy Aritmetický průměr: x ҧ = σ n i=1 n xi Země K Průměrná produkce kuřat (na osobu): 1,0 (denně)

Popisná statistika kvantitativní znak Míry polohy Aritmetický průměr: x ҧ = σ n i=1 n xi Zdroj: Blesk, 9.4.2013

Kč % Popisná statistika kvantitativní znak Míry polohy Aritmetický průměr: x ҧ = σ n i=1 n xi Průměrná měsíční mzda (čtvrtletí - absolutně, meziroční změny) 28 000 24 000 20 000 16 000 12 000 8 000 4 000 0-4 000 Q2/13 Q3/13 Q4/13 Q1/14 Q2/14 Q3/14 Q4/14 Q1/15 Q2/15 21,0 19,0 17,0 15,0 13,0 11,0 9,0 7,0 5,0 3,0 1,0-1,0-3,0 průměrná hrubá nominální mzda (Kč) average gross nominal wage (CZK) nominální mzda po očištění od sezónních vlivů (Kč) nominal wage seasonally adjusted (CZK)

Popisná statistika kvantitativní znak Míry polohy Aritmetický průměr: x ҧ = σ n i=1 n xi Průměrná rodina má 2,2 dítěte. Zdroj: Swoboda Helmut, Moderní statistika, 1977

Popisná statistika kvantitativní znak Míry polohy Aritmetický průměr: x ҧ = σ n i=1 POZOR! n xi Průměr je číslo, které nemusí patřit do definičního oboru analyzovaného znaku. (např. průměrný počet dětí jedné ženy)

Popisná statistika kvantitativní znak Míry polohy Aritmetický průměr: x ҧ = σ n i=1 n xi V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Určete průměrný plat obyvatel této vesnice. Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $40 000 000. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 $40 000 000 Určete průměrný plat obyvatel této vesnice. ($31 830) ($5 741 571)

Popisná statistika kvantitativní znak

ҧ Popisná statistika - Kvantitativní znak Míry polohy (Aritmetický) průměr: n x = σ i=1 n xi POZOR! Pozor na interpretaci průměru! Nepřisuzujme mu vlastnosti, které nemá! Průměr je číslo, které nemusí patřit do definičního oboru analyzovaného znaku. (např. průměrný počet dětí jedné ženy) Průměr není rezistentní vůči odlehlým pozorováním!

Popisná statistika kvantitativní znak Míry polohy Aritmetický průměr: x ҧ = σ n i=1 n xi Medián Med (50% kvantil 50 % hodnot je menších nebo rovných mediánů) Dolní kvartil Q1 (25% kvantil 25 % hodnot je menších nebo rovných dolnímu kvartilu) Horní kvartil Q3 (75% kvantil 75 % hodnot je menších nebo rovných hornímu kvartilu) 100p% kvantil 100p % hodnot je menších nebo rovných 100p% kvantilu Speciální typy kvantilů: Kvartily Decily Percentily

Kvantily v praxi

Kvantily v praxi

Kvantily v praxi

100p% kvantil hmotnosti (kg) Popisná statistika kvantitativní znak Vizualizace 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 100p % Míry polohy Váha (kg) minimum 50 dolní kvartil 68 průměr 78 medián 76 horní kvartil 85 maximum 130 Kvantilová funkce

četnost Popisná statistika - Kvantitativní znak Vizualizace 18 16 14 12 10 8 6 4 2 0 Míry polohy Hmotnost (kg) Minimum 50 Dolní kvartil 68 Průměr 78 Medián 76 Horní kvartil 85 Maximum 130 hmotnost (kg) Histogram

četnost Popisná statistika - Kvantitativní znak Vizualizace 30 25 20 15 10 5 0 50 59 68 77 86 94 103 112 121 Další hmotnost (kg) Míry polohy Hmotnost (kg) Minimum 50 Dolní kvartil 68 Průměr 78 Medián 76 Horní kvartil 85 Maximum 130 Histogram Tvar histogramů závisí na počtu tříd (sloupečků)!

Popisná statistika - Kvantitativní znak Tvar histogramů závisí na počtu tříd (sloupečků)!

Popisná statistika - Kvantitativní znak Histogram doplněný o polygon četnosti

Jak se výběrové kvantily určují? Jedna z používaných metod: 1. Výběrový soubor uspořádáme podle velikosti. 2. Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí n (rozsah souboru). 3. 100p%- ní kvantil je roven hodnotě proměnné s pořadím z p, kde z p = np + 0,5. 4. Není-li z p celé číslo, pak daný kvantil určíme jako průměr prvků s pořadím z p a z p.

V předložených datech určete 0,3 kvantil (30% kvantil). MN (%) 8,7 7,8 6,8 6,8 7,8 9,7 15,7 6,8 4,9 6,8

V předložených datech určete 0,3 kvantil (30% kvantil). MN (%) MN (%) (seřazeno) 8,7 4,9 7,8 6,8 6,8 6,8 6,8 6,8 7,8 6,8 9,7 7,8 15,7 7,8 6,8 8,7 4,9 9,7 6,8 16 z p = np + 0,5

V předložených datech určete 0,3 kvantil (30% kvantil). MN (%) MN (%) (seřazeno) 8,7 4,9 7,8 6,8 6,8 6,8 6,8 6,8 7,8 6,8 9,7 7,8 15,7 7,8 6,8 8,7 4,9 9,7 6,8 16 z p = np + 0,5 z 0,3 = 10 0,3 + 0,5 = 3,5

V předložených datech určete 0,3 kvantil (30% kvantil). MN (%) MN (%) (seřazeno) 8,7 4,9 7,8 6,8 6,8 6,8 6,8 6,8 7,8 6,8 9,7 7,8 15,7 7,8 6,8 8,7 4,9 9,7 6,8 16 x 0,3 = 6,8 + 6,8 2 = 6, 8 z p = np + 0,5 z 0,3 = 10 0,3 + 0,5 = 3,5

Popisná statistika Kvantitativní znak Míry variability K čemu nám jsou dobré? Zdroj: http://blackswanfarming.com/

Popisná statistika kvantitativní znak Míry variability Výběrový rozptyl: s 2 = σ i=1 n x i xҧ 2 n 1 POZOR! Jednotka rozptylu je kvadrátem jednotky analyzovaného znaku. σ n i=1 x i xҧ 2 Výběrová směrodatná odchylka: s = n 1 Neumožňuje srovnání variability znaků s různými jednotkami. Variační koeficient: V = s 100 % xҧ Čím nižší var. koeficient, tím homogennější soubor. V > 50 % značí silně rozptýlený soubor. (empirické doporučení) Rozpětí: R = max min Interkvartilové rozpětí: IQR = x 0,75 x 0,25

Proč se pro směrodatnou odchylku někdy používá symbol s a jindy symbol σ? Míry variability Výběrová směrodatná odchylka: s = σ n i=1 x i xҧ 2 n 1 Populační směrodatná odchylka: σ = σ i=1 N x i xҧ 2 N N rozsah populace, tj. pro výpočet musíme mít k dispozici všechna data ze základního souboru (populace), tj. musíme provést úplné šetření. Lze ukázat, že nejlepším odhadem populační směrodatné odchylky je výběrová směrodatná odchylka: σ s

Jakou představu o variabilitě dat nám dává směrodatná odchylka? Obecně platí tzv. Chebyshevova nerovnost Mají-li data libovolné rozdělení s konečným průměrem (μ) a konečnou sm. odchylkou (σ), pak nejméně 1 1 k 2 100 % variant leží v intervalu μ kσ; μ + kσ. k > 0: P μ kσ < X < μ + kσ > 1 1 k 2 k P(μ kσ < X < μ + kσ) (tj. pravděpodobnost, že data leží v intervalu μ kσ; μ + kσ ) 1 > 0 % 2 > 75 % 3 > 88 %

hustota pravděpodobnosti Jakou představu o variabilitě dat nám dává směrodatná odchylka? Obecně platí tzv. Chebyschevova nerovnost Mají-li data libovolné rozdělení s konečným průměrem (μ) and konečnou sm. odchylkou (σ), pak nejméně 1 1 k 2 100 % variant leží v intervalu μ kσ; μ + kσ. nejméně 88 % nejméně 75 %

Jakou představu o variabilitě dat nám dává směrodatná odchylka? Pro data, která mají normální rozdělení platí: Mají-li data normální rozdělení (obálka histogramu odpovídá Gaussově křivce (zvonovitý tvar)) s konečným průměrem (μ) a konečnou sm. odchylkou (σ), pak: k P(μ kσ < X < μ + kσ) (tj. pravděpodobnost, že data leží v intervalu μ kσ; μ + kσ ) 1 68 % 2 95 % 3 99,7 %

hustota pravděpodobnosti Jakou představu o variabilitě dat nám dává směrodatná odchylka? Pro data, která mají normální rozdělení platí: Mají-li data normální rozdělení (obálka histogramu odpovídá Gaussově křivce (zvonovitý tvar)) s konečným průměrem (μ) a konečnou sm. odchylkou (σ), pak:

Odlehlá pozorování ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru. Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování? V případě, že odlehlost pozorování je způsobena: hrubými chybami, překlepy, prokazatelným selháním lidí či techniky... důsledky poruch, chybného měření, technologických chyb... tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování. V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností.

Identifikace odlehlých pozorování Metoda vnitřních hradeb x x,5iqr x x 1, 5IQR x je odlehlým pozorování m i 0,25 1 i 0, 75 i Dolní mez vnitřních hradeb Horní mez vnitřních hradeb

Identifikace extrémních pozorování Metoda vnějších hradeb x x IQR x x 3IQR x je extrémním pozorování m i 0, 25 3 i 0, 75 i Dolní mez vnějších hradeb Horní mez vnějších hradeb

V předložených datech identifikujte odlehlá pozorování: MN 0,25 = 6, 8 MN 0,5 =7,3 MN 0,75 = 8,7 MN (%) 4,9 6,8 6,8 6,8 6,8 7,8 7,8 8,7 9,7 15,7 IQR = MN 0,75 MN 0,25 = 1,9 1,5 IQR = 2,85 Vnitřní hradby: Dolní mez: 6,8 2,85 = 3, 95 Horní mez: 8,7 + 2,85 = 11, 55

V předložených datech identifikujte odlehlá pozorování: MN 0,25 = 6, 8 MN 0,5 =7,3 MN 0,75 = 8,7 MN (%) 4,9 6,8 6,8 6,8 6,8 7,8 7,8 8,7 9,7 15,7 IQR = MN 0,75 MN 0,25 = 1,9 1,5 IQR = 2,85 Vnitřní hradby: Dolní mez: 6,8 2,85 = 3, 95 Horní mez: 8,7 + 2,85 = 11, 55

Identifikace odlehlých pozorování z souřadnice z souřadnice i = x i xҧ s Je-li z souřadnice i > 3, je x i odlehlým pozorováním. Zase nový vzorec?

Identifikace odlehlých pozorování z souřadnice z souřadnice i = x i xҧ s Je-li z souřadnice i > 3, je x i odlehlým pozorováním. Ne, jde jen o jinou podobu pravidla 3σ!

Popisná statistika - Kvantitativní znak Míry variability Hmotnost (kg) Rozptyl 215,3893 Směrodatná odchylka 14,67615 Variační koeficient (%) 18,90576 Jak zaokrouhlovat výběrové charakteristiky? Směrodatnou odchylku zaokrouhlujeme nahoru na k platných cifer, kde k závisí na rozsahu výběru. Míry polohy zaokrouhlujeme následně na stejný řád.

Popisná statistika - Kvantitativní znak Jak zaokrouhlovat výběrové charakteristiky? Rozsah výběru = 29 Směrodatnou odchylku zaokrouhlujeme nahoru na 2 platné cifry. Míry polohy zaokrouhlujeme následně na stejný řád. Míry polohy Váha (kg) zaokrouhleno minimum 50 dolní kvartil 68 průměr 77,62791 medián 75,5 horní kvartil 84,5 maximum 130 Míry variability směrodatná odchylka 14,67615 variační koeficient (%) 18,90576

Popisná statistika - Kvantitativní znak Jak zaokrouhlovat výběrové charakteristiky? Rozsah výběru = 29 Směrodatnou odchylku zaokrouhlujeme nahoru na 2 platné cifry. Míry polohy zaokrouhlujeme následně na stejný řád. Míry polohy Váha (kg) zaokrouhleno minimum 50 dolní kvartil 68 průměr 77,62791 medián 75,5 horní kvartil 84,5 maximum 130 Míry variability směrodatná odchylka 14,67615 15 variační koeficient (%) 18,90576 zaokrouhlujeme nahoru na 1-2 platné cifry

Popisná statistika - Kvantitativní znak Jak zaokrouhlovat výběrové charakteristiky? Rozsah výběru = 29 Směrodatnou odchylku zaokrouhlujeme nahoru na 2 platné cifry. Míry polohy zaokrouhlujeme následně na stejný řád. Míry polohy Váha (kg) zaokrouhleno minimum 50 dolní kvartil 68 68 průměr 77,62791 78 medián 75,5 76 horní kvartil 84,5 85 maximum 130 Míry variability směrodatná odchylka 14,67615 15 variační koeficient (%) 18,90576 zaokrouhlujeme na stejný řád jako směrodatnou odchylku

Popisná statistika - Kvantitativní znak Jak zaokrouhlovat výběrové charakteristiky? Rozsah výběru = 29 Směrodatnou odchylku zaokrouhlujeme nahoru na 2 platné cifry. Míry polohy zaokrouhlujeme následně na stejný řád. Míry polohy Váha (kg) zaokrouhleno minimum 50 50 dolní kvartil 68 68 průměr 77,62791 78 medián 75,5 76 horní kvartil 84,5 85 maximum 130 130 Míry variability směrodatná odchylka 14,67615 15 variační koeficient (%) 18,90576 nezaokrouhlujeme (údaj vybrán z datového souboru) nezaokrouhlujeme (údaj vybrán z datového souboru)

Popisná statistika - Kvantitativní znak Jak zaokrouhlovat výběrové charakteristiky? Rozsah výběru = 29 Směrodatnou odchylku zaokrouhlujeme nahoru na 2 platné cifry. Míry polohy zaokrouhlujeme následně na stejný řád. Míry polohy Váha (kg) zaokrouhleno minimum 50 50 dolní kvartil 68 68 průměr 77,62791 78 medián 75,5 76 horní kvartil 84,5 85 maximum 130 130 Míry variability směrodatná odchylka 14,67615 15 variační koeficient (%) 18,90576 18,9 zaokrouhlujeme na desetiny % (potřebujeme srovnávat s 50 %)

Další způsoby vizualizace kvantitativní proměnné

Popisná statistika - Kvantitativní znak Vizualizace Krabicový graf s vousama (Box and whisker plot) odlehlá pozorování, tj. defaultně: data ležící vně vnitřních hradeb není definováno jednoznačně, v R je to defaultně nastaveno jako max(data)[data<horní mez vnitřních hradeb] horní kvartil medián dolní kvartil není definováno jednoznačně, v R je to defaultně nastaveno jako min(data)[data>dolní mez vnitřních hradeb] boxplot(data) # nebo boxplot(data,range = 1.5) # parametrem range lze modifikovat velikost hradeb

Odhad hustoty pravděpodobnosti

Empirická distribuční funkce

Posuzování normality na základě explorační analýzy pro vybrané typy výběrových souborů

Q-Q graf Jak to funguje? výběrový 30% kvantil teoretický 30% kvantil Pokud jsou data výběrem z daného rozdělení, výběrové a teoretické kvantily by měly být shodné.

Q-Q graf

Q-Q graf

Q-Q graf ve tvaru S

Jak ověřit shodu rozptylů dvou populací na základě explorační analýzy? s A = 36 mah s D = 38 mah s2 max 2 382 s min 36 2 1,12 < 2 nepředpokládáme, že výběry pocházejí z populací s různými rozptyly

Jak ověřit shodu rozptylů dvou populací na základě explorační analýzy? s A = 36 mah s B = 15 mah s2 max 2 382 s min 15 2 5,76 > 2 předpokládáme, že výběry pocházejí z populací s různými rozptyly

Pár tipů pro zpracování domácích úkolů

Výrobce \ Kvalita Vyhovující Nevyhovující Celkem A 45 (62,5%) 27 (37,5%) 72 B 32 (49,2%) 33 (50,8%) 65 C 28 (46,7%) 32 (53,3%) 60 D 52 (71,2%) 21 (28,8%) 73 Celkem 157 (58,1%) 113 (41,9%) 270 Příliš barviček škodí dobrému dojmu Každá tabulka a každý obrázek musí mít výstižný titulek! Nezařazujte tabulky a obrázky, na něž se v dalším textu neodkazujete. Tabulky a grafy by měly být v myšlenkovém souladu.

Výrobce \ Kvalita Vyhovující Nevyhovující Celkem A 45 (62,5%) 27 (37,5%) 72 B 32 (49,2%) 33 (50,8%) 65 C 28 (46,7%) 32 (53,3%) 60 D 52 (71,2%) 21 (28,8%) 73 Celkem 157 (58,1%) 113 (41,9%) 270 Tab. 1: Zastoupení různých typů akumulátorů (dle kvality) pro jednotlivé výrobce Obr. 1: Zastoupení různých typů akumulátorů (dle kvality) pro jednotlivé výrobce

Obr. 2 : Krabicové grafy výrobců Každá tabulka a každý obrázek musí mít výstižný titulek! Standardní součástí grafů je popis os. Chceme-li grafy používat k vzájemnému porovnávání výsledků, snažíme se používat stejné rozsahy os.

Obr. 2 : Srovnání kapacit akumulátorů po 5 nabíjecích cyklech (mah) dle výrobců (krabicový graf)

Obr. 3 : Srovnání kapacit akumulátorů po 5 nabíjecích cyklech (mah) výrobců A a B Naučte se grafy efektivně kombinovat!

DĚKUJI ZA POZORNOST! martina.litschmannova@vsb.cz