Analýza a prezentace dat. Název Data analysis and presentation Způsob ukončení * přednášek týdně 2 hod.

Identifikační karta modulu Kód modulu modulu povinný Jazyk výuky čeština v jazyce výuky Analýza a prezentace dat česky Analýza a prezentace dat anglicky Data analysis and presentation Způsob ukončení * zkouška Počet kreditů 5 Forma výuky Prezenční studium přednášek týdně 2 hod. cvičení týdně 2 hod. Kombinované studium jedno soustředění 3 hod. Doporučený typ studia Bakalářský ročník 2 semestr 3 Magisterský ročník semestr Magisterský navazující ročník semestr Doktorský ročník semestr Personální zabezpečení (vyplňte ve formátu Příjmení Jméno, bez titulů) Garant Komárková Lenka podíl na výuce 40 % 1. vyučující Bína Vladislav podíl na výuce 30 % 2. vyučující Kotoučková Hana podíl na výuce 30 % 3. vyučující podíl na výuce % 4. vyučující podíl na výuce % 5. vyučující podíl na výuce % Výchozí předměty (pouze předměty ECTS, tedy s identem 6*****) 1. předmět (ident) 6MI211 podíl zastoupení 70 % 2. předmět (ident) 6MI221 podíl zastoupení 30 % 3. předmět (ident) podíl zastoupení % 4. předmět (ident) podíl zastoupení % 5. předmět (ident) podíl zastoupení % * Jeden ECTS kredit odpovídá 26 hodinám studijní zátěže průměrného studenta.

Zastoupení domén CEMS 1. doména CBK2 Mathematics Statistics podíl zastoupení 100 % 2. doména podíl zastoupení % 3. doména podíl zastoupení % 4. doména podíl zastoupení % 5. doména podíl zastoupení % Prerekvizity (předchozí odstudované moduly, případně jejich studijní průměr) 1. 2. 3. 4. 5. Zaměření modulu 1. postupy pro popis a prezentaci dat a jejich základní analýzy včetně reportování výsledků 2. úvod do statistického induktivního uvažování (odhady a testy) 3. základní statistické nástroje sloužící k analýze závislostí 4. elementární modelovací techniky 5. praktická aplikace uvedených metod na reálná data za použití vhodného statistického software s důrazem na interpetaci výsledků Výstupy modulu (learning outcomes) Po úspěšném absolvování budou studenti schopni 1. identifikovat kvalitativní a kvantitativní statistické proměnné a vybrat pro ně vhodný způsob zpracování 2. vytvářet tabulky a grafy souhrnně zobrazující příslušné popisné statistiky 3. posuzovat normalitu kvantitativních dat a ověřovat i další předpoklady jednotlivých metod 4. konstruovat bodové a intervalové odhady pro populační průměr a proporci 5. porovnávat parametry polohy dvou nezávislých i závislých výběrů 6. posoudit (ne)závislost dvou znaků pomocí dvourozměrných technik (graficky, v některých případech i testem), v případě dvou kvantitativních proměnných hledat vhodnou funkční závislost 7. reportovat výsledky statistických analýz

Obsah modulu (podrobný rozpis témat) 1. ÚVOD: Ukázky použití statistiky v ekonomii, marketingu a managementu. ná vs. matematická statistika - účel, obsah, metody, výstupy, obtížnost. Základní statistické pojmy - statistická jednotka (subjekt), statistický znak (proměnná), základní (populační) soubor, výběrový soubor. Kvalitativní (nominální, ordinální) a kvantitativní proměnné - rozdělení, příklady. Přehled statistického software (komerční, nekomerční). Datová matice, základní manipulace s daty (import, editování, filtrování, export). 2. POPIS A PREZENTACE JEDNOROZMĚRNÝCH DAT: a) Kvalitativní data: - absolutní četnosti, relativní četnosti, tabulky (relativních) četností, kumulativní četnosti; - grafické znázornění: sloupcový graf, Clevelandův bodový graf, výsečový (koláčový) graf. b) Kvantitativní data: - číselné charakteristiky polohy (minimum, maximum, průměr, medián, kvantily) a variability (variační a kvartilové rozpětí, rozptyl a směrodatná odchylka, variační koeficient), medián vs. průměr, interpretace kvartilů, chování číselných charakteristik vzhledem k posunutí a změně měřítka; - grafické znázornění: boxplot (krabicový graf), histogram, qq-graf; - zavedení normálního rozdělení (intuitivně), posuzování normality na základě obrázků, pravidlo dvou, resp. tří směrodatných odchylek; - kategorizace kvantitativních dat, důvody kategorizace, volba velikosti intervalu. 3. POPIS A PREZENTACE DVOUROZMĚRNÝCH DAT: a) Kvalitativní vs. kvalitativní veličina: - sdružené absolutní (relativní) četnosti, marginální absolutní (relativní) četnosti, kontingenční tabulka, podmíněné četnosti, nezávislost znaků; - grafické znázornění: podmíněné sloupcové grafy, podmíněné kumulativní sloupcové grafy. b) Kvantitativní vs. kvalitativní veličina: - podmíněné míry polohy (podmíněná minima a maxima, podmíněné průměry a mediány, podmíněné kvantily) a variability (podmíněné rozptyly a směrodatné odchylky, podmíněná variační a kvartilová rozpětí, podmíněné variační koeficienty), subjektivní vyhodnocení (ne)závislosti znaků; - grafické znázornění: podmíněné histogramy, boxploty, qq-grafy. c) Kvantitativní vs. kvantitativní veličina: - výběrová kovariance a korelace, vlastnosti korelačního koeficientu, nekorelovanost vs. nezávislost, statistická závislost vs. kauzalita; - grafické znázornění: scatterplot (rozptylový graf). 4. VIZUALIZACE A REPORTOVÁNÍ STATISTICKÝCH DAT: Principy tvorby tabulek a grafů, optické klamy u grafů, vizualizace dat jako nástroj průzkumové analýzy, zásady psaní statistických zpráv. Statistické grafy: - rozšíření již zavedených grafů: prstencový graf, pp-graf, kombinovaný krabicový a bodový graf, měřící bodový graf, histogram v polárních souřadnicích, bublinový graf, atd.; - speciální grafy: strom života (věková pyramida), Paretův graf, zobrazování časových řad (spojnicový, plošný graf); - vizualizace vícerozměrných dat: zobecněné rozptylové diagramy (scatterploty), symbolové grafy

(profily, polygony, tváře, křivky a stromy). 5. TYPY STATISTICKÝCH STUDIÍ: Výběrová šetření - reprezentativní (průzkumy) vs. nereprezentativní (anketa), typy náhodných výběrů (prostý náhodný výběr s vracením a bez vracení, oblastní (strafikovaný) náhodný výběr), opora výběru, výběrová chyba a výběrové vychýlení, příklady špatné volby opory výběru, příčiny výběrového vychýlení. Experimentální studie - klinický pokus, průmyslový experiment. Pozorovací studie - prospektivní, retrospektivní, kohortové studie. Ukázky použití, rozdíly v možnostech zobecňování výsledků pro jednotlivé typy studií. 6. ZÁKLADY ODHADOVÁNÍ: Zobecňování popisných statistik na populaci, bodový odhad a směrodatná chyba odhadu, vlastnosti bodového odhadu (konzistence, nestrannost). Oboustranný a jednostranný intervalový odhad (interval spolehlivosti), interpretace intervalového odhadu, chování intervalového odhadu vzhedem k zadané spolehlivosti, vzhledem k rozsahu výběru, variabilitě dat. a) Kvalitativní data: bodový a intervalový odhad populační relativní četnosti. b) Kvantitativní data: bodový a intervalový odhad populačního průměru. 7. ZÁKLADY TESTOVÁNÍ: Základní princip testování hypotéz, nulová a alternativní hypotéza, jednostranná a oboustranná verze testu, chyba I. druhu, chyba II. druhu a síla testu, hladina významnosti, problém současné minimalizace obou chyb, interpretace rozhodnutí (nezamítáme vs. přijímáme nulovou hypotézu, prokázat lze jen alternativu). Význam p-hodnoty a její praktické použití pro rozhodování, statistická vs. praktická významnost. Souvislost testování s intervalovými odhady. Formální ověřování normality (Shapirův-Wilkův test). 8. JEDNOVÝBĚROVÉ TESTY: a) Kvalitativní data: - jednovýběrový test o proporci: nulová a alternativní hypotéza (symbolicky i slovně), základní princip testu, testová statistika, souvislost s intervalem spolehlivosti pro populační relativní četnost; - chí-kvadrát test dobré shody: pozorované vs. očekávané četnosti, souvislost s jednovýběrovým testem o proporci pro alternativní data, podmínka pro platnost asymptotické aproximace. b) Kvantitativní data: - jednovýběrový t-test: nulová a alternativní hypotéza (symbolicky i slovně, jednostranná, oboustranná alternativa), základní princip testu, souvislost s intervalem spolehlivosti pro populační průměr, předpoklady metody a situace, kdy není nutné brát zřetel na porušení předpokladu normality; - jednovýběrový Wilcoxonův test: předpoklady metody, odlišnost ve formulaci hypotéz oproti jednovýběrovému t-testu, jednovýběrový t-test vs. jednovýběrový Wilcoxonův test (proč se dává přednost parametrickým testům před neparametrickými). 9. DVOUVÝBĚROVÉ TESTY (SROVNÁVÁNÍ DVOU NEZÁVISLÝCH VÝBĚRŮ): a) Kvalitativní data: - dvouvýběrový test o proporcích (založený na rozdílu): formulace nulové a alternativní hypotézy, základní princip testu, souvislost s intervalem spolehlivosti pro rozdíl relativních populačních četností; - chí-kvadrát test nezávislosti: homogenita podmíněných rozdělení, nulová hypotéza testu nezávislosti, očekávané (hypotetické) vs. pozorované (empirické) četnosti, testová statistika, řešení nesplněného předpokladu. b) Kvantitativní data: - dvouvýběrový t-test: formulace testového problému, souvislost s intervalem spolehlivosti pro rozdíl populačních průměrů, rozvolnění předpokladu normality výběrů, heteroskedastická (Welchova) verze

testu, prezentace výsledků v kombinaci s popisnou statistikou (podmíněné průměry a směrodatné odchylky); - dvouvýběrový Wilcoxonův (Mannův-Whitneyův, rank sum) test: předpoklady testu, odlišnost od dvouvýběrového t-testu ve formulaci nulové a alternativní hypotézy, příklady použití tohoto testu a situace, kdy není vhodné použít ani dvouvýběrový Wilcoxonův test, prezentace výsledků v kombinaci s popisnou statistikou (podmíněné mediány a podmíněná kvartilová rozpětí). 10. PÁROVÉ TESTY (SROVNÁVÁNÍ DVOU ZÁVISLÝCH VÝBĚRŮ): Význam párování a randomizace. a) Kvalitativní data: - McNemarův test: kontingenční tabulka 2x2, homogenita marginálních rozdělení, symetrie kontingenční tabulky, předpoklady testu, správná volba testu pro tabulky 2x2 (McNemarův test vs. chí-kvadrát test nezávislosti); - Stuartův test homogenity: zobecnění McNemarova testu, homogenita marginálních rozdělení ve čtvercové tabulce r x r. b) Kvantitativní data: - párový t-test: souvislost s jednovýběrovým testem s rozdíly, odlišnost v předpokladech použití od dvouvýběrového t-testu; - párový Wilcoxonův (signed rank) test: souvislost s jednovýběrovým Wilcoxonovým testem pro rozdíly, předpoklady testu, rozdíl v nulové hypotéze oproti dvouvýběrovému Wilcoxonovu testu. 11. ANALÝZA ROZPTYLU JEDNODUCHÉHO TŘÍDĚNÍ: Zobrazování dat v kontextu ANOVy jednoduchého třídění. ANOVA jednoduchého třídění jako zobecnění dvouvýběrového t-testu pro větší počet nezávislých výběrů, formulace nulové a alternativní hypotézy, tabulka analýzy rozptylu, diagnostické nástroje (reziduální grafy, Leveneův test homoskedasticity, Shapirův-Wilkův test aplikovaný na rezidua) a nápravné prostředky (logaritmická transformace), mnohonásobné porovnávání (rozdíl proti párovému srovnávání - kumulace chyby, Bonferroniho princip, Tukeyova metoda). Heteroskedastická verze (Welchova ANOVA) a neparametrická verze analýzy rozptylu (Kruskalův- Wallisův test). Blokové studie jako nástroj pro porovnání většího počtu závislých výběrů (informativně). 12. JEDNODUCHÁ LINEÁRNÍ REGRESE: Normální regresní model a jeho předpoklady, odhad regresních koeficientů metodou nejmenších čtverců, intervaly spolehlivosti a testy pro regresní parametry, koeficient determinace, predikce, konfidenční vs. predikční interval, ověřování předpokladů (reziduální grafy, modifikovaný Leveneův test, Shapirův- Wilkův test aplikovaný na rezidua) a nápravné prostředky. a) Regresní přímka: interpretace regresních parametrů, vztah koeficientu determinace a korelačního koeficientu. b) Ostatní regresní funkce: transformace prediktoru a/nebo odezvy, nalezení nejvhodnějšího modelu. 13 STRUČNÝ PŘEHLED DALŠÍCH STATISTICKÝCH PROCEDUR (pouze informativně): Vícenásobná lineární regrese (kvantitativní i kvalitativní prediktory), logistická regrese. Časové řady (nekorelované, korelované chyby). Vícerozměrné metody (shluková, diskriminační analýza, metoda hlavních komponent, faktorová analýza, ). Řešení ukázkové zkouškové písemky a diskuse nad dotazy studentů.

Metody výuky a studijní zátěž (počet hodin studijní zátěže) Prezenční forma Kombinovaná forma 1. Účast na přednáškách 26 hod. 12 hod. 2. Příprava na přednášky 13 hod. 27 hod. 3. Účast na cvičeních/seminářích/tutoriálech 26 hod. 0 hod. 4. Příprava na cvičení/semináře/tutoriály 13 hod. 0 hod. 5. Příprava semestrální práce 13 hod. 26 hod. 6. Příprava prezentace 0 hod. 0 hod. 7. Příprava na průběžný test (testy) 13 hod. 26 hod. 8. Příprava na závěrečný test 26 hod. 39 hod. 9. Příprava na závěrečnou ústní zkoušku 0 hod. 0 hod. 10. Jiný požadavek ( ) 0 hod. 0 hod. Celkem 130 hod. 130 hod. Požadavky na ukončení (váha hodnocení) Prezenční forma Kombinovaná forma 1. Aktivita na přednáškách/cvičeních/seminářích 0 % 0 % 2. Vypracování semestrální práce 10 % 10 % 3. Prezentace 0 % 0 % 4. Absolvování průběžného testu (testů) 20 % 20 % 5. Absolvování závěrečného testu 70 % 70 % 6. Absolvování závěrečné ústní zkoušky 0 % 0 % 7. Jiný požadavek ( ) 0 % 0 % Celkem 100 % 100 % Zvláštní podmínky a podrobnosti Podíl využití ICT 60 % Podíl náplně s environmentální problematikou %

Literatura 1. 2. 3. 4. 5. 6. 7. 8. základní 978-80-86946-40-5 Statistika pro ekonomy - aplikace, 2. vydání Luboš Marek a kol. Stav v knihovně FM 5 ks Optimální cílový stav 10 ks základní 978-0-521-13007-3 Data Analysis Using SAS Enterprise Guide (Paperback) Lawrence S. Meyers, Glenn Gamst, A. J. Guarino základní 978-1-84920-092-9 Discovering Statistics Using SAS (Paperback) Andy Field, Jeremy Miles doporučená 978-1-4200-7057-6 SAS and R: Data Management, Statistical Analysis, and Graphics (Hardcover) Ken Kleinman, Nicholas J. Horton doporučená 978-80-245-1227-3 Základy analýzy dat a statistického úsudku s příklady v R Lenka Komárková, Arnošt Komárek, Vladislav Bína Stav v knihovně FM 5 ks Optimální cílový stav 5 ks doporučená 978-80-245-1226-6 Statistická analýza závislosti s příklady v R Arnošt Komárek, Lenka Komárková Stav v knihovně FM 5 ks Optimální cílový stav 5 ks doporučená 978-0-4705-3703-9 Statistics For Dummies Education Bundle (Two Books in 1, Paperback) (Statistics for Dummies + Statistics Workbook For Dummies) Deborah Rumsey doporučená 978-0-470-46646-9 Statistics II for Dummies Deborah Rumsey

Literatura (pokračování) doporučená 978-0-470-53968-2 9. 10. 11. 12. 13. 14. 15. SAS For Dummies (2nd Edition, Paperback) Stephen McDaniel, Chris Hemedinger

Další požadavky (software, jiné učební pomůcky) 1. 2. 3. 4. 5. Zdroj modulu (vlastní idea, vyučované v zahraničí, ) 1. Modul byl složen z toho dle našeho názoru nejdůležitějšího, co se dosud vyučovalo ve dvou povinných statistických kurzech (každý s výukou 2/2). Oproti dříve vyučovanému bylo navíc zařazeno 4. téma (Vizualizace a reportování statistických dat). 2. 3. Jakékoliv další poznámky 1. Po dlouhém a pečlivém uvážení nebyly do modulu zařeny základy teorie pravděpodobnosti, neboť tato látka danou problematiku u studentů nezprůhlednila, spíše naopak. Výklad je zjednodušen v tom smyslu, že se jedná o vztah výběr vs. populace, tj. o střední hodnotě se mluví jako o populačním průměru. Normální rozdělení a pravděpodobnost jsou zavedeny pouze intuitivně. Domníváme se, že tímto dojde k větší kontinuitě a srozumitelnosti přednesené látky. Nicméně základy teorie pravděpodobnosti budou zařazeny do modulu Techniky pro podporu rozhodování. 2. V současné době počítáme pro výuku se statistickým software SAS (konkrétně s jeho grafickým rozhraním SAS Enterprise Guide). Dosud se statistické předměty vyučovaly se statistickým software R (konkrétně s nadstavbou Rcmdr). 3. Předmět lze případně vyučovat již v 2. semestru 1. ročníku.