Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Podobné dokumenty
Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Jana Vránová, 3. lékařská fakulta UK

Cvičení ze statistiky - 9. Filip Děchtěrenko

Analýza dat z dotazníkových šetření

Statistické metody uţívané při ověřování platnosti hypotéz

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

ADDS cviceni. Pavlina Kuranova

= = 2368

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

KGG/STG Statistika pro geografy

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

4ST201 STATISTIKA CVIČENÍ Č. 7

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

You created this PDF from an application that is not licensed to print to novapdf printer (

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

TECHNICKÁ UNIVERZITA V LIBERCI

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

STATISTICKÉ TESTY VÝZNAMNOSTI

Jednofaktorová analýza rozptylu

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

INDUKTIVNÍ STATISTIKA

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Popisná statistika kvantitativní veličiny

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Spokojenost se životem

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

12. cvičení z PST. 20. prosince 2017

STATISTICKÉ ODHADY Odhady populačních charakteristik

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

Měření závislosti statistických dat

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Cvičení 12: Binární logistická regrese

Analýza dat na PC I.

Cvičení ze statistiky - 8. Filip Děchtěrenko

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Seminář 6 statistické testy

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Úvod do analýzy rozptylu

STATISTICKÉ ZJIŠŤOVÁNÍ

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metodologie pro Informační studia a knihovnictví 2

Návod na vypracování semestrálního projektu

Testy. Pavel Provinský. 19. listopadu 2013

Přednáška X. Testování hypotéz o kvantitativních proměnných

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Statistika pro geografy

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Deskriptivní statistika (kategorizované proměnné)

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

STATISTICKÉ TESTY VÝZNAMNOSTI

Testování statistických hypotéz

Náhodné chyby přímých měření

Jednofaktorová analýza rozptylu

Tomáš Karel LS 2012/2013

Jednostranné intervaly spolehlivosti

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Vybraná rozdělení náhodné veličiny

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

Pravděpodobnost, náhoda, kostky

Statistické testování hypotéz II

Charakteristika datového souboru

4EK211 Základy ekonometrie

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Testy statistických hypotéz

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Zápočtová práce STATISTIKA I

Renáta Bednárová STATISTIKA PRO EKONOMY

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Protokol č. 1. Tloušťková struktura. Zadání:

Seminář 6 statistické testy

Normální (Gaussovo) rozdělení

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

4. Vzorce v Excelu Tipy pro práci s Wordem Kontingenční tabulky v Excelu

STATISTICA Téma 7. Testy na základě více než 2 výběrů

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Transkript:

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze to, zda jsou stejné či různé např. pohlaví, politická strana, typ politického režimu apod. ordinální (ordinal) u hodnot je navíc možné určit jejich pořadí ( co je více a co méně ) např. úroveň dosaženého vzdělání, míra spokojenosti s politickým režimem apod. intervalová (interval) lze vypočítat, o kolik je jedna hodnota větší (menší) než druhá např. míra růstu HDP, výše inflace apod. kvalitativní data lze užít jako oba typy dat kvantitativní data poměrová (ratio) lze vypočítat, kolikrát je jedna hodnota větší (menší) než druhá existuje absolutní nula, pouze kladné hodnoty např. počet hlasů získaných ve volbách, počet poslanců hlasujících pro zákon apod. 21. března 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 2

Typy proměnných Typ proměnné Matematické operace Lze vypočítat Příklad Nominální =, Modus Pohlaví Ordinální =,, >, < Modus, medián Pořadí sportovců v závodě Intervalová =,, >, <, +, - Poměrová =,, >, <, +, -, *, / Modus, medián, aritmetický průměr Modus, medián, aritmetický průměr Teplota ve stupních Celsia Teplota ve stupních Kelvina, hmotnost 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 3

Kategorická data jiný název pro kvalitativní proměnné kvalitativní proměnné mají zejména nominální, ale často i ordinální podobu záleží, jak k nim přistupujeme (jakou analýzu využíváme) možnosti práce s těmito typy proměnných jsou omezené proměnné proto stavíme základním způsobem vedle sebe a odhalujeme vzájemné vztahy k dalším datům příkladem analýzy kategorických dat jsou kontingenční tabulky 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 4

Kontingenční tabulka primární metoda využívaná pro analýzu vztahu nominálních a ordinálních proměnných má předepsanou podobu v jednotlivých sloupcích jsou hodnoty nezávisle proměnné v řádcích jsou hodnoty závisle proměnné hodnoty proměnných jsou řazeny logicky (od nejnižší spokojenosti po nejvyšší, od nejvyšší důvěry po nejnižší apod.) samotné kontingenční tabulky uvádí hodnoty absolutních pozorovaných četností pro interpretaci a primární odhalení souvislostí se uvádí procentuální četnosti pozor na to, zda jsou uváděna sloupcová nebo řádková procenta! pro vytvoření kontingenční tabulky v Excelu je možné využít například funkci Kontingenční tabulka (Pivot Table) 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 5

Kontingenční tabulka CVVM, Naše společnost říjen 2017 nezávisle proměnná závisle proměnná Pozorované četnosti Vzdělání Důvěra prezidentovi základní střední bez maturity střední s maturitou vysokoškolské Total rozhodně důvěřuje 31 39 40 16 126 spíše důvěřuje 61 119 116 44 340 spíše nedůvěřuje 32 90 77 43 242 rozhodně nedůvěřuje 32 65 61 47 205 Total 156 313 294 150 913 Procentuální četnosti Vzdělání Důvěra prezidentovi základní střední bez maturity střední s maturitou vysokoškolské rozhodně důvěřuje 19,87 12,46 13,61 10,67 spíše důvěřuje 39,10 38,02 39,46 29,33 spíše nedůvěřuje 20,51 28,75 26,19 28,67 rozhodně nedůvěřuje 20,51 20,77 20,75 31,33 Total 100 100 100 100 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 6

Pearsonův chí-kvadrát test základní a nejpoužívanější test nezávislosti v kontingenční tabulce H 0 : náhodné veličiny X a Y jsou nezávislé pravděpodobnost nastání určité hodnoty proměnné X neovlivňuje nastání určité hodnoty proměnné Y při výpočtu v Excelu postupujeme následovně: 1. zapíšeme pozorované četnosti (POZOR do prázdných buněk je třeba zapsat nulu!) 2. ve vedlejší tabulce vypočteme očekávané četnosti součet všech četností v řádku součet všech četností ve sloupci očekávaná četnost = součet četností v celé tabulce 3. následně srovnáme četnosti pozorované a očekávané v rámci chí-kvadrát testu - funkce CHITEST() 4. výsledek uvádí pravděpodobnost platnosti nulové hypotézy čím je číslo nižší, tím pravděpodobnější je, že veličiny X a Y jsou na sobě vzájemně závislé rozhodující je pro nás úroveň 0,05 ta určuje hranici pravděpodobnosti 95 % (pokud je výsledek testu nižší než 0,05, máme minimálně 95% jistotu, že veličiny X a Y jsou na sobě vzájemně závislé) 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 7

t-test proměnné, u kterých už máme možnost smysluplně spočítat například průměr (intervalové, poměrové), můžeme zkoumat dalšími více pokročilými metodami jednou z nich je např. t-test umožňuje ověřit, zda dvě normální rozložení, z nichž pocházejí dva nezávislé výběry, mají stejné střední hodnoty (průměry) H 0 : průměry dvou populací jsou stejné H 0 : μ ; = μ < alternativní hypotézou je, že průměry dvou populací se signifikantně liší (liší se tedy tyto dvě populace v určité hodnotě) 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 8

t-test plot.ly 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 9

t-test postup při výpočtu je následující 1. vypočítat průměry a standardní odchylky obou vzorků 2. vypočítat jednotlivé standardní chyby obou vzorků 3. vypočítat celkovou standardní chybu vzorků 4. vypočítat t-skóre t = SE? = SE ; < + SE < < X ; X < celková standardní chyba 5. porovnat t-skóre s t-tabulkou za účelem odhalení pravděpodobnosti platnosti nulové hypotézy při výpočtu t-testu v Excelu získáme přímo hodnotu pravděpodobnosti platnosti nulové hypotézy pozor na různé t-testy vzhledem k vzájemné závislosti vzorků v případě nejistoty vždy používat nejvíce konzervativní nepárový test pro vzorky s rozdílnými rozptyly 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 10

Test jednostranný nebo oboustranný? proti nulové hypotéze stavíme alternativní hypotézu ta může být buď jednostranná nebo oboustranná pokud je alternativní hypotéza H A : μ ; μ <, je možné, že μ ; > μ <, nebo μ ; < μ < a musíme proto použít dvoustranný test například současní poslanci nechybí stejně často jako jejich kolegové v 90. letech pokud je ale alternativní hypotéza například jen H A : μ ; > μ <, použijeme jednostranný test například současní poslanci chybí méně často než jejich kolegové v 90. letech backyardbrains.com 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 11

t-tabulka při výpočtu t-skóre se podíváme do t-tabulky, co hodnota značí najdeme si příslušný řádek podle stupňů volnosti (degreesof freedom) pokud řádek s příslušnými stupni volnosti chybí, použijeme nejbližší konzervativnější hodnotu (např. pokud chybí df = 36, použijeme df = 30) určíme dva sloupce, mezi kterými se hodnota t-skóre nachází sloupec s nižší hodnotou jistoty značí naši minimální pravděpodobnost odlišnosti srovnávaných dat vzhledem ke konvenci nás obecně zajímá, zda je pravděpodobnost vyšší či nižší než 95 % ttable.org 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 12

z-skóre se zvyšujícím se počtem df se rozložení blíží normálnímu v normálním rozložení z-skóre x μ z = σ kanbanize.com ttable.org 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 13

Výpočet v Excelu při výpočtu pomocí Excelu využíváme funkci T.TEST() musíme zde určit několik parametrů první vzorek dat druhý vzorek dat jednostranný (1) vs. dvoustranný test (2) typ testu párový (1), stejné rozptyly (2), různé rozptyly (3) výsledek uvádí pravděpodobnost platnosti nulové hypotézy t-skóre je spočítáno v mezikroku a nemusíme se zabývat tabulkami čím je číslo nižší, tím pravděpodobnější je, že dva rozhodující je pro nás úroveň 0,05 ta určuje hranici pravděpodobnosti 95 % (pokud je výsledek testu nižší než 0,05, máme minimálně 95% jistotu, že vzorky pocházejí z různých populací) https://www.evanmiller.org/ab-testing/t-test.html 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 14

Shrnutí kvalitativní (kategorická) data lze zkoumat omezeným množstvím statistických nástrojů k jejich zobrazení a porovnání využíváme např. kontingenční tabulky v rámci těch aplikujeme chí-kvadrát test určující přítomnost vztahu mezi proměnnými pro porovnání dvou vzorků používáme t-test při ručním výpočtu srovnáme t-skóre s t-tabulkou a odhalíme pravděpodobnost rozdílnosti obou populací při výpočtu v programovacím prostředí získáme rovnou výslednou pravděpodobnost, že vzorky pocházejí z identických populací 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 15