Opakování: Nominální proměnná více hodnotová odpověď.

Podobné dokumenty
Opakování: Nominální proměnná více hodnotová odpověď.

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

1. Kategoriální proměnná nominální: (Tabulka a graf četností) Př.: sloupec (PokudanoJakčasto) -> Analyze -> Descriptive statistics -> Frequencies

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Zápočtová práce STATISTIKA I

Charakteristika datového souboru

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

Analýza dat z dotazníkových šetření

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Testy. Pavel Provinský. 19. listopadu 2013

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování statistických hypotéz

Ing. Michael Rost, Ph.D.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

ADDS cviceni. Pavlina Kuranova

Aproximace binomického rozdělení normálním

Seminář 6 statistické testy

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

PRAVDĚPODOBNOST A STATISTIKA

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Náhodné veličiny, náhodné chyby

Pravděpodobnost a aplikovaná statistika

STATISTICKÉ HYPOTÉZY

Stručný úvod do testování statistických hypotéz

LEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ

Vymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II.

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Testování statistických hypotéz

TECHNICKÁ UNIVERZITA V LIBERCI

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

5 Parametrické testy hypotéz

Testování statistických hypotéz

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Seminář 6 statistické testy

Tomáš Karel LS 2012/2013

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

STATISTICKÉ TESTY VÝZNAMNOSTI

Testy statistických hypotéz

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Ranní úvahy o statistice

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Testování statistických hypotéz. Obecný postup

4ST201 STATISTIKA CVIČENÍ Č. 7

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

= = 2368

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Normální (Gaussovo) rozdělení

Testy nezávislosti kardinálních veličin

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Normální (Gaussovo) rozdělení

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

4EK211 Základy ekonometrie

12. cvičení z PST. 20. prosince 2017

TECHNICKÁ UNIVERZITA V LIBERCI

Náhodná veličina a rozdělení pravděpodobnosti

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

2 ) 4, Φ 1 (1 0,005)

Návrhy dalších možností statistického zpracování aktualizovaných dat

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Vzorová prezentace do předmětu Statistika

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Cvičení ze statistiky - 8. Filip Děchtěrenko

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

TECHNICKÁ UNIVERZITA V LIBERCI

15. T e s t o v á n í h y p o t é z

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testování hypotéz o parametrech regresního modelu

ADDS cvičení 7. Pavlína Kuráňová

Testování hypotéz o parametrech regresního modelu

Technická univerzita v Liberci

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Metodologie pro Informační studia a knihovnictví 2

7.1. Podstata testu statistické hypotézy

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Příklady na testy hypotéz o parametrech normálního rozdělení

Jednostranné intervaly spolehlivosti

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Přednáška X. Testování hypotéz o kvantitativních proměnných

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Transkript:

Analýza dat z dotazníkových šetření Cvičení 4. - Zobecňování výběru na populaci Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/37771/ - Seznamte se s dotazníkem a strukturou otázek, zamyslete se nad vhodností jednotlivých odpovědí a škál - Stáhněte si data z dotazníku ve formátu *.csv a otevřete je v aplikaci Excel, zamyslete se, která data by bylo vhodnější upravit přímo v Excelu -> uložte dotazník ve formátu *.xls a otevřete datový soubor v prostředí SPSS Opakování: Nominální proměnná více hodnotová odpověď. - Podívejme se do dotazníku na otázku: Jaké jsou další nejdůležitější kritéria při výběru cestovní kanceláře pro Vaši dovolenou? - Je zde několik různých možností odpovědí. Nicméně pro časovou úsporu budeme analyzovat jen první 3 sloupce: cena, webové stránky, doporučení Data musí být vždy v numerické podobě. Provedeme překódování, pro úsporu času překódujeme pomocí funkce Automatic Recode (potom máme hodnoty proměnných 1, když je buňka prázdná a když je vypsána odpověď proměnná dichotomická, počitatelná hodnota ) Vytvoříme balík odpovědí: Analyze -> Multiple Response -> Define Variable Sets vyberu balík, který chci vyhodnocovat (již překódovaný musí být NUMERIC). Zavřu okno a pokračuji dále, znovu obdobný postup: Analyze -> Multiple Response -> Frequencies zaškrtnu Dichotomies a jakou Counted Value napíšu. $kriteria Frequencies Responses N Percent Percent of Cases kriteria vyberu dovolene a Jaké jsou další nejdůležitější kritéria při výběru cestovní kanceláře pro Vaši dovolenou? - cena zájezdů/pobytů Jaké jsou další nejdůležitější kritéria při výběru cestovní kanceláře pro Vaši dovolenou? - přehledné webové stránky, online podpora Jaké jsou další nejdůležitější kritéria při výběru cestovní kanceláře pro Vaši dovolenou? - doporuční 35 53,8% 67,3% 10 15,4% 19,% 0 30,8% 38,5% Total 65 100,0% 15,0% a. Dichotomy group tabulated at value.

Opakování minulé hodiny: - Zopakujte si číselné a grafické charakteristiky numerické proměnné (rozptyl, odchylka, kvartily, kvantily, boxplot) Vyhodnoťme všechny charakteristiky pro numerickou proměnnou: Jaký je váš věk? Statistics Jaký je Váš věk? N Valid 10 Missing 0 Mean 31,06 Median 8,00 Mode 6 Std. Deviation 10,073 Variance 101,46 Minimum 15 Maximum 59 Percentiles 5 4,00 50 8,00 75 36,5 - Určeme 95% interval spolehlivosti pro průměr proměnné Věk Řešení: a) Pro neznámou hodnotu variability (směrodatné odchylky) t α 1 (n 1)..100 (1 α σ = 1 n 1 (x i x ) x σ n t 1 α (n 1) μ x + σ n t 1 α (n 1) ) procentní kvantil Studentova rozdělení s (n-1) stupni volnosti n i=1 odhad rozptylu základního souboru Většina hodnot je známa z předchozí tabulky: x = 31,06; n = 10; t α 1 (n 1) = 1,66, chybí σ, tu odhadneme z dat podle vzorce výše σ = 1 n (x n 1 i=1 i x ) = 1 10(x 10 1 1 i 31,06) = 101,46 => σ = 10,07 Vypočtená hodnota je stejná jako hodnota určená SPSS, nicméně jsme určili odhad rozptylu základního souboru. t α 1 (n 1)- kvantil studentova rozdělení zjistíme pomocí SPSS. t 1 α (n 1) = t 0,05(10 1) = t 1 0,975 (101) SPSS vždy požaduje, aby byla zadána nějaká buňka v tabulce (existující sloupec). Vytvoříme nový sloupec t, jen vytvoříme sloupec, nic dalšího nepotřebujeme, dále pokračujeme: Transform -> Compute Variable

- Jako Target Variable zaznačíme náš nově vytvořený sloupec t, do kolonky Numeric Expression zadáme funkci, která nám vrátí konkrétní výsledek (nyní se jedná o kvantil proto funkce Inverse DF a jelikož jde o studentovo rozdělení nebo-li t-test výsledná funkce bude IDF.T(prob. df) - Do závorek zadáváme po řadě tyto proměnné prob = kolika procentní kvantil požadujeme, df = počet stupňů volnosti - Nyní tedy IDF.T (0.975, 101). Ve vyjádření funkce vždy píšeme desetinnou tečku!!! Čárkou jsou odděleny od sebe jednotlivé hodnoty. 31,06 10,07 10,07 1,98 μ 31,06 + 10 10 1,98 31,06 0,997 1,98 μ 31,06 + 0,997 1,98 9,0859 μ 33,034 95% interval odhadu průměrného věku je 9,085 až 33,034. Střední hodnota věku obyvatel bude v rozmezí 9,85 až 33,03 s 95% pravděpodobností. b) Uvažujme zadané hodnoty v tabulce, tzn. známe i rozptyl náhodné veličiny. V tuto chvíli můžeme využít aproximaci normovaným normálním rozdělením a provést odhad (n 30). jedná se o hodnotu normovaného normálního rozdělení a tu zjistíme pomocí SPSS. z 1 α z 1 α = z 1 0,05 = z 0,975 Nyní tedy IDF.Normal (0.975, 0, 1). Ve vyjádření funkce vždy píšeme desetinnou tečku!!! Čárkou jsou odděleny od sebe jednotlivé hodnoty. σ x z α 1 n μ x + z σ 1 α n 31,06 (1,96) 10,073 10,73 μ 31,06 + 1,96 10 10 9,105 μ 33,015 Střední hodnota věku obyvatel je s 95% pravděpodobností mezi 9,105 a 33,015 let. Př.: Z průzkumu bylo zjištěno, že v roce 013 navštívilo Chorvatsko 6% respondentů. Jaký je intervalový odhad (α=5%), jestliže bylo tázáno 15 respondentů. Předpoklad: n p (1 p) 5 15 0,6 0,38 5 => 88,6 p(1 p) p z α 1 n p(1 p) π p + z α 1 n z α 1..100 (1 α ) procentní kvantil normalizovaného normálního rozdělení Vytvoříme nový sloupec norm.chor, jen vytvoříme sloupec, nic dalšího nepotřebujeme, dále pokračujeme: Transform -> Compute Variable - - Jako Target Variable zaznačíme náš nově vytvořený sloupec norm.chor, do kolonky Numeric Expression zadáme funkci, která nám vrátí konkrétní výsledek (nyní se jedná o kvantil proto funkce

Inverse DF a jelikož jde o normální rozdělení výsledná funkce bude IDF.NORMAL(prob, mean, stddev) - Do závorek zadáváme po řadě tyto proměnné prob = kolika procentní kvantil požadujeme, mean = střední hodnota (pro normalizované normální rozdělení je střední hodnota 0), stddev = směrodatná odchylka (pro normalizované normální rozdělení je směrodatná odchylka 1) - Nyní tedy IDF.Normal (0.975,0,1). Ve vyjádření funkce vždy píšeme desetinnou tečku!!! Čárkou jsou odděleny od sebe jednotlivé hodnoty. 0,6(1 0,6) 0,6(1 0,6) 0,6 1,96 π 0,6 + 1,96 15 15 0,6 0,0718 π 0,6 + 0,0718 => 0,59 π 0,647 95% interval spolehlivosti je mezi 0,59 a 0,65. Testování hypotéz: Proti sobě dvě hypotézy nulová H 0 a alternativní H A : H 0: θ = θ 0 ; H A: θ θ 0 oboustranná alternativa případně existují jen levostranná H A: θ < θ 0 a pravostranná H A: θ > θ 0 alternativa Cílem testování nulové hypotézy je dospět k úsudku, zda můžeme tuto hypotézu zamítnout vzhledem ke stanovené hypotéze alternativní. - Pomocí testového kritéria = určitá vhodná statistika, která má při platnosti nulové hypotézy známé pravděpodobnostní rozdělení (def. Obor má dvě části: kritický obor a obor přijetí) Kritické hodnoty:- při zjišťování se bere v úvahu stanovená hladina významnosti α: P(a α T b α ) = 1 α Leží-li testové kritérium v oboru přijetí, nezamítneme H 0 ; rozdíl je vysvětlitelný na dané hladině významnosti náhodností výběru. Leží-li testové kritérium v kritickém oboru, zamítneme H 0 (přijmeme H A ); rozdíly považujeme za statisticky významné na zvolené hladině významnosti, tzn. nedají se vysvětlit pouze náhodností výběru. Dosažená hladina významnosti: p-hodnota (p_value, p_level) je pravděpodobnost, s jakou obdržíme naše data nebo data více extrémní (ještě více odporující nulové hypotéze), za předpokladu, že je nulová hypotéza pravdivá. Postup vyhodnocení testu: 1. Zvolíme hladinu významnosti α jistá mezní hodnota.. p-hodnotu porovnáme s α. Jestliže: a. p < α, H 0 zamítneme; říkáme, že výsledek je statisticky významný. b. p α, H 0 nezamítneme; říkáme, že výsledek není statisticky významný. (pozorované rozdíly je možno vysvětlit pomocí náhody). Testy hypotéz: Jakých hodnot nabývají populační četnosti? Jsou mezi nimi rozdíly?

Je správný předpoklad o mediánové kategorii? Je v rozdělení modus? Nejedná se o modus majoritní? Jako úvod krátká prezentace a konkrétní příkald + vyřešení v SPSS. Transform -> Compute Variable -> CDF & NonCentral DF -> cdf.t(-1.59,9) Binomický test: Př.: Analyzujte v závislosti na pohlaví jaký typ stravování respondenti na dovolené využívají: Data -> Split File -> Compare Groups -> Jste? Analyze -> Ferquencies -> Jakýtypstravovánípreferujete? Jaký typ stravování preferujete? Frequency Percent Valid Percent Cumulative Percent Jste? Jste? Jste? Jste? muž žena muž žena muž žena muž žena Valid all inclusive 17 15 37,8 6,3 37,8 6,3 37,8 6,3 bez stravy 11 9 4,4 15,8 4,4 15,8 6, 4,1 plná penze 1 5, 8,8, 8,8 64,4 50,9 polopenze 11 4 4,4 4,1 4,4 4,1 88,9 93,0 snídaně 5 4 11,1 7,0 11,1 7,0 100,0 100,0 Total 45 57 100,0 100,0 100,0 100,0 Zaměřme se na plnou penzi, v souboru ji preferuje 5 žen a jeden muž. a) Můžeme na základě takto malého počtu zamítnout hypotézu o shodě podílů pro dvě sledované kategorie? b) Můžeme zamítnout H 0 : π 1,0 = 0,4 vůči levostranné alternativní hypotéze? c) Můžeme zamítnout H 0 : π 1,0 = 0,1 vůči pravostranné alternativní hypotéze? Ad a) Náhodná veličina má binomické rozdělení s parametry π 0,1 = 0,5, n= 6. Dále víme, že n1=1 a n=5. Hladina významnosti se tedy spočte podle vztahu: min{n 1,n } α = ( n i ) (0,5)n = ( 6 i ) (0,5)6 = (1 0,5 6 + 6 0,5 6 ) = (0,0156 + 0,9375) = 0,187 i=0 1 i=0 Tato hladina významnosti je větší než 0,05 nemůžeme na hladině významnosti 5% zamítnout nulovou hypotézu o shodě podílů. Řešení v SPSS: Musíme si připravit datový soubor: - překódováním (Transform, Recode into Different Variables a pak jen vybráním konkrétních osob (Data, Select cases, If condition is satisfied) - zapsáním výsledků do zvláštních sloupců (vytvoření nové proměnné)

Pro testování zadáme: Analyze -> Nonparametric Test -> Binomial Binomial Test Jste? Category N Observed Prop. Test Prop. Exact Sig. (- tailed) muž stravovani Group 1 5,83,50,19 Group 1 1,17 Total 6 1,00 Získáváme absolutní (N) a relativní (Observed Prop.) četnosti pro obě skupiny (Group 1, Group ) a celý soubor (Total), zadanou hodnotu π 1,0 (Test Prop.) a minimální hladinu významnosti od které zamítáme nulovou hypotézu H0 (Exact Sig (-tailed). Vypočtená hodnota je stejná jako hodnota vrácená pomocí SPSS, tzn. nemůžeme na hladině významnosti 5% zamítnout nulovou hypotézu o shodě podílů. Ad b) zamítnout H 0 : π 1,0 = 0,4 vůči levostranné alternativní hypotéze ( H A : π 1 < π 1,0 ) Vzorec pro ruční výpočet viz literatura: Hana Řezáková: Analýza dat z dotazníkových šetření, str.6, vzorec 3.16 Pro testování zadáme: Analyze -> Nonparametric Test -> Binomial - test proportion = 0,4 - cut point = 1 Binomial Test Jste? Category N Observed Prop. Test Prop. Exact Sig. (1- tailed) muž stravovani Group 1 <= 1 1,,4,33 a Group > 1 5,8 Total 6 1,0 a. Alternative hypothesis states that the proportion of cases in the first group <,4. Tato hladina významnosti je větší, než 0,05 nemůžeme na hladině významnosti 5% zamítnout nulovou hypotézu o shodě podílů. Ad c) Můžeme zamítnout H 0 : π 1,0 = 0,1 vůči pravostranné alternativní hypotéze? H A : π 1 > π 1,0 Binomial Test Jste? Category N Observed Prop. Test Prop. Exact Sig. (1- tailed) muž stravovani Group 1 <= 1 1,,1,469 Group > 1 5,8 Total 6 1,0 Tato hladina významnosti je větší, než 0,05 nemůžeme na hladině významnosti 5% zamítnout nulovou hypotézu o shodě podílů vzhledem k pravostranné alternativě.