KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Podobné dokumenty
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Korelace. Komentované řešení pomocí MS Excel

KORELACE. Komentované řešení pomocí programu Statistica

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Jednovýběrové testy. Komentované řešení pomocí MS Excel

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

KGG/STG Statistika pro geografy

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Příklad: Test nezávislosti kategoriálních znaků

Cvičení 12: Binární logistická regrese

Kontingenční tabulky, korelační koeficienty

Jana Vránová, 3. lékařská fakulta UK

12. cvičení z PST. 20. prosince 2017

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

ADDS cvičení 7. Pavlína Kuráňová

Tomáš Karel LS 2012/2013

Popisná statistika. Komentované řešení pomocí MS Excel

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Lineární regrese. Komentované řešení pomocí MS Excel

INDUKTIVNÍ STATISTIKA

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

You created this PDF from an application that is not licensed to print to novapdf printer (

TECHNICKÁ UNIVERZITA V LIBERCI

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

ADDS cviceni. Pavlina Kuranova

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

ČVUT FAKULTA DOPRAVNÍ

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

TECHNICKÁ UNIVERZITA V LIBERCI

Analýza dat z dotazníkových šetření

Vzorová prezentace do předmětu Statistika

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Metodologie pro Informační studia a knihovnictví 2

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testy. Pavel Provinský. 19. listopadu 2013

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU STATISTIKY

Kontingenční tabulky, korelační koeficienty

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Cvičení 9: Neparametrické úlohy o mediánech

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Testování statistických hypotéz. Obecný postup

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Pearsonův korelační koeficient

Přednáška X. Testování hypotéz o kvantitativních proměnných

2 ) 4, Φ 1 (1 0,005)

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Zpracování chybějících dat a dat mimo rozsah

Fisherův exaktní test

Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Jednofaktorová analýza rozptylu

NEPARAMETRICKÉ TESTY

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Poznámky k předmětu Aplikovaná statistika, 11. téma

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Řešení: máme diskrétní N.V. vzdělání bez maturity, s maturitou, vysokoškoláci, PhD.

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Regresní a korelační analýza

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Stručný úvod do testování statistických hypotéz

PRAVDĚPODOBNOST A STATISTIKA

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Testování statistických hypotéz

= = 2368

Charakteristika datového souboru

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Regresní a korelační analýza

Přijímací zkouška na navazující magisterské studium 2017

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

y = 0, ,19716x.

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

TECHNICKÁ UNIVERZITA V LIBERCI

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Transkript:

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Vstupní data transformace před vložením Než data vložíme do tabulky ve Statistice, musíme si je předpřipravit. Označme si P Prahu, S Šumperk a K Klatovy. Data musíme přetransformovat do původní dotazníkové podoby (obvykle v této podobě data získáváme), např. budeme mít sedm řádků dvojice P, A; čtyři S, A a šest K, A; atd. Anebo to můžeme udělat ve Statistice přímo

Vstupní data transformace po vložení I Máme vloženou tabulku četností Data Přeskupování Seskupování Proměnné Vybrat vše OK Jméno cílové proměnné: Četnost hodnocení, Jméno kódové proměnné: Hodnocení OK Data Proměnné Přidat Za: 2, Jméno: Město OK (anebo levým tlačítkem dvakrát poklepeme na sloupec a přidáme jednu proměnnou, a pak si ji pojmenujeme)

Vstupní data transformace po vložení II Data Jména v Přenést jména případů zvolíme Do, Proměnné: Město OK Nástroje Váha Proměnná vah: Četnost hodnocení, ve Stavu zvolme Zap. OK Nyní již můžeme použít k analýze připravený balíček kontingenčních tabulek, ale nejdříve se podíváme na graf četností.

Graf naměřených četností I Vykreslíme si graf původní datové tabulky Grafy 3D Sekv. Grafy zdrojových dat Proměnné Vybrat vše OK OK Z grafu je patrné, že salámy z Prahy mají vyrovnané hodnocení (přibližně stejný počet respondentů u všech kategorií hodnocení) u salámů z Šumperka převažuje hodnocení C salámy z Klatov byly nejčastěji hodnoceny B

Graf naměřených četností II Můžeme tedy usuzovat, že na základě senzorického hodnocení vychází nejlépe salám z Prahy, následuje salám z Klatov a nejhůře dopadl salám ze Šumperka. V následujícím se pokusíme zjistit, zda jsou rozdíly mezi salámy statisticky významné, nebo zda může jít pouze o náhodné odchylky. To budeme testovat pomocí χ 2 testu nezávislosti v kontingenční tabulce.

χ 2 test nezávislosti Použijeme tabulku, kterou jsme si ve Statistice vytvořili Statistiky Základní statistiky Kontingenční tabulky OK Specif. tabulky (vyberte proměn.) List1 Hodnocení, List2 Město OK Možnosti odškrtneme Zvýraznit četn., naopak zaškrtneme Očekávané četnosti, Reziduální četnosti a Pearsonův & M-T Chí-kvadrát Výpočet Jako výstup získáme tři tabulky První je původní kontingenční tabulka Druhá je tabulka očekávaných četností Třetí je tabulka pozorovaných minus očekávaných četností

Ověření předpokladů testu Protože jde o test asymptotický, je třeba mít dostatečně početné třídy, přesněji: všechny teoretické četnosti jsou alespoň jedna, nejméně 80 % tříd má četnost nejméně pět. Tyto předpoklady ověříme z tabulky očekávaných četností Vidíme, že všechny očekávané četnosti větší, než pět, předpoklady testu jsou tedy splněny.

χ 2 test nezávislosti závěry Např. v tabulce očekávaných četností vidíme p hodnotu 0,0875 χ 2 testu nezávislosti, proto na požadované hladině významnosti α = 10 % zamítáme nulovou hypotézu o nezávislosti ve prospěch alternativy, tj. zjištěné rozdíly mezi salámy jsou na této hladině statisticky významné. Ze zjištěné p hodnoty ovšem plyne, že statistická významnost rozdílů není úplně přesvědčivá. Kdybychom testovali na hladině významnosti α = 5 %, nulovou hypotézu už bychom nezamítali a výsledky bychom považovali za neprůkazné.

Pozorované minus očekávané četnosti Na základě rozdílu pozorovaných a očekávaných četností (třetí tabulka) lze získat další představu o datech: pro lepší přehlednost jsou případy, ve kterých jsou pozorované četnosti větší než očekávané, obarveny červeně, zbylé pak zeleně. Vidíme, že častější hodnocení než očekávané je A u salámu z Prahy, C u salámu ze Šumperka a B u salámu z Klatov. Potvrzuje se tím naše předchozí zjištění na základě grafu naměřených četností.

Úplným závěrem Na základě senzorického hodnocení dopadl nejlépe salám z Prahy, za ním salám z Klatov a nejhůře salám ze Šumperka. Vzhledem k spočítané p hodnotě (která je navíc pouze přibližná, neb se jedná o asymptotický test) jsou zjištěné rozdíly na hranici statistické průkaznosti.