Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Podobné dokumenty
Korelační a regresní analýza

Návod na vypracování semestrálního projektu

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Semestrální projekt spočívá v nalezení vhodného datového souboru a jeho statistické analýze s využitím metod probíraných v rámci předmětu.

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

4EK211 Základy ekonometrie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza jednorozměrných dat

Inovace bakalářského studijního oboru Aplikovaná chemie

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

ADDS cviceni. Pavlina Kuranova

Úvodem Dříve les než stromy 3 Operace s maticemi

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Statistika, Biostatistika pro kombinované studium. Jan Kracík

LINEÁRNÍ REGRESE. Lineární regresní model

Cvičení 12: Binární logistická regrese

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Ilustrační příklad odhadu LRM v SW Gretl

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

KGG/STG Statistika pro geografy

Karta předmětu prezenční studium

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

INDUKTIVNÍ STATISTIKA

6. Lineární regresní modely

Tomáš Karel LS 2012/2013

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

ADDS cvičení 7. Pavlína Kuráňová

Testování hypotéz a měření asociace mezi proměnnými

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Korelace. Komentované řešení pomocí MS Excel

Tomáš Karel LS 2012/2013

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Regresní analýza. Eva Jarošová

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

, Brno Hanuš Vavrčík Základy statistiky ve vědě

6. Lineární regresní modely

Regresní a korelační analýza

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

S E M E S T R Á L N Í

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Regresní a korelační analýza

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Seminář 6 statistické testy

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Úvod do analýzy rozptylu

Neparametrické metody

Lineární regrese. Komentované řešení pomocí MS Excel

Statistické testování hypotéz II

4EK211 Základy ekonometrie

KORELACE. Komentované řešení pomocí programu Statistica

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Porovnání dvou výběrů

You created this PDF from an application that is not licensed to print to novapdf printer (

PRAVDĚPODOBNOST A STATISTIKA

Kalibrace a limity její přesnosti

Kontingenční tabulky, korelační koeficienty

Předmluva S o u h rn... 89

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Semestrální práce. 2. semestr

5EN306 Aplikované kvantitativní metody I

Intervaly spolehlivosti

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

4ST201 STATISTIKA CVIČENÍ Č. 10

Statistická analýza jednorozměrných dat

Ing. Michael Rost, Ph.D.

Testování hypotéz o parametrech regresního modelu

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz o parametrech regresního modelu

4EK211 Základy ekonometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

4EK211 Základy ekonometrie

Transkript:

Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu (test o směr. odchylce) Describe/Numeric Data/One Variable Analysis +Pane Options (Hypothesis Tests) Intervalový odhad rozptylu (směr. odchylky) Ověření polohy Studentův t-test (test o střední hodnotě) Intervalový odhad střední hodnoty Znaménkový test (test o mediánu) Wilcoxonův test (test o mediánu) Ověření shody relativní četnosti s očekávanou pravděpodobností Test o parametru Intervalový odhad parametru rozdělení binomického rozdělení binomického Ověření normality Describe/Distributions/Distribution Fitting (Uncensored Data) + Pane Options (Tests for Normality) Schéffého test POZOR! Nezapomeňte na možnost využití pole Select při zadávání dat, analyzujete-li vícerozměrná data zadána ve standardním datovém formátu. Intervalový odhad rozptylu (směrodatné odchylky) Intervalový odhad střední hodnoty Intervalový odhad parametru rozdělení binomického Studentův t-test (test o střední hodnotě) Znaménkový test (test o mediánu) Test o rozptylu Describe/Numeric Data/One Variable Analysis + Tabular Options (Confidence Intervals) Describe/Hypothesis Tests Normal Sigma Describe/Numeric Data/One Variable Analysis + Tabular Options (Confidence Intervals) Describe/Hypothesis Tests Normal Mean Describe/Hypothesis Tests Binomial Proportion Describe/Numeric Data/One Variable Analysis + Tabular Options (Hypothesis Tests ) t-test Describe/Hypothesis Tests Normal Mean Describe/Numeric Data/One Variable Analysis + Tabular Options (Hypothesis Tests ) sign test Describe/Hypothesis Tests Normal Sigma (Požadované statistiky zadejte na základě zadání na základě Summary Statistics ) Test o parametru binomického rozdělení Describe/Hypothesis Tests Binomial Proportion Odhad rozsahu výběru Describe/Sample Size Determination Martina Litschmannová 1

Dvě dichotomické proměnné Párová (spojitá) data Dvě nezávislé spojité proměnné STATISTICKÁ INDUKCE PRO DVOUROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Předpoklady Testy, resp. intervalové odhad F-test (test shody rozptylů) Ověření shody rozptylů (homoskedasticity) Intervalový odhad poměru rozptylů, resp. směr. odchylek Leveneův test Dvouvýběrový Studentův t-test Ověření shody měr polohy (středních hodnot, resp. mediánů) Shoda rozptylů (homoskedasticita) Různé rozptyly (heteroskedasticita) (test shody stř. hodnot) Intervalový odhad rozdílu stř. hodnot Aspinové-Welchův test (test shody stř. hodnot) Intervalový odhad rozdílu stř. hodnot Mannův-Whitneyův test (test shody mediánů) Párový Studentův t-test Ověření shody úrovně párových dat Intervalový odhad střední hodnoty rozdílů Párový znaménkový test Wilcoxonův párový test Ověření shody pravděpodobností Test homogenity dvou binomických rozdělení Intervalový odhad rozdílu parametru binomických rozdělení Martina Litschmannová 2

STATISTICKÁ INDUKCE PRO DVOUROZMĚRNÁ DATA Ověření normality Describe/Distributions/Distribution Fitting (Uncensored Data) + Pane Options (Tests for Normality) Schéffého test POZOR! Nezapomeňte na možnost využití pole Select při zadávání dat, analyzujete-li vícerozměrná data zadána ve standardním datovém formátu. Intervalový odhad poměru rozptylů, resp. směr. odchylek Intervalový odhad rozdílu stř. hodnot Intervalový odhad střední hodnoty rozdílů Intervalový odhad rozdílu parametru binomických rozdělení Test o shodě rozptylů F-test Leveneův test (test o shodě rozptylů není-li splněn předpoklad normality) Studentův t-test + Aspinové-Welchův test (testy o shodě středních hodnot) Compare/Two Samples/Two Sample Comparison (možnost volby vstupu buď dva sloupce data a identifikátor!!!)+tabular Options (Comparison of Standard Deviations) Compare/Two Samples/Hypothesis Tests Normal Sigmas Compare/Two Samples/Two Sample Comparison (možnost volby vstupu buď dva sloupce data a identifikátor!!!)+tabular Options (Comparison of Means) Compare/Two Samples/Hypothesis Tests Normal Means POZOR!!! Zaškrtávacím polem v Pane Options je nutné nastavit, zda jsou nejsou shodné rozptyly. Compare/Two Samples/Paired-Sample Comparison )+ Tabular Options (Confidence Intervals ) Poznámka: Párová data Compare/Two Samples/Hypothesis Tests Binomial Proportions Compare/Two Samples/Two Sample Comparison (možnost volby vstupu buď dva sloupce data a identifikátor!!!)+tabular Options (Comparison of Standard Deviations) Compare/Two Samples/Hypothesis Tests Normal Sigmas vstupu buď několik sloupců data a identifikátor!!!)+tabular Options (Variance Check) Compare/Two Samples/Two Sample Comparison (možnost volby vstupu buď dva sloupce data a identifikátor!!!)+tabular Options (Comparison of Means) Compare/Two Samples/Hypothesis Tests Normal Means POZOR!!! Zaškrtávacím polem v Pane Options je nutné nastavit, zda jsou nejsou shodné rozptyly. Tím se nastaví, zda má být použit Studentův t-test Aspinové-Welchův test. Test o střední hodnotě rozdílů párových dat Test o mediánu rozdílů párových dat Test homogenity dvou binomických rozdělení Odhad rozsahu výběrů Compare/Two Samples/Paired-Sample Comparison )+ Tabular Options (Hypothesis Tests ) t test Compare/Two Samples/Paired-Sample Comparison )+ Tabular Options (Hypothesis Tests ) sign test Compare/Two Samples/Hypothesis Tests Binomial Proportions Compare/Sample-Size Determination Martina Litschmannová 3

Alespoň tři závislé (spojité) proměnné Alespoň tři nezávislé spojité proměnné STATISTICKÁ INDUKCE PRO VÍCEROZMĚRNÁ DATA Typ proměnné Předpoklady Testy Ověření shody rozptylů (homoskedasticity) Vyvážené třídění Nevyvážené třídění Cochranův test Hartleyův test Bartlettův test Leveneův test Ověření shody měr polohy (středních hodnot, resp. mediánů) Shoda rozptylů (homoskedasticita) ANOVA (Analýza rozptylu = test shody stř. hodnot) (Poznámka: V případě zamítnutí je vhodné provést post hoc analýzu, např. Schéffeho metodou.) Kruskalův-Wallisův test (test shody mediánů, resp. shody distribucí) (Poznámka: V případě zamítnutí je vhodné provést post hoc analýzu, např. Dunnové metodou.) Ověření shody úrovně závislých dat Friedmanův test (Poznámka: V případě zamítnutí je vhodné provést post hoc analýzu Friedmanovou metodou.) Martina Litschmannová 4

STATISTICKÁ INDUKCE PRO VÍCEROZMĚRNÁ DATA Ověření normality Describe/Distributions/Distribution Fitting (Uncensored Data) + Pane Options (Tests for Normality) Schéffého test POZOR! Nezapomeňte na možnost využití pole Select při zadávání dat, analyzujete-li vícerozměrná data zadána ve standardním datovém formátu. Testy (Bartletův, Leveneův, Cochranův) o shodě rozptylů ANOVA Post hoc analýza pro ANOVu Kruskalův-Wallisův test Post hoc analýza pro Kruskalův-Wallisův test Friedmanův test Post hoc analýza pro Friedmanův test vstupu buď několik sloupců data a identifikátor!!!)+tabular Options (Variance Check) vstupu buď několik sloupců data a identifikátor!!!) vstupu buď několik sloupců data a identifikátor!!!)+tabular Options (Multiple Range Test) doporučuji použít Bonferroniho test Schéffeho test (pro malé výběry) výběr testu se provádí v Pane Options vstupu buď několik sloupců data a identifikátor!!!)+tabular Options (Kruskal-Wallis and Friedman Tests) Ve Statgraphicsu není k dispozici!!! Lze použít výpočetní applet Kruskalův-Wallisův test (excel). vstupu buď několik sloupců data a identifikátor!!!)+tabular Options (Kruskal-Wallis and Friedman Tests) Ve Statgraphicsu není k dispozici!!! Lze použít výpočetní applet Friedmanův test (excel). Martina Litschmannová 5

ANALÝZA ZÁVISLOSTI Analýza závislosti v kontingenční tabulce Název testu Analýza závislosti v kontingenční tabulce Předpoklady testu Očekávané četnosti, alespoň 80% očekávaných četností >5 Testová statistika Míry závislosti Koeficient kontingence (pro čtvercové kontingenční tabulky), Korigovaný koeficient kontingence, kde, Cramerův koeficient ( ). (pro obdélníkové kontingenční tabulky) Tyto koeficienty se mohou vyskytovat v intervalu ( těsnější. ). Čím jsou blíže 1, tím je závislost mezi X a Y Míry závislosti v asociační tabulce Odhad poměru šancí:. Intervalový odhad : Odhad relativního rizika: Intervalový odhad : Analýza závislosti v kontingenční tabulce Describe/Categorical Data/Crosstabulation (jsou-li data ve standardním datovém formátu) Describe/Categorical Data/Contingency Tables (jsou-li data zapsána v kontingenční tabulce POZOR! Lze-li určit, která proměnná je příčina, zadejte ji jako kategoriální proměnnou, tj. tabulku zadejte do SG tak, aby příčina byla jednou proměnnou a varianty následku byly identifikátory dalších sloupců)) Pro ověření předpokladů testu lze zobrazit očekávané četnosti: Pane Options (Expected Frequencies) Test: Tabular Options (Chi-Square Test) Míry závislosti: Tabular Options (Summary Statistics) POZOR!!! Míry závislosti v asociační tabulce nejsou ve Statgraphicsu k dispozici. Martina Litschmannová 6

KORELAČNÍ A REGRESNÍ ANALÝZA Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient:, kde ( )( ), je výběrová směrodatná odchylka proměnné X (Y). Název testu Test nulovosti korelačního koeficientu Testované parametry Předpoklady testu normalita Testová statistika Nulové rozdělení Analýza závislosti ordinálních veličin Spearmanův korelační koeficient: Název testu Test nulovosti korelačního koeficientu Testované parametry Předpoklady testu Testová statistika Kritický obor { } (T15) Doporučený postup při korelační a regresní analýze 1. Explorační analýza korelačního pole (případný odhad typu regresní funkce, identifikace vlivných bodů) 2. Odhad koeficientů regresní funkce (aplikace vyrovnávacího kritéria např. metody nejmenších čtverců) 3. Verifikace modelu, tj. ověření předpokladů lineárního modelu a) Celkový F-test testujeme, zda hodnota vysvětlované proměnné závisí na lineární kombinaci vysvětlujících proměnných, tj. testujeme nulovou hypotézu H 0 : vůči alternativě H A :. Pokud bychom nulovou hypotézu nezamítli, znamenalo by to, že model je chybně specifikován. b) Dílčí t-testy - umožňují testovat oprávněnost setrvání vysvětlující proměnné v regresním modelu. Testujeme (postupně pro jednotlivá i) nulovou hypotézu ve tvaru H 0 : vůči alternativě H A : pro. Pokud pro konkrétní i nelze zamítnout nulovou hypotézu, je třeba zvážit setrvání příslušné vysvětlující proměnné v modelu. c) Analýza reziduí ověřujeme předpoklady pro použití lineárního regresního modelu. ověření normality reziduí - testy dobré shody, ověření nulovosti střední hodnoty - vizuálně na základě grafu reziduí a odhadovaných hodnot závisle proměnné (rezidua musí kolísat kolem nuly) + dvouvýběrový t test, ověření homoskedasticity vizuálně na základě grafu reziduí a odhadovaných hodnot závisle proměnné (rezidua se systematicky nezvyšují ani se systematicky nesnižují spolu s rostoucími odhadovanými hodnotami), ověření autokorelace reziduí - vizuálně na základě grafu reziduí a odhadovaných hodnot závisle proměnné (autokorelace projeví tak, že se rezidua systematicky snižují Martina Litschmannová 7

KORELAČNÍ A REGRESNÍ ANALÝZA zvyšují, resp. můžeme mezi reziduí a předpovídanými hodnotami pozorovat nelineární závislost) + Durbinova-Watsonova statistika. d) Multikolinearita v případě vícenásobné regrese musíme ověřit, zda neexistuje multikolinearita mezi regresory (lze posoudit např. dle korelací mezi regresory). e) Ověření kvality modelu index determinace (udává kolik procent vysvětlované proměnné bylo vysvětleno modelem), koeficient korelace (míra korelace mezi závisle proměnnou a regresorem v případě přímkové regrese), koeficient vícenásobné korelace (míra korelace mezi závisle proměnnou a lineární kombinací regresorů ), koeficienty parciální korelace, např. (míra korelace mezi závisle proměnnou a jedním z regresorů při vyloučení vlivu ostatních regresorů). 4. Využití verifikovaného modelu k predikci odhad střední hodnoty závisle proměnné při daných hodnotách regresorů (pás spolehlivosti), odhad individuální hodnoty závisle proměnné při daných hodnotách regresorů (pás predikce). Pozor na extrapolaci! Pearsonův korelační koeficient + test nulovosti korel. koeficientu Spearmanův korelační koeficient + test nulovosti korel. koeficientu Jednoduchá lineární regrese Vícenásobná regrese Describe / Numeric Data / Multiple Variable Analysis Před použitím Pearsonova korelačního koeficientu nutno ověřit normalitu dat!!! Describe / Numeric Data / Multiple Variable Analysis + Tabular Options (Rank Correlations) Relate / Single Regression Relate / Multiple Regression POZOR!!! Predikce se provádí doplněním datového souboru o hodnoty regresorů a následným použitím Save Results Options (ikona s disketou) Martina Litschmannová 8