Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu (test o směr. odchylce) Describe/Numeric Data/One Variable Analysis +Pane Options (Hypothesis Tests) Intervalový odhad rozptylu (směr. odchylky) Ověření polohy Studentův t-test (test o střední hodnotě) Intervalový odhad střední hodnoty Znaménkový test (test o mediánu) Wilcoxonův test (test o mediánu) Ověření shody relativní četnosti s očekávanou pravděpodobností Test o parametru Intervalový odhad parametru rozdělení binomického rozdělení binomického Ověření normality Describe/Distributions/Distribution Fitting (Uncensored Data) + Pane Options (Tests for Normality) Schéffého test POZOR! Nezapomeňte na možnost využití pole Select při zadávání dat, analyzujete-li vícerozměrná data zadána ve standardním datovém formátu. Intervalový odhad rozptylu (směrodatné odchylky) Intervalový odhad střední hodnoty Intervalový odhad parametru rozdělení binomického Studentův t-test (test o střední hodnotě) Znaménkový test (test o mediánu) Test o rozptylu Describe/Numeric Data/One Variable Analysis + Tabular Options (Confidence Intervals) Describe/Hypothesis Tests Normal Sigma Describe/Numeric Data/One Variable Analysis + Tabular Options (Confidence Intervals) Describe/Hypothesis Tests Normal Mean Describe/Hypothesis Tests Binomial Proportion Describe/Numeric Data/One Variable Analysis + Tabular Options (Hypothesis Tests ) t-test Describe/Hypothesis Tests Normal Mean Describe/Numeric Data/One Variable Analysis + Tabular Options (Hypothesis Tests ) sign test Describe/Hypothesis Tests Normal Sigma (Požadované statistiky zadejte na základě zadání na základě Summary Statistics ) Test o parametru binomického rozdělení Describe/Hypothesis Tests Binomial Proportion Odhad rozsahu výběru Describe/Sample Size Determination Martina Litschmannová 1
Dvě dichotomické proměnné Párová (spojitá) data Dvě nezávislé spojité proměnné STATISTICKÁ INDUKCE PRO DVOUROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Předpoklady Testy, resp. intervalové odhad F-test (test shody rozptylů) Ověření shody rozptylů (homoskedasticity) Intervalový odhad poměru rozptylů, resp. směr. odchylek Leveneův test Dvouvýběrový Studentův t-test Ověření shody měr polohy (středních hodnot, resp. mediánů) Shoda rozptylů (homoskedasticita) Různé rozptyly (heteroskedasticita) (test shody stř. hodnot) Intervalový odhad rozdílu stř. hodnot Aspinové-Welchův test (test shody stř. hodnot) Intervalový odhad rozdílu stř. hodnot Mannův-Whitneyův test (test shody mediánů) Párový Studentův t-test Ověření shody úrovně párových dat Intervalový odhad střední hodnoty rozdílů Párový znaménkový test Wilcoxonův párový test Ověření shody pravděpodobností Test homogenity dvou binomických rozdělení Intervalový odhad rozdílu parametru binomických rozdělení Martina Litschmannová 2
STATISTICKÁ INDUKCE PRO DVOUROZMĚRNÁ DATA Ověření normality Describe/Distributions/Distribution Fitting (Uncensored Data) + Pane Options (Tests for Normality) Schéffého test POZOR! Nezapomeňte na možnost využití pole Select při zadávání dat, analyzujete-li vícerozměrná data zadána ve standardním datovém formátu. Intervalový odhad poměru rozptylů, resp. směr. odchylek Intervalový odhad rozdílu stř. hodnot Intervalový odhad střední hodnoty rozdílů Intervalový odhad rozdílu parametru binomických rozdělení Test o shodě rozptylů F-test Leveneův test (test o shodě rozptylů není-li splněn předpoklad normality) Studentův t-test + Aspinové-Welchův test (testy o shodě středních hodnot) Compare/Two Samples/Two Sample Comparison (možnost volby vstupu buď dva sloupce data a identifikátor!!!)+tabular Options (Comparison of Standard Deviations) Compare/Two Samples/Hypothesis Tests Normal Sigmas Compare/Two Samples/Two Sample Comparison (možnost volby vstupu buď dva sloupce data a identifikátor!!!)+tabular Options (Comparison of Means) Compare/Two Samples/Hypothesis Tests Normal Means POZOR!!! Zaškrtávacím polem v Pane Options je nutné nastavit, zda jsou nejsou shodné rozptyly. Compare/Two Samples/Paired-Sample Comparison )+ Tabular Options (Confidence Intervals ) Poznámka: Párová data Compare/Two Samples/Hypothesis Tests Binomial Proportions Compare/Two Samples/Two Sample Comparison (možnost volby vstupu buď dva sloupce data a identifikátor!!!)+tabular Options (Comparison of Standard Deviations) Compare/Two Samples/Hypothesis Tests Normal Sigmas vstupu buď několik sloupců data a identifikátor!!!)+tabular Options (Variance Check) Compare/Two Samples/Two Sample Comparison (možnost volby vstupu buď dva sloupce data a identifikátor!!!)+tabular Options (Comparison of Means) Compare/Two Samples/Hypothesis Tests Normal Means POZOR!!! Zaškrtávacím polem v Pane Options je nutné nastavit, zda jsou nejsou shodné rozptyly. Tím se nastaví, zda má být použit Studentův t-test Aspinové-Welchův test. Test o střední hodnotě rozdílů párových dat Test o mediánu rozdílů párových dat Test homogenity dvou binomických rozdělení Odhad rozsahu výběrů Compare/Two Samples/Paired-Sample Comparison )+ Tabular Options (Hypothesis Tests ) t test Compare/Two Samples/Paired-Sample Comparison )+ Tabular Options (Hypothesis Tests ) sign test Compare/Two Samples/Hypothesis Tests Binomial Proportions Compare/Sample-Size Determination Martina Litschmannová 3
Alespoň tři závislé (spojité) proměnné Alespoň tři nezávislé spojité proměnné STATISTICKÁ INDUKCE PRO VÍCEROZMĚRNÁ DATA Typ proměnné Předpoklady Testy Ověření shody rozptylů (homoskedasticity) Vyvážené třídění Nevyvážené třídění Cochranův test Hartleyův test Bartlettův test Leveneův test Ověření shody měr polohy (středních hodnot, resp. mediánů) Shoda rozptylů (homoskedasticita) ANOVA (Analýza rozptylu = test shody stř. hodnot) (Poznámka: V případě zamítnutí je vhodné provést post hoc analýzu, např. Schéffeho metodou.) Kruskalův-Wallisův test (test shody mediánů, resp. shody distribucí) (Poznámka: V případě zamítnutí je vhodné provést post hoc analýzu, např. Dunnové metodou.) Ověření shody úrovně závislých dat Friedmanův test (Poznámka: V případě zamítnutí je vhodné provést post hoc analýzu Friedmanovou metodou.) Martina Litschmannová 4
STATISTICKÁ INDUKCE PRO VÍCEROZMĚRNÁ DATA Ověření normality Describe/Distributions/Distribution Fitting (Uncensored Data) + Pane Options (Tests for Normality) Schéffého test POZOR! Nezapomeňte na možnost využití pole Select při zadávání dat, analyzujete-li vícerozměrná data zadána ve standardním datovém formátu. Testy (Bartletův, Leveneův, Cochranův) o shodě rozptylů ANOVA Post hoc analýza pro ANOVu Kruskalův-Wallisův test Post hoc analýza pro Kruskalův-Wallisův test Friedmanův test Post hoc analýza pro Friedmanův test vstupu buď několik sloupců data a identifikátor!!!)+tabular Options (Variance Check) vstupu buď několik sloupců data a identifikátor!!!) vstupu buď několik sloupců data a identifikátor!!!)+tabular Options (Multiple Range Test) doporučuji použít Bonferroniho test Schéffeho test (pro malé výběry) výběr testu se provádí v Pane Options vstupu buď několik sloupců data a identifikátor!!!)+tabular Options (Kruskal-Wallis and Friedman Tests) Ve Statgraphicsu není k dispozici!!! Lze použít výpočetní applet Kruskalův-Wallisův test (excel). vstupu buď několik sloupců data a identifikátor!!!)+tabular Options (Kruskal-Wallis and Friedman Tests) Ve Statgraphicsu není k dispozici!!! Lze použít výpočetní applet Friedmanův test (excel). Martina Litschmannová 5
ANALÝZA ZÁVISLOSTI Analýza závislosti v kontingenční tabulce Název testu Analýza závislosti v kontingenční tabulce Předpoklady testu Očekávané četnosti, alespoň 80% očekávaných četností >5 Testová statistika Míry závislosti Koeficient kontingence (pro čtvercové kontingenční tabulky), Korigovaný koeficient kontingence, kde, Cramerův koeficient ( ). (pro obdélníkové kontingenční tabulky) Tyto koeficienty se mohou vyskytovat v intervalu ( těsnější. ). Čím jsou blíže 1, tím je závislost mezi X a Y Míry závislosti v asociační tabulce Odhad poměru šancí:. Intervalový odhad : Odhad relativního rizika: Intervalový odhad : Analýza závislosti v kontingenční tabulce Describe/Categorical Data/Crosstabulation (jsou-li data ve standardním datovém formátu) Describe/Categorical Data/Contingency Tables (jsou-li data zapsána v kontingenční tabulce POZOR! Lze-li určit, která proměnná je příčina, zadejte ji jako kategoriální proměnnou, tj. tabulku zadejte do SG tak, aby příčina byla jednou proměnnou a varianty následku byly identifikátory dalších sloupců)) Pro ověření předpokladů testu lze zobrazit očekávané četnosti: Pane Options (Expected Frequencies) Test: Tabular Options (Chi-Square Test) Míry závislosti: Tabular Options (Summary Statistics) POZOR!!! Míry závislosti v asociační tabulce nejsou ve Statgraphicsu k dispozici. Martina Litschmannová 6
KORELAČNÍ A REGRESNÍ ANALÝZA Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient:, kde ( )( ), je výběrová směrodatná odchylka proměnné X (Y). Název testu Test nulovosti korelačního koeficientu Testované parametry Předpoklady testu normalita Testová statistika Nulové rozdělení Analýza závislosti ordinálních veličin Spearmanův korelační koeficient: Název testu Test nulovosti korelačního koeficientu Testované parametry Předpoklady testu Testová statistika Kritický obor { } (T15) Doporučený postup při korelační a regresní analýze 1. Explorační analýza korelačního pole (případný odhad typu regresní funkce, identifikace vlivných bodů) 2. Odhad koeficientů regresní funkce (aplikace vyrovnávacího kritéria např. metody nejmenších čtverců) 3. Verifikace modelu, tj. ověření předpokladů lineárního modelu a) Celkový F-test testujeme, zda hodnota vysvětlované proměnné závisí na lineární kombinaci vysvětlujících proměnných, tj. testujeme nulovou hypotézu H 0 : vůči alternativě H A :. Pokud bychom nulovou hypotézu nezamítli, znamenalo by to, že model je chybně specifikován. b) Dílčí t-testy - umožňují testovat oprávněnost setrvání vysvětlující proměnné v regresním modelu. Testujeme (postupně pro jednotlivá i) nulovou hypotézu ve tvaru H 0 : vůči alternativě H A : pro. Pokud pro konkrétní i nelze zamítnout nulovou hypotézu, je třeba zvážit setrvání příslušné vysvětlující proměnné v modelu. c) Analýza reziduí ověřujeme předpoklady pro použití lineárního regresního modelu. ověření normality reziduí - testy dobré shody, ověření nulovosti střední hodnoty - vizuálně na základě grafu reziduí a odhadovaných hodnot závisle proměnné (rezidua musí kolísat kolem nuly) + dvouvýběrový t test, ověření homoskedasticity vizuálně na základě grafu reziduí a odhadovaných hodnot závisle proměnné (rezidua se systematicky nezvyšují ani se systematicky nesnižují spolu s rostoucími odhadovanými hodnotami), ověření autokorelace reziduí - vizuálně na základě grafu reziduí a odhadovaných hodnot závisle proměnné (autokorelace projeví tak, že se rezidua systematicky snižují Martina Litschmannová 7
KORELAČNÍ A REGRESNÍ ANALÝZA zvyšují, resp. můžeme mezi reziduí a předpovídanými hodnotami pozorovat nelineární závislost) + Durbinova-Watsonova statistika. d) Multikolinearita v případě vícenásobné regrese musíme ověřit, zda neexistuje multikolinearita mezi regresory (lze posoudit např. dle korelací mezi regresory). e) Ověření kvality modelu index determinace (udává kolik procent vysvětlované proměnné bylo vysvětleno modelem), koeficient korelace (míra korelace mezi závisle proměnnou a regresorem v případě přímkové regrese), koeficient vícenásobné korelace (míra korelace mezi závisle proměnnou a lineární kombinací regresorů ), koeficienty parciální korelace, např. (míra korelace mezi závisle proměnnou a jedním z regresorů při vyloučení vlivu ostatních regresorů). 4. Využití verifikovaného modelu k predikci odhad střední hodnoty závisle proměnné při daných hodnotách regresorů (pás spolehlivosti), odhad individuální hodnoty závisle proměnné při daných hodnotách regresorů (pás predikce). Pozor na extrapolaci! Pearsonův korelační koeficient + test nulovosti korel. koeficientu Spearmanův korelační koeficient + test nulovosti korel. koeficientu Jednoduchá lineární regrese Vícenásobná regrese Describe / Numeric Data / Multiple Variable Analysis Před použitím Pearsonova korelačního koeficientu nutno ověřit normalitu dat!!! Describe / Numeric Data / Multiple Variable Analysis + Tabular Options (Rank Correlations) Relate / Single Regression Relate / Multiple Regression POZOR!!! Predikce se provádí doplněním datového souboru o hodnoty regresorů a následným použitím Save Results Options (ikona s disketou) Martina Litschmannová 8