StatSoft Jak poznat vliv faktorů vizuálně



Podobné dokumenty
Diagnostika regrese pomocí grafu 7krát jinak

Analýza rozptylu dvojného třídění

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Aplikovaná statistika v R - cvičení 3

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

StatSoft Jak vyzrát na datum

TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

Tvar dat a nástroj přeskupování

Slučování tabulek. Sloučení dvou tabulek

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

INDUKTIVNÍ STATISTIKA

Zobrazení zdrojových dat u krabicového grafu

Zpracování chybějících dat a dat mimo rozsah

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Testování hypotéz o parametrech regresního modelu

Analýza dat na PC I.

STATISTICA Téma 7. Testy na základě více než 2 výběrů

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Předpovídejte snadno a rychle

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testování hypotéz o parametrech regresního modelu

Lineární regrese. Komentované řešení pomocí MS Excel

Plánování experimentu

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Tabulka 1 Rizikové online zážitky v závislosti na místě přístupu k internetu N M SD Min Max. Přístup ve vlastním pokoji ,61 1,61 0,00 5,00

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

= = 2368

Tomáš Karel LS 2012/2013

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Popisná statistika kvantitativní veličiny

Téma 9: Vícenásobná regrese

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Cvičení 12: Binární logistická regrese

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

10. Předpovídání - aplikace regresní úlohy

Tomáš Karel LS 2012/2013

Máte rádi kávu? Statistický výzkum o množství vypité kávy napříč věkovým spektrem.

Základy popisné statistiky

Jednofaktorová analýza rozptylu

Pearsonův korelační koeficient

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Regresní analýza 1. Regresní analýza

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Regresní a korelační analýza

Analýza rozptylu. opakovaná měření faktoriální analýza rozptylu analýza kovariance vícerozměrná analýza rozptylu

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

STATISTICKÉ ODHADY Odhady populačních charakteristik

PRAVDĚPODOBNOST A STATISTIKA

Design of Experiment (DOE) Petr Misák. Brno 2017

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Omezení funkcionalit v softwaru STATISTICA

Manuální kroková regrese Newsletter Statistica ACADEMY

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

7. Rozdělení pravděpodobnosti ve statistice

Textové popisky. Typ dat

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Regresní a korelační analýza

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

4EK211 Základy ekonometrie

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Ilustrační příklad odhadu LRM v SW Gretl

TECHNICKÁ UNIVERZITA V LIBERCI

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Statistika (KMI/PSTAT)

Kontingenční tabulky a testy shody

Excel mini úvod do kontingenčních tabulek

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Porovnání dvou výběrů

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Statistická analýza jednorozměrných dat

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Korelace. Komentované řešení pomocí MS Excel

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

České vysoké učení technické v Praze Fakulta dopravní

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Statistická analýza jednorozměrných dat

Úvod do analýzy rozptylu

LINEÁRNÍ REGRESE. Lineární regresní model

KGG/STG Statistika pro geografy

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI

You created this PDF from an application that is not licensed to print to novapdf printer (

KORELACE. Komentované řešení pomocí programu Statistica

Korelační a regresní analýza

Tabulka 1. Výběr z datové tabulky

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Testy. Pavel Provinský. 19. listopadu 2013

Systém vykonávající tlumené kmity lze popsat obyčejnou lineární diferenciální rovnice 2. řadu s nulovou pravou stranou:

Vzorová prezentace do předmětu Statistika

Transkript:

StatSoft Jak poznat vliv faktorů vizuálně V tomto článku bychom se rádi věnovali otázce, jak poznat již z grafického náhledu vztahy a závislosti v analýze rozptylu. Pomocí následujících grafických zobrazení byste měli krásně pochopit, jak to vypadá, když jsou významné jednotlivé faktory či interakce a tedy i trochu lépe pochopit samotnou analýzu rozptylu. Není třeba se bát ničeho složitého, cílem je pouze ukázat chování dat za různých situací. Analýza rozptylu (ANOVA) Než přistoupíme ke grafickým zobrazením, nejprve shrňme, o co vlastně jde. Analýza rozptylu se zabývá vyšetřováním vztahů mezi spojitou závislou proměnnou a jednou nebo více nezávislými kategorickými proměnnými (také se jim říká faktory). Uveďme příklady úloh analýzy rozptylu: Zkoumání vlivu varianty zkouškového testu (A,B,C) na dosažený výsledek žáků nebo vliv hnojiva a daného pole na množství plodiny při sklizni. Toto je úloha, která nás zajímá. Typy úloh ANOVA jednoduchého třídění (anglicky one-way ANOVA) Takto nazýváme situaci, kdy máme jen jednu nezávislou kategorickou proměnnou (nehledě na počet hladin této proměnné). Pokud bychom chtěli ozdobit text vzorcem, pak rovnice takovéhoto regresního modelu bude: Y jp e j jp značí závislou kvantitativní proměnnou, je referenční či souhrnná úroveň (absolutní člen), je parametr vztahující se k -té hladině nezávislé proměnné, je náhodná chyba. Je zde i, což znamená, že pro každou hladinu nezávislé proměnné můžete mít více pozorování. Příkladem takovéto úlohy může být třeba odhad ceny bytu pouze v závislosti na tom, v kterém je kraji. ANOVA dvojného třídění pouze s hlavními efekty Mírně složitější je model dvojného třídění, kdy přidáme další nezávislou proměnnou. Model je tedy takovýto: je parametr pro k -tou hladinu druhé vysvětlující proměnné. Y e j g

ANOVA dvojného třídění s interakcemi Někdy mohou efekty prvního i druhého faktoru působit složitěji a společně. Pak mluvíme o modelu dvojného třídění s interakcemi: Y j g jg e Přibyl člen, který vnáší společný vliv prvního a druhého faktoru, každá kombinace hladin těchto dvou faktorů tedy může mít jiný unikátní vliv. Příkladem dvojného třídění může být zkoumání vlivu velikosti bytu (2+1,2+KK, ) a kraje na jeho cenu. To jestli jde o model s interakcemi nebo bez, záleží na tom, jak působí v konkrétním případě faktory na závislou proměnnou. Kompletně vypracovaný příklad analýzy rozptylu dvojného třídění najdete také v jednom z minulých newsletterů. Poznámka: V softwaru STATISTICA naleznete jednotlivé modely buď pod tlačítkem Statistiky-ANOVA (to je jednodušší a pro náš článek naprosto dostačující možnost) nebo jako první položky funkcionality GLM což je zkratka pro Obecné lineární modely, které mají v sobě rozšířenější možnosti lineárních modelů a nalezneme je pod Statistiky-Pokročilé lineární/nelineárními modely v menu statistik. Tři úlohy výše zadáte pomocí prvních tří položek v okně Typ analýz. My se nyní budeme snažit tyto situace rozpoznat a popsat. Nyní již bez vzorců a jednoduše. Grafické výstupy Připomeneme, že budeme sledovat situaci, kdy vysvětlujeme závislost jednoho kvantitativního znaku (spojitá závislá veličina) na dvou kvalitativních proměnných (faktorech). Abychom si vše představili, předpokládejme, že máme na pozadí úlohy následující data: závislou proměnnou je výše platu, nezávislou je pohlaví a dosažené vzdělaní. Všechna následující data jsou pouze ilustrativní a nijak neodrážejí reálný stav věcí ohledně platů žen a mužů, jména jsou také smyšlená. Zdrojová data by tedy byla ve tvaru tabulky vpravo:

Jeden z výstupů analýzy rozptylu je graf průměrů v jednotlivých skupinách s vykreslením intervalu spolehlivosti pro tento průměr. Z tohoto grafu budeme vycházet v následujícím. Proč právě průměr? Analýza rozptylu má za úkol porovnání středních hodnot v jednotlivých skupinách, klasickým odhadem střední hodnoty je právě průměr a ten využívá ve svých výpočtech i metoda analýza rozptylu. Začněme nejjednodušším případem: 1. Proměnná Pohlaví, ani Vzdělání nemá vliv na plat Na následujícím obrázku vidíte, průměry a jejich intervaly spolehlivosti pro všechny kombinace skupin (pohlaví má 2 skupiny, vzdělání 3 skupiny, dohromady šest kombinací a tedy i šest průměrů v grafu.) Je vidět, že anténky, potažmo celé intervaly se příliš neliší ani modré oproti červeným, ani se nijak nemění spolu se vzděláním. Všech 6 intervalů se hodně překrývá. Je to tedy typický příklad situace, kdy faktory nemají vliv na závislou proměnnou. Pokud bychom pro tato data spočetli analýzu rozptylu a vypočetli významnost koeficientů v modelu dvojného třídění s interakcemi, vyjde podle očekávání, že žádná proměnná ani interakce významné nejsou. Významný je jen absolutní člen, což je vlastně jakási hladina, kde se vyskytují průměrně všechna data a jelikož se jedná o platy, jistě se tato hladina nebude pohybovat okolo 0. Jinak řečeno zamítáme hypotézu, že by byl absolutní člen modelu roven 0. Poznámka: Pokud byste nevěděli, jak vyprodukovat graf a výsledky výše, postupujte podle následujícího návodu: otevřte dialog Statistiky-ANOVA-ANOVA s interakcemi-ok. Proměnné zvolte: Plat jako závislou a Pohlaví a Vzdělání jako kategorické faktory. Klikneme na OK a máme výsledky. Pod tlačítkem Velik. Efektů vyvoláme testy významnosti. Tlačítkem Vš. Efekty/grafy vyvoláme graf. Přesné nastavení pro graf:

Tento graf lze vyprodukovat i bez analýzy rozptylu přes záloždu Grafy, jedná se o Grafy průměrů s odchylkami. Za grupovací proměnnou je potřeba zvolit Vzdělání a v záložce Kategorizovaný aktivovat proměnnou pro kategorizaci X a nastavit ji na Pohlaví, navíc zvolit rozložení přes sebe. 2. Proměnná Pohlaví má vliv, Vzdělání však vliv nemá Je vidět, že pro různá pohlaví jsou hladiny odlišné průběhy intervalů pro muže a pro ženy jsou dokonce úplně odděleny. Pokud vezmeme zvlášť muže, tak se jejich plat pohybuje na stejné hladině (intervaly se hodně překrývají), podobně u žen, vliv vzdělání je tedy zanedbatelný, viz výsledky testů významnosti faktorů: 3. Proměnná Pohlaví nemá vliv, Vzdělání však vliv má Tato situace je velmi podobná té předchozí, pouze gtaficky to vypadá jinak, jelikož nyní máme rozdíl u veličiny, která je přímo na ose a ne u veličiny, která je rozlišena barvami. Není asi potřeba moc vysvětlovat, hladiny pro vzdělání se liší (obecně nemusí jen růst, jak je tomu na obrázku, klidně může jít o zlomené nebo klesající průběhy). Zatímco hladiny pro pohlaví pro jednotlivé vzdělání jsou takřka stejné.

4. Má vliv proměnná Pohlaví i proměnná Vzdělání Pokud nastane situace, kdy průběhy v grafu pro jednotlivá pohlaví (v našem případě modrý a červený graf) mají stejný tvar, ale jsou od sebe posunuty pro jednotlivá pohlaví, pak jde o vliv obou nezávislých veličin zároveň. Čím je interakce nevýznamnější, tím více mají průběhy stejný tvar. V tomto případě tedy o vlivu interakce nemůže být řeč. 5. Významný vliv interakce Nejsložitější situace nastává, pokud má vliv i interakce, což znamená, že každá kombinace faktorů může mít svou unikátní hladinu. Z obrázku tuto situaci poznáme tak, že průběhy pro jednotlivá pohlaví již nejsou stejná, jinak řečeno, že se křivky lámou pro každé pohlaví jinak.

Shrnutí Naším cílem bylo ukázat situaci a trochu pomoci s pochopením modelu analýzy rozptylu dvojného třídění. Samozřejmě je potřeba upozornit, že není vhodné se rozhodovat pouze podle grafů, nicméně mohou pro Vás být dobrým vodítkem i prezentací toho, co se v datech děje. Na závěr bychom shrnuli teoretické průběhy pro jednotlivé situace- tedy opravdu jen s vlivy, které zkoumáme. Ostatní považujeme za nulové, což se v praxi nestane, nicméně alespoň je pěkně vidět, co jednotlivé vlivy mohou provést s průměry (opět bereme v úvahu 2 faktory, jeden má 3 hladiny a druhý dvě). Významný pouze absolutní člen Vliv má pouze jeden faktor Vliv mají oba faktory, ale ne interakce Interakční člen má také vliv