Statistika - vícerozměrné metody



Podobné dokumenty
Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

1. Základy měření neelektrických veličin

Testy statistických hypotéz

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

Metody zkoumání závislosti numerických proměnných

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

APLIKACE REGRESNÍ ANALÝZY NA VÝPOČET BODU ZVRATU

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Výsledky této ásti regresní analýzy jsou asto na výstupu z poítae prezentovány ve form tabulky analýzy rozptylu.

9 NÁHODNÉ VÝBĚRY A JEJICH ZPRACOVÁNÍ. Čas ke studiu kapitoly: 30 minut. Cíl:

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

17. Statistické hypotézy parametrické testy

Mendelova univerzita v Brně Statistika projekt

Fakulta elektrotechniky a informatiky Statistika STATISTIKA

, jsou naměřené a vypočtené hodnoty závisle

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

ZÁKLADY STAVEBNÍ MECHANIKY

4.2 Elementární statistické zpracování Rozdělení četností

PRAVDĚPODOBNOST A STATISTIKA

Testování statistických hypotéz

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

C V I Č E N Í 4 1. Představení firmy Splintex Czech 2. Vlastnosti skla a skloviny 3. Aditivita 4. Příklady výpočtů

12. N á h o d n ý v ý b ě r

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Aktivita 1 Seminář základů statistiky a workshop (Prof. Ing. Milan Palát, CSc., Ing. Kristina Somerlíková, Ph.D.)

a další charakteristikou je četnost výběrového souboru n.

Univerzita Pardubice. Fakulta ekonomicko-správní

1. Základy počtu pravděpodobnosti:

z možností, jak tuto veličinu charakterizovat, je určit součet

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Doc. Ing. Dagmar Blatná, CSc.

9. Měření závislostí ve statistice Pevná a volná závislost

APLIKOVANÁ STATISTIKA

VÁŽENÝ ARITMETICKÝ PRŮMĚR S REÁLNÝMI VAHAMI

Úvod do korelační a regresní analýzy

Spolehlivost a diagnostika

11. Časové řady Pojem a klasifikace časových řad

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

Chyby přímých měření. Úvod

Závislost slovních znaků

Matice. nazýváme m.n reálných čísel a. , sestavených do m řádků a n sloupců ve tvaru... a1

Seznámíte se s pojmem Riemannova integrálu funkce jedné proměnné a geometrickým významem tohoto integrálu.

Generování dvojrozměrných rozdělení pomocí copulí

HYPOTEČNÍ ÚVĚR. , kde v = je diskontní faktor, Dl počáteční výše úvěru, a anuita, i roční úroková sazba v procentech vyjádřená desetinným číslem.

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Cvičení z termomechaniky Cvičení 5.

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

Úvod do teorie měření

S1P Popisná statistika. Popisná statistika. Libor Žák

UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy

Směrnice 1/2011 Statistické vyhodnocování dat, verze 4 Verze 4 je shodná se Směrnicí 1/2011 verze 3, pouze byla rozšířena o robustní analýzu

MATEMATIKA PŘÍKLADY K PŘÍJÍMACÍM ZKOUŠKÁM BAKALÁŘSKÉ STUDIUM MGR. RADMILA STOKLASOVÁ, PH.D.

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

PRAVDĚPODOBNOST A STATISTIKA

IV-1 Energie soustavy bodových nábojů... 2 IV-2 Energie elektrického pole pro náboj rozmístěný obecně na povrchu a uvnitř objemu tělesa...

1 Popis statistických dat. 1.1 Popis nominálních a ordinálních znaků

Statistické zpracování dat

Náhodný výběr 1. Náhodný výběr

FLUORIMETRIE. Jan Fähnrich. Obecné základy

Pravděpodobnost a statistika - absolutní minumum

Pravděpodobnost a aplikovaná statistika

Statistická analýza dat

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Optimalizace portfolia

Metody statistické analýzy. doc. Ing. Dagmar Blatná, CSc.

Deskriptivní statistika 1

1. K o m b i n a t o r i k a

DISKRÉTNÍ MATEMATIKA PRO INFORMATIKY

2. Definice plazmatu, základní charakteristiky plazmatu

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

BIVŠ. Pravděpodobnost a statistika

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

8 NELINEÁRNÍ REGRESNÍ MODELY

Úvod do zpracování měření

SOUKROMÁ VYSOKÁ ŠKOLA EKONOMICKÁ ZNOJMO. Statistika I. distanční studijní opora. Milan Křápek

Intervalové odhady parametrů některých rozdělení.

PRAVDĚPODOBNOST A STATISTIKA

14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

Odhady parametrů 1. Odhady parametrů

P2: Statistické zpracování dat

8. Zákony velkých čísel

[ jednotky ] Chyby měření

Odhady a testy hypotéz o regresních přímkách

Odůvodnění. Obecná část

VY_52_INOVACE_J 05 01

8. Analýza rozptylu.

11. Popisná statistika

Téma 6: Indexy a diference

Úvod do lineárního programování

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

PRAVDĚPODOBNOST A STATISTIKA

Jednoduchá lineární regrese

Univerzita Pardubice Fakulta ekonomicko-správní

PRAVDĚPODOBNOST A STATISTIKA

Matematika I. Název studijního programu. RNDr. Jaroslav Krieg České Budějovice

Transkript:

Statstka - vícerozměré metody Mgr. Mart Sebera, Ph.D. Katedra kezologe Masarykova uverzta Fakulta sportovích studí Bro 0

Obsah Obsah... Sezam obrázků... 4 Sezam tabulek... 4 Úvod... 6 Pojmy... 7 Náhodé velčy... 7 Typy proměých... 7 Odhady a testy hypotéz... 8 Problémy ověřováí ormalty... 9 Vícerozměré ormálí rozděleí... 0 Srováí rozptylů K ormálích rozděleí... Parametrcké eparametrcké (testy, data)... Aalýza rozptylu... 3 Elemetárí pops závslost... 3 Jedofaktorová ANOVA... 4 Jedorozměré úlohy s více faktory... 6 Vícerozměré úlohy s jedím faktorem... 7 Obecý postup př aalýze rozptylu... 7 Příklad Jedorozměrá ANOVA... 8 Příklad. Dvojrozměrá ANOVA bez opakováí... Příklad 3 Dvojrozměrá ANOVA s opakováím... 5 Leárí regrese... 7 Statstcké modelová závslost... 7 Regrese a korelace... 7 Regresí modely a jejch klasfkace... 8 Vyrovávací krtéra... 9 Bodové odhady a tervaly spolehlvost... 30 Bodové odhady v leárím regresím modelu... 30 Itervaly spolehlvost pro regresí parametry... 3 Testy hypotéz o hodotách regresích parametrů... 3 Iterval spolehlvost pro podmíěou středí hodotu... 3 Iterval spolehlvost pro dvduálí předpověď... 33 Aalýza rezdu a vlvá pozorováí... 33 Kvalta modelu... 35 Výběr vysvětlujících proměých... 36 Postup př leárí regresí aalýze:... 36 Příklad Korelace... 37 Příklad Parcálí a mohoásobá korelace... 39 Příklad 3 Kaocká korelace... 40 Příklad 4 Vícerozměrý leárí model... 4 Příklad 5 Valdzace ové metody... 44 Příklad 6 Porováí dvou regresích přímek... 46 Metoda hlavích kompoet... 5 Cíle metody hlavích kompoet... 5 Počet hlavích kompoet... 5 Faktorová aalýza... 5 Jedoduchá struktura a rotace faktorů... 5

Příklad Metody s latetím proměým... 53 Příklad Redukce proměých... 57 Příklad 3 Kofrmačí faktorová aalýza... 60 Shluková aalýza... 65 Stadardzace dat... 65 Vzdáleost objektů... 65 Pravdla slučováí... 66 Využtí shlukové aalýzy... 66 Příklad Shluková aalýza... 67 Příklad Shluková aalýza... 69 Lteratura... 7 Rejstřík... 7

Sezam obrázků Obr. Vztah hstogramu a Q-Q grafu pro růzá arušeí ormalty... 0 Obr.. Charakterstcký tvar dvourozměrého ormálího rozděleí... Obr. 3 Krabcový graf... 8 Obr. 4 Grafcké zázorě vlvu faktoru A... Obr. 5 Grafcké zázorě vlvu faktoru B... Obr. 6 Grafcké zázorě vlvu terakce faktorů A a B... 3 Obr. 7 Grafcké zázorěé vlvu efektu trék... 6 Obr. 8 Grafcké zázorěé vlvu terakce efektů trék a suplemetace... 6 Obr. 9 Hstogram a krabcový graf... 44 Obr. 0 P-graf rezduí... 50 Obr. Scree graf... 55 Obr. Tlaková deska EMED a graf rozložeí tlaku... 57 Obr. 3 Eukldovké vzdáleost... 68 Obr. 4 Čebyševovy vzdáleost... 68 Obr. 5 Dedrogram... 70 Sezam tabulek Tab. Možé výsledky testováí hypotézy... 8 Tab. Možé výsledky př srováí statstcké a věcé testováí hypotézy... 9 Tab. 3 Schéma klascké korelačí tabulky... 3 Tab. 4 Tabulka pro jedofaktorovou aalýzu rozptylu... 5 Tab. 5 Dvoufaktorová aalýza rozptylu, model s terakcí... 7 Tab. 6 Vstupí data... 8 Tab. 7 Sloupcové základí charakterstky... 8 Tab. 8 Testováí shody rozptylů... 9 Tab. 9 Výsledky aalýzy rozptylu... 9 Tab. 0 Výsledek Scheffeho metody mohoásobého pozorováí... 0 Tab. Počet mut potřebých k vyřešeí úlohy... Tab. Základí statstcké charakterstky faktoru A... Tab. 3 Základí statstcké charakterstky faktoru B... Tab. 4 Výstup aalýzy rozptylu v počtu mut potřebých k vyřešeí úlohy... 3 Tab. 5 Výsledý čas... 5 Tab. 6 Aalýza rozptylu výsledku motorckého testu... 5 Tab. 7 Aalýza rozptylu výsledku motorckého testu... 5 Tab. 8 Vstupí data... 37 Tab. 9 Korelačí matce... 38 Tab. 0 Výsledky kaocké korelace pro vektor x... 40 Tab. Výsledky kaocké korelace pro vektor y... 40 Tab. Souhr kaocké korelace... 4 Tab. 3 Vstupí data... 4 Tab. 4 Výsledky regrese... 4 Tab. 5 Korelačí matce... 43 Tab. 6 Výsledky dopředé regrese... 43 Tab. 7 Výsledky dopředé regrese... 44 Tab. 8 Změa úseku a směrce... 45 Tab. 9 Vstupí data... 46 Tab. 30 Odhady parametrů, rezduálí součty čtverců, odhady rezduálích rozptylů.... 46 Tab. 3 Vstupí data... 49 Tab. 3 Výsledky regrese... 49 Tab. 33 Výsledky kvadratcké regrese... 50

Tab. 34 Údaje o domácostech... 53 Tab. 35 Barevá korelačí matce... 54 Tab. 36 Matce parcálích koefcetů... 54 Tab. 37 Metoda PCA... 55 Tab. 38 Faktorové zátěže... 56 Tab. 39 Faktorová rotace... 56 Tab. 40 Sledovaé parametry... 57 Tab. 4 Výpočet vlastích čísel... 57 Tab. 4 Matce faktorových zátěží po rotac Varmax... 58 Tab. 43 Pops proměých a vstupí data... 60 Tab. 44 Aalýza hlavích kompoet... 6 Tab. 45 Faktorové zátěže proměých a faktorů (po rotac)... 6 Tab. 46 Srováí výsledků faktorové aalýzy... 63 Tab. 47 Vstupí data... 67 Tab. 48 ručí a software výpočet matce vzdáleostí... 69 Tab. 49 Rozvrh shlukováí... 70

Úvod Oblast sportu je jedou z moha oblastí, kde je zřejmá poptávka po uplatňováí exaktích metod a to v terakc s vědou a výzkumem. A vědí obor Katropologe eí výjmkou. Velm často je uté řešt problémy vedoucí k vícerozměrým statstckým metodám. Ldská představvost o datech kočí už v 3D prostoru, vyšší dmeze je jž složté kolv zobrazt, ale spíše pochopt a terpretovat. Vícerozměré metody pak mohou pomoc zejméa př redukc dmeze dat a rozumé možství, resp. ajít vztahy, které stuac zjedoduší a umoží lepší pochopeí. Ne vždy je to však možé a účelé. Předložeá studjí text začíá vysvětleím pojmů tak je požadováa alespoň základí zalost statstky. Vybraá témata jsou zpracovaá s cílem popsat základí teoretcké aspekty jedotlvých metod společě s praktckým příklady, které poskytou ávod a adekvátí postup řešeí ve statstckém sw Statstca 0 frmy Statsoft. V textu je obsažea teore, zájemce o přesější formace odkážeme a lteraturu, kde jsou rozebráy jedotlvé metody s maxmálí podrobostí. Teoretcká část je komplací českých statstků věujících se vícerozměré problematce ve statstce (Hebák, Cyhelský, Melou, Mltký, Hdls, Hedl) a zahračí autorů. Ze 4 probíraých oblast (aalýza rozptylu; regresí aalýza; aalýza hlavích kompoet a faktorová aalýza; shluková aalýza) věujeme ejvětší pozorost regresí aalýze a to pro její dostupost skrz moho statstckého software, zároveň obtížost, mohozačost a utost splňovat jedotlvé předpoklady. Elektrocká forma studjí pomůcky umožňuje a počítá s rozšřováím o další oblast statstky, vylepšeí teoretckých partí a také o další řešeé příklady. Projekt vzkl za podpory Fodu rozvoje vysokých škol FRVŠ/0478/00. V Brě 3.. 0

Pojmy Náhodé velčy Za áhodé velčy ozačujeme proměé, u kterých ejsme schop určt hodotu. Opačě, proměé, u kterých hodotu záme ebo je daá, ozačujeme za eáhodé. Typy proměých Př statstcké aalýze potřebujeme u každé proměé určt její typ. Můžeme se setkat s ěkolka způsoby klasfkace proměých, v ašem textu popsujeme přístup, který za hlaví krtérum považuje typy vztahů mez hodotam. Podle Řezákové a kol. (00) u tohoto hledska rozlšujeme proměé: Nomálí. Hodotou je číslo ebo text. U těchto proměých můžeme provádět je rozděleí četostí, případě operac porováí. Příklad: studet absolvoval motorcký test běh a 50 m s výkoem 7,4 s a motorcký test leh-sed s výsledkem 50 opakováí za mutu. Číselé hodoty 7,4 a 50 určují je odlšé výsledků motorckých testů, c jého se vyčíst edá Ordálí zaky umožňuje provádět srováí a tím určt pořadí. V případě textových proměých je uté tyto převést a čísla. Příklad: v dotazících vyjadřujeme míru souhlasu s daým tvrzeím. Svou kodcí hodotím jako: vykající velm dobrou dobrou slabou špatou. Výroky respodetů můžeme určt pořadí, jak který respodet souhlasí s tvrzeím. Však etvrdíme, že rozdíl mez odpověďm vykající a velm dobrou je stejý jako mez slabou a špatou. Itervalové kromě porováí můžeme provádět operac součtu a rozdílu. Příklad: výška a hmotost jedce. Naměříme-l u batolete výšku v cm po čtyřech měsících hodoty 60, 6, 64, 66, zameá to, že každým měsícem dítě vyrostlo o cm. Poměrové zaky umožňují terpretovat kromě operace rovost, uspořádáí a rozdílu ještě operace podílu a souču. Příklad: zaběhe-l atlet 00 m za s a druhý atlet za s, je možé prohlást, že prví je dvakrát rychlejší ež druhý. Nomálí a ordálí proměé jsou souhrě ozačováy jako kvaltatví; tervalové a poměrové proměé jsou souhrě ozačováy jako kvattatví (umercké, kardálí). Kvattatví proměé můžeme podle jého hledska dělt a dskrétí, které abývají pouze celočíselých obmě (počet permaetek do poslovy), a spojté (metrcké), jež mohou abývat lbovolých hodot z určtého tervalu (věk respodeta, výko ve vrhu koulí). Nomálí, ordálí a kvattatví dskrétí proměé můžeme souhrě ozačt jako kategorálí (obměy těchto proměých azýváme kategorem). dchotomcké (alteratví), které abývají pouze dvou kategorí (ekoomcky aktví a eaktví, kuřák a ekuřák), a vícekategorálí (možé), jež abývají více ež dvou kategorí (rodý stav, obor). Důležtá jsou prmárí data, každou trasformací původích dat do skup, kategorí, tervalů ztrácíme formace v ch obsažeé. Pro statstckou aalýzu jsou původí data ejvhodější. Čleěí datové matce ze provést zejméa horzotálě. Rozčleěí souboru do skup je ěkdy dáo a cílem je porováí skup (aalýza rozptylu), jdy je hledáí rozčleěé samotým cílem aalýzy (shluková aalýza). Data budeme předkládat ve formě datové matce typu p, kde

řádky reprezetují případy, objekty, testovaé osoby. Sloupce představují proměé, tedy jedotlvé zkoumaé vlastost. Odhady a testy hypotéz Statstcká hypotéza je předpoklad o hodotě ezámého parametru ebo o zákou rozděleí sledovaé velčy. Statstcké hypotézy jsou tedy doměky o populac, jejchž pravdvost lze ověřovat prostředctvím statstckých testů. Hypotézu, jejíž platost ověřujeme, azýváme testovaou (ulovou) hypotézou a začíme j H (H 0 ). Prot testovaé hypotéze staovíme alteratví hypotézu A (H ), která hypotézu H popírá. Testováí sledovaé hypotézy H prot alteratví hypotéze A je postup, podle ěhož a základě áhodého výběru rozhodeme mez dvěma tvrzeím sledovaou hypotézou H a alteratví hypotézou A. Testové krtérem je statstka T(X), jejíž rozděleí záme. Testy (výběrové statstky) jsou áhodé velčy (fukce áhodého výběru), pomocí kterých a základě výsledků z áhodého výběru rozhodeme, zda má být ověřovaá hypotéza zamítuta č kolv. Krtcký obor W, je terval, který je ohračeý tzv. krtckým hodotam, což jsou kvatly rozděleí příslušého testového krtéra. Krtcký obor W tvoří doplěk k 00 (- ) %-ímu tervalu spolehlvost. Jestlže hodota testové statstky T(X) W, potom hypotézu H zamítáme (Seberová, Sebera, 999). Výsledkem testováí je buď zamítutí hypotézy H ve prospěch alteratvy A č ezamítutí hypotézy H. Skutečost, že hypotézu H ezamítáme, ezameá že aměřeá data tuto hypotézu potvrzují, ale pouze to, že j evyvracejí. Číslo se azývá hlada statstcké výzamost testu. Hlada statstcké výzamost tedy určuje pravděpodobost, že testovací charakterstka pade mmo obor přjetí. Obvykle abývá hodot od 0,00 do 0,5 v závslost a povaze zkoumaého problému (tedy emusí to být je hodota 0,05, jak je v moha učebích textech doporučováo). Př testováí hypotéz se můžeme dopustt chyby dvěma způsoby: Buď zamíteme hypotézu, která platí to je chyba prvího druhu - ebo aopak tuto hypotézu ezamíteme, když je esprává v tomto případě se jedá o chybu druhého druhu. Mez základí edostatky statstcké výzamost patří: použtí je možé je v případě reprezetatvího vzorku pomocí áhodého výběru. závslost a a počtu pozorováí (měřeí, respodetů) statstcky výzamé ezameá důležté Tab. Možé výsledky testováí hypotézy Skutečost Rozhodutí ezamítáme H zamítáme H Hypotéza H platí správé rozhodutí chyba I. druhu pravděpodobost - pravděpodobost Platí alteratva A chyba II. druhu pravděpodobost správé rozhodutí pravděpodobost - (síla testu) Jestlže sížíme, zvýší se Sížeí chyby II. druhu bez toho abychom ovlvl chybu I. druhu je možé pouze zvýšeím rozsahu výběru.

Věcá výzamost selský rozum, ebol logcké staoveí apř. rozdílu, který budeme považovat vzhledem k povaze problému za výzamý. Úsudek vychází z předchozích zkušeostí, ale z chyb měřeí používáí estatstckého hodoceí velkost rozdílu č vztahu ve výzkumých výsledcích, tzv. sze of effect, zvláště pomocí tzv. koefcetu (eta ) jakožto podílu, resp. proceta vysvětleého rozptylu (apř. u ANOVY). = SS b / SS T, kde SS b je mezskupový součet čtverců a SS T je celkový součet čtverců Např. ke kvatfkováí velkost účku, tj. k hodoceí věcé výzamost je možé použít Coheův koefcet účku d. Jedou z hlavích výhod koefcetu je jeho ezávslost a rozsahu výběru. Platí pro ěj kovečí hodoty, jež usadňují rozhodutí, kdy lze hovořt o velkém efektu. Pokud je d větší ež 0,8, je efekt velký; pro d z tervalu 0,5 0,8 je efekt středí; efekt pod hodotou 0, lze považovat za malý. Tab. Možé výsledky př srováí statstcké a věcé testováí hypotézy věcá statstcká ao e ao e jedozačé potvrzeí spíše epřjmout, výsledek je eprůkazý, může být áhodým jevem spíše epřjmout, výsledek může být ovlvě velkým výběrem souboru dat jedozačé potvrzeí Postup př prác s hypotézam by měl vypadat ásledově:. ejprve zhodott věcou výzamost jak absolutě (v jedotkách měřeí), tak relatvě k podílu vlvu ostatích faktorů (apř. pomocí ), a je jde-l o radomzovaý výzkum pak. použít statstckou výzamost jakožto rzko zobecěí. Testováí statstcké výzamost pak probíhá tak, že vypočítáme hodotu testové statstky, porováme j s krtckým hodotam (kvatly), odpovídajícím hladě výzamost, a rozhodeme o zamítutí č ezamítutí hypotézy H. Př testováí pomocí statstckých programů se používá jý postup: Spočte se hodota testové statstky a k í ejmeší krtcký obor, př kterém bychom ještě mohl a základě této hodoty zamítout hypotézu H 0 prot daé alteratvě. Hlada výzamost, odpovídající tomuto krtckému oboru, se azývá mmálí hlada výzamost (p-hodota). Pokud je p >, pak hypotézu H 0 ezamítáme.v opačém případu, kdy p, pak hypotézu H 0 zamítáme. Problémy ověřováí ormalty Předpoklad ormalty je často vyžadová pro použtí většy statstckých metod. U vícerozměrých statstk se jedá o vícerozměré ormálí rozděleí sledovaých proměých, jehož lze (ěkdy) dosáhout v případě esplěí trasformací dat, resp. je možost použít eparametrcké metody. K ověřeí ormalty lze použít grafcké posouzeí ebo testy: chí-kvadrát dobré shody, Kolmogorov-Smrovov a Shapro-Wlksův test. Tyto testy jsou eparametrcké. Chí-kvadrát test dobré shody je založe a srováí očekávaých a skutečých četostí ve třídách. U Kolmogorov-Smrovova testu je testovým krtérem maxmálí rozdíl mez předpokládaou (teoretckou) plě specfkovaou dstrbučí fukcí a výběrovou (emprckou) dstrbučí fukcí, jejchž, hodoty určujeme jako kumulatví relatví četost ve výběru. Shapro-Wlkův test porovává aměřeé hodoty s kvatly ormovaého ormálího rozděleí pro pravděpodobost výběrové dstrbučí fukce. Ve srováí v testem K-S má větší

sílu ebol meší pravděpodobost chyby II. druhu. Grafcké posouzeí jedorozměré ormalty. Lze použít u max. závslost proměých, př větším počtu proměých jsou grafy jž hůře zobraztelé a hůře terpretovatelé ) Hstogram rozděleí četostí, který by se v deálím případě blížl Gaussově křvce. ) Q-Q dagram, kde se a ose vyášejí kvatly sledovaé fukce s kvatly ormálího rozděleí Výhodou grafckého posouzeí je přesější určeí důvodů porušeí ormalty (ěkolk odlehlých hodot, resp. rozděleí je opravdu zcela odlšé od ormálího). Q-Q dagramy pro ormálí rozděleí umožňují posoudt více ež je optcké posouzeí ormalty a exstec odlehlých pozorováí. Průběh bodů dkuje odchylky od předpokládaé škmost a špčatost: Průběh: a) kokáví ukazuje kladou škmost s větší varabltou vyšších hodot, b) kovexí ukazuje záporou škmost s větší varabltou žších hodot, c) kokávě kovexí azačuje rozděleí s dlouhým koc, meší špčatost. d) kovexě kokáví azačuje rozděleí s krátkým koc, větší špčatost. Obr. Vztah hstogramu a Q-Q grafu pro růzá arušeí ormalty a) kladé seškmeí, b) záporé seškmeí. c) žší špčatost, d) vyšší špčatost (Hebák a kol., Vícerozměré statstcké metody, s. 04) Trasformace Jak bylo uvedeo výše, jedou z možostí, jak s pomocí, pokud data esplňují podmíku ormalty, je provést trasformac a rozděleí ormálí ebo jemu blízké. Je zřejmé, že půjde o eleárí trasformac, eboť leárí trasformace by zachovala původí tvar rozděleí. Použtelé algortmy jsou: a) odmocová trasformace t = x, mají-l data charakter četostí x b) logtová trasformace t l, jde-l o podíly (relatví četost) x c) logartmcká trasformace t = l x, mají-l data charakter logartmcko-ormálímu rozděleí V moha případech výše uvedeé trasformace epomohou a musí se vyzkoušet áročější způsoby. Např. Boxův-Coxův systém trasformací ebo plošou (eleárí) trasformací. Vícerozměré ormálí rozděleí Moho statstckých metod vyžaduje splěí podmíka ormalty, přesěj sledovaé proměé musí splňovat podmíku ormalty. Ze zkušeostí s reálým daty vyplývá, že podmíka ormalty ebývá vždy splěa, resp. mohdy eí vůbec lehké ajít data, která by podmíku

ormalty splňovala. Pro aše potřeby adefujme ormaltu jako smultáího ormálího rozděleí dvou a více áhodých velč. Mohé statstcké metody vycházejí z předpokladu, že dala byla vybráa z vícerozměrého ormálího rozděleí. Vícerozměré ormálí rozděleí je rozšířeím jedorozměrého ormálího rozděleí pro případ p áhodých velč. Náhodý vektor x má vícerozměré ormálí rozděleí, má-l jeho hustota pravděpodobost tvar p / ( ) ( ) / / T x x e f ( x), kde je vektor p středích hodot velč X, X,, X p, E je kovaračí matce C(x) a - < x j <, j =,,, p. Dvourozměré ormálí rozděleí je případem p-rozměrého ormálího rozděleí pro p =. Jeho charakterstcké tvar je zázorě a obr.. Obr.. Charakterstcký tvar dvourozměrého ormálího rozděleí Srováí rozptylů K ormálích rozděleí Pro K výběrů jedé velčy X s ormálím rozděleím uvažujme středí hodoty ozačeé jako,,, k a rozptyly, k testujeme hypotézu H: k vyjadřující že aspoň v jedom případě rovost eplatí, se ozačuje za test homoskedastcty. Zamítutí hypotézy a hladě výzamost zameá estejé rozptyly velčy X. Teto jev, heteroskedastcta, má pro mohé statstcké postupy závažé důsledky. Některé statstcké procedury, jsou založey a předpokladu homoskedastcty (apř. regresí aalýza č aalýza rozptylu), jsou ctlvé a estejou varabltu ve skupách pozorováí. Jedím z uverzálích testů je Bartlettův test.

Parametrcké eparametrcké (testy, data) Parametrcké: testy ormalty ezamítou hypotézu o ormálím rozložeí dat mají vyšší sílu testu (schopost rozpozal platost alteratví hypotézy) ež testy eparametrcké př zamítutí hypotézy o ormaltě dat je možé provést buď trasformac dat a přblížt se tak ormaltě ebo přejít a eparametrcké testy Neparametrcké testy Lze použít př malém rozsahu dat, ezávsle a rozděleí ebo pokud tvar rozděleí elze upravt trasformacem Síla testu klesá z důvodu ztráty původí formace o datech, která jsou ahrazea jejch pořadím, proto pořadové statstky.

Aalýza rozptylu Pomocí aalýzy rozptylu lze využít př zkoumáí vztahu mez ezávslým a závslým proměým, zejméa př vyhodocováí expermetálích dal. Zkoumáme-l vlv jedého faktoru a jedu č více závslých proměých, jde o jedofaktorovou aalýzu rozptylu. Př více faktorech mluvíme o vícefaktorové aalýze rozptylu. Jedorozměrá aalýza rozptylu (ANOVA) předpokládá jedou vysvětlovaou proměou, př vícerozměré aalýze rozptylu (MANOVA) můžeme mít více vysvětlovaých proměých současě. Pro zjštěí, zda pozorovaá varablta proměé Y závsí a příslušost hodot ve skupách rozkládáme celkovou varabltu a složky odpovídající růzým zdrojům varablty (odtud ázev aalýza rozptylu). Varabltu vyjadřujeme v jedorozměrém případě pomocí součtů čtverců, ve vícerozměrém případě pomocí matc, u chž součty čtverců tvoří hlaví dagoálu. Model aalýzy rozptylu je specálím případem obecého leárího modelu (GLM) a hypotézy o vlvu faktorů, jsou specálím případem obecé leárí hypotézy o parametrech modelu (Hebák a kol., Vícerozměré statstcké metody, s. 60). Elemetárí pops závslost Základí představu o závslost mez dvěma jevy charakterzovaým zaky X a Y získáme uspořádáím emprckých údajů, tj. dvojc [x, y ], do dvourozměré tabulky. Údaje můžeme uspořádat podle varat zaku X, tak podle varat zaku Y a dostaeme klasckou korelačí tabulku - vz tab. 3 - kde j jsou sdružeé četost,. a.j jsou okrajové četost. x Tab. 3 Schéma klascké korelačí tabulky y j y y y j y s x j s. x j s. x j s. x k k k kj ks k..j...j.s Podobě jako u jedorozměrého rozděleí četostí počítáme z dvourozměré tabulky ásledující průměry a rozptyly: podmíěý průměr podmíěý rozptyl celkový průměr y s y, y y j j j k j s y j. j s yj y j y y y j j k s j y j j j j. k y. (.) (.) (.3)

celkový rozptyl rozptyl podmíěých průměrů průměr podmíěých rozptylů s y k s s j y y, k s yj y j j k k y y sy, y y j (.4) (.5) (.6) Jedofaktorová ANOVA ANOVA (z aglckého Aalyss of Varace), se v prax používá buď jako samostatá techka ebo jako postup umožňující aalýzu zdrojů varablty u leárích statstckých modelů. Ze statstckého hledska lze aalýzu rozptylu chápat jako specálí případ regresí aalýzy, kdy vysvětlující (ezávsle) proměá má pouze bárí charakter, čl může abývat pouze hodot 0 ebo. Podle kokrétího uspořádáí expermetu exstuje celá řada varat aalýzy rozptylu - vz apř. Melou, Mltký (004). Podkladem pro jedofaktorovou aalýzu rozptylu jsou hodoty y j ( =,, k a j =,, s) proměé Y roztříděé do k skup podle úroví (varat) x, x,, x k faktoru X. Podstatou aalýzy rozptylu je rozklad celkového rozptylu a složku objasěou (zámý zdroj varablty) a složku eobjasěou (rezduálí, chybovou), o íž se předpokládá, že je áhodá. Ze vztahu (.4) pro celkový rozptyl plye, že celkovou varabltu charakterzuje součet S y k yj y j jemuž přísluší ( ) stupňů volost, y je celkový průměr (.3)., (.7) Ze vztahu (.) plye, že varabltu uvtř skup charakterzuje součet S y k yj y j, (.8) jemuž přísluší ( - k) stupňů volost, y je podmíěý průměr (.). Varabltu (.5) podmíěých průměrů, čl varabltu mez skupam, charakterzuje součet jemuž přísluší (k ) stupňů volost. k S, y y yv j j, (.9) Mez uvedeým součty platí vztah Sy Sy, m Sy, v. (.0) Př malých rozdílech mez výběrovým podmíěým rozptyly (.) lze předpokládat, že varablta (.5) podmíěých průměrů kolem celkového průměru (.3) je způsobea závslostí Y a X. Základím předpokladem použtí aalýzy rozptylu je, že každý z k ezávslých výběrů zaku Y

pochází z ormálího rozděleí N(, ) se stejým rozptylem. Předpoklad ormalty lze ověřt apř. testem dobré shody. V prax se od toho často upouští a posuzuje se pouze, zda se ve skupách hodot proměé Y, zjštěých a jedotlvých úrovích faktoru X, evyskytují vysloveě extrémí hodoty a zda se hodoty blízké podmíěým průměrům vyskytují častěj ež hodoty, jejchž vzdáleost od podmíěých průměrů je větší. K ověřeí hypotézy o stejých rozptylech k ormálích rozděleí lze použít Bartlettův test. Nevýhodou Bartlettova testu je to, že je velm ctlvý a porušeí předpokladu ormalty. Jsou-l četost všech tříd stejé, tj. = = = k, používá se k testováí hypotézy o rovost rozptylů také Hartleyův ebo Cochraův test. I od ěj se v prax často upouští a vychází se pouze z tutvího posuzováí rozdílost podmíěých rozptylů. Nejsou-l hodoty přílš rozdílé a evykazují-l s rostoucím X vzestupou a sestupou tedec, považujeme předpoklad o stejých rozptylech ormálích rozděleí N(, ), kde =, k, za přjatelý. Př testováí hypotézy H, že zak (faktor) X eovlvňuje zak Y vlastě testujeme hypotézu, že rozděleí proměé Y mají a růzých úrovích faktoru X stejé středí hodoty. Alteratví hypotéza tvrdí, že alespoň jeda ze středích hodot se lší od ostatích, čl H: X eovlvňuje Y, A: H eplatí. K testu hypotézy H se používá testové krtérum S y, m / ( k ) F. (.) S / ( k) y, v Krtcký obor je vymeze erovostí W : F > F - (k-, -k), (.) kde F - (k-, -k) je 00(-)% kvatl F-rozděleí o = k a = - k a stupích volost. Pade-l hodota testového krtéra do tohoto krtckého oboru, přjímáme a hladě výzamost hypotézu o statstcky výzamé závslost proměé Y a proměé X. Místo porováí vypočteé hodoty testového krtéra F s hodotou kvatlu F - (k-, -k) abízí statstcký software mmálí hlada výzamost p, př které lze hypotézu H ještě zamítout. Je-l p, zamítáme testovaou hypotézu H o ezávslost proměé Y a proměé X. Varablta Mezskupová (vysvětleá) Vtroskupová (rezduálí, chybová) Celková Tab. 4 Tabulka pro jedofaktorovou aalýzu rozptylu Součty Počty stupňů Průměré Testové čtverců volost čtverce krtérum S y, m / S y, m k S y, m / F S / S y, v y y, v Hlada výzamost k S, / --- --- y v S --- --- --- p Jak jž bylo výše uvedeo, př jedofaktorové aalýze rozptylu se předpokládá, že k ezávslých výběrů hodot zaku Y pochází z ormálích rozděleí se stejým rozptyly. To zameá, že před vlastím testem by měl být ověře předpoklad o ormaltě a předpoklad o stejých rozptylech. Předpoklad ormalty rozděleí a shody rozptylů v růzých skupách lze ověřovat pomocí testů, v prax se často užívají grafy, které jsou součást výstupu počítačových procedur. F-test eí přílš ctlvý a porušeí předpokladu ormalty (určté opatrost je třeba je př exstec odlehlých hodot), a pokud jsou data vyvážeá, tj. v každé skupě je stejý počet hodot, eí

přílš ctlvý a a porušeí předpokladu homoskedastcty (Hebák a kol., Vícerozměré statstcké metody, s. 6) Prokážeme-l exstec vlvu faktoru, ásleduje hlubší aalýza výsledků, př íž zjšťujeme, mez kterým skupam exstují rozdíly. Porováváme dvojce středích hodot, tj. testujeme hypotézy H: j = 0 pro růzá, j. Bylo odvozeo moho metod, které umožňují kotrolu chyby I. druhu a které se ozačují jako metody mohoásobého porováváí. Uvedeme zde metody ejčastěj zastoupeé ve statstckých paketech. Může se také stát, že výsledky mohoásobého porováváí jsou v koflktu s výsledky F-testu aalýzy rozptylu. Např. všechy tervaly př párovém porováváí mohou obsahovat ulu, ačkolv F-test složeé hypotézy H: = = = k zamítul testovaou hypotézu. LSD (Fsher) Použjeme-l metodu ejmešího výzamého rozdílu (LSD) př porováváí růzých dvojc hodot současě, eí jž rzko chyby I. druhu dodržeo. Nejedá se tedy vlastě o metodu mohoásobého porováváí. Protože jsou tervaly spolehlvost úzké, stává se, že porováí vyjde výzamé v případě, kdy F-test aalýzy rozptylu ezamítul hypotézu H: = = = k. Proto Fsher doporučuje kostruovat terval je v případě, kdy hypotéza H byla F-testem zamítuta. Boferro Boferroho metoda patří ke kozervatvím testům, zvláště př větším počtu porováváí, to zameá, že tervaly jsou šroké a celková chyba I. druhu je meší ež. Scheffé Test je odvoze pro porováí všech možých kotrastů a proto je rověž kozervatví. Jedorozměré úlohy s více faktory Př aalýze expermetálích výsledků se často výsledky třídí podle více ež jedoho faktoru, buď přímo zkoumáme vlv ěkolka faktorů a závslou kvattatví proměou, ebo můžeme mít zkoumaý faktor je jede, ale vzhledem ke způsobu realzace expermetu vstupuje do modelu jede ebo více blokových faktorů. Zde se omezíme je a případ dvou faktorů. Pro zkoumáí vlvu jedoho faktoru použjeme model bez terakce. Vyhodoceí úplého faktorálího expermetu provedeme pomocí modelu s terakcí. Model pro dva faktory s terakcí má tvar y kg = + k + g + () kg + kg, k=,,, K, g =,, G, =,,, r, v ěm vyjadřuje obecou kostatu, k efekt k-té úrově jedoho faktoru, g efekt g-té úrově druhého faktoru, () kg efekt terakce, tj. efekt kombace daých úroví obou faktorů a kg áhodou složku splňují cí obvyklé předpoklady. Testujeme jedak hypotézy o tzv. hlavích efektech faktorů, tj. hypotézy o tom, že efekty všech úroví daého faktoru (bez ohledu a úroveň druhého faktoru) jsou ulové H: l = = = k = 0, resp. H: l = = = k = 0 jedak hypotézu o efektu terakce H: () = () = = () j = 0 to zameá hypotézu o tom, že velkost efektu změy úrově jedoho faktoru ezávsí a kokrétí

úrov druhého faktoru Tab. 5 Dvoufaktorová aalýza rozptylu, model s terakcí Zdroj varablty Součet čtverců Stupě volost Průměrý čtverec Faktor A Q B-A v A = K- Q B,A / v A Faktor B Q B-B v B = G- Q B,B / v B Iterakce Q B-AB v AB = (K-)*(G-) Q B,AB / v AB Rezduálí Q E v E = KG(r-) Q E / v E Celkový Q T - Vícerozměré úlohy s jedím faktorem Místo jedoho pozorováí a expermetálí jedotce budeme yí uvažovat vektor p pozorováí a úvahy zobecíme pro p-rozměrý případ. Pro vícerozměrou aalýzu rozptylu použjeme model y k = k + k Testovaou hypotézu zamíteme a hladě výzamost, překročí-l hodota testové statstky F kvatl f l- (v, v ). Výpočet hodot statstk včetě uvedeých trasformací a příslušých p-hodot je běžou součástí počítačových programů pro vícerozměrou aalýzu rozptylu, apř. ve statstckých paketech SPSS ebo STATISTICA. Podrobý teoretcký pops přesahuje rámec tohoto studjího textu, čteáře odkážeme a (Hebák a kol., Vícerozměré statstcké metody, s. 78). Obecý postup př aalýze rozptylu V úvodu má výzkumík určt a základě dat a povahy problému o jaký model ANOVY se bude jedat: s pevým, áhodým ebo smíšeým efekty. Jsou defováy hypotézy a vypočítáy parametry ANOVY. Následuje terpretace:. Odhadu parametrů základího modelu ANOVA.. Ověřováí výzamost a kostrukce růzých submodelů u modelů s pevým efekty. 3. Vyjádřeí složek rozptylů u modelů s áhodým efekty a testováí jejch výzamost. 4. Ověřeí předpokladů ormalty, homogety rozptylů a přítomost slě vybočujících pozorováí. 5. Iterpretace výsledků s ohledem a zadáí dat a jejch případé úpravy. (Melou, Mltký, 004, s. 560)

Příklad Jedorozměrá ANOVA Zadáí: Pro porováí tří hodottelů A, A, A 3 byl provede teto expermet: Každé respodet byl změře 3 hodottel. V tabulce 6 jsou uvedey aměřeé hodoty motorckého testu v běhu a km. Hodoty jsou uvedeé v sekudách. Zjstěte, zda exstují výzamé rozdíly mez výsledky jedotlvých hodottelů. Data: = 0. Tab. 6 Vstupí data A A A 3 94,6 90, 94,5 93,5 9,3 95, 94,6 9,4 94,5 94,6 9,3 95, 9,4 9,4 93,6 94,6 90, 94,7 94,6 90, 93,6 9,4 9,3 94,3 94,6 90, 94,5 94,6 9,3 93,4 Řešeí: Z údajů v tabulce 6 byly určey ásledující sloupcové charakterstky (tab. 7): Tab. 7 Sloupcové základí charakterstky Krabcový graf edetekuje žádé odlehlé body 97 Krabcový graf 96 95 94 93 9 9 90 Průměr Průměr±SmOdch Průměr±,96*SmOdch 89 A A A3 Obr. 3 Krabcový graf

Splěí předpokladů: Nezávslost výběrů je dáa podstatou expermetu Normalta ANOVA eí ctlvá a porušeí předpokladu ormalty, pokud se jedá o vyvážeá data (stejý počet hodot ve skupách). Poz. v případě porušeí ormalty můžeme použít Kruskall-Walssův test Shoda rozptylů ezamítáme hypotézu o rovost rozptylů tab. 8 Statstky ANOVA Jedofaktorová ANOVA více výsledků Předpoklady Tab. 8 Testováí shody rozptylů Jedotlvé součty čtverců a složky rozptylu jsou uvedey v tabulkách 9. Statstky ANOVA Jedofaktorová ANOVA Velkost efektů Zdroj rozptylu Tab. 9 Výsledky aalýzy rozptylu Součet Stupě čtverců volost S Průměrý čtverec S / Testovací krtérum F e Zkušeby S A = 65,345 3,673 48,90 Rezduálí S R = 8,306 7 0,678 - Celkový S C = 83,65 9,885 - Protože podíl F e = 3,673 / 0,678 = 48,90 vysoko překračuje kvatl F 0,95 (, 7) = 5,448, zamítáme hypotézu o rovost efektů úroví A, A, A 3. Scheffého procedura víceásobého porováí (tab. 0) ukázala, že rozdíly mez průměry a jsou výzamé. Rověž rozdíly mez průměry a emůžeme považovat za statstcky evýzamé.. 3

Tab. 0 Výsledek Scheffeho metody mohoásobého pozorováí Závěr: Jedofaktorová aalýza rozptylu s pevým efekty ukázala, že rozdíly mez výsledky jedotlvých hodottelů jsou statstcky výzamé. Zatímco rozdíly mez výsledky hodottelů A a A 3 jsou áhodé, hodottel A měří systematcky odlšé (žší) hodoty ež hodottelé A a A 3.

Příklad. Dvojrozměrá ANOVA bez opakováí Zadáí: Bylo sledováo, zda čas potřebý k vyřešeí určté úlohy závsí a době a a hlučost okolí. Dvaáct vybraých studetů majících stejé studjí výsledky bylo rozděleo do tří skup. Prví skupa řešla úlohu ráo, druhá v polede a třetí večer. V každé skupě vždy jede studet pracoval v tchém prostředí, druhý poslouchal reprodukovaou hudbu, třetí rozhlasovou hru a čtvrtý slý poulčí hluk. Počet mut potřebých k vyřešeí úlohy je uvede v tabulce. Zjstěte, zda doba potřebá k vyřešeí úlohy závsí a deí době a a hlučost okolí. Teto příklad byl zařaze z důvodu, že a ěm statstcký software STATISTICA 0 havaruje. Tz. edokáže ve svých výstupech provést vyhodoceí požadovaého modelu. Tab. Počet mut potřebých k vyřešeí úlohy faktor B faktor A tcho hudba hra hluk ráo 6 7 8 6 v polede 8 5 0 5 večer 7 6 7 Řešeí: Nejprve vypočítáme základí statstcké charakterstky a grafcky zázoríme průměry jedotlvých efektů (tab. a 3). Tab. Základí statstcké charakterstky faktoru A Tab. 3 Základí statstcké charakterstky faktoru B

8, faktor A; Průměry MNČ Současý efekt: F(, 0)=--, p= -- Dekompozce efektví hypotézy Vertkálí sloupce ozačují 0,95 tervaly spolehlvost 8,0 7,8 7,6 muty 7,4 7, 7,0 6,8 6,6 ráo vpolede večer faktor A Obr. 4 Grafcké zázorě vlvu faktoru A 0,5 faktor B; Průměry MNČ Současý efekt: F(3, 0)=--, p= -- Dekompozce efektví hypotézy Vertkálí sloupce ozačují 0,95 tervaly spolehlvost 0,0 9,5 9,0 8,5 muty 8,0 7,5 7,0 6,5 6,0 5,5 tcho hudba hra hluk faktor B Obr. 5 Grafcké zázorě vlvu faktoru B

3 faktor A*faktor B; Průměry MNČ Současý efekt: F(6, 0)=--, p= -- Dekompozce efektví hypotézy Vertkálí sloupce ozačují 0,95 tervaly spolehlvost 0 muty 9 8 7 6 5 4 ráo vpolede večer faktor A Obr. 6 Grafcké zázorě vlvu terakce faktorů A a B faktor B tcho faktor B hudba faktor B hra faktor B hluk Tab. 4 Výstup aalýzy rozptylu v počtu mut potřebých k vyřešeí úlohy Součet Stupě Průměrý Testovací Zdroj čtverců volost čtverec krtérum rozptylu S S / F e Úrově faktoru A S A = 3,50,75 0,833 Úrově faktoru B S B = 3,5 3 0,75 5,9 Iterakce Tukey S T = 3,67 3,67,747 Rezduálí S R = 0,50 5,0 - Celkový S C = 46,5 4,0 - Statstky ANOVA Vícefaktorová ANOVA Velkost efektů

Byly testováy hypotézy (tab. 4) o ulovost efektů faktoru A. Srováí kvatlu F 0,95 (, 5) = 5,787 s hodotou F = 0,833 vede k závěru, že efekt faktoru A je evýzamý. Efekt faktoru B, F 0,95 (3, 5) = 5,409 > 5,9, je sce evýzamý, ale blízkost hodot 5,409 a 5,9 sgalzuje, že hlučost z část ovlvňuje dobu potřebou k vyřešeí úlohy. Nevýzamý je rověž efekt terakce, eboť F 0,95 (, 5) = 6,608 >,747. Závěr: Dvoufaktorová aalýza rozptylu bez opakováí pozorováí ukázala, že deí doba eovlvňuje čas potřebý k vyřešeí úlohy. Na druhé straě se epodařlo prokázat, že hlučost okolí ovlvňuje dobu potřebou k řešeí příkladu.

Příklad 3 Dvojrozměrá ANOVA s opakováím Zadáí: Byl zkoumá výsledý čas v motorckém testu v závslost a typu suplemetace sportovce (faktor A) a a způsobu tréku (faktor B). Každá kombace byla realzováa čtyřkrát ezávsle a sobě. Výsledky jsou uvedey v tabulce 5. Zjstěte, jak ovlvňuje výsledý čas druh suplemetace a způsob tréku. Data: = 4 Tab. 5 Výsledý čas Způsob tréku Suplemetace Bez tréku Aerobí Aaerobí výrobce,8 3, 3,0 3,0 3,7 3,6 3,9 3,6 3,4 3,8 3,7 3,6 výrobce 3,,7 3,0,9 3,4 3,4 3,0 3,8 4, 4,0 4, 3,9 Řešeí: Na základě výsledků z programu Statstca 0 byla sestavea tabulka 6 a ručím výpočtem tabulka 7. Statstky ANOVA Vícefaktorová ANOVA Velkost efektů Tab. 6 Aalýza rozptylu výsledku motorckého testu Zdroj rozptylu Tab. 7 Aalýza rozptylu výsledku motorckého testu Součet Stupě Průměrý čtverců volost čtverec S S / Testovací krtérum F e Úrově faktoru A S A = 0,007 0,007 0,044 Úrově faktoru B S B = 3,85,59 4,84 Iterakce AB S AB = 0,5508 0,754 7,37 Rezduálí S R = 0,6850 7 0,038 - Celkový S C = 4,400 3 0,9 - Srováme-l hodoty testovacích krtérí z tabulky 6 a 7 s příslušým kvatly F-rozděleí zjstíme, že efekt faktoru A je evýzamý (0,004 < 4,44 = F 0,95 (, 7)). Vlv faktoru B je statstcky výzamý (4,84 > 3,555 = F 0,95 (, 7)). Rověž vlv terakce AB je výzamý (7,37 > 3,555 = F 0,95 (, 7)).

4, trék; Nevážeé průměry Současý efekt: F(, 8)=4,84, p=,00000 Dekompozce efektví hypotézy Vertkálí sloupce ozačují 0,95 tervaly spolehlvost 4,0 3,8 3,6 čas 3,4 3, 3,0,8,6 bez aerobí aaerobí trék Obr. 7 Grafcké zázorěé vlvu efektu trék 4,6 suplem*trék; Nevážeé průměry Současý efekt: F(, 8)=7,37, p=,00494 Dekompozce efektví hypotézy Vertkálí sloupce ozačují 0,95 tervaly spolehlvost čas 4,4 4, 4,0 3,8 3,6 3,4 3, 3,0,8,6,4 bez aerobí aaerobí trék suplem výrobce suplem výrobce Obr. 8 Grafcké zázorěé vlvu terakce efektů trék a suplemetace Závěr: Nepodařlo se prokázat závslost výsledého času a druhu suplemetace. Je však prokázá vlv tréku (obr. 7). Rověž byla prokázáa přítomost terakcí. To zameá, že všechy způsoby tréku eovlvňují oba typy suplemetace stejým způsobem (obr. 8).

Leárí regrese Statstcké modelová závslost Získáme-l v ašem výzkumém šetřeí proměé, mez mž lze zdůvodt hledáí vzájemého leárího vztahu, můžeme použít metodu leárí regrese. Regresí aalýza je statstcká metoda pro modelováí závslost jedé ebo ěkolka (ejlépe měřtelých spojtých) vysvětlovaých áhodých velč (závsle proměých) Y, Y,, Y G a jedé ebo více vysvětlujících velčách (ezávsle proměých) X l, X,, X K. Základím úkolem regresí aalýzy je pomocí matematcké fukce vysvětlt proměé Y pomocí vysvětlujících proměých X. Příčost emůže být statstckou aalýzou prokázáa, dostáváme totž je formac o závslost mez proměým. K prokázáí příčost je potřeba sestavt komplexí výzkumý plá, ve které budeme mmalzovat všechy aspekty vyplývající z předměté oblast. V herarch pláů výzkumu z hledska valdty závěru vzhledem k průkazu příčost stojí ejvýše radomzovaé klcké stude a metaaaytcké stude (Hedl, 004 s. 75). Aalýzu kdy elze provádět bez obsahového výzamu proměých a je a základě případové stude, s apř. rozsáhlým výběrovým souborem. Statstcký pops závslost dvou proměých ezameá přítomost příčého vztahu (Hebák a kol., Vícerozměré statstcké metody, s. ). Leárí - fukce leárí v parametrech č fukce, které lze a leárí v parametrech převést vhodou trasformací (apř. logartmováím) Příklady regresích fukcí a) Y = 0 + X + Z + + k Q b) Y = 0 + X + X c) Y = 0 X Z, kterou lze přepsat do leárího tvaru (leárího v parametrech) l(y) = l( 0 ) + X l( ) + Z l( ) Neleárí - do této skupy budeme zařazovat fukce eleárí v parametrech (a leartu elze dosáhout a vhodou trasformací) Příklady regresích fukcí a) Y = 0 + X b) Y = 0 + X Regrese a korelace Pojem regrese pochází z prací atropologa a meteorologa Fracse Galtoa, které předložl veřejost v letech 877 až 885. Galto se zabýval obecým otázkam dědčost a kokrétě se zajímalo vztah mez výškou otců a jejch prvorozeých syů. Pozorováím a aalýzou údajů došel k rovc, ze které vyplývá, že vysocí otcové sce mají vysoké syy, ale v průměru jsou větší ež jejch syové, a podobě malí otcové mají malé syy, ale v průměru jsou meší ež jejch syové. Tuto tedec ávratu ásledující geerace směrem k průměru azval Galto regres (původě tomuto jevu říkal reverso, což pozděj změl a regresso = krok zpět). Současé pojetí regresí aalýzy má sce je málo společého s původím záměrem Galtoa, cméě myšleka přístupu k emprckým údajům zůstala zachováa a pojem regrese se atolk vžl, že se používá dodes (Hebák a kol., Vícerozměré statstcké metody, s. 0). Korelace zameá vzájemý vztah mez dvěma procesy ebo velčam. Pokud se mez dvěma procesy ukáže korelace, je pravděpodobé, že a sobě závsejí, elze z toho však ještě usoudt, že by jede z ch musel být příčou a druhý ásledkem. To samotá korelace edovoluje rozhodout.

V určtějším slova smyslu se pojem korelace užívá ve statstce, kde zameá vzájemý leárí vztah mez zaky č velčam x a y. Teto vztah může být kladý, pokud (přblžě) platí y = kx, ebo záporý (y = -kx). Míru korelace pak vyjadřuje korelačí koefcet, který může abývat hodot od až po +. Hodota korelačího koefcetu začí zcela epřímou závslost, tedy čím více se zvětší hodoty v prví skupě zaků, tím více se zmeší hodoty v druhé skupě zaků, apř. vztah mez uplyulým a zbývajícím časem. Hodota korelačího koefcetu + začí zcela přímou závslost, apř. vztah mez rychlostí běhu a běžeckou frekvecí kroků sprtera. Pokud je korelačí koefcet rove 0, pak mez zaky eí žádá statstcky zjsttelá leárí závslost. Je dobré s uvědomt, že př ulovém korelačím koefcetu a sobě velčy mohou závset, pouze teto vztah elze vyjádřt leárí fukcí, a to a přblžě. Může jít apř. o eleárí závslost. Z ekorelovaost áhodých velč strktě evyplývá jejch ezávslost, ale aopak z jejch ezávslost vyplývá jejch ekorelovaost (Zvoař a kol, 00). Mez evýhody korelačího koefcetu patří jeho ctlvost k áhodé chybě. Proto se používá ve srovávacím expermetu. Je též ctlvý také k rozmezí měřeí. Zvětšeím rozsahu měřeí lze zvýšt hodotu korelačího koefcetu blízko k. Závažá je skutečost, že korelačí koefcet eodhaluje a přítomost proporcoálí chyby a chyby kostatí (Hedl, 004, s. 85). Doporučuje se ahradt/doplt posouzeí korelačího koefcetu, který je pouze mírou leárí závslost výsledků, jým postupy, apř. Blad-Altmaovým rozdílovým grafem. Jedoduché, dílčí, víceásobé podmíěé korelačí koefcety jsou míram vzájemé leárí závslost áhodých velč. Rozdíl mez m je v tom, zda vyjadřují vzájemý leárí vztah dvou áhodých velč př euvažováí všech ostatích velč (jedoduché), závslost mez jedou áhodou velčou a leárí fukcí všech ebo ěkterých ostatích velč (víceásobé), vzájemý leárí vztah dvou áhodých velč př statstckém vyloučeí všech ebo ěkterých ostatích velč (dílčí) ebo vzájemý vztah dvou ebo více velč pro daé hodoty jých velč (podmíěé). (Hebák a kol., Vícerozměré statstcké metody, s. 4). Regresí modely a jejch klasfkace Obtížost kostrukce regresího modelu souvsí s řadou ejstot zcela zásadího charakteru. Z věcé aalýzy z kokrétích dat můžeme získat moho formací, ale akoec je uté předpokládat: - součtový ebo součový vlv uvažovaých euvažovaých čtelů; - určtý typ regresí fukce; - pravděpodobostí chováí a rozděleí rušvé složky; - kokrétí okruh rozhodujících vysvětlujících proměých X l, X,, X K. Většou se předpokládá, že zkoumaou závslost zaku Y a zaku X popsuje adtví regresí model Y = f(x, ) +, (.) kde vektor Y = (y, y,, y ) je áhodý vektor pozorovaých hodot, X = (x, x,, x ) je eáhodý vektor vysvětlujících hodot, fukce f(x,) je teoretcká regresí fukce, vektor = ( 0,,, p ) je vektor regresích koefcetů (parametrů) a = (,,, ) je vektor chyb, čl vektor ezávslých áhodých velč s rozděleím N(0, ). Regresí model (.) vyjadřuje, že emprcké údaje y se budou více č méě lšt od teoretckých hodot Y, čl platí y Y f ( x, 0,,..., ), (.) p

Z předpokladů o rozděleí rušvých složek bezprostředě vyplývá, že pozorovaé hodoty y áhodé velčy Y mají ormálí rozděleí N(Y, ). Nejsou tedy zatížeé systematckým chybam, měřeí jsou prováděa se stejou přesostí a jsou ekorelovaé. Popíšeme ejpoužívaějších typy jedorovcových regresích modelů se zvláštím zaměřeím a modely leárí: Leárí model V leárím modelu se předpokládá součtový vlv všech čtelů a regresí fukc Y = 0 + X + X + + k X k + ve kterém 0 je absolutí čle a k jsou dílčí regresí koefcety. Například parametr l je terpretová jako očekávaá změa velčy Y př jedotkovém růstu velčy X za předpokladu už uvažovaého, a tudíž statstcky kostatího vlvu vysvětlujících proměých X, X 3,, X K, a aalogcky je hodoce výzam ostatích dílčích regresích koefcetů. Racoálí celstvé a lomeé fukce Velm často se používá regresí model, který je leárí z hledska všech parametrů, ale eleárí z hledska vysvětlujících proměých. Oblíbeé jsou především modely s jedou vysvětlující proměou. V této skupě je as ejzámější model regresí paraboly s-tého stupě Y = 0 + X + X + + s X s + a zvláště regresí parabola druhého stupě, kdy s =. Modely převodtelé trasformací a leárí model Pro expoecálí, mocé, růzě kombovaé a další regresí fukce je rozumější předpokládat obecě součový (multplkatví) typ regresího modelu ve tvaru Y = ve kterém je regresí fukce a rušvá složka. Časté je použtí leárí expoecálí regresí fukce X. Oblíbeé jsou rověž růzé formy mocých regresích fukcí ebo další kombace uvedeých jých typů. Modely eleárí z hledska parametrů V opačém případě, kdy regresí fukce má tvar rozdílý od (.3), mluvíme o eleárí regresí fukc. Podle toho, zda regresí fukce f(x,) je č eí leárí fukcí regresích parametrů, rozlšujeme leárí a eleárí regres. Rozdíl mez oběma typy spočívá především ve způsobu výpočtu bodových odhadů regresích parametrů. Leárí modely jsou pro svou jedoduchost velm oblíbeé, ale skutečé vztahy mez velčam bývají většou eleárí. V přírodích, techckých společeských vědách se používají ejrůzější typy eleárích modelů. Například v ekoomcké lteratuře ajdeme téměř 0 věcě zdůvoděých eleárích produkčích fukcí a podobě je tomu v oblast spotřeby, poptávky, vestc a dalších. Touto problematkou se však zabývat ebudeme. Vyrovávací krtéra Vyrováím expermetálích dat se rozumí proložeí regresí fukcí takovou, př kterém je celková chyba ejmeší. Celkovou chybou můžeme popsat jako: - Mmalzace krtéra ejmešího součtu čtverců - Mmalzace maxmálí hodoty rezdua - Mmalzace součtu absolutích hodot rezduí

Nemusí být automatcky ejlepší výsledek, který získáme použtím ejzámější a ejpoužívaější metody ejmeších čtverců. Tato metoda vychází z požadavku, aby součet čtverců odchylek pozorovaých hodot y od hodot Yˆ ležících a regresí křvce byl mmálí, čl hledáme mmum fukce S R y Y y f ( x, ) ˆ b, (.4) kde Yˆ f ( x, b) (.5) je odhad teoretcké regresí fukce (.) a rozdíly e y Y, =,,, (.6) jsou tzv. rezdua. Rezdua e považujeme za odhady chyby. Součet (.4) se azývá rezduálí součet čtverců a fukce (.5) se azývá emprcká (výběrová) regresí fukce. Leárí regresí model má tedy tvar Y = 0 f 0 f f... p f p + (.7) kde 0,,..., p jsou ezámé parametry, regresory f j, j = 0,,, p, jsou zámé fukce proměé X a = (,,..., ) je vektor ezávslých áhodých velč s rozděleím N 0,. Mez ejužívaější leárí regresí fukce (.7) patří přímka (.) a parabola (.), které jsou vlastě ejjedodušší případy polyomcké regrese s regresí fukcí p Y = X X... X 0 p. (.8) Další regresí fukce leárí z hledska parametrů je logartmcká fukce Y l X, (.9) 0 která představuje logartmckou regres. Bodové odhady a tervaly spolehlvost Bodové odhady v leárím regresím modelu Ve statstcké lteratuře věovaé bodovým odhadům mají tradčě ěkteré požadavky předost před jým. Na prvím místě se požaduje ezkresleost (estraost, evychýleost) odhadu s ejmeším rozptylem. Například př platost podmíek klasckého leárího modelu je ejlepším leárím ezkresleým odhadem odhad b pořízeý metodou ejmeších čtverců. Kvalta zvoleé statstky je dáa eje oprávěostí učěých předpokladů a podmíek, ale volbou hodotícího krtéra. Základí metodou odhadu parametrů leárích regresích fukcí je metoda ejmeších čtverců, tj. požadavek, aby rezduálí součet (.4) byl mmálí. Dostaeme soustavu (p+) leárích (ormálích) rovc SR / b0 = 0, SR / b = 0,, SR / bp = 0. (.0)

Řešeím soustavy (.0) získáme odhady b 0, b,, b p parametrů 0,,, p. Př výpočtu odhadů parametrů regresí přímky a regresí paraboly řešíme ásledující soustavy rovc: přímka x b b Y 0 ˆ b b x y b x b x y x 0 0, (.) parabola 0 ˆ x b x b b Y 4 3 0 3 0 0 x y x b x b x b x y x b x b x b y x b x b b, (.) logartmcká fukce x b b Y l ˆ 0 x y x b x b y x b b 0 0 l ) (l l l (.3) Itervaly spolehlvost pro regresí parametry 00(- )%- í dvoustraý terval spolehlvost pro regresí parametr j je vymeze erovostm ) ( ) ( ) ( ) ( / / j j j j j b s t b b s t b, j = 0,,,, p, (.4) kde b j je bodový odhad parametru j, ) ( / t je kvatl t-rozděleí s p stup volost a s(b j ) je směrodatá chyba bodového odhadu b j, pro kterou platí jj R j h s b s, (.5) R s je rezduálí rozptyl ) ( ˆ p Y y s R, (.6) a h jj je dagoálí prvek matce H = (X X) -, (.7) kde matce X je tzv. matce regresorů, ) (... ) (............ ) (... ) ( ) (... ) ( p p p x f x f x f x f x f x f X (.8)

Větša statstckých programů počítá vedle rezduálího rozptylu (.4) také směrodatou odchylku rezduí s R, tj. sr s R (.9) Testy hypotéz o hodotách regresích parametrů Idvduálí t-test o ulové hodotě regresího parametru testuje hypotézu H: j = 0, j =,,, p, prot alteratvě A: j 0. (.0) Testovým krtérem je áhodá velča b j t, (.) s b j kde b j je bodový odhad regresího koefcetu j a s(b j ) je směrodatá chyba (.5) tohoto odhadu. Krtcký obor W je vymeze erovostí t j > t / ( c), (.) kde t ) je kvatl t-rozděleí s c = (p+) stup volost. / ( c Celkový F-test je test hypotézy H: 0 = k, = = = p = 0 prot A: 0, j =,,, p. (.3) kde Testovým krtérem je áhodá velča F Y ˆ y y Yˆ p Y y ST : ( p ) j, (.4) ˆ (.5) je teoretcký součet a součet y Y S R Krtcký obor F F c kde F c c W je vymeze erovostí ˆ je rezduálí součet (.4)., c, (.6), je kvatl F-rozděleí s c a c stup volost, c = p +. Vede-l celkový F-test k zamítutí hypotézy H a větša t-testů rověž, považujeme zvoleou regresí fukc za vyhovující. Př vyšetřováí regresí závslost kostruujeme často takzvaé pásy spolehlvost. Statstcké programy většou kreslí kolem regresí přímky dva pásy: Užší pás pro podmíěou středí hodotu a šrší pás spolehlvost pro predkc. Iterval spolehlvost pro podmíěou středí hodotu 00(-)%-í dvoustraý terval spolehlvost pro podmíěou středí hodotu Y (pás spolehlvost kolem regresí fukce) je vymeze erovostm

sy ˆ Y Yˆ t sy ˆ Yˆ t, (.7) / / kde Yˆ je hodota regresí fukce odpovídající zvoleé hodotě x vysvětlující proměé X, t / ( ) je kvatl t-rozděleí s p stup volost a sy ˆ je směrodatá chyba (.8) bodového odhadu Yˆ. Směrodatá chybasy ˆ bodového odhadu Yˆ s Y ˆ s R xhx, (.8) kde s R je rezduálí rozptyl (.6), vektor x = [, f, f,, x x f ] (.9) p x je vektor hodot regresorů pro daou hodotu x, x je vektor traspoovaý k XX H je matce (.7). x a matce Iterval spolehlvost pro dvduálí předpověď 00(-)%- í dvoustraý terval spolehlvost pro predkovaou hodotu proměéy 0, odpovídající daé hodotě x vysvětlující proměé X (pás spolehlvost pro predkc), je vymeze erovostm Yˆ t s Yˆ Y Yˆ t s Yˆ, (.30) / 0 0 / kde Yˆ je hodota regresí fukce odpovídající zvoleé hodotě t / ( ) je kvatl t-rozděleí s p (.3) odhadu dvduálí hodoty. 0 stup volost a Směrodatá chyba sy ˆ 0 odhadu dvduálí hodoty ˆ ( x Hx ) x vysvětlující proměé X, s ˆ je směrodatá chyba s Y 0 s R, (.3) kde s R je rezduálí rozptyl (.6), x je vektor (.9), x je vektor traspoovaý k a matce H je matce (.7). Y 0 x Aalýza rezdu a vlvá pozorováí Rezdua jsou základím dagostckým ástrojem, a to eje př hodoceí kvalty regresí fukce, ale obecěj př posuzováí oprávěost předpokladů zvoleého regresího modelu. Jakákol systematčost (eáhodost) zjštěá u rezdu dkuje ějaký (zatím edetfkovaý) edostatek odhadutého regresího modelu. Může to být chybě zvoleý typ regresí fukce, evhodý plá expermetu, eáhodý výběr, esprávě zvoleé vysvětlující proměé, esplěí předpokladů metody, špaté představy o modelu, chybá ebo přílš vlvá pozorováí, slá vzájemá závslost vysvětlujících proměých, ale já arušeí regresí úlohy (Hebák a kol., Vícerozměré statstcké metody, s. 9).

Klascká rezdua popsují rozdíly mez skutečým a odhadutým hodotam vysvětlovaé proměé. kde y je expermetálí hodota a e y Y, Yˆ je vyrovaá hodota. Rezdua e by měla především vyhovovat předpokladu ormalty a ezávslost. Nejpoužívaější test, jímž ověřujeme ezávslost rezduí v modelu, je Durbův-Watsoův test autokorelace. Durbův-Watsoův test používá statstku kde e y Y DW t ( et et ) t je rezduum (.6). e t, (.3) Statstka (.3) abývá hodot z tervalu (0; 4). V případě, že hodota DW se pohybuje kolem, elze zamítou hypotézu o ezávslost áhodých poruch. Blíží-l se hodota DW 0 ebo 4, jsou rezdua závslá. Všechy programy abízejí grafy rezduí. Rezdua e zobrazeá v závslost a hodotách x umožňují zhruba ověřt ezávslost rezduí. Je-l regresí fukce správě určea, pak jsou body áhodě rozmístěy kolem vodorové osy. Jestlže rezdua vykazují určtý tred, je to zámka esprávě zvoleé regresí fukce. Detekce vlvých bodů Vlvé body zkreslují odhady a zvyšují rozptyl. Lze je rozdělt do dvou skup: odlehlé body, které se lší od ostatích v y-ové složce a extrémy, které se lší od ostatích v x-ové složce. Tyto body ovlvňují výrazě výsledky regrese a užvatel musí rozhodout, zda jde o hrubé chyby, které je třeba vyloučt, ebo aopak o body, které zlepšují kvaltu a stabltu regrese. Statstcké programy př detfkac vlvých bodů využívají vedle klasckých rezduí (.6), která obecě emají stejý rozptyl, ásledující rezdua: Stadardzovaá rezdua e SI mají tvar e es, (.33) sr p kde e je klascké rezduum (.6), S R je rezduálí směrodatá odchylka (.9) a p jsou dagoálí prvky projekčí matce (.34). Projekčí matce P má tvar kde X je matce (.8). P = X(X X) - X, (.34) Poěkud lepší dagostcké vlastost ež stadardzovaá rezdua mají Jackkfe rezdua e JI. e ej, (.35) s p R( )