Předášky předmětu M630 Výpočetí statistika Marie Budíková 03
Poděkováí Teto učebí text vzikl za přispěí Evropského sociálího fodu a státího rozpočtu ČR prostředictvím Operačího programu Vzděláváí pro kokureceschopost v rámci projektu Uiverzití výuka matematiky v měícím se světě (CZ..07/..00/5.003).
Průzkumová aalýza jedorozměrých dat, diagostické grafy Motivace Průzkumová aalýza dat je odvětví statistiky, které pomocí růzých postupů odhaluje zvláštosti v datech. Při zpracováí dat se často používají metody, které jsou založey a předpokladu, že data pocházejí z ějakého kokrétího rozložeí, ejčastěji ormálího. Teto předpoklad emusí být vždy splě, protože data - mohou pocházet z jiého rozložeí - mohou být zatížea hrubými chybami - mohou pocházet ze směsi ěkolika rozložeí. Proto je důležité provést průzkumovou aalýzu dat, abychom se vyvarovali eadekvátího použití statistických metod. Data zkoumáme pomocí fukcioálích a číselých charakteristik a pomocí diagostických grafů. Osova: - datový soubor - bodové a itervalové rozložeí četostí - typy zaků, číselé charakteristiky zaků - krabicový diagram, N-P plot, P-P plot, Q-Q plot, histogram
Fukcioálí charakteristiky datového souboru Ozačeí Na možiě objektů { },, ε ε zjišťujeme hodoty zaku X (apř. u 6 domácostí zjišťujeme počet čleů). Hodotu zaku X a objektu i ε ozačíme x i, i =,...,. Tyto hodoty zazameáme do jedorozměrého datového souboru x x (apř. 3 ). Uspořádaé hodoty x () x ()... x () tvoří uspořádaý datový soubor () () x x, v ašem případě 3. Vektor ] [ [] r x x, kde x [] <... < x [r] jsou avzájem růzé hodoty zaku X, se azývá vektor variat, v ašem případě 3.
Bodové rozložeí četostí Je-li počet variat zaku X malý, přiřazujeme četosti jedotlivým variatám a hovoříme o bodovém rozložeí četostí. j absolutí četost variaty x [j] p j = j relativí četost variaty x[j] N j = +... + j absolutí kumulativí četost prvích j variat F j = N j = p +... + p j relativí kumulativí četost prvích j variat Absolutí a relativí četosti zapisujeme do tabulky rozložeí četostí ebo je zázorňujeme graficky apř. pomocí sloupkového diagramu či polygou četostí. Četostí fukce: p(x) = p j pro x = x[j], j =, 0 jiak..., r Empirická distribučí fukce: F(x) = 0 pro x < x[] Fj pro x[j] x < x pro x x[r] [j + ], j =,..., r -
Příklad.: U 30 domácostí byl zjišťová počet čleů. Počet čleů 3 4 5 6 Počet domácostí 6 4 0 5 3 Vytvořte tabulku rozložeí četostí. Nakreslete grafy četostí fukce a empirické distribučí fukce. Dále akreslete sloupkový diagram a polygo četostí počtu čleů domácosti. Řešeí: Tabulka rozložeí četostí x [j] j p j N j F j /30 /30 6 6/30 8 8/30 3 4 4/30 /30 4 0 0/30 /30 5 5 5/30 7 7/30 6 3 3/30 30 Graf četostí fukce 0,35 0,30 0,5 0,0 0,5 0,0 Graf empirické distribučí fukce Sloupkový diagram 0 8 6 4 Polygo četostí 0 9 8 7 6 5 4 0,05 0,00 0 3 4 5 6 7 0 3 4 5 6 3 0 3 4 5 6 7
Itervalové rozložeí četostí Je-li počet variat zaku X velký, přiřazujeme četosti ikoli jedotlivým variatám, ale třídicím itervalům ( u, u,..., ( r, u r u + a hovoříme o itervalovém rozložeí četostí. Názvy četostí jsou podobé jako u bodového rozložeí četostí, avíc zavádíme četostí hustotu j-tého třídicího itervalu f j = p j, kde dj = u j+ u j. Staoveí počtu třídicích itervalů je dosti d j subjektiví záležitost. Často se doporučuje volit r blízké. Hustota četosti: f(x) = f j pro u j < x u j+, j =,, r (grafem hustoty četosti je histogram) 0 jiak Itervalová empirická distribučí fukce: F(x) = f(t)dt. x -
Příklad.: U 70 domácostí byly zjišťováy týdeí výdaje a ealkoholické ápoje (v Kč). Výdaje ( 35, 65 ( 65, 95 ( 95, 5 ( 5, 55 ( 55, 85 ( 85, 5 Počet dom. 7 6 7 4 4 Sestavte tabulku rozložeí četostí, akreslete histogram a graf itervalové empirické distribučí fukce. Řešeí: Tabulka rozložeí četostí (u j,u j+ ] j p j f j N j F j ( 35, 65 7 7/70 7/00 7 7/70 ( 65, 95 6 6/70 6/00 3 3/70 ( 95, 5 7 7/70 7/00 50 50/70 ( 5, 55 4 4/70 4/00 64 64/70 ( 55, 85 4 4/70 4/00 68 68/70 ( 85, 5 /70 /00 70 Histogram 0,04 Graf itervalové empirické distribučí fukce, 0,0,0 0,00 0,008 0,006 0,004 0,00 0,8 0,6 0,4 0, 0,0 0,000 (35,65] (65,95] (95,5] (55,85] (5,55] (85,5] -0, 35 65 95 5 55 85 5
Číselé charakteristiky datového souboru Zaky omiálího typu Tyto zaky umožňují obsahovou iterpretaci pouze u relace rovosti. Příklady omiálích zaků: lékařská diagóza, typ profese, barva očí, rodiý stav, árodost, Charakteristikou polohy je modus, tj. ejčetější variata či střed ejčetějšího itervalu. Zaky ordiálího typu Lze u ich avíc obsahově iterpretovat relaci uspořádáí. Příklad ordiálího zaku: školí klasifikace vyjadřuje meší ebo větší zalosti zkoušeých žáků jedičkář je lepší ež dvojkař, ale itervaly mezi zámkami emají obsahovou iterpretaci. Nelze tvrdit, že rozdíl ve zalostech mezi jedičkářem a dvojkařem je stejý jako mezi trojkařem a čtyřkařem. Další příklady: Růzá bodováí ve sportovích a uměleckých soutěžích, posuzováí růzých rysů sociálího chováí, posuzováí stavu pacietů, hodoceí postojů respodetů k růzým otázkám, Charakteristikou polohy je α-kvatil. Je-li α ( 0;), pak α-kvatil x α je číslo, které rozděluje uspořádaý datový soubor a dolí úsek, obsahující aspoň podíl α všech dat a a horí úsek obsahující aspoň podíl α všech dat. Pro výpočet α- kvatilu slouží algoritmus: α= x (c) + x (c+ ) celé číslo c x α = ecelé číslo zaokrouhlíme ahoru a ejbližší celé číslo c x α = x (c) Pro speciálě zvoleá α užíváme ázvů: x 0,50 mediá, x 0,5 dolí kvartil, x 0,75 horí kvartil, x 0,,..., x 0,9 decily, x 0,0,..., x 0,99 percetily. Jako charakteristika variability slouží kvartilová odchylka: q = x 0,75 x 0,5.
Příklad 3.: Během semestru se studeti podrobili písemému testu z matematiky, v ěmž bylo možo získat 0 až 0 bodů. Výsledky jsou uvedey v tabulce: Počet bodů 0 3 4 5 6 7 8 9 0 Počet studetů 4 6 7 5 9 7 6 3 Zjistěte modus, mediá,. decil, 9. decil a kvartilovou odchylku počtu bodů. Řešeí: Modus je ejčetější variata zaku, v tomto případě tedy 6. Pro výpočet kvatilů musíme zát rozsah datového souboru: = + 4 +... + 3 = 0. Výpočty uspořádáme do tabulky. α α c x α =x (c) 0,50 50,5 5 6 0,0 0, 0,90 90,9 9 8 0,5 5,5 6 4 0,75 75,75 76 7 q = 7 4 = 3 Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o proměých a případech. Prví proměou azveme X, druhou cetost a zapíšeme do ich počet bodů a odpovídající absolutí četosti. Statistiky Základí statistiky/tabulky Popisé statistiky zapeme proměou vah cetost OK OK Proměé X OK Detailí výsledky vybereme Mediá, Dolí a horí kvartily, Kvatilové hraice Výpočet ve výstupí tabulce upravíme počet desetiých míst. Popisé statistiky (pocet bodu.sta) N platých Mediá Spodí Horí Kvatil Kvatil Proměá kvartil kvartil 0,00000 90,00000 X 0 6 4 7 8
Zaky itervalového a poměrového typu U těchto zaků lze avíc obsahově iterpretovat operaci rozdílu resp. podílu. Příklad itervalového zaku: teplota měřeá ve stupích Celsia. Např. aměříme-li ve čtyřech po sobě jdoucích dech poledí teploty 0,, 4, 6 ºC, zameá to, že každým dem stouply teploty o ºC. Nelze však říci, že z druhého a třetí de vzrostla teplota dvojásobě, kdežto ze třetího a čtvrtý de pouze jede a půl krát. Další příklady: kaledáří systémy, směr větru, iteligečí kvociet, Společý zak itervalových zaků: ula byla staovea uměle, pouhou kovecí. Příklad poměrového zaku: délka předmětu měřeá v cm. Má-li jede předmět délku 8 cm a druhý 6 cm, má smysl prohlásit, že druhý předmět je dvakrát delší ež prví předmět. Další příklady: počet dětí v rodiě, výška kapesého v Kč, hmotost osoby, Společý zak poměrových zaků: poměrový zak má přirozeý počátek, ke kterému jsou vztahováy všechy další hodoty zaku. Charakteristika polohy: aritmetický průměr m = x i. i= U poměrových zaků, které abývají pouze kladých hodot, lze použít geometrický průměr x x. Pomocí průměru zavedeme i-tou cetrovaou hodotu x i m (podle zaméka pozáme, zda i-tá hodota je podprůměrá či adprůměrá). Zázorěí rozložeí četostí dvou datových souborů, které se liší aritmetickým průměrem R o z dě l e í s rů z ý m i p o l o h a m i 5 0 0 4 0 0 četost 3 0 0 0 0 0 0 0 0 5 0 5 0 h o d o t a z a k u
Vlastosti aritmetického průměru - Aritmetický průměr si lze představit jako těžiště dat součet podprůměrých hodot je stejý jako součet adprůměrých hodot oba součty jsou v rovováze. i i = i= i= i= - Průměr cetrovaých hodot je ulový, protože ( x m) = x m = m m 0 = 0. - Výraz ( x a) i= i (tzv. kvadratická odchylka) abývá svého miima pro a = m. Uvedeý výraz charakterizuje celkovou chybu, které se dopustíme, když datový soubor ahradíme jediou hodotou a. Tato chyba je tedy ejmeší, když datový soubor ahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku. - Pokud každou hodotu x i podrobíme lieárí trasformaci y i = a + bx i, pak průměr trasformovaých hodot je rove lieárí trasformaci původího průměru, tj. m = a + bm. - Mají-li zaky X, Y průměry m, m, pak zak Z = X + Y má průměr m + m. - Aritmetický průměr je silě ovlivě extrémími hodotami. - Aritmetický průměr je vhodé použít, pokud je rozložeí dat přibližě symetrické.
Příklad a vlastosti aritmetického průměru: U skupiy 0 pracovíků v určité dílě byly zjišťováy měsíčí mzdy. Průměr mezd čiil 5 500 Kč. Určete průměr mezd, jestliže mzdy všech pracovíků se zvýší a) o 300 Kč, b), krát, c) o 0%. Řešeí: Ozačme m průměr hodot x,, x a m průměr hodot y,, y, přičemž y i = a + bx i, i =,,. Pak m = a + bm. ad a) m = 300 + m = 5 800 Průměr se zvýšil o 300 Kč a 5 800 Kč. ad b) m =,.m = 7 050 Průměr se zvýšil a 7 050 Kč. ad c) m =,.m = 8 600 Průměr se zvýšil a 8 600 Kč.
Charakteristiky variability itervalových a poměrových zaků Variačí rozpětí R = x () - x () (evýhoda bere v úvahu pouze ejmeší a ejvětší hodotu datového souboru), průměrá odchylka rozptyl s = i= o = x i m (udává, o kolik jedotek se data liší od průměru) (x i m) i= směrodatá odchylka s = (evýhoda vychází ve druhých mociách jedotek, v ichž byl měře zak X) s. Pomocí směrodaté odchylky zavedeme i-tou stadardizovaou hodotu se i-tá hodota odchýlila od průměru). U poměrových zaků se jako charakteristika variability používá též: x i m s (vyjadřuje, o kolik směrodatých odchylek koeficiet variace m s (často se udává v procetech a udává, kolika procet průměru dosahuje směrodatá odchylka), relativí průměrá odchylka m o (při vyjádřeí v procetech udává, kolika procet průměru dosahuje průměrá odchylka) Zázorěí rozložeí četostí dvou datových souborů, které se liší rozptylem: R o z dě l e í s rů z ý m i v a r i a b i li t a m i 5 0 0 4 0 0 četost 3 0 0 0 0 0 0 0 0 5 0 5 0 5 h o d o t a z a k u
Vlastosti rozptylu: - Rozptyl je ulový pouze tehdy, když jsou všechy hodoty stejé, jiak je kladý. - Rozptyl cetrovaých hodot je rove původímu rozptylu, eboť ( ) [ ] ( ) i i i i s m x 0 m x = = = =. - Rozptyl stadardizovaých hodot je, protože ( ) = = = = = i i i i s s m x s 0 s m x. - Rozptyl se zpravidla počítá podle vzorce s = i x i m =. - Pokud každou hodotu x i podrobíme lieárí trasformaci y i = a + bx i, pak rozptyl trasformovaých hodot je rove původímu rozptylu vyásobeému b, tj. s = b s. - Rozptyl je stejě jako průměr silě ovlivě extrémími hodotami. - Rozptyl se ehodí jako charakteristika variability, je-li rozložeí dat esymetrické.
Příklad 4.: Kurzy akcií společosti AAA Auto Group v průběhu 3 dí v měsíci srpu 00 byly ásledující: 7,75; 7,74; 7,85; 7,59; 7,9; 7,98; 8,39; 8,5; 8,30; 8,00; 8,5; 8,5; 8,; 8,40; 8,5; 7,95; 8,5; 8,3; 7,95; 7,90; 7,80; 7,87; 7,87. Vypočtěte charakteristiky variability. Řešeí: Nejprve vypočítáme variačí rozpětí: = x ( ) x ( ) = 8,4 7,59 0, 8. R = =. 3 Před výpočtem dalších charakteristik variability musíme získat aritmetický průměr: m ( 7,75 + 7,74 + + 7,87) = 8, 033 = 3 Průměrá odchylka: o x m = ( 7,75 8,033 + 7,74 8,033 + + 7,87 8,033 ) 0, 965 i= o 0,965 Relativí průměrá odchylka: 00% = 00% =,09% m 8,033 = 3 i = Rozptyl: s x m = ( 7,75 + 7,74 + + 7,87 ) 8,033 = 0, 049 i= i Směrodatá odchylka: s = s = 0,049 = 0, 3 s 0,3 Koeficiet variace: 00% = 00% =,3% m 8,033
Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o jedé proměé X a 3 případech. Do proměé X zapíšeme zjištěé kurzy akcií. Statistiky Základí statistiky/tabulky Popisé statistiky OK Proměé X OK Detailí výsledky vybereme Průměr, Rozptyl, Rozpětí Výpočet. Ve výstupí tabulce přidáme za proměou Rozptyl tři ové proměé azvaé rozptyl, směr. odch. a koef. variace. Do Dlouhého jméa proměé rozptyl apíšeme =v3*/3, Dlouhého jméa proměé směr. odch. apíšeme =sqrt(v4) a do Dlouhého jméa proměé koef. variace apíšeme =00*v5/v. Průměr Rozpětí Rozptyl rozptyl směr. odch. koef. variace Proměá =v3*/ =sqrt(v4) =00*v5/v x 8,03304 0,80000 0,053 0,049004 0,367976,756858 Pro výpočet průměré odchylky a relativí průměré odchylky je zapotřebí přidat k původímu datovému souboru dvě ové proměé azvaé Průměr a Odchylka. Do Dlouhého jméa proměé Průměr apíšeme =8,033 a do Dlouhého jméa proměé Odchylka apíšeme =abs(v-v). Nyí spočteme průměr proměé Odchylka: Statistiky Základí statistiky/tabulky Popisé statistiky OK Proměé Odchylka OK Detailí výsledky vybereme Průměr Výpočet. Ve výstupí tabulce přejmeujeme proměou Průměr a prům. odch. a za tuto proměou přidáme proměou rel. prům. odch. Do jejího Dlouhého jméa apíšeme =00*v/8,033. odchylka rel. prům. odch. =00*v/8,033 Proměá Odchylka 0,96478,08954839
Vážeé číselé charakteristiky Záme-li absolutí četosti,, r či relativí četosti p,, p r variat x [],..., x [r], můžeme spočítat vážeý průměr = = = = r j j] [ j r j [ j] j x p x m, vážeý rozptyl ( ) ( ) = = = = r j j] [ j r j j] [ j m x p m x s (výpočetí vzorec: r j [ j] j r j j] [ j m x p m x s = = = = ), vážeou průměrou odchylku = = = = r j j] [ j r j j] [ j m x p m x o.
Příklad 5.: U 35 zaměstaců byl zjiště počet odpracovaých hodi za měsíc. Počet odpracovaých hodi 84 85 86 87 88 89 Počet zaměstaců 4 6 7 6 7 5 Vypočtěte průměr, průměrou odchylku, relativí průměrou odchylku, směrodatou odchylku a koeficiet variace počtu odpracovaých hodi. Řešeí: r Vážeý průměr: m = j x[ j] = ( 4 84 + 6 85 + 7 86 + 6 87 + 7 88 + 5 89) = 86, 6 j= 35 Vážeá průměrá odchylka: r o = j x [ j] m = ( 4 84 86,6 + 6 85 86,6 + 7 86 86,6 + 6 87 86,6 + 7 88 86,6 + 5 89 86,6 ) =, 38h = h 3 j= 35 mi r Vážeý rozptyl: s = jx[ j] m = ( 4 84 + 6 85 + 7 86 + 6 87 + 7 88 + 5 89 ) 86,6 =, 557 35 j= Vážeá směrodatá odchylka: s = s =,557 =, 59h = h 35 mi o,38 Relativí průměrá odchylka: 00% = 00% = 0,74% m 86,6 s,59 Koeficiet variace: 00% = 00% = 0,85% m 86,6 Vidíme, že zaměstaci odpracovali za měsíc v průměru 86,6 h, přičemž průměrá odchylka dosahuje 0,74 % průměré odpracovaé doby a směrodatá odchylka dosahuje 0,85 % průměré odpracovaé doby.
Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o proměých a 6 případech. Prví proměou azveme X, druhou četost a zapíšeme do ich počet odpracovaých hodi a odpovídající počty zaměstaců. Statistiky Základí statistiky/tabulky Popisé statistiky zapeme proměou vah četost OK OK Proměé X OK Detailí výsledky vybereme Průměr, Rozptyl Výpočet. Ve výstupí tabulce přidáme za proměou Rozptyl dvě ové proměé azvaé směr. odch. a koef. variace. Do Dlouhého jméa proměé směr. odch. apíšeme =sqrt(v*34/35) a do Dlouhého jméa proměé koef. variace apíšeme =00*v3/v. Průměr Rozptyl směr.odch. koef. variace Proměá =sqrt(v*34/35) =00*v3/v X 86,6,6,589496 0,85687888 Pro výpočet průměré odchylky a relativí průměré odchylky je zapotřebí přidat k původímu datovému souboru dvě ové proměé azvaé Průměr a Odchylka. Do Dlouhého jméa proměé Průměr apíšeme =86,6 a do Dlouhého jméa proměé Odchylka apíšeme =abs(v-v3). Nyí spočteme průměr proměé Odchylka: Statistiky Základí statistiky/tabulky Popisé statistiky zapeme proměou vah četost OK OK Proměé Odchylka OK Detailí výsledky vybereme Průměr Výpočet. Ve výstupí tabulce přejmeujeme proměou Průměr a prům. odch. a za tuto proměou přidáme proměou rel. prům. odch. Do jejího Dlouhého jméa apíšeme =00*v/86,6. prům. odch. rel. prům. odch. Proměá =00*v/86,6 Odchylka,38857 0,74080998 Převod desetiých částí hodiy a miuty můžeme provést apř. pomocí aplikace a adrese http://www.prevody-jedotek.cz/.
Počátečí a cetrálí momety Aritmetický průměr a rozptyl jsou speciálí případy mometů. Zavedeme k-tý počátečí momet k-tý cetrálí momet k m k = ( x i m), k =,,... i= k m k = x i, k =,,..., i= Pomocí 3. a 4. počátečího mometu se defiuje šikmost a špičatost. m 3 Šikmost: α 3 = - měří esouměrost rozložeí četostí kolem průměru. 3 s Je-li rozložeí dat symetrické kolem aritmetického průměru, pak α 3 = 0. Má-li rozložeí dat prodloužeý pravý koec, jde o kladě zešikmeé rozložeí, α 3 > 0. Má-li rozložeí dar prodloužeý levý koec, jde o záporě zešikmeé rozložeí, α 3 < 0. Zázorěí rozložeí četostí dvou datových souborů, které se liší aritmetickým průměrem a šikmostí 50 0 40 0 R o zděle í s rů z ým i p o lo h am i a šik m o stm i četost 30 0 0 0 0 0 0 0 5 0 5 0 5 hod ota z aku
m 4 Špičatost: α 4 = 3 - měří kocetraci rozložeí četostí kolem průměru. 4 s Je-li rozložeí dat ormálí (Gaussovo), pak α 4 = 0. Je-li rozložeí dat strmé, pak α 4 > 0. Je-li rozložeí dat ploché, pak α 4 < 0. Zázorěí rozložeí četostí dvou datových souborů, které se liší špičatostí Rozděleí s růzými špičatostmi 50 00 četost 50 00 50 0 7 7 hodota zaku
Diagostické grafy Krabicový diagram Umožňuje posoudit symetrii a variabilitu datového souboru a existeci odlehlých či extrémích hodot. Způsob kostrukce odlehlá hodota horí vitří hradba ebo max. hodota horí kvartil mediá dolí kvartil dolí vitří hradba ebo mi. hodota extrémí hodota Odlehlá hodota leží mezi vějšími a vitřími hradbami, tj. v itervalu (x 0,75 +,5q, x 0,75 + 3q) či v itervalu (x 0,5-3q, x 0,5,5q). Extrémí hodota leží za vějšími hradbami, tj. v itervalu (x 0,75 + 3q, ) či v itervalu (-, x 0,5-3q).
Příklad 6.: Pro údaje z příkladu sestrojte krabicový diagram. Řešeí: Počet čleů 3 4 5 6 Počet domácostí 6 4 0 5 3 Rozsah souboru = 30. Výpočty potřebých kvatilů uspořádáme do tabulky. q = 5 = 3 Dolí vitří hradba: x 0,5,5q =,5.3 = -,5 Horí vitří hradba: x 0,75 +,5q = 5 +,5.3 = 9,5 α α c x α 0,5 7,5 8 x (c) =x (8) 0,50 5 5 x ( 5) + x (6) ) 4 0,75,5 3 x (c) =x (3) 5 7 6 5 4 3 0 Vidíme, že datový soubor vykazuje určitou esymetrii mediá je posuut směrem k horímu kvartilu, soubor je tedy záporě sešikme. V souboru se evyskytují žádé odlehlé ai extrémí hodoty.
Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o proměých a 6 případech. Prví proměou azveme počet, druhou cetost a zapíšeme do ich počet čleů domácosti a odpovídající absolutí četosti. Zvolíme Grafy D Grafy Krabicové grafy. Zapeme proměou vah cetost, zadáme závisle proměou pocet a dostaeme krabicový diagram: 7 Krabicový graf z pocet Tabulka4 v*6c 6 5 4 3 0 Mediá = 4 5%-75% = (, 5) Rozsah eodleh. = (, 6) Odlehlé Extrémy Upozorěí: Máme-li data itervalového či poměrového charakteru, o ichž lze předpokládat, že pocházejí z ějakého symetrického rozložeí (apříklad ormálího), je možé použít jiou variatu krabicového diagramu: bod či čára uvitř krabice reprezetuje průměr, vodorové hray krabice jsou ve výšce průměr ± směrodatá odchylka a svorky kočí v miimu či maximu. V ašem případě dostaeme krabicový diagram: Krabicový graf z pocet 7 Tabulka4 v*6c 6 5 4 3 Průměr = 3,6333 Průměr±SmOdch = (,074, 5,0593) Mi-Max = (, 6) Odlehlé Extrémy
Před uvedeím dalších diagostických grafů je uté zavést pojem pořadí čísla v poslouposti čísel. Pojem pořadí Nechť x,, x je posloupost reálých čísel. a) Jsou-li čísla avzájem růzá, pak pořadím R i čísla x i rozumíme počet těch čísel x,, x, která jsou meší ebo rova číslu x i. b) Vyskytují-li se mezi daými čísly skupiky stejých čísel, pak každé takové skupice přiřadíme průměré pořadí. Příklad a staoveí pořadí a) Jsou dáa čísla 9, 4, 5, 7, 3,. Staovte pořadí těchto čísel. b) Jsou dáa čísla 6, 7, 7, 9, 6, 0, 8, 6, 6, 9. Řešeí ad a) usp. čísla 3 4 5 7 9 pořadí 3 4 5 6 ad b) usp. čísla 6 6 6 6 7 7 8 9 9 0 pořadí 3 4 5 6 7 8 9 0 prům. pořadí,5,5,5,5 5,5 5,5 7 8,5 8,5 0
Normálí pravděpodobostí graf (N-P plot) N- P plot umožňuje graficky posoudit, zda data pocházejí z ormálího rozložeí. Způsob kostrukce: Na vodorovou osu vyášíme uspořádaé hodoty x ()... x (), a svislou osu kvatily u α stadardizovaého ormálího rozložeí, kde j j 3j = 3 + α, přičemž j je pořadí j-té uspořádaé hodoty (jsou-li ěkteré hodoty stejé, pak za j bereme průměré pořadí odpovídající takové skupice). Pocházejí-li data z ormálího rozložeí, pak všechy dvojice ( x j),u ) j Pro data z rozložeí s kladou šikmostí se dvojice ( x j),u ) j pro data z rozložeí se záporou šikmostí se dvojice ( x j),u ) ( α budou ležet a přímce. ( α budou řadit do kokáví křivky, ( α budou řadit do kovexí křivky. j
Příklad a kostrukci N P plotu: Desetkrát ezávisle a sobě byla změřea jistá kostata. Výsledky měřeí:,8,,4,9,,8,3,. Pomocí ormálího pravděpodobostího grafu posuďte, zda se tato data řídí ormálím rozložeím. Řešeí: usp. hodoty,8,8,9,,,,3,4 pořadí 3 4 5 6 7 8 9 0 průměré pořadí,5,5 3 4,5 4,5 6,5 6,5 8 9 0 Vektor hodot průměrého pořadí: j = (,5 3 4,5 6,5 8 9 0), 3j α j =, 3 + u =,; 0,6493; 0,45;0,45;0,6493;0,989;,579 vektor hodot = ( 0,9;0,58;0,403;0,5968;0,749;0,8387;0,9355 ) vektor kvatilů ( ) Normálí pravděpodobostí graf α. j.5 0.5 0-0.5 - -.5 Protože dvojice ( x j), u ) j -..4.6.8..4.6.8 3 ( α téměř leží a přímce, lze usoudit, že data pocházejí z ormálího rozložeí.
Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o jedé proměé a 0 případech. Zjištěé hodoty zapíšeme do proměé X. Grafy D Grafy Normálí pravděpodobostí grafy Proměá X OK - odškrteme Neurčovat průměrou pozici svázaých pozorováí - OK.,0 Normálí p-graf z x Tabulka v*0c,5 Očekávaá ormálí hodota,0 0,5 0,0-0,5 -,0 -,5,7,8,9,0,,,3,4,5 Pozorovaá hodota
Quatile - quatile plot (Q-Q plot) Umožňuje graficky posoudit, zda data pocházejí z ějakého zámého rozložeí (apř. STATISTICA abízí 8 typů rozložeí: beta, expoeciálí, Gumbelovo, gamma, log-ormálí, ormálí, Rayleighovo a Weibulovo). Způsob kostrukce: a svislou osu vyášíme uspořádaé hodoty x ()... x (), a vodorovou osu kvatily K α (X) vybraého rozložeí, kde j j r adj α j =, přičemž r adj a adj jsou korigující faktory 0,5, + adj implicitě r adj = 0,375 a adj = 0,5. (Jsou-li ěkteré hodoty x ()... x () stejé, pak za j bereme průměré pořadí odpovídající takové skupice.) Pokud vybraé rozložeí závisí a ějakých parametrech, pak se tyto parametry odhadou z dat ebo je může zadat uživatel. ( ) Body K α (X), x ( j) se metodou ejmeších čtverců proloží přímka. Čím méě se body odchylují od této přímky, tím je lepší j soulad mezi empirickým a teoretickým rozložeím.
Příklad a kostrukci Q-Q plotu: Desetkrát ezávisle a sobě byla změřea jistá kostata. Výsledky měřeí:,8,,4,9,,8,3,. Pomocí Q-Q plotu ověřte, zda se tato data řídí ormálím rozložeím. Řešeí: usp.hodoty,8,8,9,,,,3,4 pořadí 3 4 5 6 7 8 9 0 průměré pořadí,5,5 3 4,5 4,5 6,5 6,5 8 9 0 Vektor hodot průměrého pořadí: j = (,5 3 4,5 6,5 8 9 0) j 0,375 + 0,5 vektor hodot α = ( 0,098;0,56;0,404;0,5976;0,7439;0,845;0,939 ) j = vektor kvatilů = (,78; 0,6554; 0,47;0,47;0,6554;,0005;,566 ) u α j 3.8.6.4..8.6.4. - -.5 - -0.5 0 0.5.5 Vzhled grafu asvědčuje tomu, že data pocházejí z ormálího rozložeí.
Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o jedé proměé a 0 případech. Zjištěé hodoty zapíšeme do proměé X. Grafy D Grafy Grafy typu Q-Q Proměá X OK - odškrteme Neurčovat průměrou pozici svázaých pozorováí - OK.,5 Graf kvatil-kvatil z X merei kost.sta v*0c Rozděleí:Normálí X =,058+0,98*x 0,0 0,5 0,50 0,75 0,90 0,95,4,3 Pozorovaý kvatil,,,0,9,8,7 -,5 -,0-0,5 0,0 0,5,0,5,0 Teoretický kvatil
Probability - probability plot (P-P plot) Používá se ke stejým účelům jako Q-Q plot, ale jiak se kostruuje. x ( j) m Způsob kostrukce: spočtou se stadardizovaé hodoty z( j) =, j =,...,. Na vodorovou osu se vyesou hodoty s teoretické distribučí fukce Φ(z (j) ) a a svislou osu hodoty empirické distribučí fukce F(z (j) ) = j/. (Jsou-li ěkteré hodoty x ()... x () stejé, pak za j bereme průměré pořadí odpovídající takové skupice.)pokud se body (Φ(z (j) ), F(z (j) )) řadí kolem hlaví diagoály čtverce [0,] x [0,], lze usuzovat a dobrou shodu empirického a teoretického rozložeí. Příklad a kostrukci P-P plotu pomocí systému STATISTICA: Desetkrát ezávisle a sobě byla změřea jistá kostata. Výsledky měřeí:,8,,4,9,,8,3,. Pomocí P-P plotu ověřte, zda se tato data řídí ormálím rozložeím. Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o jedé proměé a 0 případech. Zjištěé hodoty zapíšeme do proměé X. Grafy D Grafy Grafy typu P-P Proměá X OK - odškrteme Neurčovat průměrou pozici svázaých pozorováí - OK., Graf P-P z X merei kost.sta v*0c Rozděleí:Normálí(,06, 0,008),0 Empirické kumulativí rozděleí 0,8 0,6 0,4 0, 0,0-0, 0,0 0, 0, 0,3 0,4 0,5 0,6 0,7 0,8 0,9,0 Teoretické kumulativí rozděleí
Histogram Umožňuje porovat tvar hustoty četosti s tvarem hustoty pravděpodobosti vybraého teoretického rozložeí. (Ve STA- TISTICE je pojem histogramu širší, skrývá se za ím i sloupkový diagram.) Způsob kostrukce: a vodorovou osu vyášíme meze třídicích itervalů. Nad každým třídicím itervalem sestrojíme obdélík o ploše odpovídající relativí četosti příslušého třídicího itervalu, tj. výška obdélíku je rova četostí hustotě třídicího itervalu (četostí hustota je relativí četost třídicího itervalu děleá délkou tohoto itervalu). Způsob kostrukce ve STATISTICE: a vodorovou osu se vyášejí třídicí itervaly (implicitě 0, jejich počet lze změit, stejě tak i meze třídicích itervalů) či variaty zaku a a svislou osu absolutí ebo relativí četosti třídicích itervalů či variat. Do histogramu se zakreslí tvar hustoty (či pravděpodobostí fukce) vybraého teoretického rozložeí.
Příklad a kostrukci histogramu: U 70 domácostí byly zjišťováy týdeí výdaje a ealkoholické ápoje (v Kč). Výdaje ( 35, 65 ( 65, 95 ( 95, 5 ( 5, 55 ( 55, 85 ( 85, 5 Počet dom. 7 6 7 4 4 Nakreslete histogram. Řešeí: Nejprve sestavíme tabulku rozložeí četostí: ( j, u j u x [j] d j j p j N j F j f j + ( 35, 65 50 30 7 7/70=0, 7 7/70=0, 7/00=0,0033 ( 65, 95 80 30 6 6/70=0,3 3 3/70=0,33 6/00=0,0076 ( 95, 5 0 30 7 7/70=0,38 50 50/70=0,7 3/00=0,009 ( 5, 55 40 30 4 4/70=0, 64 64/70=0,9 4/00=0,0067 ( 55, 85 70 30 4 4/70=0,06 68 68/70=0,97 4/00=0,009 ( 85, 5 00 30 /70=0,03 70 70/70= /00=0,0000 S pomocí této tabulky sestrojíme histogram: 0,04 0,0 0,00 0,008 0,006 0,004 0,00 0,000 35 65 95 5 55 85 5
Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o dvou proměých a 6 případech. Prví proměou azveme X, druhou cetost. Do proměé X apíšeme středy třídicích itervalů, do proměé cetost odpovídající absolutí četosti: 3 4 5 6 X cetost 50 7 80 6 0 7 40 4 70 4 00 Grafy Histogramy zadáme proměou vah cetost Proměá X - zaškrteme Hraice Určit hraice zaškrteme Zadejte hraičí rozmezí: Miimum 35, Krok 30, Maximum 5 OK OK. Dostaeme graf: Počet pozorováí 30 8 6 4 0 8 6 4 0 8 6 4 0 Histogram z X Tabulka8 v*6c X = 70*30*ormal(x; 09,49; 34,6303) 35 65 95 5 55 85 5 Na rozdíl od histogramu kostruovaého ručě jsou a svislé ose absolutí četosti, ikoliv četostí hustoty. V porováí s grafem hustoty ormálího rozložeí je vidět, že aše rozložeí četostí je lehce kladě zešikmeé. Naše data tedy epocházejí z ormálího rozložeí. X
Vzhled diagostických grafů pro rozložeí s růzou šikmostí Pro ilustraci se podívejme, jak se růzá šikmost rozložeí projeví a histogramu, N-P plotu a a krabicovém diagramu. Rozložeí s kladou šikmostí Histogram 35 Normálí rozložeí Histogram Rozložeí se záporou šikmostí Histogram 35 30 0 8 30 5 6 5 0 4 0 5 0 8 5 0 6 0 5 4 5 0-0,4 0,0 0,4 0,8,,6,0,4 NP plot 3 0-3,0 -,5 -,0 -,5 -,0-0,5 0,0 0,5,0,5,0,5 3,0 NP plot 3 0-0,6-0, 0, 0,6,0,4,8, NP plot 3 0 0 0 - - - - - - -3-0, 0,0 0, 0,4 0,6 0,8,0,,4,6,8,0,,4 Krabicový diagram,4,,0,8,6,4,,0 0,8 0,6 0,4 0, 0,0-0, -3-3 - - 0 3 Krabicový diagram 3 0 - - -3-3 -0,4-0, 0,0 0, 0,4 0,6 0,8,0,,4,6,8,0, Krabicový diagram,,0,8,6,4,,0 0,8 0,6 0,4 0, 0,0-0, -0,4
Průzkumová aalýza vícerozměrých dat Osova: - vícerozměrý datový soubor - vizualizace vícerozměrých dat - sížeí dimeze dat metodou hlavích kompoet - shluková aalýza
Vícerozměrá data: vyskytují se v situacích, kdy u každého z objektů zjišťujeme hodoty p zaků X,..., X p. p-rozměrý datový soubor: matice x p: x x x x p p. Řádky charakterizují objekty, sloupce zaky. Např. máme sportovců, u každého sledujeme tyto zaky: pohlaví (0 žea, muž), tělesá výška (v cm), tělesá hmotost (v kg), ejlepší výko ve skoku do dálky (v cm), ejlepší výko ve skoku do výšky (v cm), ejlepší výko v běhu a 00 m (v s). Úkoly průzkumové aalýzy vícerozměrých dat: - odhalit vektory pozorováí ebo jejich složky, které se jeví jako vybočující - postihout závislosti mezi sloupci datového souboru - idetifikovat shluky v datech, které svědčí o ehomogeitě daého výběru - posoudit vícerozměrou ormalitu dat. Omezíme se a dva problémy, a to a vizualizaci dat pomocí hlavích kompoet a a shlukovou aalýzu dat.
Vizualizace vícerozměrých dat Je-li p = ebo p = 3, můžeme hodoty zaků chápat jako souřadice v dvou či třírozměrém prostoru a získáme tak dvourozměrý či třírozměrý tečkový diagram. Ze vzhledu těchto tečkových diagramů lze pozat, zda se v datech vyskytují odlehlá pozorováí, zda mezi zaky existuje ějaká závislost ebo zda se objekty sdružují do skupi. Příklad: Máme k dispozici datový soubor z roku 979 o 6 evropských zemích, který obsahuje údaje o procetuálím zastoupeí ekoomicky čiého obyvatelstva v růzých odvětvích árodího hospodářství: zemědělství, těžba, průmyslová výroba, eergetika, stavebictví, místí hospodářství, fiačí sektor, služby, doprava a komuikace. Belgie Dásko Fracie Záp. Německo Irsko Itálie Lucembursko Nizozemsko Velká Britáie Rakousko Fisko Řecko Norsko Portugalsko Špaělsko Švédsko Švýcarsko Turecko Bulharsko Českoslovesko Vých. N ěmecko Maďarsko Polsko Rumusko Sovětský svaz Jugoslávie zemed. tezba 3 prumysl 4 eerg. 5 staveb. 6 mist. hosp. 7 fiace 8 sluzby 9 doprava 3,3 0,9 7,6 0,9 8, 9, 6, 6,6 7, 9, 0,,8 0,6 8,3 4, 6,5 3, 7, 0,8 0,8 7,5 0,9 8,9 6,8 6,6 5,7 6,7,3 35,8 0,9 7,3 4,4 5,5 6, 3, 0,7,3 7,5 6,8,8 0,6 6, 5,9 0,6 7,6 0,5 0 8,,5 0, 5,7 7,7 3, 30,8 0,8 9, 8,5 4,5 9, 6, 6,3 0,,5 9,9 8 6,9 8,5 6,8,7,4 30,,4 6,9 6,9 5,8 8,3 6,4,7, 3,4,4 8 6,8 4,9 6,7 7 3 0,4 5,9,3 7,4 4,7 5,5 4, 7,6 4,4 0,6 7,6 0,6 8,,5,4, 6,7 9 0,5,4 0,8 8,6 6,9 4,7 7,7 9,4 7,8 0,3 4,5 0,6 8,4 3,3,7 6,7 5,7,9 0,8 8,5 0,7,5 9,7 8,5,9 5,5 6, 0,4 5,9 0,8 7, 4,4 6 3,4 6,8 7,7 0, 37,8 0,8 9,5 7,5 5,3 5,5 5,7 66,8 0,7 7,9 0,,8 5,5,,9 3, 3,6,9 3,3 0,6 7,9 8 0,7 8, 6,8 6,5,9 35,5, 8,7 9, 0,9 7,9 7, 4,,9 4,,3 7,6,,, 8,3,7 3, 9,6,9 8, 9,4 0,9 7, 8 3,,5 5,7 0,9 8,4 7,5 0,9 6, 6,9 34,7, 30, 0,6 8,7 5,9,3,6 5 3,7,4 5,8 0,6 9, 6, 0,5 3,4 9,3 48,7,5 6,8, 4,9 6,4,3 5,3 4 Vytvořte dvourozměré tečkové diagramy pro všechy dvojice proměých.
Řešeí pomocí systému STATISTICA: Grafy Maticové grafy Proměé Vybrat vše OK. zemed. tezba prumysl eerg. staveb. mist. hosp. fiace sluzby doprava Na hlaví diagoále maticového grafu jsou histogramy jedotlivých proměých, mimo hlaví diagoálu jsou dvourozměré tečkové diagramy odpovídajících dvojic proměých. Vidíme apř., že podíl obyvatel zaměstaých v zemědělství záporě koreluje s podílem obyvatel zaměstaých v průmyslu, službách či dopravě.
Je-li p > 3, použijeme k vizualizaci dat metodu hlavích kompoet (pricipal compoet aalysis), která umožňuje vyjádřit iformace o variabilitě obsažeé v datovém souboru pomocí ěkolika málo ových zaků Y,, Y m získaých jako lieárí kombiace zaků původích X,, X p, m < p : Y = v X +... + v p X p, Y = v X +... + v p X p.... Y m = v m X +... + v mp X p. Tyto ové zaky, kterým se říká hlaví kompoety, jsou - ekorelovaé, - uspořádaé podle svého klesajícího rozptylu. Většia iformace o variabilitě původích dat je tedy soustředěa v prví hlaví kompoetě a ejméě iformace je obsažeo v posledí hlaví kompoetě. Ukazuje se, že pouze ěkolik prvích hlavích kompoet má dostatečě velký rozptyl. Ostatí pak můžeme zaedbat, čímž docílíme sížeí dimeze dat. V datovém souboru však musí existovat mezi zaky dostatečě silá korelace, aby bylo možo tuto redukci provést. Aalýza hlavích kompoet může být chápáa jako trasformace z původího do ového souřadicového systému, jehož osy jsou tvořey hlavími kompoetami. Osy procházejí směry maximálího rozptylu, protože podmíka ezávislosti kompoet vede ke kolmosti os. Data pak zázoríme v prostoru prvích dvou či tří hlavích kompoet. Metodu hlavích kompoet (Pricipal Compoet Aalysis PCA) popsal v r. 90 Karl Pearso a ve 30. letech 0. století ji dále rozviul Harold Hotellig.
Harold Hotellig (895 973), americký matematik a statistik Podstata metody hlavích kompoet Uvažme datový soubor, který vzikl tak, že 6 žáků absolvovalo 4 testy, které měří ásledující veličiy: X přírodovědé zalosti, X literárí vědomosti, X 3 schopost kocetrace, X 4 logické myšleí. Testy se hodotí a škále od do 0 ( = špatý výsledek, 0 = výborý výsledek) 3 4 5 6 X X 3 X3 4 X4 7 9 0 8 9 8 8 0 4 3 3 3 4 4
Ozačeí x i = (x i,..., x ip ) T vektor pozorováí i-tého objektu, i =,,..., Např. pro i = 3 máme x 3 = (4 3 ) T j = x ij m - průměr j-tého zaku, j =,,..., p. Např. pro j = máme m = ( 7 + 9 + 4 + + 3 + ) = 4, 3 i= s j = ( x ij m j ) - rozptyl j-tého zaku, j =,,..., p. Např. pro j = máme s = ( 7 4,3) + + ( 4,3) i= Datový soubor s průměry, směrodatými odchylkami a rozptyly: 6 5 [ ] 9,46 j = 3 4 5 6 průměry s.o. rozptyly X X 3 X3 4 X4 7 9 0 8 9 8 8 0 4 3 3 3 4 4 4,33 4,7 4,00 5,00 3,08 3,49 3,95 3,9 9,47,7 5,60 0,80 z ij x ij m j = - (i,j)-tá stadardizovaá hodota, i =,,...,, j =,,..., p s j 7 4,3 Např. pro i =, j = máme z = = 0, 8667 9,46
Datový soubor stadardizovaých hodot 3 4 5 6 3 4 X X X3 X4 0,866703,385674,5909 0,987,5673,098983,0739,545-0,0834-0,33447-0,75955-0,987-0,75836-0,33447-0,50637-0,987-0,43335-0,90786-0,50637-0,3049 -,08338-0,90786-0,75955-0,3049 z i = (z i,..., z ip ) T vektor stadardizovaých pozorováí i-tého objektu, i =,,..., m = (m,..., m p ) T vektor průměrů S = ( i m)( xi m) R = i= i= T x - výběrová variačí matice. V ašem případě: T z iz i - výběrová korelačí matice. V ašem případě: (S a R jsou čtvercové symetrické matice řádu p.) Kovariace (pca) Proměá X X X3 X4 X 9,46667 9,73333 0,60000 8,80000 X 9,73333,6667 3,0000 9,40000 X3 0,60000 3,0000 5,60000,60000 X4 8,80000 9,40000,60000 0,80000 Korelace (pca) Proměá X X X3 X4 X X X3 X4,000000 0,906937 0,8758 0,870307 0,906937,000000 0,95833 0,8003 0,8758 0,95833,000000 0,893684 0,870307 0,8003 0,893684,000000
Základí pojmy A - čtvercová matice řádu p. Vlastí číslo matice A takové číslo λ, které pro libovolý eulový vektor v typu p x splňuje rovici Av = λv. Vlastí vektor matice A vektor v. Charakteristický polyom matice A - determiat A λi. Stopa matice A - součet jejích diagoálích prvků (začí se Tr(A)). Výpočet vlastích čísel matice A Rovici Av = λv upravíme a tvar (A λi) v = o. Tato soustava p rovic má etriviálí řešeí, právě když charakteristický polyom matice A je rove 0. Dostaeme rovici p-tého stupě. Jejím řešeím jsou vlastí čísla λ,..., λ p. Vlastosti vlastích čísel Jejich součet je rove stopě matice A: λ +... + λ p = Tr(A), jejich souči je rove determiatu matice A: λ... λ p = det(a), jsou seřazea sestupě: λ... λ p. Vlastosti vlastích vektorů Mají jedotkovou délku: v i T v i =, i =,, p, jsou vzájemě ortogoálí: v i T v j = 0 pro všecha i j
Získáí hlavích kompoet Nechť výběrová variačí matice S má vlastí čísla l,..., l p a vlastí vektory v,..., v p, přičemž v j T v j =, j =,..., p a v j T v k = 0 pro j k. Zameá to, že vektory v,..., v p jsou ortoormálí. Bez újmy a obecosti předpokládáme, že l > l >... > l p.. hlaví kompoeta vzike jako lieárí kombiace zaků X,..., X p, kde koeficiety této lieárí kombiace jsou souřadice vlastího vektoru v, tedy Y = v X +... + v p X p. Její rozptyl je l. Dosadíme-li za X,..., X p vektory pozorováí x i, i =,...,, dostaeme vektor souřadic y = (y,..., y ) T, kde y i = v T x i.. hlaví kompoeta vzike jako lieárí kombiace zaků X,..., X p, kde koeficiety této lieárí kombiace jsou souřadice vlastího vektoru v, tedy Y = v X +... + v p X p. Její rozptyl je l. Přitom v T v = 0, tj.. a. hlaví kompoeta jsou lieárě ezávislé. Dosadíme-li za X,..., X p vektory pozorováí x i, i =,...,, dostaeme vektor souřadic y = (y,..., y ) T, kde y i = v T x i.... j-tá hlaví kompoeta vzike jako lieárí kombiace zaků X,..., X p, kde koeficiety této lieárí kombiace jsou souřadice vlastího vektoru v j, tedy Y j = v j X +... + v jp X p. Její rozptyl je l j. Přitom v j T v k = 0, j =,..., k-, tj. j-tá hlaví kompoeta je lieárě ezávislá se všemi ostatími hlavími kompoetami. Dosadíme-li za X,..., X p vektory pozorováí x i, i =,...,, dostaeme vektor souřadic y j = (y j,..., y j ) T, kde y ji = v j T x i.
Lze dokázat, že celková variabilita obsažeá v datech je rova stopě matice S, tj. součtu vlastích čísel l +... + l p. l l + + l. hlaví kompoeta tedy vyčerpává 00% celkové variability. Pokud je číslo l l + + l p p dostatečě blízké, zameá to, že. hlaví kompoeta dobře ahrazuje celý datový soubor. Jeli toto číslo podstatě meší ež, musíme vzít tolik hlavích kompoet, aby jejich součet děleý stopou matice S byl dostatečě blízký. (V moha aplikacích se stává, že i při velkém počtu zaků stačí poměrě malý počet hlavích kompoet.) Zázoríme-li rozmístěí objektů a ploše prvích dvou hlavích kompoet, můžeme pozat, které objekty se řadí do skupi eboli shluků. (Před provedeím metody hlavích kompoet je třeba se rozhodout, zda budeme pracovat s původími hodotami zaků ebo stadardizovaými hodotami.) Důležité upozorěí: Proměé X,, X p musí být mezi sebou dostatečě korelovaé, jiak metoda hlavích kompoet edá dobré výsledky. Koeficiet korelace i-tého zaku X i s k-tou hlaví kompoetou Y k lze vyjádřit jako ( X,Y ) Reprodukce výchozí kovariačí matice: platí vzorec p i= v ki k R i k =. si T S = liv i v i (tzv. spektrálí rozklad matice S). Rozhodeme-li se uvažovat právě m hlavích kompoet (m p), pak pomocí tohoto vztahu můžeme posoudit, jak těchto m hlavích kompoet reprodukuje rozptyly a kovariace původích proměých. Lze posoudit i reziduálí matici, tj. matici, kterou získáme jako rozdíl výchozí kovariačí matice a reprodukovaé kovariačí matice. l
Doporučeý postup při aalýze hlavích kompoet a) Provedeme tabulkové a grafické zpracováí datového souboru, abychom se blíže sezámili s daty. b) Sestavíme korelačí matici a prověříme, zda jsou korelace atolik silé, aby mělo smysl provádět aalýzu hlavích kompoet. c) Rozhodeme, kolika hlavími kompoetami lze popsat datový soubor bez podstaté ztráty iformace. Ozačme teto vhodý počet jako m. Při staoveí m můžeme použít tato pomocá kritéria: Kaiserovo kritérium - za m volíme počet těch vlastích čísel matice R, která jsou větší ež. Sutiový test (scree test) grafická metoda, která spočívá v subjektivím posouzeí vzhledu sutiového grafu (scree plot), tj. grafu zázorňujícího velikosti sestupě uspořádaých vlastích čísel matice R. Objeví-li se v grafu určité zploštěí, pak za m vezmeme to pořadové číslo, kde se zploštěí projevilo. Kritérium založeé a kumulativím procetu vysvětleého rozptylu. Požadujeme, aby vybraé hlaví kompoety vysvětlily aspoň 70% celkového rozptylu. Kritérium založeé a reziduálí korelačí či kovariačí matici. Požadujeme, aby prvky reziduálí matice byly co možá ejmeší. d) Pokusíme se o iterpretaci prvích m hlavích kompoet. Zkoumáme přitom, jak jsou jedotlivé vybraé hlaví kompoety utvořey z původích zaků a jak s imi korelují. e) Vypočítáme vektory souřadic a ásledě sestrojíme dvourozměré tečkové diagramy.
Pro áš datový soubor obsahující výsledky 6 žáků ve 4 testech ejprve zázoríme data pomocí krabicových diagramů: Grafy D Grafy Krabicové grafy zvolíme Víceásobý Proměé - Závisle proměé X-X4 OK OK Krabicový graf z více proměých pca.sta 4v*6c Mediá; Krabice: 5%-75%; Svorka: Rozsah eodleh. 0 8 6 4 0 X X X3 X4 Mediá 5%-75% Rozsah eodleh. Odlehlé Extrémy Nyí vypočteme korelačí matici: Statistiky Vícerozměré průzkumé techiky Hlaví kompoety & klasifikačí aalýza Proměé X až X4, OK OK Popisé statistiky Korelačí matice Korelace (pca.sta) Proměá X X X3 X4 X X X3 X4,000000 0,906937 0,8758 0,870307 0,906937,000000 0,95833 0,8003 0,8758 0,95833,000000 0,893684 0,870307 0,8003 0,893684,000000
Dále vypočteme vlastí čísla a proceto vysvětleého rozptylu: a záložce Základí výsledky vybereme Vlastí čísla. Vlastí čísla korelačí matice a související statistiky (pca Pouze aktiv. proměé vl. číslo % celk. Kumulativ. Pořadí vl.č. rozptylu vl. číslo 3 4 Kumulativ. % 3,6643 9,53577 3,6643 9,5358 0,88636 4,7589 3,850066 96,57 0,3407 3,358 3,98439 99,6035 0,0586 0,39653 4,000000 00,0000 Vidíme, že. vlastí číslo l = 3,66, tedy. hlaví kompoeta vyčerpává 9,5% variability dat,. vlastí číslo l = 0,9,. hlaví kompoeta vyčerpává 4,7% variability dat atd. Podle Kaiserova kritéria by stačilo uvažovat pouze. hlaví kompoetu, protože pouze prví vlastí číslo je větší ež. Kvůli zázorěí objektů však budeme uvažovat prví dvě hlaví kompoety. Dále vypočítáme vlastí vektory: a záložce Proměé vybereme Vlastí vektory Vlastí vektory korelačí matice (pca) Pouze aktiv. proměé Proměá Faktor Faktor Faktor 3 Faktor 4 X -0,49830-0,00058 0,873-0,8986 X -0,503657 0,587-0,0890 0,6396 X3-0,508833 0,85043-0,5390-0,6457 X4-0,488994-0,79696-0,87036 0,3483. hlaví kompoeta: Y = -0,49X -0,5X 0,5X 3 0,49X 4,. hlaví kompoeta: Y = -0,0005X +0,58X + 0,9X 3 0,79X 4 atd.
Sutiový graf (scree plot): 4,5 Vlastí čísla korelačí matice Pouze aktiv. proměé 4,0 3,5 9,54% 3,0 Vlast. číslo,5,0,5,0 0,5 0,0 4,7% 3,35%,40% -0,5 0,0 0,5,0,5,0,5 3,0 3,5 4,0 4,5 5,0 Pořadí vl. čísla V sutiovém grafu astává výrazé zploštěí po. vlastím čísle. Výpočet koeficietů korelace. a. hlaví kompoety a původích čtyř proměých: a záložce Proměé vybereme Korelace faktorů & proměých Proměá Faktor Faktor X -0,95349-0,0005 X -0,963740 0,5869 X3-0,973645 0,080368 X4-0,935684-0,34385 Vidíme, že. hlaví kompoeta vysoce záporě koreluje se všemi proměými.. hlaví kompoeta slabě kladě koreluje s druhou proměou a středě silě záporě koreluje s třetí proměou.
Podívejme se rověž a vektory souřadic (v systému STATISTICA se jim říká faktorové souřadice případů): a záložce Případy vybereme Faktorové souřadice případů. Případ Faktor Faktor -,3494 0,364696 -,56859-0,378068 3,0553 0,387487 4,5040 0,434674 5,07964-0,3838 6,5338-0,4765 Zázorěí objektů (žáků) a ploše prvích dvou hlavích kompoet: 0,8 0,6 0,4 3 4 Faktor : 4,7% 0, 0,0-0, -0,4 5 6-0,6-0,8-4,0-3,5-3,0 -,5 -,0 -,5 -,0-0,5 0,0 0,5,0,5,0,5 Faktor : 9,54%
Shluková aalýza Cíl shlukové aalýzy Cílem shlukové aalýzy je roztříděí objektů, z ichž každý je popsá p zaky, do ěkolika pokud možo stejorodých (homogeích) skupi (shluků, clusterů). Požadujeme, aby objekty uvitř shluků si byly podobé co ejvíce, zatímco objekty z růzých shluků co ejméě. Přesý počet shluků většiou eí přesě zám. Shluková aalýza achází uplatěí v celé řadě oborů, apř. v biologii. U populací změříme p biometrických charakteristik a zjišťujeme, zda určité skupiy populací tvoří shluky. Shluková aalýza je ovšem průzkumovou metodou a měla by sloužit jako určité vodítko při dalším zpracováí dat. Podobost objektů Podobost (či rozdílost) objektů posuzujeme pomocí růzých měr vzdáleosti. Pro zaky itervalového či poměrového typu ejčastěji používáme euklidovskou vzdáleost. Nechť k-tý objekt je popsá vektorem pozorováí x k = (x k,..., x kp ) T a l-tý objekt vektorem x l = (x l,..., x lp ) T. Euklidovská vzdáleost k-tého a l-tého objektu: p ( x kj x lj ) d kl =. j= Vzdáleosti vypočteé pro všechy dvojice objektů se uspořádají do matice vzdáleostí. Je zřejmé, že je to čtvercová symetrická matice, která má a hlaví diagoále uly. Matice euklidovských vzdáleostí pro datový soubor s údaji o 6 žácích: Statistiky Vícerozměré průzkumé techiky Shluková aalýza Spojováí (hierarchické shlukováí) OK Proměé X X4 OK a záložce Detaily vybereme Shlukovat Případy (řádky) OK a záložce Detaily vybereme Matice vzdáleostí. Euklid. vzdáleosti (pca) Případ P_ P_ P_3 P_4 P_5 P_6 P_ 0,0 3,6,7,7,6 4,0 P_ 3,6 0,0,8 3,,5 4, P_3,7,8 0,0, 3, 4, P_4,7 3,, 0,0 3,0 3, P_5,6,5 3, 3,0 0,0, P_6 4,0 4, 4, 3,, 0,0
Hierarchické shlukováí Při aplikacích shlukové aalýzy se ejčastěji používá aglomerativí hierarchická procedura. Její pricip spočívá v postupém slučováí objektů, a to ejprve ejbližších a v dalších krocích pak stále vzdáleějších. Algoritmus:. krok: Každý objekt považujeme za samostatý shluk.. krok: Najdeme dva shluky, jejichž vzdáleost je miimálí. 3. krok: Tyto dva shluky spojíme v ový, větší shluk a přepočítáme matici vzdáleostí. Její řád se síží o. Vrátíme se a. krok. Fukce algoritmu kočí, až jsou všechy objekty spojey do jediého shluku.
Vzdáleost mezi shluky se počítá růzými způsoby. Uvedeme tři z ich. a) Metoda ejbližšího souseda: Vzdáleost mezi dvěma shluky je miimem ze všech vzdáleostí mezi jejich objekty. b) Metoda ejvzdáleějšího souseda: Vzdáleost mezi dvěma shluky je maximem ze všech vzdáleostí mezi jejich objekty. c) Metoda průměré vazby: Vzdáleost mezi dvěma shluky je průměrem ze všech vzdáleostí mezi jejich objekty.
Výsledky aglomerativí hierarchické procedury se zpravidla zázorňují pomocí dedrogramu. Je to graficky zázorěá ( ) ( ) posloupost dvojic {( ν ) (, S,, ν, S )}, kde { ν } je eklesající posloupost úroví spojováí a S (i) je roztříděí objektů i i= odpovídající úrovi ν i, i =,...,. Příklad dedrogramu: V levém sloupci jsou jedotlivé objekty, další sloupce reprezetují shluky, do ichž byly objekty zařazey a délky čar představují vzdáleosti mezi shluky. Pozámka: Hierarchická shluková aalýza může být použita eje a shlukováí objektů, ale též a shlukováí zaků. Dedrogram podobosti objektů je stadardí výstup hierarchických shlukovacích metod, z ěhož je zjevá struktura objektů ve shlucích. Dedrogram podobosti zaků odhaluje ejčastěji dvojice či trojice (všeobecě m-tice) zaků, které si jsou velmi podobé a silě spolu korelují. Zaky, které jsou ve společém shluku, si jsou zače podobé a jsou tudíž vzájemě ahraditelé. To má začý výzam pri pláováí experimetu - ěkteré vlastosti či zaky eí zapotřebí vůbec zjišťovat či měřit, protože jsou sado ahraditelé jiými zaky a emají velkou vypovídací hodotu.
Vytvořeí dedrogramu v systému STATSTICA: - pro metodu ejbližšího souseda: Statistiky Vícerozměré průzkumé techiky Shluková aalýza Spojováí (hierarchické shlukováí) OK Proměé X X4 OK a záložce Detaily vybereme Shlukovat Případy (řádky), pravidlo slučováí poecháme Jedoduché spojeí, míru vzdáleosti poecháme Euklidovské vzd. OK Horizotálí graf hierarch. stromu - pro metodu ejvzdáleějšího souseda: a záložce Detaily vybereme pravidlo slučováí Úplé spojeí, - pro metodu úplé vazby: Na záložce Detaily vybereme pravidlo slučováí Nevážeý průměr skupi dvojic. Str. diagram pro 6 případů Jedoduché spojeí Euklid. vzdáleosti Str. diagram pro 6 případů Úplé spojeí Euklid. vzdáleosti Str. diagram pro 6 případů Nevážeý průměr skupi dvojic Euklid. vzdáleosti P_ P_ P_ P_ P_ P_ P_3 P_3 P_3 P_4 P_4 P_4 P_5 P_5 P_5 P_6 P_6 P_6 0 4 6 8 0 0 4 6 8 0 4 6 Vzdáleost spoje 0 4 6 8 0 Vidíme, že výsledky všech tří metod jsou velmi podobé a odpovídají rozmístěí objektů (žáků) a ploše prvích dvou hlavích kompoet. 0,8 0,6 0,4 3 4 0, 0,0 Faktor : 4,7% -0, -0,4 5 6-0,6-0,8-4,0-3,5-3,0 -,5 -,0 -,5 -,0-0,5 0,0 0,5,0,5,0,5 Faktor : 9,54%
Příklad: Uvažme datový soubor s údaji o 6 evropských státech. Teto datový soubor budeme aalyzovat metodou hlavích kompoet a ásledě provedeme shlukovou aalýzu. Provedeí PCA Nejprve pomocí korelačí matice posoudíme, zda má smysl aplikovat PCA. Statistiky Vícerozměré průzkumé techiky Hlaví kompoety&klasifikačí aalýza Proměé X až X9, OK OK Popisé statistiky Korelačí matice. Korelace (staty979.sta) Proměá X X X3 X4 X5 X6 X7 X8 X9 X,00 0,04-0,67-0,40-0,53-0,73-0, -0,75-0,56 X 0,04,00 0,44 0,4-0,0-0,40-0,44-0,8 0,6 X3-0,67 0,44,00 0,39 0,48 0, -0,5 0,5 0,36 X4-0,40 0,4 0,39,00 0,03 0,0 0, 0,3 0,37 X5-0,53-0,0 0,48 0,03,00 0,33 0,0 0,7 0,38 X6-0,73-0,40 0, 0,0 0,33,00 0,36 0,57 0,7 X7-0, -0,44-0,5 0, 0,0 0,36,00 0, -0,5 X8-0,75-0,8 0,5 0,3 0,7 0,57 0,,00 0,56 X9-0,56 0,6 0,36 0,37 0,38 0,7-0,5 0,56,00 Některé korelačí koeficiety jsou v absolutí hodotě dostatečě velké a zřejmě tedy bude mít smysl provést aalýzu hlavích kompoet.
Nyí získáme vlastí čísla výběrové korelačí matice a proceto vysvětleého rozptylu: a záložce Základí výsledky vybereme Vlastí čísla. Pořadí vl.č. 3 4 5 6 7 8 vl. číslo % celk. rozptylu Kumulativ. vl. číslo Kumulativ. % 3,466490 38,5655 3,466490 38,566,35004 3,77 5,60494 6,388,558,39534 6,77075 74,634 0,989394 0,9936 7,706468 85,674 0,539 5,993 8,45679 9,687 0,38 4,4568 8,67790 95,8643 0,336,5940 8,8605 98,4557 0,38985,5448 9,000000 00,0000 Prví hlaví kompoeta tedy vysvětluje 38,5% variability obsažeé v devíti sledovaých proměých, druhá 3,7%, třetí,40% atd. Celkové proceto variability vysvětleé prvími třemi hlavími kompoetami je 74,63%. Sestrojíme sutiový graf (scree plot): a záložce Základí výsledky vybereme Sutiový graf. 4,0 3,5 38,5% 3,0 Vlast. číslo,5,0,5 3,7%,0,40% 0,99% 0,5 5,99% 4,5%,59%,54% 0,0-0,5-0 3 4 5 6 7 8 9 0 Pořadí vl. čísla Počet m hlavích kompoet zvolíme tři. V abídce Výsledky hlavích kompoet sížíme počet faktorů a 3.
Vypočteme korelačí koeficiety prvích tří hlavích kompoet a původích devíti proměých: a záložce Proměé vybereme Korelace faktorů & proměých. Korelace faktorů a proměých (faktor. zátěže) podle korelací (staty979.sta) Proměá Faktor Faktor Faktor 3 X 0,978776 0,0875-0,049455 X -0,000898 0,9005 0,6344 X3-0,6574 0,53343 0,868 X4-0,474888 0,378598 0,64996 X5-0,59563 0,07303-0,304047 X6-0,6983-0,53734 0,959 X7-0,3693-0,66399 0,58945 X8-0,77506-0,37637-0,564 X9-0,684094 0,304809-0,337074 Graficky lze zázorit souvislost mezi ovými proměými (apř.. a. HK) a původími proměými X,, X9 takto: a záložce Proměé vybereme D graf fakt. souřadic prom. - Osa x: Faktor I, Osa y: Faktor - OK. Na ose x budou souřadice vstupích proměých vzhledem k prví hlaví kompoetě, a ose Y vzhledem ke druhé kompoetě. Faktor : 3,7%,0 0,5 0,0-0,5 -,0 Projekce proměých do faktorové roviy ( x ) tezba prumysl eerg. doprava staveb. zemed. sluzby mist. hosp. fiace -,0-0,5 0,0 0,5,0 Faktor : 38,5%. HK vysoce kladě koreluje s proměou X, tj se zemědělstvím a egativě s proměou X8 služby. Jelikož je podíl lidí v zemědělství a ve službách obecě považová za určité měřítko vyspělosti země, můžeme prví kompoetu iterpretovat jako míru zaostalosti/vyspělosti.. HK výrazě pozitivě koreluje s těžebím průmyslem, eergetikou a zpracovatelským průmyslem. Negativě koreluje se službami a fiačí sférou. Budeme ji proto iterpretovat jako míru toho, akolik se země orietuje a průmyslovou výrobu. (Ne vždy mají kompoety takto jasou iterpretaci. Jsou je jistou matematickou trasformací vstupích proměých, která může a emusí odrážet ějakou reálou vlastost objektů!).
Podívejme se rověž a vektory souřadic (v systému STATISTICA se jim říká faktorové souřadice případů): a záložce Případy vybereme Faktorové souřadice případů. Případ Faktor Faktor Faktor 3 Belgie -,6873 -,0656 0,6668 Dásko -0,9083 -,05598-0,8547 Fracie -0,74050 -,048 0,38553 Záp. Německo -0,85647-0,0365 0,56466 Irsko 0,53-0,40400 0,5334 Itálie -0,36366-0,7490 -,9050 Lucembursko -,040 0,7494 0,4637 Nizozemsko -,6573 -,98866-0,0879 Velká Britáie -,60-0,39776,3503 Rakousko -,003 0,6508,6804 Fisko -0,973-0,7366 0,54475 Řecko Norsko Portugalsko,0754-0,335-0,974 -,66538 -,0509 -,434 0,99709-0,7459-0,75474 Špaělsko 0,4344-0,6088 0,385 Švédsko -,07387 -,55390-0,85 Švýcarsko -,0403-0,74707 0,86 Turecko 6,959 -,04930-0,6465 Bulharsko 0,67558,4859 -,030 Českoslovesko -0,48005,634 0,0790 Vých. Německo -,73669,734 0,6970 Maďarsko -0,5756 3,0798,09460 Polsko,08637,8764-0,54684 Rumusko,0536,57550-0,48595 Sovětský svaz -0,04779,646 -,3067 Jugoslávie 3,8787-0,7854 3,0736. HK vysoce kladě koreluje s proměou X (zemědělství) a záporě se všemi ostatími proměými. Tato hlaví kompoeta tedy rozlišuje země a zemědělské a průmyslové. Povšiměte si, že souřadice této hlaví kompoety jsou ejvyšší u Turecka (6,) a Jugoslávie (3,9).. HK vysoce kladě koreluje s proměou X (těžba) a podstatě slaběji s proměou X 3 (průmyslová výroba). Vysoké hodoty souřadic této hlaví kompoety ajdeme u Maďarska, Východího Německa a Českosloveska. 3. HK středě silě koreluje s proměou X 4 (eergetika) a X 7 (fiačí sektor). Nejvyšší hodotu ajdeme u Jugoslávie.
Nyí zázoríme rozmístěí zemí a ploše prvích dvou hlavích kompoet: Na záložce Případy vybereme D graf fakt. Souřadic příp. 5 Projekce případů do faktorové roviy ( x ) Případy se součtem cos()^ >= 0,00 4 3 Maďarsko Vých. N ě mecko Českoslovesko Faktor : 3,7% 0 - - Polsko Bulharsko Rumusko Sovětský svaz Lucembursko Rakousko Záp. N ě mecko Velká Britáie Irsko Řecko Fisko Špaělsko Švýcarsko Itálie Portugalsko Norsko Belgie Fracie Švédsko Nizozemsko Dásko Jugoslávie Turecko -3-4 -5-4 -3 - - 0 3 4 5 6 7 8 Faktor : 38,5% Státy apravo jsou státy s vysokým podílem zemědělství. Vyiká zde zejméa Turecko a Jugoslávie. Všechy státy obvykle považovaé za ekoomicky vyspělé jsou aopak a levé straě. Jsou to státy, kde je ižší podíl osob zaměstaých v zemědělství, zato vyšší podíl osob pracujících ve službách. Je zde také hezky vidět zaměřeí zemí tehdejšího socialistického bloku a průmyslovou výrobu - horí část grafu. A aopak severské státy a státy Beeluxu orietovaé a fiačí a další služby v dolí části.
Provedeí shlukové aalýzy Statistiky Vícerozměré průzkumé techiky Shluková aalýza - Spojováí (hierarchické shlukováí) OK - Proměé X až X4, OK, Detaily - Shlukovat případy (řádky) Pravidlo slučováí: Nevážeý průměr skupi dvojic Míry vzdáleosti: Euklidovské vzdáleosti - OK Horizotálí graf hierarch. stromu. Belgie Velká Britáie Dásko Švédsko Nizozemsko Norsko Fracie Fisko Itálie Lucembursko Rakousko Záp. N mecko Vých. N mecko Švýcarsko Irsko Portugalsko Polsko Rumusko Špaělsko Bulharsko Maďarsko Českoslovesko Sovětský svaz Řecko Jugoslávie Turecko Str. diagram pro 6 případů Nevážeý průměr skupi dvojic Euklid. vzdáleosti 0 5 0 5 0 5 30 35 40 45 Vzdáleost spoje Ukazuje se, že země se dělí do tří skupi: prví skupiu tvoří rozviuté demokratické země společě s NDR, druhou skupiu socialistické země s Irskem, Portugalskem a Špaělskem a třetí Řecko s Jugoslávií. Turecko se chová jako sigulárí etita.
Základí pojmy matematické statistiky I Motivace: Matematická statistika je věda, která aalyzuje a iterpretuje data především za účelem získáí předpovědi a zlepšeí rozhodováí v růzých oborech lidské čiosti. Přitom se řídí pricipem statistické idukce, tj. a základě zalostí o áhodém výběru z určitého rozložeí pravděpodobostí se saží učiit závěry o vlastostech tohoto rozložeí. Ústředím pojmem matematické statistiky je tedy pojem áhodého výběru. Osova: - áhodý výběr z jedorozměrého a vícerozměrého rozložeí - statistika jako fukce áhodého výběru - bodové a itervalové odhady parametrů a parametrických fukcí
Defiice áhodého výběru: a) Nechť X,..., X jsou stochasticky ezávislé áhodé veličiy, které mají všechy stejé rozložeí L( ϑ ). Řekeme, že X,..., X je áhodý výběr rozsahu z rozložeí L( ϑ ). (Číselé realizace x,..., x áhodého výběru X,..., X uspořádaé do sloupcového vektoru odpovídají datovému souboru zavedeému v popisé statistice.) b) Nechť (X,Y ),..., (X,Y ) jsou stochasticky ezávislé dvourozměré áhodé vektory, které mají všechy stejé dvourozměré rozložeí L ( ϑ ). Řekeme, že (X,Y ),..., (X,Y ) je dvourozměrý áhodý výběr rozsahu z dvourozměrého rozložeí L ( ϑ ). (Číselé realizace (x,y ),..., (x,y ) áhodého výběru (X,Y ),..., (X,Y ) uspořádaé do matice typu odpovídají dvourozměrému datovému souboru zavedeému v popisé statistice.) c) Aalogicky lze defiovat p-rozměrý áhodý výběr rozsahu z p-rozměrého rozložeí L p ( ϑ ). Defiice statistiky: Libovolá fukce T = T(X,..., X ) áhodého výběru X,..., X (resp. T = T(X,Y,..., X,Y ) áhodého výběru (X,Y ),..., (X,Y )) se azývá (výběrová) statistika.
Defiice důležitých statistik: a) Nechť X,..., X je áhodý výběr,. Oačme M = odchylka X i i= výběrový průměr, S = ( X i M) i= výběrový rozptyl, S = S výběrová směrodatá Pro libovolé, ale pevě daé reálé číslo x je statistikou též hodota výběrové distribučí fukce F (x) = card{ i;x x} b) Nechť je dáo r stochasticky ezávislých áhodých výběrů o rozsazích,, r. Celkový rozsah je r j j= =. Ozačme M,, M r výběrové průměry a S,, S r výběrové rozptyly jedotlivých výběrů. Nechť c,, c r jsou reálé kostaty, aspoň jeda eulová. r j= c j M j lieárí kombiace výběrových průměrů, S * = r ( j ) j= r c) Nechť (X,Y ),..., (X,Y ) je áhodý výběr z dvourozměrého rozložeí o rozsahu. Ozačme = X i i= S i= i= S pro SS výběrová kovariace, R = SS 0 jiak j vážeý průměr výběrových rozptylů. M, M = Y i výběrové průměry, S = ( X i M ), S = ( Yi M ) S = ( X M )( Y M ) i= i i i= výběrové rozptyly. 0 výběrový koeficiet korelace. Pro libovolou, ale pevě zvoleou dvojici reálých čísel x,y je statistikou též hodota výběrové simultáí distribučí = i i. fukce F (x, y) card{ i;x x Y y} i
Upozorěí: Číselé realizace statistik M, S, S, S, R odpovídají číselým charakteristikám m, s, s, s, r zavedeým v popisé statistice, ale u rozptylu, směrodaté odchylky, kovariace a koeficietu korelace je multiplikativí kostata, ikoliv, jak tomu bylo v popisé statistice. Jak uvidíme později, uvedeé číselé realizace mohou být považováy za odhady číselých realizací áhodých veliči zavedeých v počtu pravděpodobosti. Charakteristika vlastosti Počet pravděpodobosti Matematická statistika Popisá statistika poloha E(X) = µ M m variabilita D(X) = σ S variabilita ( X) = σ D S s s s společá variabilita těsost vztahu R(X, X ) = ρ R r rozložeí Ф(x) F (x) F(x) C(X, X ) = σ S
Příklad (výpočet realizací výběrového průměru, výběrového rozptylu a hodot výběrové distribučí fukce): Desetkrát ezávisle a sobě byla změřea jistá kostata µ. Výsledky měřeí byly:,8,,4,9,,8,3,. Tyto výsledky považujeme za číselé realizace áhodého výběru X,..., X 0. Vypočtěte realizaci m výběrového průměru M, realizaci s výběrového rozptylu S, realizaci s výběrové směrodaté odchylky S a hodoty výběrové distribučí fukce F 0 (x). Řešeí: s = s ( +,8 +... +,) =,06, s = ( x i m) = x i m = ( +,8 +... +, 0,06 ) m = x i = i= 0 i= i= = 0,0404 = 0,0 Pro usaděí výpočtu hodot výběrové distribučí fukce F 0 (x) uspořádáme měřeí podle velikosti:,8,8,9,,,,3,4. 9 = 0,0404 x <,8 : F 0 (x) = 0,8 x <,9 : F0 (x) = = 0, 0 3,9 x < : F0 (x) = = 0,3 0 5 x <,: F0 (x) = = 0,5 0 7, x <, : F0 (x) = = 0,7 0 8, x <,3 : F0 (x) = = 0,8 0 9,3 x <,4 : F0 (x) = = 0,9 0 x,4 :F (x) = 0 F0(x),,0 0,8 0,6 0,4 0, 0,0-0,,7,8,9,0,,,3,4,5 x
Příklad (výpočet realizace výběrového koeficietu korelace): U áhodě vybraých aut jisté začky bylo zjišťováo jejich stáří (áhodá veličia X v letech) a cea (áhodá veličia Y v tisících Kč). Výsledky: (5, 85), (4, 03), (6, 70), (5, 8), (5, 89), (5, 98), (6, 66), (6, 95), (, 69), (7, 70), (7, 48). Vypočtěte a iterpretujte číselou realizaci r výběrového koeficietu korelace R. Řešeí: m = x i = ( 5 + 4 +... + 7) = 5,8 m s s = i= i= y = = i i= = i= x y i i ( 85 + 03 +... + 48) m m = = 0 0 = 88,63 ( 5 + 4 +... + 7 5,8 ) =,0 ( 85 + 03 +... + 48 88,63 ) = 970,85 s = x iyi mm = ( 5 85 + 4 03 +... + 7 48 5,8 88,63) = 40,89 i= 0 s 40,8 r = = = 0,9 s s,0 970,85 Mezi áhodými veličiami X a Y existuje silá epřímá lieárí závislost. Čím starší auto, tím ižší cea.
Bodové a itervalové odhady parametrů a parametrických fukcí Vycházíme z áhodého výběru X,..., X z rozložeí L( ϑ ), které závisí a parametru ϑ. Možiu všech přípustých hodot tohoto parametru ozačíme Ξ. Tato možia se azývá parametrický prostor. ϑ = µ, σ a v tomto případě parametrický prostor Ξ = Např. je-li X,..., X áhodý výběr z rozložeí N(µ,σ ), pak ( ) ( ) 0, ),. Parametr ϑ ezáme a chceme ho odhadout pomocí daého áhodého výběru (případě chceme odhadout ějakou parametrickou fukci h( ϑ )). Bodovým odhadem parametrické fukce h( ϑ ) je statistika T = T(X,..., X ), která abývá hodot blízkých h( ϑ ), ať je hodota parametru ϑ jakákoliv. Existují růzé metody, jak kostruovat bodové odhady (apř. metoda mometů či metoda maximálí věrohodosti, ale těmi se zde zabývat ebudeme) a také růzé typy bodových odhadů. Omezíme se a odhady estraé, asymptoticky estraé a kozistetí. Itervalovým odhadem parametrické fukce h( ϑ ) rozumíme iterval (D, H), jehož meze jsou statistiky D = D(X,..., X ), H = H(X,..., X ) a který s dostatečě velkou pravděpodobostí pokrývá h( ϑ ), ať je hodota parametru ϑ jakákoliv.
Typy bodových odhadů Nechť X,..., X je áhodý výběr z rozložeí L( ϑ ), h( ϑ) je parametrická fukce, T, T, T,... jsou statistiky. a) Řekeme, že statistika T je estraým odhadem parametrické fukce h( ϑ ), jestliže ϑ Ξ : E(T) = h( ϑ ). (Výzam estraosti spočívá v tom, že odhad T esmí parametrickou fukci h( ϑ ) systematicky adhodocovat ai podhodocovat. Neí-li tato podmíka splěa, jde o vychýleý odhad.) b) Jsou-li T, T estraé odhady téže parametrické fukce h( ϑ ), pak řekeme, že T je lepší odhad ež T, jestliže ϑ Ξ : D(T ) < D(T ). c) Posloupost { T } se azývá posloupost asymptoticky estraých odhadů parametrické fukce h( ϑ ), jestliže = ϑ Ξ lim E(T ) = h( ϑ). : (Výzam asymptotické estraosti spočívá v tom, že s rostoucím rozsahem výběru klesá vychýleí odhadu.) d) Posloupost { T } se azývá posloupost kozistetích odhadů parametrické fukce h( ϑ ), jestliže = ϑ Ξ ε > : lim P T h( ϑ) > ε = 0 0 ( ). (Výzam kozistece spočívá v tom, že s rostoucím rozsahem výběru klesá pravděpodobost, že odhad se bude realizovat daleko od parametrické fukce h( ϑ ).) Lze dokázat, že z estraosti odhadu vyplývá jeho asymptotická estraost a z asymptotické estraosti vyplývá kozistece, pokud posloupost rozptylů odhadu koverguje k ule.
Vlastosti důležitých statistik a) Případ jedoho áhodého výběru: Nechť X,..., X je áhodý výběr z rozložeí se středí hodotou µ, rozptylem σ a distribučí fukcí Φ(x). Nechť. Ozačme M výběrový průměr, S výběrový rozptyl a pro libovolé, ale pevě daé x R ozačme F (x) hodotu výběrové distribučí fukce. Pak pro libovolé hodoty parametrů µ, σ a libovolé, ale pevě daé reálé číslo x platí: E(M ) = µ, σ D(M ) =, E(S ) = σ, D(S 4 γ 4 σ ( 3) ) =, kde γ ( ) 4 je 4. cetrálí momet, E(F (x)) = Ф(x), Φ ( ( )) ( x) [ Φ( x) ] D F x = x R je výbě- Zameá to, že M je estraým odhadem µ, S je estraým odhadem σ, pro libovolé, ale pevě daé rová distribučí fukce F (x) estraým odhadem Φ(x). Posloupost { M } je posloupost kozistetích odhadů µ, = { } = S je posloupost kozistetích odhadů σ, pro libovolé, ale pevě daé x R je { } (x) = F posloupost kozistetích odhadů Φ(x).
Ilustrace: Vlastosti výběrového průměru a výběrového rozptylu budeme ilustrovat a áhodém výběru rozsahu 00 z rozložeí Rs(0,). V tomto případě E(X i ) = /, D(X i ) = /, i =,, 00. Pomocí systému STATISTICA vygeerujeme pro každou z áhodých veliči X,, X 00 00 realizací a uložíme je do proměých v,, v 00. Dále vypočítáme průměr a rozptyl těchto realizací, uložíme je do proměých PRUMER a ROZPTYL. Graficky zázoríme hodoty ěkteré z proměých v,, v 00 (apř. v ) a hodoty proměé PRUMER:,,0 0,8 0,6 0,4 0, 0,0-0, -0 0 0 40 60 80 00 0 PORADI Vidíme, že hodoty proměé v kolísají od 0 do, zatímco hodoty proměé PRUMER se acházejí v úzkém pásu kolem /. Dále vypočteme průměr a rozptyl apř. proměé v a proměé PRUMER a dále vypočteme průměr proměé ROZPTYL. Popisé statistiky (uiform) Proměá Průměr Rozptyl Prom PRUMER 0,536605 0,078676 0,503984 0,000783 Popisé statistiky (uiform) Proměá Průměr ROZPTYL 0,08343 Průměr proměé v by měl být blízký 0,5, rozptyl / = 0,083. Průměr proměé PRUMER by se měl blížit 0,5, zatímco rozptyl by měl být = 00 x meší ež /, tj. 0,00083. Dále průměr proměé ROZPTYL by se měl blížit / = 0,083.
Nestraost výběrové distribučí fukce budeme ilustrovat a áhodém výběru rozsahu 000 z rozložeí N(0,). Získáme výběrovou distribučí fukci tohoto výběru a její graf porováme s grafem distribučí fukce áhodé veličiy se stadardizovaým ormálím rozložeím. Graf výběrové distribučí fukce má čerou barvu, graf distribučí fukce stadardizovaého ormálího rozložeí má červeou barvu.,,0 0,8 0,6 Prom 0,4 0, 0,0-0, -4-3 - - 0 3 4 5 Průběh výběrové distribučí fukce F 000 (x) je velmi podobý průběhu distribučí fukce Ф(x). Pokud bychom postup zopakovali s podstatě meším rozsahem áhodého výběru (apř. = 00), průběh obou fukcí by se lišil výrazěji:, Prom,0 0,8 0,6 Prom 0,4 0, 0,0-0, -4-3 - - 0 3 4 Prom
b) Případ r stochasticky ezávislých áhodých výběrů: Nechť X,, X,..., X r,, X r je r stochasticky ezávislých r áhodých výběrů o rozsazích,..., r z rozložeí se středími hodotami µ,..., µ r a rozptylem σ. Celkový rozsah je r j j= =. Nechť c,..., c r jsou reálé kostaty, aspoň jeda eulová. Pak pro libovolé hodoty parametrů µ,, µ r a σ platí: r r E c jm j = c jµ j, j= j= E(S * ) = σ. r Zameá to, že lieárí kombiace výběrových průměrů c M j j je estraým odhadem lieárí kombiace středích hod- r ot c jµ j a vážeý průměr výběrových rozptylů j= S * = j= r ( j ) j= r S j je estraým odhadem rozptylu σ. c) Případ jedoho áhodého výběru z dvourozměrého rozložeí: Nechť (X,Y ),..., (X,Y ) je áhodý výběr z dvourozměrého rozložeí s kovariací σ a koeficietem korelace ρ. Pak pro libovolé hodoty parametrů σ a ρ platí: E(S ) = σ, E(R ) ρ (shoda je vyhovující pro 30). Zameá to, že výběrová kovariace S je estraým odhadem kovariace σ, avšak výběrový koeficiet korelace R je vychýleým odhadem koeficietu korelace ρ.
Nechť X,..., X je áhodý výběr z rozložeí L( ϑ), h( ϑ) je parametrická fukce, α (0,), D = D(X,..., X ), H = H(X,..., X ) jsou statistiky. Pojem itervalu spolehlivosti a) Iterval (D, H) se azývá 00(-α)% (oboustraý) iterval spolehlivosti pro parametrickou fukci h( ϑ), jestliže: ϑ Ξ : P(D < h( ϑ) < H) -α. b) Iterval (D, ) se azývá 00(-α)% levostraý iterval spolehlivosti pro parametrickou fukci h( ϑ), jestliže: ϑ Ξ : P(D < h( ϑ)) -α. c) Iterval (-, H) se azývá 00(-α)% pravostraý iterval spolehlivosti pro parametrickou fukci h(ϑ), jestliže: ϑ Ξ : P(h( ϑ) < H) -α. Číslo α se azývá riziko (zpravidla α = 0,05, méě často 0, či 0,0), číslo α se azývá spolehlivost.
Postup při kostrukci itervalu spolehlivosti a) Vyjdeme ze statistiky V, která je estraým bodovým odhadem parametrické fukce h( ϑ ). b) Najdeme tzv. pivotovou statistiku W, která vzike trasformací statistiky V, je mootóí fukcí h( ϑ ) a přitom její rozložeí je zámé a a h( ϑ ) ezávisí. Pomocí zámého rozložeí pivotové statistiky W ajdeme kvatily w α/, w -α/, takže platí: ϑ Ξ : P(w α/ < W < w -α/ ) α. c) Nerovost w α/ < W < w -α/ převedeme ekvivaletími úpravami a erovost D < h( ϑ) < H. d) Statistiky D, H ahradíme jejich číselými realizacemi d, h a získáme tak 00(-α)% empirický iterval spolehlivosti, o ěmž prohlásíme, že pokrývá h( ϑ ) s pravděpodobostí aspoň α. (Tvrzeí, že (d,h) pokrývá h( ϑ) s pravděpodobostí aspoň α je třeba chápat takto: jestliže mohoásobě ezávisle získáme realizace x,..., x áhodého výběru X,..., X z rozložeí L( ϑ ) a pomocí každé této realizace sestrojíme 00(-α)% empirický iterval spolehlivosti pro h( ϑ), pak podíl počtu těch itervalů, které pokrývají h( ϑ) k počtu všech sestrojeých itervalů bude přibližě α.) Ilustrace: Jestliže 00x ezávisle a sobě uskutečíme áhodý výběr z rozložeí se středí hodotou µ a pokaždé sestrojíme 95% empirický iterval spolehlivosti pro µ, pak přibližě v 95-ti případech bude ležet parametr µ v itervalech spolehlivosti a asi v 5-ti případech iterval spolehlivosti µ epokryje. Volba oboustraého, levostraého, ebo pravostraého itervalu závisí a kokrétí situaci. Např. oboustraý iterval spolehlivosti použije kostruktér, kterého zajímá dolí i horí hraice pro skutečou délku µ ějaké součástky. Levostraý iterval spolehlivosti použije výkupčí drahých kovů, který potřebuje zát dolí mez pro skutečý obsah zlata µ v kupovaém slitku. Pravostraý iterval spolehlivosti použije chemik, který potřebuje zát horí mez pro obsah ečistot µ v aalyzovaém vzorku.
Příklad: Nechť X,..., X je áhodý výběr z rozložeí N(µ,σ ), kde a rozptyl σ záme. Sestrojte 00(-α)% iterval spolehlivosti pro ezámou středí hodotu µ. Řešeí: V tomto případě parametrická fukce h( ϑ ) = µ. Nestraým odhadem středí hodoty je výběrový průměr M = X i. Protože M je lieárí kombiací ormálě rozložeých áhodých veliči, bude mít také ormálí rozložeí se i= σ středí hodotou E(M) = µ a rozptylem D(M) =. Pivotovou statistikou W bude stadardizovaá áhodá veličia U M µ σ = ~ N(0,). Kvatil w α/ = u α/ = -u -α/, w -α/ = u -α/. σ ϑ Ξ : α P(-u -α/ < U < u -α/ ) = M µ σ P u α / < < u α / = P M u α / < µ < M + u α /. σ Meze 00(-α)% itervalu spolehlivosti pro středí hodotu µ při zámém rozptylu σ tedy jsou: σ σ D = M u α /, H = M + u α /. Při kostrukci jedostraých itervalů spolehlivosti se riziko epůlí, tedy 00(-α)% levostraý iterval spolehlivosti pro σ µ je u, σ M α a pravostraý je, M + u α. Dosadíme-li do vzorců pro dolí a horí mez číselou realizaci m výběrového průměru M, dostaeme 00(-α)% empirický iterval spolehlivosti. Postup si ukážeme a ásledujícím umerickém příkladu.
Příklad: 0 krát ezávisle a sobě byla změřea jistá kostata µ. Výsledky měřeí byly:,8,,4,9,,8,3,. Výsledky považujeme za číselé realizace áhodého výběru X,..., X 0 z rozložeí N(µ, σ ), kde µ ezáme a σ = 0,04. Najděte 95% empirický iterval spolehlivosti pro µ, a to a) oboustraý, b) levostraý, c) pravostraý. Řešeí: Vypočteme realizaci výběrového průměru: m =,06. Riziko α je 0,05. V tabulkách ajdeme kvatil u 0,975 =,96 pro oboustraý iterval spolehlivosti a kvatil u 0,95 =,64 pro jedostraé itervaly spolehlivosti. σ 0, ad a) d = m - u-α/ =,06 -,96 =,94 0 σ 0, h = m + u-α/ =,06 +,96 =,8 0,94 < µ <,8 s pravděpodobostí aspoň 0,95. σ 0, ad b) d = m - u-α =,06 -,64 =,96 0,96 < µ s pravděpodobostí aspoň 0,95. σ 0, ad c) h = m + u-α =,06 +,64 =,6 0 µ <,6 s pravděpodobostí aspoň 0,95.
Šířka itervalu spolehlivosti Nechť (d, h) je 00(-α)% empirický iterval spolehlivosti pro h( ϑ ) zkostruovaý pomocí číselých realizací x,..., x áhodého výběru X,..., X z rozložeí L( ϑ ). a) Při kostatím riziku klesá šířka h-d s rostoucím rozsahem áhodého výběru. b) Při kostatím rozsahu áhodého výběru klesá šířka h-d s rostoucím rizikem. Ilustrace ad a) Grafické zázorěí závislosti dolích a horích meze 95% empirických itervalů spolehlivosti pro středí hodotu ormálího rozložeí při zámém rozptylu a rozsahu áhodého výběru:, 0,8 0,4 0,0-0,4-0,8 -, 0 0 0 30 40 50 60 70 80 90 Šířka itervalu spolehlivosti klesá se zvětšujícím se rozsahem áhodého výběru, zprvu rychle a pak stále pomaleji. ad b) Grafické zázorěí závislosti dolích a horích mezí 00(-α)% empirických itervalů spolehlivosti pro středí hodotu ormálího rozložeí při zámém rozptylu a kostatím rozsahu výběru a riziku: 0,6 Prom 0,4 0, 0,0-0, -0,4-0,6 0,00 0,0 0,04 0,06 0,08 0,0 0, 0,4 0,6 0,8 0,0 0, Prom Vidíme, že šířka itervalu spolehlivosti s rostoucím rizikem klesá.
Příklad: (staoveí miimálího rozsahu výběru z ormálího rozložeí) Nechť X,..., X je áhodý výběr z N(µ, σ ), kde σ záme. Jaký musí být miimálí rozsah výběru, aby šířka 00(-α)% empirického itervalu spolehlivosti pro středí hodotu µ epřesáhla číslo? σ Řešeí: Požadujeme, aby h d = m + u α / (m u α / ) = u α /. Z této podmíky dostaeme, že 4σ u α /. Za rozsah výběru zvolíme ejmeší přirozeé číslo vyhovující této podmíce. σ Příklad: Hloubka moře se měří přístrojem, jehož systematická chyba je ulová a áhodé chyby měřeí mají ormálí rozložeí se směrodatou odchylkou σ = m. Kolik měřeí je uto provést, aby se hloubka staovila s chybou ejvýše ± 0,5 m při spolehlivosti 0,95? Řešeí: Hledáme rozsah výběru tak, aby šířka 95% itervalu spolehlivosti pro středí hodotu µ epřesáhla 0,5 m. Přitom σ 4σ u α / 4,96 záme. Z předešlého příkladu vyplývá, že = = 6, 4656. Nejmeší počet měřeí je tedy 6. 0,5 σ
Základí pojmy matematické statistiky II Osova: Základí typy uspořádáí pokusů - jedoduché pozorováí - dvojé pozorováí - mohoásobé pozorováí Úvod do testováí hypotéz - ulová a alterativí hypotéza - chyba. a. druhu - testováí pomocí kritického oboru - testováí pomocí itervalu spolehlivosti - testováí pomocí p-hodoty Testováí ormality - Kolmogorovův Smirovův test a jeho Lilieforsova variata - Shapirův Wilkův test - srováí S-W testu a Lilieforsova testu pomocí simulačích studií
Základí typy uspořádáí pokusů Metody matematické statistiky často slouží k vyhodocováí výsledků pokusů. Aby mohl být pokus správě vyhodoce, musí být dobře apláová. Uvedeme zde ejjedodušší typy uspořádáí pokusů. Předpokládejme apříklad, že sledujeme hmotostí přírůstky selat téhož plemee při růzých výkrmých dietách. a) Jedoduché pozorováí: Náhodá veličia X je pozorováa za týchž podmíek. Situace je charakterizováa jedím áhodým výběrem X,..., X. Náhodě vylosujeme selat téhož plemee, podrobíme je jedié výkrmé dietě a zjistíme u každého selete hmotostí přírůstek. Tím dostaeme realizaci jedoho áhodého výběru.
b) Dvojé pozorováí: Náhodá veličia X je pozorováa za dvojích růzých podmíek. Existují dvě odlišá uspořádáí tohoto pokusu. Dvouvýběrové porováváí: situace je charakterizováa dvěma ezávislými áhodými výběry X,, X a X,,. X Náhodě vylosujeme a selat téhož plemee, áhodě je rozdělíme a dva soubory o a jedicích, prví podrobíme výkrmé dietě č. a druhý výkrmé dietě číslo. Tak dostaeme realizace dvou ezávislých áhodých výběrů. Párové porováváí: situace je charakterizováa jedím áhodým výběrem ( X,X ),, ( X, ) X z dvourozměrého rozložeí. Přejdeme k rozdílovému áhodému výběru Z i = X i X i, i =,, a tím dostaeme jedoduché pozorováí. Náhodě vylosujeme vrhů stejě starých selat téhož plemee, z každého odebereme dva sourozece a áhodě jim přiřadíme prví a druhou výkrmou dietu. Tak dostaeme realizaci jedoho dvourozměrého áhodého výběru, kde prví složka odpovídá prví dietě a druhá složka druhé dietě. (Párové porováváí je efektivější, protože skutečý rozdíl v účiosti obou diet je překrývá pouze áhodými vlivy při samotém krmeí a trváí, kdežto vliv růzých dědičých vloh, který byl losováím záhodě, je u sourozeeckého páru selat částečě vylouče.)
c) Mohoásobé pozorováí: Náhodá veličia X je pozorováa za r 3 růzých podmíek. Existují dvě odlišá uspořádáí tohoto pokusu. Mohovýběrové porováváí: situace je charakterizováa r ezávislými áhodými výběry X,, X až X r,, X r. r Náhodě vylosujeme,,, r selat téhož plemee, áhodě je rozdělíme a r souborů o,,, r jedicích, prví podrobíme výkrmé dietě č., druhý výkrmé dietě číslo atd. až r-tý podrobíme výkrmé dietě číslo r. Tak dostaeme realizace r ezávislých áhodých výběrů. Blokové porováváí: situace je charakterizováa jedím áhodým výběrem ( X,, X ),, ( X,, ) z r- r Xr rozměrého rozložeí. Náhodě vylosujeme vrhů stejě starých selat téhož plemee, z každého odebereme r sourozeců a áhodě jim přiřadíme prví až r-tou výkrmou dietu. Tak dostaeme realizaci jedoho r-rozměrého áhodého výběru, kde prví složka odpovídá prví dietě, druhá složka druhé dietě atd. až r-tá složka odpovídá r-té dietě.
Úvod do testováí hypotéz Motivace: Častým úkolem statistika je a základě dat ověřit předpoklady o parametrech ebo typu rozložeí, z ěhož pochází áhodý výběr. Takovému předpokladu se říká ulová hypotéza. Nulová hypotéza vyjadřuje ějaký teoretický předpoklad, často skeptického rázu a uživatel ji musí staovit předem, bez přihlédutí k datovému souboru. Proti ulové hypotéze stavíme alterativí hypotézu, která říká, co platí, když eplatí ulová hypotéza. Alterativí hypotéza je formulováa tak, aby mohla platit jeom jeda z těchto dvou hypotéz. Pravdivost alterativí hypotézy by zameala objeveí ějakých ových skutečostí, ebo zásadější změu v dosavadích představách. Např. výzkumík by chtěl a základě dat prověřit tezi (ový objev), že pasiví kouřeí škodí zdraví. Jako ulovou hypotézu tedy položí tvrzeí, že pasiví kouřeí eškodí zdraví a proti ulové hypotéze postaví alterativí, že pasiví kouřeí škodí zdraví. Testováím hypotéz se myslí rozhodovací postup, který je založe a daém áhodém výběru a s jehož pomocí rozhodeme o zamítutí či ezamítutí ulové hypotézy.
Nulová a alterativí hypotéza Nechť X,..., X je áhodý výběr z rozložeí L( ϑ ), kde parametr daá reálá kostata. ϑ Ξ ezáme. Nechť h( ϑ ) je parametrická fukce a c a) Oboustraá alterativa: Tvrzeí H 0 : h( ϑ) = c se azývá jedoduchá ulová hypotéza. Proti ulové hypotéze postavíme složeou oboustraou alterativí hypotézu H : h( ϑ ) c. b) Levostraá alterativa: Tvrzeí H 0 : h( ϑ ) c se azývá složeá pravostraá ulová hypotéza. Proti jedoduché ebo složeé pravostraé ulové hypotéze postavíme složeou levostraou alterativí hypotézu H : h( ϑ ) < c. c) Pravostraá alterativa: Tvrzeí H 0 : h( ϑ ) c se azývá složeá levostraá ulová hypotéza. Proti jedoduché ebo složeé levostraé ulové hypotéze postavíme složeou pravostraou alterativí hypotézu H : h( ϑ ) > c. Testováím H 0 proti H rozumíme rozhodovací postup založeý a áhodém výběru X,..., X, s jehož pomocí zamíteme či ezamíteme platost ulové hypotézy.
Chyba. a. druhu Při testováí H 0 proti H se můžeme dopustit jedé ze dvou chyb: chyba. druhu spočívá v tom, že H 0 zamíteme, ač ve skutečosti platí a chyba. druhu spočívá v tom, že H 0 ezamíteme, ač ve skutečosti eplatí. Situaci přehledě zázorňuje tabulka: skutečost rozhodutí H 0 ezamítáme H 0 zamítáme H 0 platí správé rozhodutí chyba. druhu H 0 eplatí chyba. druhu správé rozhodutí Pravděpodobost chyby. druhu se začí α a azývá se hladia výzamosti testu (většiou bývá α = 0,05, méě často 0, či 0,0). Pravděpodobost chyby. druhu se začí β. Číslo β se azývá síla testu a vyjadřuje pravděpodobost, že bude H 0 zamítuta za předpokladu, že eplatí. Obvykle se sažíme, aby síla testu byla aspoň 0,8. Obě hodoty, α i β, závisí a velikosti efektu, který se sažíme detekovat. Čím drobější efekt, tím musí být větší rozsah áhodého výběru. skutečost rozhodutí zdravý emocý jsem zdravý zdravý a eléčeý zdravý a léčeý jsem emocý emocý a eléčeý emocý a léčeý
Testováí pomocí kritického oboru Najdeme statistiku T 0 = T 0 (X,..., X ), kterou azveme testovým kritériem. Možia všech hodot, jichž může testové kritérium abýt, se rozpadá a obor ezamítutí ulové hypotézy (začí se V) a obor zamítutí ulové hypotézy (začí se W a azývá se též kritický obor). Tyto dva obory jsou odděley kritickými hodotami (pro daou hladiu výzamosti α je lze ajít ve statistických tabulkách). Jestliže číselá realizace t 0 testového kritéria T 0 pade do kritického oboru W, pak ulovou hypotézu zamítáme a hladiě výzamosti α a zameá to skutečé vyvráceí testovaé hypotézy. Jestliže t 0 pade do oboru ezamítutí V, pak jde o pouhé mlčeí, které platost ulové hypotézy jeom připouští. Pravděpodobosti chyb. a. druhu yí zapíšeme takto: P(T 0 W/H 0 platí) = α, P(T 0 V /H platí) = β. Staoveí kritického oboru pro daou hladiu výzamosti α: Ozačme t mi (resp. t max ) ejmeší (resp. ejvětší) hodotu testového kritéria. Kritický obor v případě oboustraé alterativy má tvar W = ( t mi, K α / (T) K α / (T), t max ), kde K α/ (T) a K -α/ (T) jsou kvatily rozložeí, jímž se řídí testové kritérium T 0, je-li ulová hypotéza pravdivá. Kritický obor v případě levostraé alterativy má tvar: W = ( t mi, K α (T). Kritický obor v případě pravostraé alterativy má tvar: W = K α (T), ) t max.
Testováí pomocí itervalu spolehlivosti Sestrojíme 00(-α)% empirický iterval spolehlivosti pro parametrickou fukci h( ϑ ). Pokryje-li teto iterval hodotu c, pak H 0 ezamítáme a hladiě výzamosti α, v opačém případě H 0 zamítáme a hladiě výzamosti α. Pro test H 0 proti oboustraé alterativě sestrojíme oboustraý iterval spolehlivosti. Pro test H 0 proti levostraé alterativě sestrojíme pravostraý iterval spolehlivosti. Pro test H 0 proti pravostraé alterativě sestrojíme levostraý iterval spolehlivosti.
Testováí pomocí p-hodoty p-hodota udává ejižší možou hladiu výzamosti pro zamítutí ulové hypotézy. Je to riziko, že bude zamítuta H 0 za předpokladu, že platí (riziko plaého poplachu). Jestliže p-hodota α, pak H 0 zamítáme a hladiě výzamosti α, je-li p- hodota > α, pak H 0 ezamítáme a hladiě výzamosti α. Způsob výpočtu p-hodoty: Pro oboustraou alterativu p = mi{p(t 0 t 0 ), P(T 0 t 0 )}. Pro levostraou alterativu p = P(T 0 t 0 ). Pro pravostraou alterativu p = P(T 0 t 0 ). Ilustrace výzamu p-hodoty pro test ulové hypotézy proti oboustraé, levostraé a pravostraé alterativě: (Zvoovitá křivka reprezetuje hustotu rozložeí, kterým se řídí testové kritérium, je-li ulová hypotéza pravdivá.) p-hodota vyjadřuje pravděpodobost, s jakou číselé realizace x,..., x áhodého výběru X,..., X podporují H 0, je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodotu. Její výpočet vyžaduje zalost distribučí fukce rozložeí, kterým se řídí testové kritérium T 0, je-li H 0 pravdivá.
Doporučeý postup při testováí hypotéz. Staovíme ulovou hypotézu a alterativí hypotézu. Přitom je vhodé zvolit jako alterativí hypotézu te předpoklad, jehož přijetí zameá závažé opatřeí a mělo by k ěmu dojít je s malým rizikem omylu.. Zvolíme hladiu výzamosti α. Zpravidla volíme α = 0,05, méě často 0, ebo 0,0. 3. Najdeme vhodé testové kritérium a a základě zjištěých dat vypočítáme jeho realizaci. 4. a) Testujeme-li pomocí kritického oboru, pak ho staovíme. Jestliže realizace testového kritéria padla do kritického oboru, ulovou hypotézu zamítáme a hladiě výzamosti α a přijímáme alterativí hypotézu. V opačém případě ulovou hypotézu ezamítáme a hladiě výzamosti α. b) Testujeme-li pomocí itervalu spolehlivosti, vypočteme empirický 00(-α)% iterval spolehlivosti pro parametrickou fukci h( ϑ ). Pokud číslo c pade do tohoto itervalu, ulovou hypotézu ezamítáme a hladiě výzamosti α. V opačém případě ulovou hypotézu zamítáme a hladiě výzamosti α a přijímáme alterativí hypotézu. c) Testujeme-li pomocí p-hodoty, vypočteme ji a porováme ji s hladiou výzamosti α. Jestliže p α, pak ulovou hypotézu zamítáme a hladiě výzamosti α a přijímáme alterativí hypotézu. Je-li p > α, pak ulovou hypotézu ezamítáme a hladiě výzamosti α. 5. Na základě rozhodutí, které jsme učiili o ulové hypotéze, provedeme ějaké kokrétí opatřeí, apř. seřídíme obráběcí stroj. (Při testováí hypotéz musíme mít k dispozici odpovídající ástroje, ejlépe vhodý statistický software. Nemáme-li ho k dispozici, musíme zát příslušé vzorce. Dále potřebujeme statistické tabulky a kalkulačku.)
Příklad: 0 x ezávisle a sobě byla změřea jistá kostata µ. Výsledky měřeí byly:,8,,4,9,,8,3,. Tyto výsledky považujeme za číselé realizace áhodého výběru X,..., X 0 z rozložeí N(µ, 0,04). Nějaká teorie tvrdí, že µ =,95.. Oboustraá alterativa Proti ulové hypotéze H 0 : µ =,95 postavíme oboustraou alterativu H : µ,95. Na hladiě výzamosti 0,05 testujte H 0 proti H všemi třemi popsaými způsoby. Řešeí: m = ( +... +,) =,06, σ = 0,04, = 0, α = 0,05, c =,95 0 a) Test provedeme pomocí kritického oboru. Pro úlohy o středí hodotě ormálího rozložeí při zámém rozptylu používáme pivotovou statistiku U = Testové kritérium tedy bude T 0 = t 0 = M c σ,06,95 0, 0 M µ σ ~ N(0, ). a bude mít rozložeí N(0, ), pokud je ulová hypotéza pravdivá. Vypočítáme realizaci testového kritéria: =,74. Staovíme kritický obor: W = ( t mi,k α / (T) K α / (T), t max ) = (, u α / u α /, ) = (, u α / u α /, ) = (, u.975 u 0, 975, ) (,,96,96, ). Protože,74 W, H 0 ezamítáme a hladiě výzamosti 0,05. 0 =
b) Test provedeme pomocí itervalu spolehlivosti. Meze 00(-α)% empirického itervalu spolehlivosti pro středí hodotu µ při zámém rozptylu σ jsou: σ σ (d, h) = (m - u-α/, m + u-α/ ). V ašem případě dostáváme: 0, 0, d =,06 - u 0,975 =,06 -.,96 =,936, 0 0 0, 0, h =,06 + u 0,975 =,06 +.,96 =,84. 0 0 Protože,95 (,936;,84), H 0 ezamítáme a hladiě výzamosti 0,05.
c) Test provedeme pomocí p-hodoty. Protože proti ulové hypotéze stavíme oboustraou alterativu, použijeme vzorec p = mi{p(t 0 t 0 ), P(T 0 t 0 )} = mi {P(T 0,74), P(T 0,74)} = = mi { Φ(,74), Φ(,74) } = mi { 0,95907, 0,95907 } = 0,0886. Jelikož 0,0886 > 0,05, ulovou hypotézu ezamítáme a hladiě výzamosti 0,05. Ilustrace výzamu p-hodoty pro oboustraý test
. Levostraá alterativa Proti ulové hypotéze H 0 : µ =,95 postavíme levostraou alterativu H : µ <,95. Na hladiě výzamosti 0,05 testujte H 0 proti H všemi třemi popsaými způsoby. Řešeí: a) Test provedeme pomocí kritického oboru. Na rozdíl od oboustraé alterativy bude mít kritický obor tvar W = u ) =,u ) =,,645) α., 0, 05 Protože,74 W, H 0 ezamítáme a hladiě výzamosti 0,05. b) Test provedeme pomocí itervalu spolehlivosti. Meze 00(-α)% empirického pravostraého itervalu spolehlivosti pro středí hodotu µ při zámém rozptylu σ jsou: σ (-, h) = (-, m + u-α ). V ašem případě dostáváme: h =,06 + 0, 0 u 0,95 =,06 + 0, 0.,645 =,64. Protože,95 (- ;,64), H 0 ezamítáme a hladiě výzamosti 0,05.
c) Test provedeme pomocí p-hodoty. Protože proti ulové hypotéze stavíme levostraou alterativu, použijeme vzorec p = P(T 0 t 0 ) = Φ(,74) = 0,95907. Jelikož 0,95907 > 0,05, ulovou hypotézu ezamítáme a hladiě výzamosti 0,05. Ilustrace výzamu p-hodoty pro levostraý test
3. Pravostraá alterativa Proti ulové hypotéze H 0 : µ =,95 postavíme pravostraou alterativu H : µ >,95. Na hladiě výzamosti 0,05 testujte H 0 proti H všemi třemi popsaými způsoby. Řešeí: a) Test provedeme pomocí kritického oboru. Na rozdíl od oboustraé alterativy bude mít kritický obor tvar W =, ) = u, ) =,645, ) u α 0, 95. Protože,74 W, H 0 zamítáme a hladiě výzamosti 0,05 ve prospěch pravostraé alterativy. b) Test provedeme pomocí itervalu spolehlivosti. Meze 00(-α)% empirického levostraého itervalu spolehlivosti pro středí hodotu µ při zámém rozptylu σ jsou: (d, ) = (m - σ u-α, ). V ašem případě dostáváme: d =,06-0, 0 u 0,95 =,06-0, 0.,645 =,956. Protože,95 (,956, ), H 0 zamítáme a hladiě výzamosti 0,05 ve prospěch pravostraé alterativy.
c) Test provedeme pomocí p-hodoty. Protože proti ulové hypotéze stavíme pravostraou alterativu, použijeme vzorec p = P(T 0 t 0 ) = - Φ(,74) = - 0,95907 = 0,04093. Jelikož 0,04093 0,05, ulovou hypotézu zamítáme a hladiě výzamosti 0,05 ve prospěch pravostraé alterativy. Ilustrace výzamu p-hodoty pro pravostraý test
Testy ormality dat K ověřováí ormality dat slouží celá řada testů, které jsou podrobě popsáy ve statistické literatuře. Zde se omezíme a dva testy, které jsou implemetováy v systému STATISTICA, a to Kolmogorovův Smirovův test a jeho Lilieforsovu variatu a Shapirův Wilksův test. K závěrům těchto testů však přistupujeme s určitou opatrostí. Máme-li k dispozici rozsáhlejší datový soubor (orietačě > 30) a test zamíte a obvyklé hladiě výzamosti 0,0 ebo 0,05 hypotézu o ormalitě, i když vzhled diagostických grafů svědčí jeom o lehkém porušeí ormality, edopustíme se závažé chyby, pokud použijeme statistickou metodu založeou a ormalitě dat. Kolmogorovův Smirovův test a jeho Lilieforsova variata Testujeme hypotézu, která tvrdí, že áhodý výběr X,..., X pochází z ormálího rozložeí s parametry µ a σ. Distribučí fukci tohoto rozložeí ozačme Φ T (x). Nechť F (x) je výběrová distribučí fukce. Testovou statistikou je statistika D = sup F (x) Φ (x). < x< T Nulovou hypotézu zamítáme a hladiě výzamosti α, když D D (α), kde D (α) je tabelovaá kritická hodota. Pro 30 lze D (α) aproximovat výrazem l α. V případě, že ezáme parametry µ a σ ormálího rozložeí, musíme je odhadout z dat (středí hodotu odhademe pomocí m a rozptyl pomocí s ). Tím se změí rozložeí testové statistiky D. Příslušé modifikovaé kvatily byly určey pomocí simulačích studií. V této situaci používáme Lilieforsovu variatu Kolmogorovova Smirovova testu.
Shapirův Wilksův test ormality dat Testujeme hypotézu, která tvrdí, že áhodý výběr X,..., X pochází z ormálího rozložeí N(µ, σ ). Testová statistika má tvar: m ( ) i i= = m [ X X ] a ( i+ ) ( i) W, ( X i M) i= kde m = / pro sudé a m = (-)/ pro liché. Koeficiety a () i jsou tabelováy. Na testovou statistiku W lze pohlížet jako a korelačí koeficiet mezi uspořádaými pozorováími a jim odpovídajícími kvatily stadardizovaého ormálího rozložeí. V případě, že data vykazují perfektí shodu s ormálím rozložeím, bude mít W hodotu. Hypotézu o ormalitě tedy zamíteme a hladiě výzamosti α, když se a této hladiě eprokáže korelace mezi daty a jim odpovídajícími kvatily rozložeí N(0,). Lze také říci, že S W test je založe a zjištěí, zda body v Q-Q grafu jsou výzamě odlišé od regresí přímky proložeé těmito body. (S-W test se používá především pro výběry meších rozsahů, < 50, ale v systému STATISTICA je implemetováo jeho rozšířeí i a výběry velkých rozsahů, kolem 000.)
Adersoův Darligův test Testujeme hypotézu, která tvrdí, že áhodý výběr X,..., X pochází z ormálího rozložeí N(µ, σ ). Testová statistika má tvar: AD x m x = (i ) l Φ l + i s Φ = ( i) + ( i) s m, kde x (i) jsou vzestupě uspořádaé realizace áhodého výběru, Φ je distribučí fukce rozložeí N(0,). Hypotéza H 0 se zamítá a hladiě výzamosti α, je-li vypočítaá hodota testové statistiky AD větší ež kritická hodota D -α. Pro velký rozsah výběru se přibližá 95% kritická hodota počítá podle vzorce D 0,95,03,0348 0,93 =
Příklad: Jsou dáy hodoty 0,, 8, 9, 6. Pomocí Lilieforsova testu, S W testu a A D testu testujte a hladiě výzamosti 0,05 hypotézu, že tato data pocházejí z ormálího rozložeí. Řešeí: Vytvoříme ový datový soubor o jedé proměé azvaé X a pěti případech. Do proměé X zapíšeme uvedeé hodoty. Provedeí Lilieforsova a S-W testu: V meu vybereme Statistiky Základí statistiky/tabulky Tabulky četostí OK, Proměé X OK. Na záložce zvolíme Normalita a zaškrteme Lilieforsův test a Shapiro Wilksův W test Testy ormality. Testy ormality (Tabulka) N max D Lilliefors W p Proměá p X 5 0,4085 p >.0 0,940 0,485 Vidíme, že testová statistika K-S testu je d = 0,409, odpovídající Lilieforsova p-hodota je větší ež 0,, tedy hypotézu o ormalitě ezamítáme a hladiě výzamosti 0,05. Testová statistika S-W testu je W = 0,94, odpovídající p-hodota je 0,485, tedy hypotézu o ormalitě ezamítáme a hladiě výzamosti 0,05. Provedeí A - D testu: Statistiky Rozděleí & simulace proložeí dat rozděleími OK Proměé Spojité: X a záložce Spojité proměé poecháme zaškrtuté pouze Normálí, a záložce Možosti vybereme Aderso Darlig OK Souhré statistiky rozděleí. Souhr rozděleí for Proměá: x (Tabulka4) K-S d K-S p-hod. AD stat. AD p-hod. Chí-kvadrát Chí-kvadr. p-hod. Normálí (poloha,měřítko) 0,4085 0,950 0,959 0,9407 Chí-kvadr. SV Posu (práh/poloha) Testová statistika A D testu je 0,95, odpovídající p-hodota je 0,940, tedy hypotézu o ormalitě ezamítáme a hladiě výzamosti 0,05.
Srováí S-W testu, Lilieforsovy variaty K-S testu a A-D testu pomocí simulačích studií Simulačí studie byly provedey v bakalářské práci Marka Haičmaa Simulace a testy ormality. Odhad pravděpodobosti chyby. druhu Bylo vygeerováo 00 000 áhodých výběrů z ormálího rozložeí, jejichž rozsahy se pohybovaly od 5 do 000. Na tyto výběry byly aplikováy oba testy (s hladiou výzamosti 0,05) a byla staovea relativí četost těch případů, kdy došlo k eoprávěému zamítutí pravdivé ulové hypotézy. Tato relativí četost je považováa za odhad pravděpodobosti chyby. druhu. Závislost odhadu pravděpodobosti chyby. druhu a rozsahu výběru (hodoty a vodorové ose jsou logaritmováy) Výsledek: Lileforsův test má pravděpodobost chyby. druhu ezávislou a rozsahu výběru, udržuje se a 5 %. S-W test má do velikosti výběru 60 vyšší pravděpodobost chyby. druhu, poté poklese pod 5 % a již evystoupí ad 5 %.
Odhad pravděpodobosti chyby. druhu Pro toto zkoumáí byla vybráa ásledující rozložeí: rovoměré spojité, expoeciálí, logaritmicko ormálí, Studetovo s jedím, třemi a pěti stupi volosti. Pro každé z těchto rozložeí bylo vygeerováo 00 000 áhodých výběrů o rozsazích 5 až 000. Při aplikaci všech tří testů byla zjišťováa relativí četost těch případů, kdy test ezamítl epravdivou ulovou hypotézu. Tato relativí četost je považováa za odhad pravděpodobosti chyby. druhu. Ilustrace pro rovoměré spojité rozložeí a expoeciálí rozložeí: závislost odhadu pravděpodobosti chyby. druhu a rozsahu výběru (hodoty a vodorové ose jsou logaritmováy) Výsledek: Lilieforsův test a A-D test ejméě chybují u velmi malých výběrů, orietačě do 0 prvků. S-W test a A-D test se pro výběry větších rozsahů (ad 60) vesměs edopouštějí chyby. K chybám však dochází i pro velmi rozsáhlé výběry ze Studetova rozložeí.
Staoveí hraice 0 % odhadu pravděpodobosti chyby. druhu Zde byl hledá rozsah výběru z rovoměrého, expoeciálího, logaritmicko ormálího a Studetova rozložeí tak, aby odhadu pravděpodobosti chyby. druhu byl aejvýš 0 %. Tabulka miimálích rozsahů výběrů, pro ěž je odhad pravděpodobosti chyby. druhu ejvýše 0 %: Výsledek: S-W test a A-D test je možo použít a výběry meších rozsahů ež Lilieforsův test. U výběrů, jejichž rozsah je meší ež 5, emá příliš smysl testovat hypotézu o ormalitě, eboť pravděpodobost chyby. druhu je příliš vysoká (ad 70 %).
Parametrické úlohy o jedom áhodém výběru z ormálího rozložeí Motivace: K ejčastěji používaým statistickým metodám patří kostrukce itervalů spolehlivosti pro parametry ormálího rozložeí či testováí hypotéz o těchto parametrech. Normálí rozložeí je charakterizováo dvěma parametry středí hodotou µ a rozptylem σ. Budeme tedy řešit úlohy, které se týkají těchto dvou parametrů. K tomu slouží apř. jedovýběrový z-test, t- test či test o rozptylu. Můžeme také mít k dispozici áhodý výběr z dvourozměrého rozložeí s vektorem středích hodot µ µ a aším úkolem bude posoudit rozdílost středích hodot µ,µ. K řešeí tohoto problému slouží párový t-test. Osova: - rozložeí statistik odvozeých z výběrového průměru a výběrového rozptylu - vzorce pro meze itervalů spolehlivosti pro středí hodotu a rozptyl - jedotlivé typy testů pro parametry ormálího rozložeí (z-test, jedovýběrový t-test, test o rozptylu, párový t-test)
Rozložeí statistik odvozeých z výběrového průměru a výběrového rozptylu Nechť X,..., X je áhodý výběr z rozložeí N(µ, σ ). Pak platí σ M µ a) M ~ N(µ, ), tedy U = ~ N(0, ). σ (Pivotová statistika U slouží k řešeí úloh o µ, když σ záme.) ( )S σ b) K = ~ χ (-). (Pivotová statistika K slouží k řešeí úloh o σ, když µ ezáme.) (X i µ ) i= c) ~ χ (). σ (Tato pivotová statistika slouží k řešeí úloh o σ, když µ záme.) d) T = M µ S ~ t(-). (Pivotová statistika T slouží k řešeí úloh o µ, když σ ezáme.)
Vysvětleí ad a) Výběrový průměr M je lieárí kombiace áhodých veliči s ormálím rozložeím, má tedy ormálí rozložeí s parametry E(M) = µ, D(M) = σ /. Statistika U se získá stadardizací M. ad b) Vhodou úpravou výběrového rozptylu S, kde použijeme obrat X i - M = (X i - µ) (M - µ), lze statistiku K vyjádřit jako součet kvadrátů - stochasticky ezávislých áhodých veliči se stadardizovaým ormálím rozložeím. Teto součet se řídí rozložeím χ (-). ad c) Tato statistika je součet kvadrátů stochasticky ezávislých áhodých veliči se stadardizovaým ormálím rozložeím, řídí se tedy rozložeím χ (). ad d) U ~ N(0, ), K ~ χ (-) jsou stochasticky ezávislé, protože M a S jsou stochasticky ezávislé, tudíž statistika T U K M µ = S = ~ t(-).
Příklad: Hmotost balíčku krystalového cukru baleého a automatické lice se řídí ormálím rozložeím se středí hodotou 00 g a směrodatou odchylkou 8 g. Kotrolor áhodě vybírá 9 balíčků z jedé série a zjišťuje, zda jejich průměrá hmotost je alespoň 999 g. Pokud e, podik musí zaplatit pokutu 0 000 Kč. Jaká je pravděpodobost, že podik bude muset zaplatit pokutu? Řešeí: 64 X ~ N(00, 64), M ~ N 00, 9 M 00 999 00 9 9 9 P M 999 P = = P U = Φ = Φ = Φ,5 = 0,87076 = 0, 64 64 8 8 8 9 9 ( ) ( ) 94 Pravděpodobost, že podik bude platit pokutu, je asi,9%. Řešeí pomocí systému STATISTICA: Využijeme toho, že STATISTICA pomocí fukce INormal(x;mu;sigma) umí vypočítat hodotu distribučí fukce ormálího rozložeí se středí hodotou mu a směrodatou odchylkou sigma. Tedy P( M 999) = Φ( 999), kde Ф je distribučí fukce rozložeí N(00, 64/9). Otevřeme ový datový soubor o jedé proměé a jedom případu. Dvakrát klikeme a ázev proměé Prom. Do Dlouhého jméa této proměé apíšeme = INormal(999;00;8/3). V proměé Prom se objeví hodota 0,3095.
Vzorce pro meze 00(-α)% empirických itervalů spolehlivosti pro µ a σ a) Iterval spolehlivosti pro µ, když σ záme (využití pivotové statistiky U) σ σ Oboustraý: (d, h) = (m - u-α/, m + u-α/ ) Levostraý: (d, ) = (m - Pravostraý: (-, h) = (-, m + σ u-α, ) σ u-α ) b) Iterval spolehlivosti pro µ, když σ ezáme (využití pivotové statistiky T) Oboustraý: (d, h) = (m - Levostraý: (d, ) = (m - s s Pravostraý: (-, h) = (-, m + t -α/ (-), m + t -α (-), ) s t -α (-)) s t -α/ (-))
c) Iterval spolehlivosti pro σ, když µ ezáme (využití pivotové statistiky K) Oboustraý: (d, h) = Levostraý: (d, ) = Pravostraý: (-, h) = χ ( )s ( )s, α / ( ) χ α / ( ) ( )s, χ α ( ) ( )s, χ ( α ) d) Iterval spolehlivosti pro σ i, když µ záme (využití pivotové statistiky Oboustraý: (d, h) = Levostraý: (d, ) = Pravostraý: (-, h) = (x i µ ) (x i µ ) i= i=, χ α / () χ α / () (x i µ ) i=, χ α () (x i µ ) i=, χ α () (X i µ ) σ = )
Příklad: 0 krát ezávisle a sobě byla změřea jistá kostata µ. Výsledky měřeí byly:,8,,4,9,,8,3,. Tyto výsledky považujeme za číselé realizace áhodého výběru X,..., X 0 z rozložeí N(µ, σ ), kde parametry µ, σ ezáme. Najděte 95% empirický iterval spolehlivosti jak pro µ, tak pro σ a to a) oboustraý, b) levostraý, c) pravostraý. Řešeí: m =,06, s = 0,0404, s = 0,0, α = 0,05, t 0,975 (9) =,6, t 0,95 (9) =,833, χ 0,975(9) = 9,03, χ 0,05(9) =,7, χ 0,95(9) = 6,99, χ 0,05(9) = 3,35 ad a) Oboustraý iterval spolehlivosti pro středí hodotu µ d = m - h = m + s s t -α/ (-) =,06 - t -α/ (-) =,06 + 0,0 0 0,0 0,6 =,9,6 =,0,9 < µ <,0 s pravděpodobostí aspoň 0,95. Oboustraý iterval spolehlivosti pro rozptyl σ d = χ ( ) s α / ( ) ( ) s α / ( ) 9 0,0404 = = 0,09 9,03 9 0,0404 h = = = 0,347 χ,7 0,09 < σ < 0,347 s pravděpodobostí aspoň 0,95.
ad b) Levostraý iterval spolehlivosti pro středí hodotu µ d = m - s t -α (-) =,06-0,0 0,94 < µ s pravděpodobostí aspoň 0,95.,833 =,94 Levostraý iterval spolehlivosti pro rozptyl σ ( ) s 9 0,0404 d = = = 0,05 χ α ( ) 6,99 σ > 0,05 s pravděpodobostí aspoň 0,95. ad c) Pravostraý iterval spolehlivosti pro středí hodotu µ h = m + s t -α (-) =,06 + 0,0 0 µ <,8 s pravděpodobostí aspoň 0,95.,833 =,8 Pravostraý iterval spolehlivosti pro rozptyl σ ( ) s 9 0,0404 h = = = 0,094 χ α ( ) 3,35 σ < 0,094 s pravděpodobostí aspoň 0,95.
Řešeí pomocí systému STATISTICA: Vytvoříme ový datový soubor o jedé proměé X a 0 případech. Do proměé X apíšeme daé hodoty. Statistika Základí statistiky a tabulky Popisé statistiky OK Proměé X OK Detailí výsledky zaškrteme Meze spolehl. prům. a Meze sp. směr. odch. (ostatí volby zrušíme) pro oboustraý 95% iterval spolehlivosti poecháme implicití hodotu pro Iterval 95,00, pro jedostraé itervaly změíme hodotu a 90,00. Výsledky pro oboustraé 95% itervaly spolehlivosti pro středí hodotu µ, pro směrodatou odchylku σ a rozptyl σ : It. spolehl. -95,000% It. spolehl. 95,000 Spolehlivost Sm.Odch. Spolehlivost Sm.Odch. NProm =v3 ^ NProm =v4 ^ Proměá -95,000% +95,000% X,9636,03864 0,3839 0,36745 0,0935 0,34795 Vidíme, že,9 < µ <,0 s pravděpodobostí aspoň 0,95, 0,383 < σ < 0,367 s pravděpodobostí aspoň 0,95. 0,09 < σ < 0,348 s pravděpodobostí aspoň 0,95.
Výsledky pro jedostraé 95% itervaly spolehlivosti pro středí hodotu µ, pro směrodatou odchylku σ a rozptyl σ : It. spolehl. -90,000% It. spolehl. 90,000 Spolehlivost Sm.Odch. Spolehlivost Sm.Odch. NProm =v3^ NProm =v4^ Proměá -90,000% +90,000% X,9434,76579 0,46678 0,33086 0,054 0,0947 Vidíme, že µ >,94 s pravděpodobostí aspoň 0,95, µ <,0 s pravděpodobostí aspoň 0,95, σ > 0,467 s pravděpodobostí aspoň 0,95, σ < 0,3309 s pravděpodobostí aspoň 0,95, σ > 0,05 s pravděpodobostí aspoň 0,95, σ < 0,095 s pravděpodobostí aspoň 0,95,
Jedotlivé typy testů pro parametry ormálího rozložeí a) Nechť X,..., X je áhodý výběr N(µ, σ ), kde σ záme. Nechť a c je kostata. Test H 0 : µ = c proti H : µ c se azývá jedovýběrový z-test. b) Nechť X,..., X je áhodý výběr N(µ, σ ), kde σ ezáme. Nechť a c je kostata. Test H 0 : µ = c proti H : µ c se azývá jedovýběrový t-test. c) Nechť X,..., X je áhodý výběr N(µ, σ ), kde µ ezáme. Nechť a c je kostata. Test H 0 : σ = c proti H : σ c se azývá test o rozptylu.
Provedeí testů o parametrech µ, σ pomocí kritického oboru a) Provedeí jedovýběrového z-testu m c Vypočteme realizaci testového kritéria t 0 = σ. Staovíme kritický obor W. Pokud t 0 W, H 0 zamítáme a hladiě výzamosti α a přijímáme H. Oboustraý test: Testujeme H 0 : µ = c proti H : µ c. Kritický obor má tvar: (, u u ) W = α / α /,. Levostraý test: Testujeme H 0 : µ = c proti H : µ < c. Kritický obor má tvar: W = (, u α. Pravostraý test: Testujeme H 0 : µ = c proti H : µ > c. Kritický obor má tvar: W u ). =, α b) Provedeí jedovýběrového t-testu Vypočteme realizaci testového kritéria výzamosti α a přijímáme H. t 0 m c = s. Staovíme kritický obor W. Pokud t 0 W, H 0 zamítáme a hladiě ( Oboustraý test: Testujeme H 0 : µ = c proti H : µ c. Kritický obor má tvar: W =, t α / ( ) t α / ( ), ) Levostraý test: Testujeme H 0 : µ = c proti H : µ < c. Kritický obor má tvar: W = (, t α ( ). Pravostraý test: Testujeme H 0 : µ = c proti H : µ > c. Kritický obor má tvar: W t ( ) ). = α,.
c) Provedeí testu o rozptylu Vypočteme realizaci testového kritéria výzamosti α a přijímáme H. t 0 ( ) s =. Staovíme kritický obor W. Pokud t c 0 W, H 0 zamítáme a hladiě Oboustraý test: Testujeme H 0 : σ = c proti H : σ c. Kritický obor má tvar:. ( ) χ / ( ) ) W = 0, χ / α α, Levostraý test: Testujeme H 0 : σ = c proti H : σ < c. Kritický obor má tvar: W 0, χ ( ) = α. Pravostraý test: Testujeme H 0 : σ = c proti H : σ > c. Kritický obor má tvar: W = χ α ( ), ).
Příklad: Podle údajů a obalu čokolády by její čistá hmotost měla být 5 g. Výrobce dostal ěkolik stížostí od kupujících, ve kterých tvrdili, že hmotost čokolád je ižší ež deklarovaých 5 g. Z tohoto důvodu odděleí kotroly áhodě vybralo 50 čokolád a zjistilo, že jejich průměrá hmotost je g a směrodatá odchylka 8,6 g. Za předpokladu, že hmotost čokolád se řídí ormálím rozložeím, můžeme a hladiě výzamosti 0,0 považovat stížosti kupujících za oprávěé? Řešeí: X,..., X 50 je áhodý výběr z N(µ, σ ). Testujeme hypotézu H 0 : µ = 5 proti levostraé alterativě H : µ < 5. Protože ezáme rozptyl σ, použijeme jedovýběrový t-test. m c 5 Testové kritérium = =, 4667 s 8,6. Kritický obor (, t ( ) =, t ( 49) 50 ( = (,, 4049 W = α 0, 99. Jelikož testové kritérium se realizuje v kritickém oboru, zamítáme ulovou hypotézu a hladiě výzamosti 0,0. Stížosti kupujících tedy lze považovat za oprávěé. Výpočet pomocí systému STATISTICA: Statistiky Základí statistiky a tabulky Testy rozdílů: r, %, průměry OK vybereme Rozdíl mezi dvěma průměry (ormálí rozděleí) zaškrteme Výběrový průměr vs. Středí hodota a zvolíme jedostr. do políčka Pr apíšeme, do políčka SmOd apíšeme 8,6, do políčka N apíšeme 50, do políčka Pr apíšeme 5 - Výpočet. Dostaeme p- hodotu 0,0086, tedy zamítáme ulovou hypotézu a hladiě výzamosti 0,0
Náhodý výběr z dvourozměrého rozložeí Nechť X Y, X, Y je áhodý výběr z dvourozměrého rozložeí, přičemž. Ozačíme µ = µ - µ a zavedeme rozdílový áhodý výběr Z = X - Y,..., Z = X -Y, o ěmž předpokládáme, že se řídí ormálím rozložeím. Vypočteme M = Z i, S = ( Zi M). i= i= Vzorec pro meze 00(-α)% empirického itervalu spolehlivosti pro středí hodotu rozdílového áhodého výběru Oboustraý: (d, h) = (m - Levostraý: (d, ) = (m - s s Pravostraý: (-, h) = (-, m + t -α/ (-), m + t -α (-), ) s t -α (-)) s t -α/ (-))
Příklad: Dvěma rozdílými laboratorími metodami se zjišťoval obsah chemické látky v roztoku (v procetech). Bylo vybráo 5 vzorků a proměřeo oběma metodami. Výsledky měřeí jsou obsažey v tabulce: číslo vzorku 3 4 5. metoda,3,9,,4,6. metoda,4,0,0,3,5 Za předpokladu, že data mají ormálí rozložeí, sestrojte 90% empirický iterval spolehlivosti pro rozdíl středích hodot výsledků obou metod. Řešeí: Přejdeme k rozdílovému áhodému výběru, jehož realizace jsou: -0, -0, 0, 0, 0,. Vypočteme m = 0,0, s = 0,0, s = 0,09545. Předpokládáme, že tato data pocházejí z ormálího rozložeí N(µ, σ ). Vypočteme meze 90% oboustraého itervalu spolehlivosti pro µ při ezámém σ: d = m s 0,09545 t α / 0, 95 5 h = m + s 0,09545 t α / = 0,0 + t 0, 95 5 0,09545 ( ) = 0,0 t ( 4) = 0,0,38 = 0, 0844 5 0,09545 = 0,0 +,38 5 ( ) ( 4) 0, 44 = -0,0844 < µ < 0,44 s pravděpodobostí aspoň 0,9.
Výpočet pomocí systému STATISTICA: Vytvoříme ový datový soubor o 3 proměých a 5 případech. Do. proměé X apíšeme hodoty pro. metodu, do. proměé Y hodoty pro. metodu a do 3. proměé Z rozdíly mezi X a Y. Statistiky Základí statistiky a tabulky Popisé statistiky, OK - Proměé Z, Detailí výsledky zaškrteme Meze spolehl. Prům. Iterval 90% - Výpočet. Dostaeme tabulku: Popisé statistiky (chemicka latka) Proměá It. spolehl. -90,000% It. spolehl. 90,000 Z -0,084439 0,4439 Vidíme tedy, že -0,0844 < µ < 0,44 s pravděpodobostí aspoň 0,9.
Párový t-test X X Nechť,, je áhodý výběr z dvourozměrého rozložeí, přičemž. Ozačíme µ = µ µ a zavedeme Y Y rozdílový áhodý výběr Z = =, jehož výběrový průměr je M = X Y,, Z X Y Z i i= a výběrový rozptyl je S = ( Zi M). Předpokládáme, že teto áhodý výběr pochází z ormálího rozložeí. Test hypotézy o rozdílu i= středích hodot µ µ se azývá párový t-test a provádí se stejě jako jedovýběrový t-test aplikovaý a rozdílový áhodý výběr Z = X Y,, Z = X. Y Provedeí párového t-testu Vypočteme realizaci testového kritéria výzamosti α a přijímáme H. t 0 m c s =. Staovíme kritický obor W. Pokud t 0 W, H 0 zamítáme a hladiě ( Oboustraý test: Testujeme H 0 : µ = c proti H : µ c. Kritický obor má tvar: W =, t α / ( ) t α / ( ), ) Levostraý test: Testujeme H 0 : µ = c proti H : µ < c. Kritický obor má tvar: W = (, t α( ). Pravostraý test: Testujeme H 0 : µ = c proti H : µ > c. Kritický obor má tvar: W t ( ) ). = α,.
Příklad: V ásledující tabulce jsou údaje o výososti dosažeé áhodě vybraými firmami při ivestováí do meziárodího podikáí (veličia X) a do domácího podikáí (veličia Y): č.firmy 3 4 5 6 7 8 9 0 X 047 9 5 9 7 5 Y 4536037 9 9 (Výosost je vyjádřea v procetech a představuje podíl a zisku vložeých ivestic za rok.) Za předpokladu, že data pocházejí z dvourozměrého rozložeí a jejich rozdíl se řídí ormálím rozložeím, a hladiě výzamosti 0, testujte hypotézu, že eexistuje rozdíl mezi středí hodotou výososti ivestic do meziárodího a domácího podikáí proti oboustraé alterativě. Testováí proveďte a) pomocí itervalu spolehlivosti, b) pomocí kritického oboru. (Pro úsporu času záme realizace výběrového průměru m =, 3 výběru Z i = X i Y i, i =,,.) Řešeí: Testujeme H 0 : µ = 0 proti H : µ 0 ad a) 90% iterval spolehlivosti pro středí hodotu µ při ezámém rozptylu σ má meze: s d = m t, 95 s h = m + t, 95 4,78 ( ) =,3,7959 =, 4677 0 4,78 ( ) =,3 +,7959 = 0, 989 0 a výběrového rozptylu s = 4, 78 rozdílového áhodého Protože číslo c = 0 eleží v itervalu (-,4677; -0,989), H 0 zamítáme a hladiě výzamosti 0,. m c,3 t 0 s 4,78 =, t t, = (,,7959,7959, ad b) Vypočítáme realizaci testové statistiky = = =, 085 Staovíme kritický obor W ( 0,95 ( ) 0, 95 ( ) ) ) Protože testová statistika se realizuje v kritickém oboru, H 0 zamítáme a hladiě výzamosti 0,.
Výpočet pomocí systému STATISTICA: Vytvoříme ový datový soubor o proměých a případech. Do. proměé X apíšeme hodoty pro meziárodí podikáí, do. proměé hodoty pro domácí podikáí. Statistiky Základí statistiky a tabulky t-test pro závislé vzorky, OK - Proměé X, Y OK Výpočet. Dostaeme tabulku: Proměá X Y t-test pro závislé vzorky (ivestovai) Ozač. rozdíly jsou výzamé a hlad. p <,05000 Průměr Sm.odch. N Rozdíl Sm.odch. t sv p rozdílu,9667,937480 3,5000 3,048845 -,33333,88 -,085 0,058490 Vypočteou p-hodotu 0,05849 porováme se zvoleou hladiou výzamosti α = 0,. Protože p α, zamítáme ulovou hypotézu a hladiě výzamosti 0,.
Parametrické úlohy o dvou ezávislých áhodých výběrech z ormálích rozložeí Motivace: Máme-li k dispozici dva ezávislé áhodé výběry z ormálích rozložeí, je aším úkolem porovat středí hodoty či rozptyly těchto rozložeí. Zpravidla kostruujeme itervaly spolehlivosti pro rozdíl středích hodot respektive hodotíme shodu středích hodot pomocí dvouvýběrového t-testu či dvouvýběrového z-testu a shodu rozptylů pomocí F- testu. Osova: - rozložeí statistik odvozeých ze dvou výběrových průměrů a rozptylů - vzorce pro meze itervalů spolehlivosti pro rozdíl středích hodot a podíl rozptylů - jedotlivé typy testů pro parametry dvou ormálích rozložeí (dvouvýběrový z-test, dvouvýběrový t-test, F-test) - Coheův koeficiet věcého účiku
Rozložeí statistik odvozeých z výběrových průměrů a výběrových rozptylů ormálích rozložeí Předpokládáme, že X,, je áhodý výběr z rozložeí N(µ, σ ), X X,, je áhodý výběr z rozložeí N(µ, σ ), X přičemž a a oba výběry jsou stochasticky ezávislé. Ozačme M, M výběrové průměry, S, S výběrové rozptyly a S * = ( )S + ( + )S vážeý průměr výběrových rozptylů.
Pak platí: a) Statistiky M M a b) U = ( M ) ( ) M µ µ ~ N(0, ). σ σ + S * jsou stochasticky ezávislé. (Pivotová statistika U slouží k řešeí úloh o µ µ, když σ a σ záme.) c) Jestliže σ = σ =: σ ( + ) S*, pak K = ~ χ ( + ). σ (Pivotová statistika K slouží k řešeí úloh o ezámém společém rozptylu σ.) d) Jestliže σ = σ =: σ, pak T = ( M ) ( ) M µ µ ~ t( + ). S * + (Pivotová statistika T slouží k řešeí úloh o µ µ, když σ a σ ezáme, ale víme, že jsou shodé.) S /S e) F = ~ F(, ). σ / σ (Pivotová statistika F slouží k řešeí úloh o σ / σ.)
Vysvětleí: ad a) Neuvádíme, viz apř. J. Aděl: Matematická statistika. ad b) M M je lieárí kombiace áhodých veliči s ormálím rozložeím, má tedy ormálí rozložeí s parametry E(M M ) = µ - µ, D(M M ) = σ / + σ /. U se získá stadardizací M M. ( ) S ad c) K = ~ χ ( ) S ( ) a K = ~ χ ( ) jsou stochasticky ezávislé áhodé veličiy, tedy σ σ K = K + K ~ χ ( + ). ad d) U = ( M ) ( ) M µ µ ( + ~ N(0, ), K = σ σ σ + M M a ( ) ad e) K = σ F K ) S* U S* jsou stochasticky ezávislé. T = = K + S = S /S K = σ / σ S ~ χ ( ) ( ) a K = σ ~ F(, ). ~ χ ( + ) jsou stochasticky ezávislé, protože ( M M ) ( µ µ ) ~ t( + ). S * + ~ χ ( ) jsou stochasticky ezávislé áhodé veličiy, tedy
Příklad: Nechť jsou dáy dva ezávislé áhodé výběry, prví pochází z rozložeí N(0,8; 0,09) a má rozsah 6, druhý pochází z rozložeí N(0,5; 0,04) a má rozsah 5. Jaká je pravděpodobost, že výběrový průměr. výběru bude větší ež výběrový průměr. výběru? Řešeí: (M M ) ( µ µ ) 0 ( µ µ ) P ( M > M ) = P( M M > 0) = P( M M 0) = P 0,8 0,5 P + = U = P(U 0,3594) = Φ( 0,35) = Φ(0,35) = 0,63683 0,09 0,04 + 6 5 S pravděpodobostí přibližě 63,7% je výběrový průměr. výběru větší ež výběrový průměr. výběru. Výpočet pomocí systému STATISTICA: σ σ + σ σ + = Statistika M M se podle bodu (a) řídí rozložeím N(µ µ, σ + σ ), σ σ 0,09 0,04 kde µ µ = 0,8 0,5 = 0,03, + = + 0, 0075 6 5 =, tj. statistika M - M ~ N(0,03;0,0075). Otevřeme ový datový soubor o jedé proměé a jedom případu. Do Dlouhého jméa této proměé apíšeme = -INormal(0;0,03;sqrt(0,0075)). V proměé Prom se objeví hodota 0,637934: Prom 0,637934
Itervaly spolehlivosti pro parametrické fukce µ - µ, σ /σ Uvedeme přehled vzorců pro meze 00(-α)% empirických itervalů spolehlivosti pro parametrické fukce µ - µ, σ / σ. a) Iterval spolehlivosti pro µ -µ, když σ, σ záme (využití pivotové statistiky U) Oboustraý: (d, h) = (m m Levostraý: (d, ) = (m m σ σ Pravostraý: (-, h) = (-,m m + σ + σ + σ u -α/, m m + u -α, ) σ + u -α ) b) Iterval spolehlivosti pro µ -µ, když σ, σ ezáme, ale víme, že jsou shodé (využití pivotové statistiky T) Oboustraý: σ σ + u -α/ ) (d, h) = (m m s * + t -α/ ( + -), m m + s * + t -α/ ( + -)) Levostraý: (d, ) = (m m s + t -α ( + -), ) Pravostraý: (-, h) = (-, m m + s + t -α ( + -)) * *
c) Iterval spolehlivosti pro společý ezámý rozptyl σ (využití pivotové statistiky K) Oboustraý: (d, h) = + χ + + χ + α α ) ( )s (, ) ( )s ( / * / * Levostraý: (d, ) = + χ + α, ) ( )s ( * Pravostraý: (-, h) = + χ + α ) ( )s (, * d) Iterval spolehlivosti pro podíl rozptylů σ σ (využití pivotové statistiky F) Oboustraý: (d, h) = α α ), ( F s / s, ), ( F s / s / / - Levostraý: (d, ) = α, ), ( F s / s - Pravostraý: (-, h) = α ), ( F s / s, Upozorěí: Neí-li v bodě (b) splě předpoklad o shodě rozptylů, lze sestrojit aspoň přibližý 00(-α)% iterval spolehlivosti pro µ -µ. V tomto případě má statistika T přibližě rozložeí t( ν ), kde počet stupňů volosti ν = ( ) ( ) ( ) / s / s / s / s + +. Neí-li ν celé číslo, použijeme v tabulkách kvatilů Studetova rozložeí lieárí iterpolaci.
Příklad: Ve dvou ádržích se zkoumal obsah chlóru (v g/l). Z prví ádrže bylo odebráo 5 vzorků, z druhé ádrže 0 vzorků. Byly vypočtey realizace výběrových průměrů a rozptylů: m = 34,48, m = 35,59, s =,748, s =,7. Hodoty zjištěé z odebraých vzorků považujeme za realizace dvou ezávislých áhodých výběrů z rozložeí N(µ, σ ) a N(µ, σ ). Sestrojte 95% empirický iterval spolehlivosti pro rozdíl středích hodot µ - µ. Řešeí: Úloha vede a vzorec (b) s využitím statistiky T. Vypočteme vážeý průměr výběrových rozptylů a ajdeme odpovídající kvatily Studetova rozložeí: ( )s + ( )s 4,748 + 9,7 s * = = =, 7384, t + 33 0,975 (33) =,035 Dosadíme do vzorců pro dolí a horí mez itervalu spolehlivosti: d = m m s * + t -α/ ( + -) = = 34,48 35,59 -,7384 +, 035 = -,4 5 0 h = m m + s * + t -α/ ( + -) = = 34,48 35,59 +,7384 +, 035 = -0,06 5 0 -,4 g/l < µ - µ < -0,06 g/l s pravděpodobostí aspoň 0,95.
Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o dvou proměých d a h a jedom případu. Do Dlouhého jméa proměé d apíšeme =34,48-35,59-sqrt((4*,748+9*,7)/33)*sqrt((/5)+(/0))*VStudet(0,975;33) Do Dlouhého jméa proměé h apíšeme =34,48-35,59+ sqrt((4*,748+9*,7)/33)*sqrt((/5)+(/0))*vstudet(0,975;33) d h -,368-0,063 S pravděpodobostí aspoň 0,95 tedy -,4 g/l < µ - µ < -0,06 g/l.
Příklad: V předešlém příkladě yí předpokládáme, že daé dva áhodé výběry pocházejí z rozložeí N(µ, σ ) a N(µ, σ ). Sestrojte 95% empirický iterval spolehlivosti pro podíl rozptylů. Řešeí: Úloha vede a vzorec (d) s využitím statistiky F. s / s,748/,7,748/,7 d = = = = 0, 8 F (, ) F (4,9) 3,64 -α/ 0,975 s / s,748/,7,748 /,7,748/,7 h = = = = =, 76 F (, ) F (4,9) / F (9,4) /,707 α/ σ 0,8 < σ 0,05 0,975 <,76 s pravděpodobostí aspoň 0,95. Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o dvou proměých d a h a jedom případu. Do Dlouhého jméa proměé d apíšeme =(,748/,7)/VF(0,975;4;9) (Fukce VF(x;ý;omega) počítá x-kvatil Fisherova Sedecorova rozložeí F(ý, omega).) Do Dlouhého jméa proměé h apíšeme =(,748/,7)/VF(0,05;4;9) d h 0,85,759698 S pravděpodobostí aspoň 0,95 tedy platí: 0,8 < σ / σ <,76.
Jedotlivé typy testů o parametrických fukcích µ - µ, σ /σ a) Nechť X,, X je áhodý výběr z rozložeí N(µ, σ ) a X,, X je a ěm ezávislý áhodý výběr z rozložeí N(µ, σ ), přičemž, a σ, σ záme. Nechť c je kostata. Test H 0 : µ µ = c proti H : µ µ c se azývá dvouvýběrový z-test. b) Nechť X,, X je áhodý výběr z rozložeí N(µ, σ ) a X,, X je a ěm ezávislý áhodý výběr z rozložeí N(µ, σ ), přičemž a a σ ezáme. Nechť c je kostata. Test H 0 : µ µ = c proti H : µ µ c se azývá dvouvýběrový t-test. c) Nechť X,, X je áhodý výběr z rozložeí N(µ, σ ) a X,, X je a ěm ezávislý áhodý výběr rozlože- í N(µ, σ σ ), přičemž a. Test H 0 : σ σ = proti H : σ se azývá F-test.
Provedeí testů o parametrických fukcích µ - µ, σ /σ pomocí kritického oboru a) Provedeí dvouvýběrového z-testu ( M M ) c Vypočteme realizaci t 0 testového kritéria T0 =. Staovíme kritický obor W. Pokud t 0 W, H 0 zamítáme a σ σ + hladiě výzamosti α a přijímáme H. Oboustraý test: Testujeme H 0 : µ - µ = c proti H : µ - µ c. Kritický obor má tvar: (, u u ) W = α / α /,. Levostraý test: Testujeme H 0 : µ - µ = c proti H : µ - µ < c. Kritický obor má tvar: W = (, u α. Pravostraý test: Testujeme H 0 : µ - µ = c proti H : µ - µ > c. Kritický obor má tvar: W = u, α ). b) Provedeí dvouvýběrového t-testu ( M M ) c Vypočteme realizaci t 0 testového kritéria T0 =. Staovíme kritický obor W. Pokud t 0 W, H 0 zamítáme a S* + hladiě výzamosti α a přijímáme H. Oboustraý test: Testujeme H 0 : µ - µ = c proti H : µ - µ c. Kritický obor má tvar: (, t ( + ) t ( + ) ) W = α / α /,. ( Levostraý test: Testujeme H 0 : µ - µ = c proti H : µ - µ < c. Kritický obor má tvar: W =, t α ( + ) Pravostraý test: Testujeme H 0 : µ - µ = c proti H : µ - µ > c. Kritický obor má tvar: t ( + ) ). W = α,.
c) Provedeí F-testu s t = s Vypočteme realizaci testového kritéria 0 výzamosti α a přijímáme H.. Staovíme kritický obor W. Pokud t 0 W, H 0 zamítáme a hladiě σ σ Oboustraý test: Testujeme H 0 : = proti H : σ σ ( 0,F (, ) F (, ) ) W = α / α /,. σ Levostraý test: Testujeme H 0 : σ σ Pravostraý test: Testujeme H 0 : σ σ = proti H : σ σ = proti H : σ. Kritický obor má tvar: = ( α. <. Kritický obor má tvar: 0,F (, ) W >. Kritický obor má tvar: F (, ) ) W = α,.
Příklad: V restauraci "U bílého koíčka" měřili ve 0 případech čas obsluhy zákazíka. Výsledky v miutách: 6, 8,, 4, 7, 6, 0, 6, 9, 8, 5,, 3, 0, 9, 8, 7,, 0, 5. V restauraci "Zlatý lev" bylo daé pozorováí uskutečěo v 5 případech s těmito výsledky: 9,, 0, 7, 6, 4, 8, 3, 5, 5, 8, 5, 6, 8,7. Za předpokladu, že uvedeé hodoty pocházejí ze dvou ormálích rozložeí, a hladiě výzamosti 0,05 testujte hypotézu, že středí hodoty doby obsluhy jsou v obou restauracích stejé. Řešeí: Na hladiě výzamosti 0,05 testujeme ulovou hypotézu H 0 : µ - µ = 0 proti oboustraé alterativě H : µ µ 0. Je to úloha a dvouvýběrový t-test. Před provedeím tohoto testu je však uté pomocí F-testu ověřit shodu rozptylů. Na hladiě σ σ výzamosti 0,05 tedy testujeme H 0 : = proti H :. Nejprve vypočteme m = 8,5, m = 8,3, s = 6,307, s = σ σ ( )s + ( )s 9 6,307 + 4 9,4 9,4, s* = = = 7, 63. Podle vzorce (c) vypočteme realizaci testové statistiky: + 33 t 0 = W = s 6,307 = = 0,670. Staovíme kritický obor: s 9,4 (, ) F / (, ), ) = 0, F0,05 ( 9,4 ) F0,975 ( 9,4 ), ) = ( 4,9 ) F ( 9,4 ), ) = 0,/,649,8607, ) = 0;0,3778,8607, ) = 0, Fα / α 0,/ F 0,975 0,975 Protože se testová statistika erealizuje v kritickém oboru, ulovou hypotézu ezamítáme a hladiě výzamosti 0,05. Rozptyly tedy můžeme považovat za shodé. Nyí se vrátíme k dvouvýběrovému t-testu. Podle vzorce (b) vypočteme realizaci testové statistiky: m m c 8,5 8,3 t 0 = = = 0,4. Staovíme kritický obor: s* + 7,63 + 0 5 W = (, t α / ( + ) t α / ( + ), ) = (, t 0,975( 33) t 0, 975( 33), ) = (,,035,035, ) Protože testová statistika se erealizuje v kritickém oboru, ulovou hypotézu ezamítáme a hladiě výzamosti 0,05.
Výpočet pomocí systému STATISTICA: Otevřeme ový datový soubor o dvou proměých a 35 případech. Prví proměou azveme OBSLUHA, druhou ID. Do proměé OBSLUHA apíšeme ejprve doby obsluhy v prví restauraci a poté doby obsluhy ve druhé restauraci. Do proměé ID, která slouží k rozlišeí prví a druhé restaurace, apíšeme 0 krát jedičku a 5 krát dvojku. Pomocí NP-grafu ověříme ormalitu dat v obou skupiách. Grafy D Grafy Normálí pravděpodobostí grafy zaškrteme S-W test - Proměé OBSLUHA, OK, Kategorizovaý Kategorie X, zaškrteme Zaputo, Změit proměou ID, OK. Dostaeme graf,0 Normálí p-graf z obsluha; kategorizovaý id restaurace.sta v*35c,5,0 Oček. ormál. hodoty 0,5 0,0-0,5 -,0 -,5 -,0 4 6 8 0 4 6 4 6 8 0 4 6 id: obsluha: SW-W = 0,975; id: p = 0,787 Pozorovaý kvatil id: obsluha: SW-W = 0,9345; p = 0,385 V obou případech se tečky odchylují od přímky jeom málo a p-hodoty S-W testu převyšují 0,05. Předpoklad o ormálím rozložeí dat v obou skupiách je oprávěý. id:
Nyí provedeme dvouvýběrový t-test současě s testem o shodě rozptylů: Statistika Základí statistiky a tabulky t-test, ezávislé, dle skupi OK, Proměé Závislé proměé OBSLUHA, Grupovací proměá ID OK. Po klikutí a tlačítko Souhr dostaeme tabulku t-testy; grupováo: ID (restaurace) Skup. : Skup. : Průměr Průměr t sv p Poč.plat Poč.plat. Sm.odch. Sm.odch. F-poměr p Proměá rozptyly rozptyly OBSLUHA 8,50000 8,33333 0,3730 33 0,9079 0 5,50504 3,067495,4995 0,40440 Vidíme, že testová statistika pro test shody rozptylů se realizuje hodotou,4995 (je to převráceá hodota k číslu 0,670, které jsme vypočítali při ručím postupu), odpovídající p-hodota je 0,4044, tedy a hladiě výzamosti 0,05 ezamítáme hypotézu o shodě rozptylů. (Upozorěí: v případě zamítutí hypotézy o shodě rozptylů je zapotřebí v tabulce t-testu pro ezávislé vzorky dle skupi zaškrtout volbu Test se samostatými odhady rozptylu.) Dále z tabulky plye, že testová statistika pro test shody středích hodot se realizuje hodotou 0,373, počet stupňů volosti je 33, odpovídající p-hodota 0,9079, tedy hypotézu o shodě středích hodot ezamítáme a hladiě výzamosti 0,05. Zameá to, že s rizikem omylu ejvýše 5% se eprokázal rozdíl ve středích hodotách dob obsluhy v restauracích "U bílého koíčka" a Zlatý lev.
Tabulku ještě doplíme krabicovými diagramy. Na záložce Detaily zaškrteme krabicový graf a vybereme volbu Průměr/SmOdch/Mi-Max. 6 Krabicový graf z obsluha seskupeý id restaurace.sta v*35c 4 obsluha 0 8 6 4 id Průměr Průměr±SmOdch Mi-Max Odlehlé Extrémy Z grafu je vidět, že průměrá doba obsluhy v prví restauraci je epatrě delší a má meší variabilitu ež ve druhé restauraci. Extrémí ai odlehlé hodoty se zde evyskytují.
Upozorěí: V případě, že záme realizace obou výběrových průměrů a směrodatých odchylek, můžeme pro provedeí dvouvýběrového t-testu v systému STATISTICA použít aplikaci Tesy rozdílů. Postup si ukážeme a příkaldě s dobou obsluhy ve dvou restauracích Statistiky Základí statistiky a tabulky Testy rozdílů: r, %, průměry OK vybereme Rozdíl mezi dvěma průměry (ormálí rozděleí) do políčka Pr apíšeme 8,5, do políčka SmOd apíšeme,505, do políčka N apíšeme 0, do políčka Pr apíšeme 8,5, do políčka SmOd apíšeme 3,0675, do políčka N apíšeme 5 Výpočet. Dostaeme p- hodotu 0,903, tedy ezamítáme ulovou hypotézu a hladiě výzamosti 0,05.
Nepoviá část: Coheův koeficiet věcého účiku doplěí výzamu dvouvýběrového t-testu: Nechť X,, X je áhodý výběr z rozložeí N(µ, σ ) a X,, X je a ěm ezávislý áhodý výběr rozložeí N(µ, σ ), přičemž a a σ ezáme. Nechť c je kostata. Testujeme H 0 : µ µ = c proti H : µ µ c. Ozačme m, m realizace výběrových průměrů hodot daé veličiy v těchto dvou skupiách, s, s ( ) s + ( ) s realizace výběrových rozptylů a s* = realizaci vážeého průměru + výběrových rozptylů. m m Coheův koeficiet d vypočteme podle vzorce: d =. s* Teto koeficiet slouží k posouzeí velikosti rozdílu průměrů, který je stadardizová pomocí odmociy z vážeého průměru výběrových rozptylů. Jedá se o tzv. věcou výzamost eboli velikost účiku skupiy a variabilitu hodot sledovaé áhodé veličiy. Velikost účiku hodotíme podle ásledující tabulky: Hodota d aspoň 0,8 mezi 0,5 až 0,8 mezi 0, až 0,5 pod 0, účiek velký středí malý zaedbatelý (Uvedeé hodoty emají samozřejmě absolutí platost, posouzeí, jaký účiek považujeme za velký či malý, závisí a kotextu.) Je zapotřebí si uvědomit, že při dostatečě velkých rozsazích áhodých výběrů i malý rozdíl ve výběrových průměrech způsobí zamítutí ulové hypotézy a hladiě výzamosti α, i když z věcého hlediska tak malý rozdíl emá výzam. Naopak, máme-li výběry malých rozsahů, pak i začě velký rozdíl ve výběrových průměrech emusí vést k zamítutí ulové hypotézy a hladiě výzamosti α.
Příklad: Máme k dispozici údaje o celkovém IQ 856 žáků ZŠ. Zajímáme se jedak o skupiu dětí, jejichž oba rodiče mají pouze základí vzděláí (je jich 96) a jedak o skupiu dětí, jejichž oba rodiče mají vysokoškolské vzděláí (těch je 75). Na hladiě výzamosti 0,05 budeme testovat hypotézu, že středí hodota celkového IQ je v obou skupiách stejá a také vypočteme Coheův koeficiet věcého účiku. Řešeí:Normalitu dat v obou skupiách posoudíme pomocí N-P plotu: 4 Normálí p-graf z IQ_CELK; kategorizovaý ID 3 Očekávaá ormálí hodota 0 - - -3-4 50 70 90 60 80 0 30 50 00 0 40 ID: oba ZŠ 50 70 90 60 80 0 30 50 00 0 40 ID: oba VŠ Vzhled N- P plotů v obou skupiách podporuje doměku o ormalitě dat. Provedeme dvouvýběrový t-test: t-testy; grupováo:zš a VŠ (IQ) Skup. : oba ZŠ Skup. : oba VŠ Průměr Průměr t sv p Poč.plat Poč.plat. Sm.odch. Sm.odch. F-poměr p Proměá oba ZŠ oba VŠ oba ZŠ oba VŠ oba ZŠ oba VŠ Rozptyly Rozptyly IQ_CELK 94,385 0,9067-0,695 369 0,000000 96 75,8604 3,6064,389 0,04 Hypotézu o shodě středích hodot zamítáme a hladiě výzamosti 0,05, protože odpovídající p-hodota je velmi blízká 0 (hypotézu o shodě rozptylů ezamítáme a hladiě výzamosti 0,05, p-hodota F-testu je 0,04, což je větší ež 0,05).
Krabicový diagram: 50 Krabicový graf z IQ_CELK seskupeý ID 40 30 0 IQ_CELK 0 00 90 80 70 60 50 oba ZŠ ID oba VŠ Průměr Průměr±SmOdch Mi-Max Odlehlé Extrémy Vidíme, že průměré celkové IQ dětí v. skupiě je 94,, zatímco ve. skupiě 0,9. Vliv skupiy a variabilitu hodot celkového IQ posoudíme pomocí Coheova koeficietu. 3 m 4 m 5 s 6 s 7 d 96 75 94,385 0,9067,8604 3,6064,3747 Coheův koeficiet abývá hodoty,37, tudíž vliv skupiy a variabilitu hodot celkového IQ lze považovat za velký.
Parametrické úlohy o jedom a dvou výběrech z alterativího rozložeí Osova: Případ jedoho áhodého výběru - asymptotické rozložeí statistiky odvozeé z výběrového průměru alterativího rozložeí - vzorec pro meze itervalu spolehlivosti pro parametr alterativího rozložeí - testováí hypotézy o parametru alterativího rozložeí Případ dvou ezávislých áhodých výběrů - asymptotické rozložeí statistiky odvozeé z výběrových průměrů dvou ezávislých alterativích rozložeí - vzorec pro meze itervalu spolehlivosti pro rozdíl parametrů dvou alterativích rouložeí - testováí hypotézy o rozdílu parametrů dvou alterativích rozložeí
Případ jedoho áhodého výběru: S áhodým výběrem rozsahu z alterativího rozložeí se setkáváme v situaci, kdy provádíme opakovaých ezávislých pokusů a v každém z těchto pokusů sledujeme astoupeí úspěchu. Pravděpodobost úspěchu je pro všechy pokusy stejá. Náhodá veličia X i abude hodoty, pokud v i-tém pokusu astal úspěch a hodoty 0, pokud v i-tém pokusu úspěch eastal, i =,,,. Realizací áhodého výběru X,, X je tedy posloupost 0 a. Opakováí: Alterativí rozložeí: Náhodá veličia X udává počet úspěchů v jedom pokusu, přičemž pravděpodobost úspěchu je ϑ. Píšeme X ~ A( ϑ). ϑ pro x = 0 x x ϑ ( ϑ) pro x = 0, π(x) = ϑ pro x = eboli π(x) = 0 jiak 0 jiak Biomické rozložeí: Náhodá veličia X udává počet úspěchů v poslouposti ezávislých opakovaých pokusů, přičemž pravděpodobost úspěchu je v každém pokusu ϑ. Píšeme X ~ Bi(, ϑ). x x ϑ ( ϑ) pro x = 0,, π(x) = x 0 jiak E(X) = ϑ, D(X) = ϑ (- ϑ ) (Alterativí rozložeí je speciálím případem biomického rozložeí pro =. Jsou-li X,..., X stochasticky ezávislé áhodé veličiy, X i ~ A( ϑ), i =,...,, pak X = X i ~ Bi(, ϑ).) i=
Cetrálí limití věta: Jsou-li áhodé veličiy X,, X stochasticky ezávislé a všechy mají stejé rozložeí se středí hodotou µ a rozptylem σ, pak pro velká ( 30) lze rozložeí součtu X i aproximovat ormálím rozložeím N(µ, σ ). Zkráceě píšeme Xi N( µ, σ ) i=. X i µ i= Pokud součet X i stadardizujeme, tj. vytvoříme áhodou veličiu U =, pak rozložeí této áhodé veličiy lze aproximovat stadardizovaým ormálím rozložeím. Zkráceě píšeme U i= σ N(0,) Normálí rozložeí je tedy rozložeím limitím, k ěmuž se blíží všecha rozložeí, proto hraje velmi důležitou roli v počtu pravděpodobosti a matematické statistice. i=
Ilustrace cetrálí limití věty opakovaé hody kostkou
Asymptotické rozložeí statistiky odvozeé z výběrového průměru Nechť X,..., X je áhodý výběr z rozložeí A( ϑ) a echť je splěa podmíka ( ϑ) > 9 Pak statistika U M ϑ ϑ. = koverguje v distribuci k áhodé veličiě se stadardizovaým ormálím rozložeím. ϑ( ϑ) (Říkáme, že U má asymptoticky rozložeí N(0,) a píšeme U N(0,).) Vysvětleí: Protože X,..., X je áhodý výběr z rozložeí A( ϑ ), bude mít statistika Y = X i (výběrový úhr) rozložeí Bi(, ϑ ). Y má středí hodotu E(Y ) = ϑ a rozptyl D(Y ) = ϑ( ϑ). Podle cetrálí limití věty se stadardizovaá statistika Y ϑ U = asymptoticky řídí stadardizovaým ormálím rozložeím N(0,). Pokud čitatele i jmeovatele podělíme, ϑ( ϑ) dostaeme vyjádřeí: U = Y ϑ ϑ = i= X M ϑ ( ϑ) ϑ( ϑ) ϑ( ϑ) i ϑ = N( 0,) i=
Vzorec pro meze 00(-α)% asymptotického empirického itervalu spolehlivosti pro parametr ϑ. Meze 00(-α)% asymptotického empirického itervalu spolehlivosti pro parametr ϑ jsou: m( m) m( m) d = m u α /, h = m + u α /. Vysvětleí: ϑ Pokud rozptyl ( ) ( ϑ) M D M = ahradíme odhadem N(0,) se eporuší. Tedy M ϑ ϑ Ξ : α P u < < = α / u α / M( M) = P M M( M) u α / < ϑ < M + M( M) u α / ( M), kovergece áhodé veličiy U k veličiě s rozložeím
Příklad: Náhodě bylo vybráo 00 osob a zjištěo, že 34 z ich akupuje v iteretových obchodech. Najděte 95% asymptotický iterval spolehlivosti pro pravděpodobost, že áhodě vybraá osoba akupuje v iteretových obchodech. Řešeí: Zavedeme áhodé veličiy X,..., X 00, přičemž X i =, když i-tá osoba akupuje v iteretových obchodech a X i = 0 jiak, i =,..., 00. Tyto áhodé veličiy tvoří áhodý výběr z rozložeí A( ϑ). = 00, m = 34/00, α = 0,05, u -α/ = u 0,975 =,96. Ověřeí podmíky ϑ (- ϑ ) > 9: parametr ϑ ezáme, musíme ho ahradit výběrovým průměrem. Pak 00.0,34.0,66 =,44 > 9. 0,34( 0,34) 0,34( 0,34) d = 0,34,96 = 0,47, h = 0,34 +,96 = 0,438. 00 00 S pravděpodobostí přibližě 0,95 tedy 0,47 < ϑ < 0,438. Zameá to, že s pravděpodobostí přibližě 95% je v uvažovaé populaci ejméě 4,7% a ejvíce 43,3% osob, které akupují v iteretových obchodech.
Výpočet pomocí systému STATISTICA: Použijeme modul Aalýza síly testu Statistiky Aalýza síly testu Odhad itervalu Jede podíl, Z, Chí-kvadrát test OK Pozorovaý podíl p: 0,34, Velikost vzorku: 00, Spolehlivost: 0,95 Vypočítat. Dostaeme tabulku: Podíl vzorku p Velikost vz. ve skup. (N) Iterval spolehlivosti Meze spolehlivosti: Pí (přesě): Dolí mez Horí mez Pí (přibližě): Dolí mez Horí mez Pí (původ.): Dolí mez Horí mez Hodota 0,3400 00,0000 0,9500 0,48 0,445 0,50 0,443 0,47 0,438 Zajímá ás výsledek uvedeý v dolí části tabulky, tj. Pí (původ.). Zjišťujeme, že s pravděpodobostí aspoň 0,95 se pravděpodobost ákupu v iteretových obchodech bude pohybovat v mezích 0,47 až 0,438.
Příklad: Kolik osob musíme vybrat, abychom podíl modrookých osob v populaci odhadli se spolehlivostí 90% a šířka itervalu spolehlivosti byla aejvýš a) 0,06, b) 0,0? Řešeí: Šířka 00(-α)% asymptotického empirického itervalu spolehlivosti pro parametr ϑ : h d = m + m( m) u Požadujeme, aby h d, tedy m( m) = m( m) α / m u α / u α / m( m) u α /. Odtud vyjádříme 4m ( ) Předpokládejme, že emáme žádé předběžé iformace o podílu modrookých osob v populaci. Musíme tedy zvolit takové m, aby šířka itervalu spolehlivosti byla maximálí. Maximalizujeme výraz m( m) = m m. Derivujeme podle m a položíme rovo 0: m = 0 m =.V tomto případě volíme relativí četost m = 0,5. 4m( m) u 4 0,5 0,5 u 4 0,5 0,5,645 ad a) α / 0,95 = = = 75,67 0,06 0,06 Uvedeou podmíku tedy splíme, když vybereme aspoň 75 osob. ad b) ( ) 4m m u α / 0,95 4 0,5 0,5 u = 0,0 4 0,5 0,5,645 = 0,0 = 7060,5 m u α /. Chceme-li dosáhout podstatě užšího itervalu spolehlivosti, musíme vybrat aspoň 7 06 osob.
Modifikace: Předpokládejme, že v populaci je aejvýš 30% modrookých osob. Pak relativí četost m = 0,3. 4m( m) u 4 0,3 0,7 u 4 0,3 0,7,645 ad a) α / 0,95 = = = 63,4 0,06 0,06 V tomto případě stačí vybrat 63 osob. Ve srováí s předešlým případem vidíme, že rozsah výběru skutečě klesl. ad b) 4m( m) u 4 0,3 0,7 u α / 0,95 4 0,3 0,7,645 = = 0,0 0,0 V tomto případě musíme vybrat aspoň 73 osob. = 730,6
Testováí hypotézy o parametru ϑ Nechť X,..., X je áhodý výběr z rozložeí A(ϑ) a echť je splěa podmíka ( ϑ) > 9 Na asymptotické hladiě výzamosti α testujeme hypotézu H 0 : ϑ = c proti alterativě H : ϑ c (resp. H : ϑ < c resp. H : ϑ > c). Testovým kritériem je statistika T 0 M c c( c) ϑ. =, která v případě platosti ulové hypotézy má asymptoticky rozložeí N(0,). Kritický obor má tvar W= (, u α/ u α/, ) (resp. W = (, u α resp. W u, ) ). (Testováí hypotézy o parametru ϑ lze samozřejmě provést i pomocí 00(-α)% asymptotického itervalu spolehlivosti ebo pomocí p-hodoty.) = α
Příklad: Podíl zmetků při výrobě určité součástky čií ϑ = 0,0. Bylo áhodě vybráo 000 výrobků a zjistilo se, že mezi imi je 6 zmetků. Na asymptotické hladiě výzamosti 0,05 testujte hypotézu H 0 : ϑ = 0,0 proti oboustraé alterativě H : ϑ 0,0. Řešeí: Zavedeme áhodé veličiy X,..., X 000, přičemž X i =, když i-tý výrobek byl zmetek a X i = 0 jiak, i =,..., 000. Tyto áhodé veličiy tvoří áhodý výběr z rozložeí A( ϑ ). Testujeme hypotézu H 0 : ϑ = 0,0 proti alterativě H : ϑ 0,0. 6 Záme: = 000, m = = 0, 06, c = 0,0, α = 0,05, u -α/ = u 0,975 =,96 000 Ověřeí podmíky ϑ ( ϑ) > 9 : 000.0,0.0,99 = 9,9 > 9. a) Testováí pomocí kritického oboru: m c 0,06 0,0 Realizace testového kritéria: t 0 = = =,907. c ( c) 0,0 0,99 000 Kritický obor: W = (, u 0,975 u 0, 975, ) = (,96,96, ) výzamosti 0,05. b) Testováí pomocí itervalu spolehlivosti m( m) 0,06 0,984 d = m u α / = 0,06,96 000 =,. Protože,907 W, H 0 ezamítáme a asymptotické hladiě 0,008 m( m) 0,06 0,984 h = m + u α / = 0,06 +,96 = 0,038 000 Protože číslo c = 0,0 leží v itervalu 0,008 až 0,038, H 0 ezamítáme a asymptotické hladiě výzamosti 0,05. c) Testováí pomocí p-hodoty Protože testujeme ulovou hypotézu proti oboustraé alterativě, vypočteme p-hodotu podle vzorce: p = mi{ Φ(,907), Φ(,907) } = mi { 0,9704, 0,9704 } = 0,0579. Protože vypočteá p-hodota je větší ež hladia výzamosti 0,05, H 0 ezamítáme a asymptotické hladiě výzamosti 0,05.
Výpočet pomocí systému STATISTICA a) Využití aplikace Testy rozdílů Statistiky Základí statistiky a tabulky Testy rozdílů: r, %, průměry OK vybereme Rozdíl mezi dvěma poměry do políčka P apíšeme 0,06, do políčka N apíšeme 000, do políčka P apíšeme 0,0, do políčka N apíšeme 3767 (větší hodotu systém eumoží) - Výpočet. Dostaeme p-hodotu 0,066, tedy ezamítáme ulovou hypotézu a hladiě výzamosti 0,05.
b) Využití modulu Aalýza síly testu Statistiky Aalýza síly testu Odhad itervalu Jede podíl, Z, Chí-kvadrát test OK Pozorovaý podíl p: 0,06, Velikost vzorku: 000, Spolehlivost: 0,95 Vypočítat. Dostaeme tabulku: Podíl vzorku p Velikost vz. ve skup. (N) Iterval spolehlivosti Meze spolehlivosti: Pí (přesě): Dolí mez Horí mez Pí (přibližě): Dolí mez Horí mez Pí (původ.): Dolí mez Horí mez Hodota 0,060 000,0000 0,9500 0,009 0,059 0,0095 0,064 0,008 0,038 Zajímá ás výsledek uvedeý v dolí části tabulky, tj. Pí (původ.). Zjišťujeme, že s pravděpodobostí aspoň 0,95 se pravděpodobost vyrobeí zmetku bude pohybovat v mezích 0,008 až 0,038. Protože teto iterval obsahuje číslo 0,0, elze ulovou hypotézu zamítout a asymptotické hladiě výzamosti 0,05.
Příklad: Nový léčebý postup považujeme za úspěšý, pokud po jeho ukočeí bude dosažeo zlepšeí zdravotího stavu u alespoň 50% zúčastěých pacietů. Nová terapie byla vyzkoušea u 40 pacietů a ke zlepšeí došlo u 4 osob, tj. u 60%. Je možé a asymptotické hladiě výzamosti 0,05 zamítout hypotézu, že tato terapie edosahuje úspěšosti aspoň 50%? Řešeí: Zavedeme áhodé veličiy X,..., X 40, přičemž X i =, když terapie u i-tého pacieta byl úspěšá a X i = 0 jiak, i =,..., 40. Tyto áhodé veličiy tvoří áhodý výběr z rozložeí A( ϑ ). Testujeme hypotézu H 0 : ϑ 0,5 proti pravostraé alterativě H : ϑ > 0,5. 4 Záme: = 40, m = = 0, 6, c = 0,5, α = 0,05, u -α = u 0,95 =,645 40 Ověřeí podmíky ϑ ( ϑ) > 9 : 40.0,6.0,4 = 9,6 > 9. m c 0,6 0,5 Realizace testového kritéria: t 0 = = =,649. c ( c) 0,5 0,5 40 Kritický obor: u, ) = u, ) =,645 ) W = α 0, 95,. Protože,649 W, H 0 ezamítáme a asymptotické hladiě výzamosti 0,05.
Výpočet pomocí systému STATISTICA: Vypočteá p-hodota jedostraého testu je 0,03, tedy větší ež asymptotická hladia výzamosti 0,05. H 0 ezamítáme a asymptotické hladiě výzamosti 0,05.
Případ dvou ezávislých výběrů z alterativích rozložeí: Provádíme opakovaě ezávisle -krát jede áhodý pokus a ezávisle a tom -krát druhý áhodý pokus. V prví sérii pokusů sledujeme ějaký jev, který v každém pokusu může astat s pravděpodobostí ϑ a ve druhé sérii pokusů sledujeme ějaký jiý jev, jehož pravděpodobost astoupeí je ϑ. Parametry ϑ, ϑ ezáme. Naším úkolem bude kostruovat iterval spolehlivosti pro parametrickou fukci ϑ ϑ ebo testovat hypotézu o této parametrické fukci, a to pomocí dvou ezávislých áhodých výběrů z alterativích rozložeí A( ϑ ), ( ) A ϑ. Asymptotické rozložeí statistiky odvozeé ze dvou výběrových průměrů alterativích rozložeí Nechť X,, X je áhodý výběr z alterativího rozložeí A( ϑ ) a X,, X je a ěm ezávislý áhodý výběr alter- ativího rozložeí A( ϑ ) a echť jsou splěy podmíky ϑ (- ϑ ) > 9 a ϑ (- ϑ ) > 9. Ozačme M, M výběrové průměry. Pak statistika M ( ϑ ϑ ) ( ϑ ) ϑ ( ϑ ) M U = N( 0,). ϑ + Vysvětleí: Aalogicky jako v případě jedoho áhodého výběru z alterativího rozložeí.
Vzorec pro meze 00(-α)% asymptotického empirického itervalu spolehlivosti pro parametrickou fukci ϑ ϑ. Meze 00(-α)% asymptotického empirického itervalu spolehlivosti pro ϑ ϑ jsou: / u ) m ( m m ) m ( m m d α + =, / u ) m ( m m ) m ( m m h α + + = Vysvětleí: Pokud rozptyl ( ) ( ) i i i i D M ϑ ϑ = ahradíme odhadem ( ) i i i M M, i =,, kovergece áhodé veličiy U k veličiě s rozložeím N(0,) se eporuší. Tedy ( ) ( ) ( ) ( ) ( ) ( ) ( ) ) u M M M M M M u M M M M M P(M u M M M M M M u P : / / / / α α α α + + < ϑ < ϑ + = < + ϑ ϑ < α Ξ ϑ ϑ
Příklad: Maagemet supermarketu vyhlásil týde slev a sledoval, zda toto vyhlášeí má vliv a podíl větších ákupů (ad 500 Kč). Na základě áhodého výběru 00 zákazíků v týdu bez slev bylo zjištěo 97 velkých ákupů, zatímco v týdu se slevou z 300 áhodě vybraých zákazíků učiilo velký ákup 6 zákazíků. Sestrojte 95% asymptotický iterval spolehlivosti pro rozdíl pravděpodobostí uskutečěí většího ákupu v týdu bez slevy a v týdu se slevou. Řešeí: Zavedeme áhodou veličiu X i, která bude abývat hodoty, když v týdu bez slevy i-tý áhodě vybraý zákazík uskutečí větší ákup a hodoty 0 jiak, i =,, 00. Náhodé veličiy X,,, X,00 tvoří áhodý výběr z rozložeí A( ϑ ). Dále zavedeme áhodou veličiu X i, která bude abývat hodoty, když v týdu se slevou i-tý áhodě vybraý zákazík uskutečí větší ákup a hodoty 0 jiak, i =,, 300. Náhodé veličiy X,,, X,300 tvoří áhodý výběr z rozložeí A( ϑ ). = 00, = 300, m = 97/00 = 0,485, m = 6/300 = 0,54. Ověřeí podmíek ϑ (- ϑ ) > 9 a ϑ (- ϑ ) > 9: Parametry ϑ a ϑ ezáme, ahradíme je odhady m a m, tedy 97.(-97/00) = 49,955 > 9, 6.(-6/300) = 74,5 > 9. Meze 00(-α)% asymptotického empirického itervalu spolehlivosti pro parametrickou fukci ϑ ϑ jsou: d = m m m( m) m ( m ) + u α / = 97 00 6 300 97 00 ( 00 97 00 ) + 6 300 ( 300 6 300 ),96 = 0,443 h = m m + m( m) m ( m ) + u α / = 97 00 6 300 + 97 00 ( 00 97 00 ) + 6 300 ( 300 6 300 ),96 = 0,0343 Zjistili jsme tedy, že s pravděpodobostí přibližě 0,95: 0,443 < ϑ ϑ < 0,0343.
Testováí hypotézy o parametrické fukci ϑ ϑ Nechť X,, X je áhodý výběr z alterativího rozložeí A( ϑ ) a X,, X je a ěm ezávislý áhodý výběr alter- ativího rozložeí A( ϑ ) a echť jsou splěy podmíky ϑ (-ϑ ) > 9 a ϑ (- ϑ ) > 9. Na asymptotické hladiě výzamosti α testujeme ulovou hypotézu H 0 : ϑ ϑ = c proti alterativě H : ϑ ϑ c (resp. H : ϑ ϑ < c resp. H : ϑ ϑ > c). Testovým kritériem je statistika T 0 =, která v případě platosti ulové hypotézy má asymptoticky rozložeí N(0,). M ( M ) M ( M ) M M + c Kritický obor má tvar (, u u ) W = α / α /, (resp. W = (, u α resp. W = u α, ) ). (Testováí hypotézy o parametrické fukci ϑ ϑ lze provést též pomocí 00(-α)% asymptotického itervalu spolehlivosti ebo pomocí p-hodoty.)
Pozámka: Postup při testováí hypotézy ϑ ϑ 0 = Je-li c = 0, pak ozačme M * M = vážeý průměr výběrových průměrů. Jako testová statistika slouží + M + T 0 = M * M M ( M ) + *, která v případě platosti ulové hypotézy má asymptoticky rozložeí N(0,). Kritický obor má tvar W = (, u α / u α /, ) (resp. W = (, u α resp. W = u α, ) ). Testová statistika T 0 vzike stadardizací statistiky M M, kde ezámé parametry ϑ, ϑ ahradíme společým odhadem M *.
Příklad: Pro údaje z příkladu o slevách v supermarketu testujte a asymptotické hladiě výzamosti 0,05 hypotézu, že týde se slevami ezvýší pravděpodobost uskutečěí většího ákupu. Řešeí: Testujeme hypotézu ϑ ϑ = 0 proti levostraé alterativě H : ϑ ϑ < 0 a asymptotické hladiě výzamosti 0,05. = 00, = 300, m = 97/00, m = 6/300, m * = (97 + 6)/500 = 0,58. Podmíky dobré aproximace byly ověřey v předešlém příkladu. Testováí pomocí itervalu spolehlivosti: Pro levostraou alterativu používáme pravostraý iterval spolehlivosti: h 97 97 6 6 m 6 ( ) ( ) ( m) m ( m ) 97 00 00 300 300 m m + + u = + +,645 = 0,0 00 300 00 300 = α Protože číslo c = 0 je obsažeo v itervalu ( ;0, 0 Testováí pomocí kritického oboru: Realizace testového kritéria: t 0 97 6 m m 00 300 = = =,058. m * ( m )( + ) 0,58( 0,58)( + ) * Kritický obor je (, u = (, u = (,, 645 00, H 0 ezamítáme a asymptotické hladiě výzamosti 0,05. 300 W = α 0, 95. Protože testové kritérium epatří do kritického oboru, H 0 ezamítáme a asymptotické hladiě výzamosti 0,05. Testováí pomocí p-hodoty: Pro levostraou alterativu se p-hodota počítá podle vzorce p = P(T 0 t 0 ): p = P( T0,058) = Φ(,058) = Φ(,058) = 0,886 = 0, 39 Protože p-hodota je větší ež 0,05, H 0 ezamítáme a asymptotické hladiě výzamosti 0,05.
Výpočet pomocí systému STATISTICA: Statistiky Základí statistiky a tabulky Testy rozdílů: r, %, průměry OK vybereme Rozdíl mezi dvěma poměry do políčka P apíšeme 0,485, do políčka N apíšeme 00, do políčka P apíšeme 0,54, do políčka N apíšeme 300 zaškrteme Jedostr. - Výpočet. Dostaeme p-hodotu 0,4, tedy ezamítáme ulovou hypotézu a hladiě výzamosti 0,05.
Test hypotézy o shodě podílů ϑ a ϑ : Systém STATISTICA počítá jedostraou p-hodotu (oz. softw. p) jako ( 0 > 0 ), proto kromě typu alterativy záleží i a zaméku realizace testového kritéria. Skutečou p-hodotu (oz. skut. p) tedy počítáme podle ásledující tabulky: 0 >0, levostraá alterativa. =. 0 >0, pravostraá alterativa. =. 3 0 <0, levostraá alterativa. =. 4 0 <0, pravostraá alterativa. =.
Parametrické úlohy o více ezávislých áhodých výběrech Osova: Porováí aspoň tří ezávislých áhodých výběrů z ormálích rozložeí (jedofaktorová aalýza rozptylu) - testováí hypotézy o shodě středích hodot - testováí hypotézy o shodě rozptylů (testy homogeity rozptylů) - zkoumáí vlastostí testů homogeity pomocí simulačích studií - post-hoc metody mohoásobého porováváí Porováí aspoň tří ezávislých áhodých výběrů z alterativích rozložeí - test homogeity biomických rozložeí - mohoásobé porováváí
I. Případ r 3 ezávislých áhodých výběrů z ormálích rozložeí (Aalýza rozptylu jedoduchého tříděí) Motivace: Zajímáme se o problém, zda lze určitým faktorem (tj. omiálí áhodou veličiou A) vysvětlit variabilitu pozorovaých hodot áhodé veličiy X, která je itervalového či poměrového typu. Např. zkoumáme, zda metoda výuky určitého předmětu (faktor A) ovlivňuje počet bodů dosažeých studety v závěrečém testu (áhodá veličia X). Předpokládáme, že faktor A má r 3 úroví a přitom i-té úrovi odpovídá i pozorováí X i,, X i, které tvoří áhodý i výběr z rozložeí N(µ i, σ ), i =,..., r a jedotlivé áhodé výběry jsou stochasticky ezávislé, tedy X ij = µ i + ε ij, kde ε ij jsou stochasticky ezávislé áhodé veličiy s rozložeím N(0, σ ), i =,, r, j =,, i. Výsledky lze zapsat do tabulky Ilustrace: faktor A výsledky úroveň X,, X úroveň X,, X úroveň r X,, X r rr
Na hladiě výzamosti α testujeme ulovou hypotézu, která tvrdí, že všechy středí hodoty jsou stejé, tj. H 0 : µ = = µ r proti alterativí hypotéze H, která tvrdí, že aspoň jeda dvojice středích hodot se liší. r Jedá se tedy o zobecěí dvouvýběrového t-testu a a prví pohled se zdá, že stačí utvořit dvojic áhodých výběrů a a každou dvojici aplikovat dvouvýběrový t-test. Hypotézu o shodě všech středích hodot bychom pak zamítli, pokud r aspoň v jedom případě z porováváí se prokáže odlišost středích hodot. Odtud je vidět, že k eoprávěému zamítutí ulové hypotézy (tj. k chybě. druhu) může dojít s pravděpodobostí větší ež α. Proto ve 30. letech 0. století vy- tvořil R. A. Fisher metodu ANOVA (aalýza rozptylu, v popsaé situaci kokrétě aalýza rozptylu jedoduchého tříděí), která uvedeou podmíku splňuje. Pokud a hladiě výzamosti α zamíteme ulovou hypotézu, zajímá ás, které dvojice středích hodot se od sebe liší. K řešeí tohoto problému slouží metody mohoásobého porováváí, apř. Scheffého ebo Tukeyova metoda.
Ozačeí: V aalýze rozptylu jedoduchého tříděí se používá tzv. tečková otace. = X i. r i i= = i j= i celkový rozsah všech r výběrů X ij součet hodot v i-tém výběru M i. = X i. výběrový průměr v i-tém výběru r i X = X součet hodot všech výběrů.. i= j= ij M.. = X.. celkový průměr všech r výběrů
Zavedeme součty čtverců S T = r i ( X ij M.. ) i= j= celkový součet čtverců (charakterizuje variabilitu jedotlivých pozorováí kolem celkového průměru), počet stupňů volosti f T =, S A = r i= i ( M M ) i... skupiový součet čtverců (charakterizuje variabilitu mezi jedotlivými áhodými výběry), počet stupňů volosti f A = r. Sčítaec ( M M ) představuje bodový odhad efektu α i. S E = i. r i ( X ij M i. ) i= j= počet stupňů volosti f E = - r... reziduálí součet čtverců (charakterizuje variabilitu uvitř jedotlivých výběrů), Lze dokázat, že S T = S A + S E. (Důkaz je provede apř. ve skriptech Budíková, Mikoláš, Osecký: Popisá statistika v pozámce 5.0.)
Testováí hypotézy o shodě středích hodot Náhodé veličiy X ij se řídí modelem M0: X ij = µ + α i + ε ij pro i =,, r, j =,, i, přičemž ε ij jsou stochasticky ezávislé áhodé veličiy s rozložeím N(0, σ ), µ je společá část středí hodoty závisle proměé veličiy, α i je efekt faktoru A a úrovi i. Parametry µ, α i ezáme. Požadujeme, aby platila tzv. reparametrizačí rovice: α 0. r i= i i = (Pokud je tříděí vyvážeé, tj. pokud mají všechy výběry stejý rozsah: = = = r, pak lze použít zjedodušeou podmíku 0.) r α i = i=
Kdyby ezáleželo a faktoru A, platila by hypotéza α = = α r = 0 a dostali bychom model M: X ij = µ + ε ij. Během aalýzy rozptylu tedy zkoumáme, zda výběrové průměry M,, M r se od sebe liší pouze v mezích áhodého kolísáí kolem celkového průměru M ebo zda se projevuje vliv faktoru A. Rozdíl mezi modely M0 a M ověřujeme pomocí testové statistiky SA / f A F A =, která se řídí rozložeím F(r-,-r), je-li model M správý. Hypotézu o evýzamosti faktoru A tedy zamíteme a hladiě výzamosti α, když platí: F A F -α SE / f E (r-,-r). Výsledky výpočtů zapisujeme do tabulky aalýzy rozptylu jedoduchého tříděí. Zdroj variability součet čtverců stupě volosti podíl F A skupiy S A f A = r - S A /f A SA SE reziduálí S E f E = - r S E /f E - celkový S T f T = - - - f f A E Sílu závislosti áhodé veličiy X a faktoru A můžeme měřit pomocí poměru determiace: z itervalu 0,. S A P =. Nabývá hodot S T
Testováí hypotézy o shodě rozptylů Před provedeím aalýzy rozptylu je zapotřebí ověřit předpoklad o shodě rozptylů v daých r výběrech. a) Leveův test: Položme Zij = Xij Mi.. Ozačíme M M S S Zi Z ZE ZA = = = = r i ( Zij MZi ) i= i i i= j= i= j= r r i j= i Z ij, Z ( M M ) Zi ij, Z, Platí-li hypotéza o shodě rozptylů, pak statistika SZA ( r ) FZA = F(r-, -r). SZE ( r) Hypotézu o shodě rozptylů tedy zamítáme a asymptotické hladiě výzamosti α, když F ZA F -α (r-, -r). (Leveův test je vlastě založe a aalýze rozptylu absolutích hodot cetrovaých pozorováí. Vzhledem k tomu, že áhodé veličiy X ij M i ejsou stochasticky ezávislé a absolutí hodoty těchto veliči emají ormálí rozložeí, je Leveův test pouze aproximativí.)
b) Browův Forsytheův test je modifikací Leveova testu. Modifikace spočívá v tom, že místo výběrového průměru i-tého výběru se při výpočtu veličiy Z ij používá mediá i-tého výběru. c) Bartlettův test: Platí-li hypotéza o shodě rozptylů a rozsahy všech výběrů jsou větší ež 6, pak statistika ( ) r ( ) r B = r ls* i ls C se asymptoticky řídí rozložeím χ ( r ). Přitom kostata i i= ( ) C = + a 3 r i= i r S * je vážeý průměr výběrových rozptylů. H 0 zamítáme a asymptotické hladiě výzamosti α, když B se realizuje v kritickém oboru W = χ α ( r ), ).
Zkoumáí vlastostí uvedeých tří testů Pro odhad pravděpodobosti chyby. druhu bylo vždy vygeerováo 00 000 áhodých výběrů, a to postupě z těchto rozložeí: N(0; ), t(0), LN(; 0,4), Ex(0,85). Všechy výběry měly stejý rozsah od 3 do s krokem, počet výběrů byl od do 0 s krokem. Jako odhad pravděpodobosti chyby. druhu sloužila relativí četost těch případů, kdy se a hladiě výzamosti 0,05 zamítla ulová hypotéza o shodě rozptylů. Simulace byly provedey v programu MathCad.
Grafy hustot zkoumaých rozložeí Normálí rozložeí N(0; ) 0,4 0,36 0,30 0,4 0,8 0, 0,06 0,00 7,8 8,6 9,4 0,,0,8 Log ormálí rozložeí LN(; 0,4) 0,5 Studetovo rozložeí t(0) 0,40 0,35 0,30 0,5 0,0 0,5 0,0 0,05 0,00 -,4 -,6-0,8 0,0 0,8,6,4 Expoeciálí rozložeí Ex(0,85) 0,4 0,8 0,3 0,6 0, 0,4 0, 0, 0,0 0 4 6 8 0 0,0 0,8,6,4 3, 4,0 4,8
Případ dvou ezávislých áhodých výběrů Nejprve bylo provedeo srováí F-testu s Bartlettovým testem a Browovým Forsytheovým testem pro dva ezávislé áhodé výběry. V grafech se modrá barva vztahuje k F-testu, červeá k Bartlettovu testu a zeleá k Browovu Forsytheovu testu. Normálí rozložeí N(0; ) 0,8 0,4 0,0 Studetovo rozložeí t(0) 0,8 0,4 0,0 odhad alfa 0,6 0, odhad alfa 0,6 0, 0,08 0,08 0,04 0,04 0,00 3 5 7 9 3 rozsah výběrů Log - ormálí rozložeí LN(; 0,4) F B B-F 0,00 3 5 7 9 3 rozsah výběrů Expoeciálí rozložeí Ex(0,85) F B B-F 0,8 0,8 0,4 0,4 0,0 0,0 odhad alfa 0,6 0, odhad alfa 0,6 0, 0,08 0,08 0,04 0,04 0,00 3 5 7 9 3 rozsah výběrů F B B-F 0,00 3 5 7 9 3 rozsah výběrů F B B-F
Kometář: Podle očekáváí je ejižších odhadů pravděpodobosti chyby. druhu dosahováo pro výběry z ormálího rozložeí, kdy všechy testy udrží odhad pod hladiou výzamosti 0,05. S postupým vzdalováím se od ormality relativí četost eoprávěého zamítutí ulové hypotézy roste, ejvyšší je pro výběry z expoeciálího rozložeí, kde se pro F-test a Bartlettův test blíží k 0,4. Pro všecha zkoumaá rozložeí dávají F-test a Bartlettův test srovatelé výsledky, u F-testu pozorujeme poěkud ižší odhad. Jedozačě ejlepší výsledky jsou dosahováy při použití B-F testu, který i pro výběry z expoeciálího rozložeí poskytuje odhad pravděpodobosti chyby. druhu dostatečě hluboko pod 0,05.
Případ více ež dvou ezávislých áhodých výběrů Dále jsme se zabývali srováím Bartlettova testu s Browovým Forsytheovým testem pro 4, 6, 8 a 0 ezávislých áhodých výběrů, jejichž rozsahy byly 3, 5, 7, 9,. Kvůli větší přehledosti jsou grafy závislosti odhadu a rozsahu výběrů uvedey zvlášť pro 4 a 6 výběrů a poté pro 8 a 0 výběrů. V grafech se modrá a zeleá barva vztahuje k Bartlettovu testu, červeá a hědá pak k Browovu Forsytheovu testu. a) Normálí rozložeí N(0; ) Počet výběrů 4 a 6 Počet výběrů 8 a 0 0,06 0,06 0,05 0,05 0,04 0,04 odhad alfa 0,03 0,0 odhad alfa 0,03 0,0 0,0 0,0 0,00 0,00-0,0 3 5 7 9 3 rozsah výběrů 4 B 4 B-F 6 B 6 B-F -0,0 3 5 7 9 3 rozsah výběrů 8 B 8 B-F 0 B 0 B-F Pro výběry z ormálího rozložeí dává Bartlettův test odhady velmi blízké hladiě výzamosti 0,05. Neí zde pozorovatelá závislost a rozsahu výběrů. Browův Forsytheův test eoprávěě zamítá ulovou hypotézu s podstatě meší relativí četostí, která epřesáhe 0,0.
b) Studetovo rozložeí t(0) Počet výběrů 4 a 6 Počet výběrů 8 a 0 0,8 0,8 0,6 0,6 0,4 0,4 0, 0, odhad alfa 0,0 0,08 0,06 odhad alfa 0,0 0,08 0,06 0,04 0,04 0,0 0,0 0,00-0,0 3 5 7 9 3 rozsah výběrů 4 B 4 B-F 6 B 6 B-F 0,00-0,0 3 5 7 9 3 rozsah výběrů 8 B 8 B-F 0 B 0 B-F Pro výběry ze Studetova rozložeí jsou výsledky Bartlettova testu již ovlivěy porušeím předpokladu ormality. Získaé odhady arůstají se zvětšujícím se rozsahem výběrů a v ejméě přízivém případě, tj. pro 0 ezávislých áhodý výběrů o rozsahu, odhad pravděpodobosti chyby. druhu převyšuje 0,6. Browův Forsytheův test eoprávěě zamítá ulovou hypotézu s relativí četostí, která epřesáhe 0,03. Rozdíly mezi odhady pro růzé počty výběrů jsou u B-F testu zaedbatelě malé.
c) Logaritmicko ormálí rozložeí LN(; 0,4) Počet výběrů 4 a 6 Počet výběrů 8 a 0 0,45 0,45 0,40 0,40 0,35 0,35 0,30 0,30 odhad alfa 0,5 0,0 0,5 odhad alfa 0,5 0,0 0,5 0,0 0,0 0,05 0,05 0,00-0,05 3 5 7 9 3 rozsah výběrů 4 B 4 B-F 6 B 6 B-F 0,00-0,05 3 5 7 9 3 rozsah výběrů 8 B 8 B-F 0 B 0 B-F Pro výběry z logaritmicko - ormálího rozložeí odhad pravděpodobosti chyby. druhu získaý Bartlettovým testem velmi výrazě arůstá, zvláště pro větší počet rozsáhlejších výběrů. Zde je dokoce o ěco vyšší ež 0,4, tudíž použití Bartlettova testu skutečě elze doporučit. Daleko lepší výsledky poskytuje Browův Forsytheův test, kde odhady zůstávají pod 0,03.
d) Expoeciálí rozložeí Ex(0,85) Počet výběrů 4 a 6 Počet výběrů 8 a 0 0,8 0,8 0,7 0,7 0,6 0,6 0,5 0,5 odhad alfa 0,4 0,3 odhad alfa 0,4 0,3 0, 0, 0, 0, 0,0-0, 3 5 7 9 3 rozsah výběrů 4 B 4 B-F 6 B 6 B-F 0,0-0, 3 5 7 9 3 rozsah výběrů 8 B 8 B-F 0 B 0 B-F Vidíme, že použití Bartlettova testu pro výběry z expoeciálího rozložeí elze vůbec doporučit. Odhad pravděpodobosti chyby. druhu je eúosě velký, v ejméě přízivém případě pro 0 ezávislých áhodých výběrů o rozsahu - se teto odhad blíží 0,75. Naproti tomu odhady získaé Browovým Forsytheovým testem jsou aejvýš 0,035, což ještě zdaleka edosahuje hladiy výzamosti 0,05.
Kometář Výsledky ašich simulačích studií vedou k závěru, že pro testy homogeity rozptylů je vhodé používat Browův Forsytheův test, a to jak pro dva, tak pro více ezávislých áhodých výběrů. Ukazuje se, že teto test lze aplikovat i a výběry, které pocházejí z výrazě eormálích rozložeí. To lze vysvětlit tím, že při jeho kostrukci jsou použity výběrové mediáy jedotlivých výběrů, přičemž mediá a rozdíl od průměru je robustí vůči odlehlým či extrémím hodotám. U Browova Forsytheova testu odhad pravděpodobosti chyby. druhu ve všech případech zůstal pod hladiou výzamosti 0,05, ejhorší výsledek byl 0,036 pro 4 ezávislé výběry z expoeciálího rozložeí. Bartlettův test zcela selhává pro výběry z esymetrických rozložeí. Např. pro 0 ezávislých výběrů z expoeciálího rozložeí, jejichž rozsah byl, se odhad pravděpodobosti chyby. druhu blížil číslu 0,8. Výhodou Browova Forsytheova testu je rověž skutečost, že velikosti odhadů vykazují je velmi epatrou závislost a počtu výběrů. Browův Forsytheův test je implemeová apř. v systémech STATISTICA či MINITAB, Bartlettův test ajdeme v systému MINITAB, F-test pak v obou zmíěých systémech.
Post hoc metody mohoásobého porováváí Zamíteme-li a hladiě výzamosti α hypotézu o shodě středích hodot, chceme zjistit, které dvojice středích hodot se liší a daé hladiě výzamosti α, tj. a hladiě výzamosti α testujeme H 0 : µ l = µ k proti H : µ l µ k pro všecha l, k =,.., r, l k. a) Mají-li všechy výběry týž rozsah p (říkáme, že tříděí je vyvážeé), použijeme Tukeyovu metodu. Testová statistika má tvar M k. M S * p l. q α ( r, r) M k. M l. S. Rovost středích hodot µ k a µ l zamíteme a hladiě výzamosti α, když * p, kde hodoty q -α (r, -r) jsou kvatily studetizovaého rozpětí a ajdeme je ve statistických ta- X ( ) X ( ) bulkách. (Studetizovaé rozpětí je áhodá veličia Q =.) s Existuje modifikace Tukeyovy metody pro estejé rozsahy výběrů, azývá se Tukeyova HSD metoda. V tomto případě má M k. M l. testová statistika tvar. Rovost středích hodot µ k a µ l zamíteme a hladiě výzamosti α, když S* + k l M k. M l. q α ( r, r). S* + k l
b) Nemají-li všechy výběry stejý rozsah, použijeme Scheffého metodu: rovost středích hodot µ k a µ l zamíteme a hladiě výzamosti α, když Mk. Ml. S* ( r ) + F ( r, r) k α. l Výhodou Scheffého testu je, že k jeho provedeí epotřebujeme speciálí statistické tabulky s hodotami kvatilů studetizovaého rozpětí, ale stačí běžé statistické tabulky s kvatily Fisherova Sedecorova rozložeí. V případě vyvážeého tříděí, kdy lze aplikovat Tukeyovu i Scheffého metodu, použijeme tu, která je citlivější. Tukeyova metoda tedy bude výhodější, když q -α (r, -r) < (r-)f -α (r-, -r). Metody mohoásobého porováváí mají obecě meší sílu ež ANOVA. Může astat situace, kdy při zamítutí H 0 eajdeme metodami mohoásobého porováváí výzamý rozdíl u žádé dvojice středích hodot. K tomu dochází zvláště tehdy, když p-hodota pro ANOVU je je o málo ižší ež zvoleá hladia výzamosti. Pak slabší test patřící do skupiy metod mohoásobého porováváí emusí odhalit žádý rozdíl.
Doporučeý postup při prováděí aalýzy rozptylu: a) Ověřeí ormality daých r áhodých výběrů (grafické metody - NP plot, Q-Q plot, histogram, testy hypotéz o ormálím rozložeí - Lilieforsova variata Kolmogorovova Smirovova testu ebo Shapirův Wilkův test). Doporučuje se kombiace obou způsobů. Závěry učiíme až a základě posouzeí obou výsledků. Obecě lze říci, že aalýza rozptylu eí příliš citlivá a porušeí předpokladu ormality, zvláště při větších rozsazích výběrů (ad 0), což je důsledek působeí cetrálí limití věty. Míré porušeí ormality tedy eí a závadu, při větším porušeí použijeme apř. Kruskalův Wallisův test jako eparametrickou obdobu aalýzy rozptylu jedoduchého tříděí. b) Po ověřeí ormality se testuje homogeitu rozptylů, tj. předpoklad, že všechy áhodé výběry pocházejí z ormálích rozložeí s týmž rozpylem. Graficky ověřujeme shodu rozptylů pomocí krabicových diagramů, kdy sledujeme, zda je šířka krabic stejá. Numericky testujeme homogeitu rozptylů pomocí Leveova testu, Browova Forsytheova testu (oba jsou implemetováy ve STATISTICE, Browův Forsytheův test v MINITABu) či Bartlettova testu (je k dispozici v MINITABu). Slabé porušeí homogeity rozptylů evadí, při větším se doporučuje mediáový test. c) Pokud jsou splěy předpoklady ormality a homogeity rozptylů, můžeme přistoupit k testováí shody středích hodot. Předtím je samozřejmě vhodé vypočítat průměry a směrodaté odchylky či rozptyly v jedotlivých skupiách. d) Dojde-li a zvoleé hladiě výzamosti k zamítutí hypotézy o shodě středích hodot, zajímá ás, které dvojice středích hodot se od sebe liší. K řešeí tohoto problému slouží post-hoc metody mohoásobého porováváí, apř. Scheffého ebo Tukeyova metoda.
Příklad: U čtyř odrůd brambor (ozačeých symboly A, B, C, D) se zjišťovala celková hmotost brambor vyrostlých vždy z jedoho trsu. Výsledky (v kg): odrůda hmotost A 0,9 0,8 0,6 0,9 B,3,0,3 C,3,5,6,,5 D,,,0 Na hladiě výzamosti 0,05 testujte hypotézu, že středí hodota hmotosti trsu brambor ezávisí a odrůdě. Zamítete-li ulovou hypotézu, zjistěte, které dvojice odrůd se liší a hladiě výzamosti 0,05.
Řešeí: Data považujeme za realizace čtyř ezávislých áhodých výběrů ze čtyř ormálích rozložeí se stejým rozptylem. Testujeme hypotézu, že všechy čtyři středí hodoty jsou stejé. Vypočítáme výběrové průměry v jedotlivých výběrech: M. = 0,8, M. =,, M 3. =,4, M 4. =,, celkový průměr: M.. =,4, výběrové rozptyly: S = 0,0, S = 0,03, S 3 = 0,04, S 4 = 0,0, vážeý průměr výběrových rozptylů: S r ( ) reziduálí součet čtverců: S ( r) S = 0, 3 i Si = 3 0,0 + 0,03 + 4 0,04 + 0,0 3 = = 0,07, r 0 i * = = 3 = *, 0 E = r A = i i... = i= skupiový součet čtverců: S ( M M ) = 4 ( 0,8,4 ) + 3 (.,4 ) + 5 (,4,4 ) + 3 (,,4 ) 0, 86 celkový součet čtverců: S T = S A + S E = 0,86 + 0,3 =,6, SA / f A 0,86 / 3 testová statistika FA = = = 9,97, S / f 0,3/ Kritický obor W = ( 3, ), ) = 3,59, ) E F, 95 E 0. Protože testová statistika se realizuje v kritickém oboru, H 0 zamítáme a hladiě výzamosti 0,05. SA 0,86 Vypočteme poměr determiace: P = = = 0, 73 S,6 T
Výsledky zapíšeme do tabulky ANOVA: Zdroj variability Součet čtverců Stupě volosti podíl F A S S reziduálí S E = 0,3 S E / = 0,077 - celkový S T =,6 4 - - skupiy S A = 0,86 3 S A /3 = 0,7 A ( r ) ( r) E = 9,97 Nyí pomocí Scheffého metody zjistíme, které dvojice odrůd se liší a hladiě výzamosti 0,05. Na hladiě výzamosti 0,05 se liší odrůdy A a C. Srovávaé odrůdy Rozdíly Mk. Ml. Pravá straa vzorce A, B 0,4 0,4 A, C 0,67 0,36 A, D 0,3 0,4 B, C 0, 0,40 B, D 0, 0,44 C, D 0,3 0,40
Řešeí pomocí systému STATISTICA Otevřeme ový datový soubor o dvou proměých X a odrůda a 5 případech. Do proměé X zapíšeme zjištěé hmotosti, do proměé odrůda kódy pro daé odrůdy ( pro A, pro B, 3 pro C a 4 pro D). 3 4 5 6 7 8 9 0 3 4 5 X 0,9 A 0,8 A 0,6 A 0,9 A,3 B B,3 B,3 C,5 C,6 C, C,5 C, D, D D odruda
Ověříme ormalitu daých čtyř áhodých výběrů pomocí N-P plotu: Očekávaá ormálí hodota,4,,0 0,8 0,6 0,4 0, 0,0-0, -0,4-0,6-0,8 -,0 -, -,4 0,4 0,6 0,8,0,,4,6,8 0,4 0,6 0,8,0,,4,6,8 Očekávaá ormálí hodota odruda: A,4,,0 0,8 0,6 0,4 0, 0,0-0, -0,4-0,6-0,8 -,0 -, -,4 0,4 0,6 0,8,0,,4,6,8 odruda: B 0,4 0,6 0,8,0,,4,6,8 Odchylky od ormality jsou je epatré. odruda: C odruda: D
Vypočteme výběrové průměry a výběrové rozptyly: Statistiky Základí statistiky a tabulky Rozklad & jedofakt. ANOVA OK Proměé Závislé X, Grupovací - odrůda OK Skupiy tabulek - zaškrteme Rozptyly - Výpočet. Rozkladová tabulka popisých statistik (priklad830) N=5 (V sezamu záv. prom. ejsou ChD) odruda X průměr X N X Sm.odch. X Rozptyl A 0,800000 4 0,44 0,00000 B,00000 3 0,7305 0,030000 C,400000 5 0,00000 0,040000 D,00000 3 0,00000 0,00000 Vš.skup.,40000 5 0,8337 0,07974 Nyí ověříme předpoklad shody rozptylů. Na záložce Skupiy tabulek zaškrteme Leveův test Výpočet. Leveeův test homogeity rozpylů (priklad830) Ozač. efekty jsou výz. a hlad. p <,05000 SČ SV PČ SČ SV PČ F p Proměá efekt efekt efekt chyba chyba chyba X 0,08667 3 0,006 0,065333 0,005939,04769 0,4007 Vidíme, že p-hodota Leveova testu je 0,4, tedy větší ež hladia výzamosti 0,05. Hypotézu o shodě rozptylů ezamítáme a hladiě výzamosti 0,05.
Přistoupíme k testu hypotézy o shodě středích hodot. Na záložce Skupiy tabulek zaškrteme Aalýza rozptylu Výpočet. Aalýza rozptylu (priklad830) Ozač. efekty jsou výz. a hlad. p <,05000 SČ SV PČ SČ SV PČ F p Proměá efekt efekt efekt chyba chyba chyba X 0,86000 3 0,7000 0,300000 0,0773 9,973333 0,00805 Jelikož p-hodota = 0,00805 je meší ež hladia výzamosti 0,05, hypotézu o shodě středích hodot zamítáme a hladiě výzamosti 0,05.
Výpočet doplíme krabicovými diagramy:,8,6,4, X,0 0,8 0,6 0,4 A B C D odruda Průměr Průměr±SmCh Průměr±,96*SmCh
Nyí aplikujeme Scheffého metodu mohoásobého porováváí, abychom zjistili, které dvojice odrůd se liší a hladiě výzamosti 0,05. Na záložce Post hoc zvolíme Schefféův test. odruda A {} B {} C {3} D {4} Scheffeho test; promě.:x (priklad830) Ozač. rozdíly jsou výzamé a hlad. p <,05000 {} {} {3} {4} M=,80000 M=,000 M=,4000 M=,000 0,05965 0,00950 0,90463 0,05965 0,464537 0,90550 0,00950 0,464537 0,63499 0,90463 0,90550 0,63499 Tabulka obsahuje p-hodoty pro vzájemé porováí středích hodot hmotosti všech čtyř odrůd. Vidíme, že a hladiě výzamosti 0,05 se liší odrůdy A, C.
Výzam předpokladů v aalýze rozptylu a) Nezávislost jedotlivých áhodých výběrů velmi důležitý předpoklad, musí být splě, jiak dostaeme esmyslé výsledky. b) Normalita ANOVA eí příliš citlivá a porušeí ormality, zvlášť pokud mají všechy výběry rozsah ad 0 (důsledek cetrálí limití věty). Při výrazějším porušeí ormality se doporučuje Kruskalův Wallisův test. c) Shoda rozptylů míré porušeí evadí, při větším se doporučuje Kruskalův Wallisův test. Test shody rozptylů má smysl provádět až po ověřeí předpokladu ormality.
II. Případ r 3 ezávislých áhodých výběrů z alterativích rozložeí Test homogeity biomických rozložeí Nechť máme r 3 ezávislých áhodých výběrů o rozsazích,, r, přičemž j-tý áhodý výběr pochází z alterativího rozložeí A( ϑ j), j =,,..., r. Testujeme hypotézu H 0 : ϑ = = ϑr proti alterativí hypotéze H : aspoň jeda dvojice parametrů je růzá. Ozačme r j j= = celkový rozsah všech r výběrů, r j M j j= M* = vážeý průměr výběrových průměrů. r Testové kritérium: Q = j M j M* χ M M *( * ) Kritický obor: W = χ α ( r ), ) j= ( ) ( r ), když H 0 platí. H 0 tedy zamítáme a asymptotické hladiě výzamosti α, když Q W. Podmíka dobré aproximace: j M * > 5 pro všecha j =,..., r. r M* Bradtův Sedecorův výpočetí tvar: Q = jm j. M M ( ) = * * j M*
Test homogeity založeý a arkussiusové trasformaci Neí-li splěa podmíka j M * > 5 pro všecha j =,..., r, doporučuje se ásledující postup: ozačme A = arcsi, j =,..., r, j M j r B = j A j. j= r Pak statistika = 4 j( A j B) Q χ (r-). j= H 0 tedy zamítáme a asymptotické hladiě výzamosti α, když Q χ -α(r-). Mohoásobé porováváí Zamíteme-li ulovou hypotézu a asymptotické hladiě výzamosti α, chceme zjistit, které dvojice parametrů liší. Platí-li erovost A + q ( r, ), pak a hladiě výzamosti α zamítáme hypotézu o shodě parametrů A k l α 8 k l ϑ, ϑ. (Hodoty q -α (r, ) ajdeme v tabulkách.) k l ϑ, ϑ se k l
Příklad: Na gymázium bylo přijato 4 studetů. Ti byli áhodě rozdělei do čtyř tříd A, B, C, D. V každé třídě byla matematika vyučováa jiou metodou. Na koci školího roku psali všichi studeti stejou písemou práci a byl zazameá počet těch studetů, kteří vyřešili všechy zadaé úkoly. Třída A B C D Počet studetů 35 36 37 34 Počet úspěšých studetů 5 8 7 5 Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že rozdíly mezi třídami jsou způsobey pouze áhodými vlivy. Řešeí: Máme čtyři ezávislé áhodé výběry, j-tý pochází z rozložeí A( ϑ j), j =,, 3, 4. Testujeme hypotézu H 0 : ϑ = ϑ = ϑ3 = ϑ4. = 35, = 36, 3 = 37, 4 = 34, = 4 m = 5/35, m = 8/36, m 3 = 7/37, m 4 = 5/34, m * = (5+8+7+5)/4 = 45/4. Podmíky dobré aproximace: 45 45 45 45 35 =,09, 36 =, 4, 37 =, 73, 34 = 0, 77 4 4 4 4 Testová statistika r Q = M * ( M ) * M* M jm j j = * = 45 4 45 4 Kritický obor: W = χ 0, 95 ( 3), ) = 7,8, ). 35 5 35 + 36 8 36 7 + 37 37 5 + 34 34 45 4 4 45 4 Protože testové kritérium se realizuje v kritickém oboru, H 0 zamítáme a asymptotické hladiě výzamosti 0,05. =,88
Nyí metodou mohoásobého porováváí zjistíme, které dvojice parametrů se od sebe liší a hladiě výzamosti 0,05. Pomocí arkussiusové trasformace vypočteme hodoty A = arcsi M : A = 0,3876, A = 0,4909, A 3 = 0,7448, A 4 = 0,764 j Platí-li erovost A k A l + q α ( r, ), pak a hladiě výzamosti α zamítáme hypotézu o shodě parametrů 8 k l ϑ k, ϑl. Kvatil studetizovaého rozpětí ajdeme v tabulkách: q 0,95 (4, ) = 3,63 Srovávaé třídy Rozdíly Na hladiě výzamosti 0,05 se liší třídy A, C a A, D. A, B 0,033 0,30 A, C 0,357 0,30 A, D 0,3388 0,3 B, C 0,539 0,30 B, D 0,356 0,3 C, D 0,084 0,30 k l j A A Pravá straa vzorce
Řešeí pomocí systému STATISTICA Vytvoříme ový datový soubor se dvěma proměými a 4 případy. Proměá USPECH obsahuje hodotu, pokud studet vyřešil všechy zadaé úkoly, jiak obsahuje hodotu 0. Proměá TRIDA má hodotu, pokud studet pochází z třídy A, hodotu pro třídu B, hodotu 3 pro třídu C a hodotu 4 pro třídu D. Nejprve zjistíme podíly úspěšých studetů v jedotlivých třídách. Statistiky Základí statistiky a tabulky Rozklad OK Proměé Závislé USPECH, Grupovací - TRIDA OK Skupiy tabulek - odškrteme Směrovat. odchylka - Výpočet. TRIDA USPECH USPECH Průměry N A 0,4857 35 B 0, 36 C 0,459459 37 D 0,4476 34 Vš.skup. 0,3690 4 Vidíme, že ejslabší výkoy podávali studeti ze třídy A, úspěšých bylo pouze 4,3% studetů, ve třídě B,%, ve třídě C 45,9% a ve třídě D 44,%. Třídy C a D se z hlediska úspěchu v písemce z matematiky liší je epatrě
Dále provedeme testováí hypotézy o shodě parametrů čtyř alterativích rozložeí. Nejprve ověříme splěí podmíek dobré aproximace: j m * > 5 pro všecha j =,..., r. Vážeý průměr m * se achází v posledím řádku výstupí tabulky procedury Rozklad. Jeho hodotu okopírujeme do políček pro průměry tříd A, B, C, D, posledí řádek odstraíme a k tabulce přidáme jedu ovou proměou, do jejíhož Dlouhého jméa apíšeme =v*v3. Vidíme, že podmíky dobré aproximace jsou splěy. TRIDA USPECH Průměry USPECH N NProm =v*v3 A 0,3690 35,0955 B 0,3690 36,40845 C 0,3690 37,7535 D 0,3690 34 0,77465 Statistiky Základí statistiky/tabulky Kotigečí tabulky - OK - Specif. tabulky List USPECH, List TRIDA, OK Možosti Statistiky dvourozměrých tabulek - zaškrtěte Pearso & M-L Chi square Detailí výsledky - Detailí -rozm. tabulky. Statist. Chí-kvadr. sv p Pearsoův chí-kv. M-V chí-kvadr.,8760 df=3 p=,00646,8063 df=3 p=,00509 Testová statistika Q se realizuje hodotou,876, počet stupňů volosti je 3, odpovídající p-hodota = 0,00646, tedy a asymptotické hladiě výzamosti 0,05 hypotézu H 0 zamítáme. S rizikem omylu ejvýše 0,05 jsme tedy prokázali, že rozdíly v podílech úspěšých studetů v jedotlivých třídách elze vysvětlit áhodými vlivy.
Upozorěí: Systém STATISTICA eumožňuje provedeí metody mohoásobého porováváí pro áhodé výběry z alterativího rozložeí. Pro orietaci lze použít Scheffého metodu. V ašem případě: TRIDA A {} B {} C {3} D {4} {} M=,486 {} M=, {3} M=,45946 {4} M=,448 0,90770 0,03488 0,060978 0,90770 0,7365 0,53566 0,03488 0,7365 0,998684 0,060978 0,53566 0,998684 Na asymptotické hladiě výzamosti 0,05 se liší třídy A a C.
Osova: - jedovýběrové a párové testy - dvouvýběrové testy - eparametrické obdoby jedofaktorové aalýzy rozptylu Neparametrické testy o mediáech Motivace: Při aplikaci t-testů či aalýzy rozptylu by měly být splěy určité předpoklady: - ormalita dat (pro výběry větších rozsahů ( 30) emá míré porušeí ormality závažý dopad a výsledky) - homogeita rozptylů - itervalový či poměrový charakter dat Pokud ejsou tyto předpoklady splěy, použijeme tzv. eparametrické testy, které evyžadují předpoklad o kokrétím typu rozložeí (apř. ormálím), stačí apř. předpokládat, že distribučí fukce rozložeí, z ěhož áhodý výběr pochází, je spojitá. Nevýhoda - ve srováí s klasickými parametrickými testy jsou eparametrické testy slabší, tz., že epravdivou hypotézu zamítají s meší pravděpodobostí ež testy parametrické. V této kapitole se omezíme a ty eparametrické testy, které se týkají mediáů.
Jedovýběrové testy (Jde o eparametrické obdoby jedovýběrového t-testu a párového t-testu.) Zamékový test a jeho asymptotická variata Nechť X,, X je áhodý výběr ze spojitého rozložeí. Nechť x 0, 50 je mediáem tohoto rozložeí a c je reálá kostata. Testujeme hypotézu H 0 : x 0, 50 = c proti oboustraé alterativě H : x 0, 50 c (resp. proti levostraé alterativě H : x 0, 50 < c resp. proti pravostraé alterativě H : x 0, 50 > c ). Zamékový test se ejčastěji používá jako párový test, kdy máme áhodý výběr ze spojitého dvourozměrého rozložeí X X,, a testujeme hypotézu o rozdílu mediáů, tj. H 0 : x 0,50 y0, 50 = c proti H : x 0,50 y 0, 50 c (resp. proti jedostraým alterativám). Přejdeme k rozdílům Z = X Y Y Y,, Z = X Y a testujeme hypotézu o mediáu těchto rozdílů, tj. H 0 : z 0, 50 = c. a) Utvoříme rozdíly Di = X i c pro jedovýběrový test resp. Di = Zi c pro párový test, i =,,. (Jsou-li ěkteré rozdíly ulové, pak za bereme je počet eulových hodot.) + + b) Zavedeme statistiku S Z, která udává počet těch rozdílů D i, které jsou kladé. S Z je součtem áhodých veliči s alterativím rozložeím (i-tá veličia abývá hodoty, když i-tý rozdíl je kladý a hodoty 0, když je záporý). Platí-li + H 0, pak pravděpodobost kladého i záporého rozdílu je stejá, tedy S Z ~ Bi (, ). Z vlastostí biomického rozložeí + + plye, že E ( S Z ) =, ( ) D S Z =. 4 c) Staovíme kritický obor. Pro oboustraou alterativu: W = 0,k k,, pro levostraou alterativu: W = 0,k, pro pravostraou alterativu: = k,. W (Nezáporá celá čísla k, k pro oboustraý test i pro jedostraé testy lze ajít v tabulkové příloze. Pozor čísla k, k pro oboustraou alterativu jsou jiá ež pro jedostraé alterativy! ) d) H 0 zamítáme a hladiě výzamosti α, když + W. S Z
Asymptotická variata testu Pro velká (prakticky > 0 ) lze využít asymptotické ormality statistiky + + + SZ E( SZ ) SZ Testová statistika U 0 = = + D( S ) 4 Z Kritický obor pro oboustraý test: W = (, u α / u α /, ) Kritický obor pro levostraý test: W = (, u α. Kritický obor pro pravostraý test: W u ). = α, + S Z. má za platosti H 0 asymptoticky rozložeí N ( 0,).. Aproximace rozložeím N( 0,) se zlepší, když použijeme tzv. korekci a espojitost. Testová statistika pak má tvar U 0 S = + Z 4 ± +, přičemž přičteme, když S Z < a odečteme v opačém případě.
Příklad a jedovýběrový zamékový test: U 0 áhodě vybraých vzorků bezíu byly zjištěy ásledující hodoty oktaového čísla: 98, 96,8 96,3 99,8 96,9 98,6 95,6 97, 97,7 98,0. Na hladiě výzamosti 0,05 testujte hypotézu, že mediá oktaového čísla je 98 proti oboustraé alterativě. Řešeí: rozdíly x i 98: 0, -, -,7,8 -, 0,6 -,4-0,9-0,3 0,0 S + Z = 3, eulových rozdílů je 9. Ve statistických tabulkách ajdeme pro = 9 a α = 0,05 kritické hodoty k =, k = 8. Protože kritický obor W = 0, 8, 9 eobsahuje hodotu 3, emůžeme H 0 zamítout a hladiě výzamosti 0,05.
Výpočet pomocí systému STATISTICA: Vytvoříme ový datový soubor se dvěma proměými a 0 případy. Do proměé X apíšeme hodoty oktaového čísla a do proměé kost uložíme číslo 98. Statistiky Neparametrická statistika Porováí dvou závislých vzorků OK. sezam proměých X,. sezam proměých kost OK Zamékový test. Zamékový test (oktaove cislo) Ozačeé testy jsou výzamé a hladiě p <,05000 Počet procet Z Úroveň p Dvojice proměých růzých v < V X & kost 9 66,66667 0,666667 0,504985 Vidíme, že eulových hodot = 9. Z ich záporých je 66,7%, tj. 6. Hodota testové statistiky S Z + = 9 6 = 3. Asymptotická testová statistika U 0 (zde ozačeá jako Z) se realizuje hodotou 0,6667. Odpovídající asymptotická p- hodota je 0,505, tedy a asymptotické hladiě výzamosti 0,05 ezamítáme hypotézu, že mediá oktaového čísla je 98. Upozorěí: V tomto případě eí splěa podmíka pro využití asymptotické ormality statistiky S + Z, tj. > 0. Je tedy vhodější ajít v tabulkách kritické hodoty pro zamékový test. Pro = 9 a α = 0,05 jsou kritické hodoty k =, k = 8. Protože kritický obor W = 0, 8, 9 eobsahuje hodotu 3, ezamítáme H 0 a hladiě výzamosti 0,05. Dostáváme týž výsledek jako při použití asymptotického testu.
Příklad a párový zamékový test U 9 áhodě vybraých maželských párů byl zjiště průměrý ročí příjem (v tisících Kč). číslo páru 3 4 5 6 7 8 9 příjem mažela 6 336 384 43 456 58 55 600 87 příjem maželky 336 40 9 336 384 88 960 3 576 Na hladiě výzamosti 0,05 testujte hypotézu, že mediáy příjmů maželů a maželek jsou stejé. Řešeí: Jedá se o párový test. Vypočteme rozdíly mezi příjmy maželů a maželek, čímž úlohu převedeme a jedovýběrový test. Testujeme H 0 : z 0, 50 = 0 proti oboustraé alterativě H : z 0, 50 0, kde z 0, 50 je mediá rozložeí, z ěhož pochází rozdílový áhodý výběr Z = X Y,, Z9 = X 9 Y9. Vypočteé rozdíly x i yi : -0 96 9 96 7 40-408 88 96 + Testová statistika S Z = 7. Ve statistických tabulkách ajdeme pro = 9 a α = 0, 05 kritické hodoty k =, k = 8. Protože kritický obor W = 0, 8, 9 eobsahuje hodotu 7, emůžeme H 0 zamítout a hladiě výzamosti 0,05. Neprokázaly se tedy výzamé rozdíly v mediáech příjmů maželů a maželek.
Výpočet pomocí systému STATISTICA: Vytvoříme ový datový soubor se dvěma proměými a 9 případy. Do proměé X apíšeme příjmy maželů, do proměé Y příjmy maželek. Statistiky Neparametrická statistika Porováí dvou závislých vzorků OK. sezam proměých X,. sezam proměých Y OK Zamékový test. Počet procet Z Úroveň p Dvojice proměých růzých v < V X & Y 9,,333333 0,84 + Vidíme, že eulových hodot = 9. Z ich záporých je, %, tj.. Hodota testové statistiky S Z = 9 = 7. Asymptotická testová statistika U 0 (zde ozačeá jako Z) se realizuje hodotou, 3. Odpovídající asymptotická p-hodota je 0,84, tedy a asymptotické hladiě výzamosti 0,05 ezamítáme hypotézu, že mediáy příjmů maželů a maželek jsou stejé. + Upozorěí: V tomto případě eí splěa podmíka pro využití asymptotické ormality statistiky S Z, tj. > 0. Je tedy vhodější ajít v tabulkách kritické hodoty pro zamékový test. Pro = 9 a α = 0,05 jsou kritické hodoty k =, k = 8. Protože kritický obor W = 0, 8, 9 eobsahuje hodotu 7, ezamítáme H 0 a hladiě výzamosti 0,05. Dostáváme týž výsledek jako při použití asymptotického testu.
Jedovýběrový Wilcoxoův test a jeho asymptotická variata Frak Wilcoxo (89 965): Americký statistik a chemik Nechť X,..., X je áhodý výběr ze spojitého rozložeí s hustotou φ(x), která je symetrická kolem mediáu x 0,50, tj. φ(x 0,50 + x) = φ(x 0,50 - x). Nechť c je reálá kostata. Testujeme hypotézu H 0 : x 0,50 = c proti oboustraé alterativě H : x 0,50 c ebo proti levostraé alterativě H : x 0,50 < c ebo proti pravostraé alterativě H : x 0,50 > c.
Postup provedeí testu: a) Utvoříme rozdíly D i = X i c, i =,...,. (Jsou-li ěkteré rozdíly ulové, pak za bereme je počet eulových hodot.) b) Absolutí hodoty D i uspořádáme vzestupě podle velikosti a spočteme pořadí R i. c) Zavedeme statistiky + + S = R, což je součet pořadí přes kladé hodoty D i, W W = Di > 0 Di < 0 i i S R, což je součet pořadí přes záporé hodoty D i. Přitom platí, že součet S W + + S W - = (+)/. Je-li H 0 pravdivá, pak E(S W + ) = (+)/4 a D(S W + ) = (+)(+)/4. d) Testová statistika = mi(s W +, S W - ) pro oboustraou alterativu, = S W + pro levostraou alterativu, = S W - pro pravostraou alterativu. e) H 0 zamítáme a hladiě výzamosti α, když testová statistika je meší ebo rova tabelovaé kritické hodotě.
Asymptotická variata jedovýběrového Wilcoxoova testu: Pro 30 lze využít asymptotické ormality statistiky S + W. + + + SW E Platí-li H 0 ( SW ) SW, pak U0 = + (+ D( SW ) 4 (+ ) 4 = N(0,). )( + ) Kritický obor: pro oboustraou alterativu W = (, u α / u α /, ) pro levostraou alterativu W = (, u α, pro pravostraou alterativu W = u, α ) H 0 zamítáme a asymptotické hladiě výzamosti α, když, U 0 W. Předpoklady použití jedovýběrového Wilcoxoova testu: - rozložeí, z ěhož daý áhodý výběr pochází, je spojité - hustota tohoto rozložeí je symetrická kolem mediáu - sledovaá veličia X má aspoň ordiálí charakter (Neí-li splě předpoklad o symetrii hustoty kolem mediáu, lze použít apř. zamékový test.)
Příklad: U áhodě vybraých zemí bylo zjištěo proceto populace starší 60 let: 4,9 6,0 6,9 7,6 4,5,3 5,7 5,3 9,6 3,5 5,7 7,7. Na hladiě výzamosti 0,05 testujte hypotézu, že mediá proceta populace starší 60 let je proti oboustraé alterativě. Řešeí: Testujeme hypotézu H 0 : x 0,50 = proti oboustraé alterativě H : x 0,50. Vypočteme rozdíly pozorovaých hodot od čísla : -7, -6,0-5, 5,6-7,5 0,3-6,3-6,7 -,4,5 3,7-4,3. Absolutí hodoty těchto rozdílů uspořádáme vzestupě podle velikosti. Kladé rozdíly přitom ozačíme červeě: usp. x i 0,3,5,4 3,7 4,3 5, 5,6 6 6,3 6,7 7, 7,5 pořadí 3 4 5 6 7 8 9 0 S W + = + + 4 + 7 =4, S W - = 3 + 5 + 6 + 8 + 9 + 0 + + = 64, =, α = 0,05, tabelovaá kritická hodota pro = a α = 0,05 je 3, testová statistika = mi(s W +, S W - ) = mi(4,64) = 4. Protože 4 > 3, H 0 ezamítáme a hladiě výzamosti 0,05. Zameá to, že a hladiě výzamosti 0,05 se epodařilo prokázat, že aspoň v poloviě zemí by se podíl populace ad 60 let odlišoval od %.
Výpočet pomocí systému STATISTICA: Utvoříme ový datový soubor se dvěma proměými a případy. Do proměé proceto apíšeme zjištěé hodoty a do proměé kost uložíme číslo. Statistiky Neparametrická statistika Porováí dvou závislých vzorků OK. sezam proměých rozdil, Druhý sezam proměých kost OK Wilcoxoův párový test. Wilcoxoův párový test (populace_ad_60) Ozačeé testy jsou výzamé a hladiě p <,05000 Počet T Z Úroveň p Dvojice proměých platých proceto & kost 4,00000,966 0,04986 Výstupí tabulka poskyte hodotu testové statistiky SW + (zde ozačea T), hodotu asymptotické testové statistiky U 0 a p- hodotu pro U 0. V tomto případě je p-hodota 0,04986, tedy ulová hypotéza se zamítá a asymptotické hladiě výzamosti 0,05. Teto výsledek je v rozporu s výsledkem, ke kterému jsme dospěli při přesém výpočtu. Je to způsobeo tím, že eí splěa podmíka pro využití asymptotické ormality statistiky SW +, tj. 30.
Párový Wilcoxoův test Nechť (X, Y ),..., (X, Y ) je áhodý výběr ze spojitého dvourozměrého rozložeí. Testujeme H 0 : x 0,50 - y 0,50 = c proti H : x 0,50 - y 0,50 c (resp. proti jedostraým alterativám). Utvoříme rozdíly Z i = X i Y i, i =,..., a testujeme hypotézu o mediáu z 0,50, tj. H 0 : z 0,50 = c proti H : z 0,50 c.
Příklad: K zjištěí ceových rozdílů mezi určitými dvěma druhy zboží bylo áhodě vybráo 5 prodeje a byly zjištěy cey zboží A a cey zboží B: (,0), (4,), (,9), (3,9), (,9), (0,9), (,0), (0,8), (,), (,9), (3,0), (4,0), (4,), (9,5), (4,). Na hladiě výzamosti 0,05 je třeba testovat hypotézu, že mediá ceových rozdílů čií 3 Kč. Řešeí:Testujeme H 0 : z 0,50 = 3 proti oboustraé alterativě H : z 0,50 3, kde z 0,50 je mediá rozložeí, z ěhož pochází rozdílový áhodý výběr Z = X Y, Z 5 = X 5 Y 5.Vypočteme rozdíly mezi ceou zboží A a ceou zboží B, čímž úlohu převedeme a jedovýběrový test. Výpočty uspořádáme do tabulky: č. prodejy cea zboží A cea zboží B rozdíl rozdíl-mediá pořadí 0 4 3 0-3 9 5,5 4 3 9 4 5,5 5 9 5,5 6 0 9 7 0 5,5 8 0 8 5,5 9 0 9 5,5 3 0 3 0-4 0 4 5,5 3 4 5,5 4 9 5 4 5,5 5 4 5,5 (Tučě jsou vytištěa pořadí pro kladé hodoty rozdíl - mediá.) S W + = 5,5 + 5,5 + 5,5 = 6,5, S W - = + 5,5 + 5,5 + + 5,5 + 5,5 + + 5,5 + 5,5 + 5,5 = 74,5, = 3, α = 0,05, tabelovaá kritická hodota = 7, testová statistika = mi(s W +, S W - ) = mi(6,5; 74,5) = 6,5. Protože 6,5 7, H 0 zamítáme a hladiě výzamosti 0,05.
Výpočet pomocí systému STATISTICA: Vytvoříme ový datový soubor se čtyřmi proměými A, B, rozdíl, kost a 5 případy. Do proměých A, B apíšeme cey zboží A a B, do proměé rozdíl uložíme rozdíl ce A a B a do proměé kost uložíme číslo 3. Statistiky Neparametrická statistika Porováí dvou závislých vzorků OK. sezam proměých rozdil,. sezam proměých kost OK Wilcoxoův párový test. Wilcoxoův párový test (cey zbozi) Ozačeé testy jsou výzamé a hladiě p <,05000 Počet T Z Úroveň p Dvojice proměých platých rozdil & kost 5 6,50000,06684 0,04696 Testová statistika (zde ozačeá jako T) abývá hodoty 6,5, asymptotická testová statistika (ozačeá jako Z) abývá hodoty,06684, odpovídající asymptotická p-hodota je 0,04696, tedy a asymptotické hladiě výzamosti 0,05 ulovou hypotézu zamítáme.
Příklad (a asymptotickou variatu Wilcoxoova testu): 30 áhodě vybraých osob mělo ezávisle a sobě bez předchozího ácviku odhadout, kdy od daého sigálu uplye právě miuta. Byly získáy ásledující výsledky (v sekudách): 53 48 45 55 63 5 66 56 50 58 6 5 64 63 59 47 46 58 5 56 6 57 48 6 54 49 5 46 53 58. Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že mediá rozložeí, z ěhož daý áhodý výběr pochází, je 60 sekud proti oboustraé alterativě (ulová hypotéza vlastě tvrdí, že polovia osob délku jedé miuty podhodotí a druhá adhodotí). Řešeí: Testujeme H 0 : x 0,50 = 60 proti oboustraé alterativě H : x 0,50 60. Obvyklým způsobem staovíme statistiku S + W = 55. Asymptotická testová statistika: + + + (+ ) 30(30+ ) SW E( SW ) SW 4 55 4 U 0 = = = = 3,65 + (+ )( + ) 30(30+ )(.30+ ) D S ( ) W Kritický obor: u 4 W = ( u, ) = (, u u, ) = (,,96,96 ) 4, α / α / 0,975 0, 975,. Testová statistika se realizuje v kritickém oboru, tedy H 0 zamítáme a asymptotické hladiě výzamosti 0,05. S rizikem omylu ejvýše 5% jsme tedy prokázali, že pravděpodobost adhodoceí jedé miuty eí stejá jako pravděpodobost podhodoceí.
Výpočet pomocí systému STATISTICA: Utvoříme ový datový soubor se dvěma proměými a 30 případy. Do proměé odhad apíšeme zjištěé hodoty a do proměé kost uložíme číslo 60. Statistiky Neparametrická statistika Porováí dvou závislých vzorků OK. sezam proměých odhad,. sezam proměých kost OK Wilcoxoův párový test. Wilcoxoův párový test (odhad miuty) Ozačeé testy jsou výzamé a hladiě p <,05000 Počet T Z Úroveň p Dvojice proměých platých odhad & kost 30 55,00000 3,650880 0,0006 Testová statistika (zde ozačeá jako T) abývá hodoty 55, asymptotická testová statistika (ozačeá jako Z) abývá hodoty 3,65088, odpovídající asymptotická p-hodota je 0,0006, tedy a asymptotické hladiě výzamosti 0,05 ulovou hypotézu zamítáme.
Dvouvýběrové testy (Jedá se o eparametrickou obdobu dvouvýběrového t-testu) Dvouvýběrový Wilcoxoův test a jeho asymptotická variata Nechť X,..., X a Y,..., Y m jsou dva ezávislé áhodé výběry ze dvou spojitých rozložeí, jejichž distribučí fukce se mohou lišit pouze posuutím. Ozačme x 0,50 mediá prvího rozložeí a y 0,50 mediá druhého rozložeí. Na hladiě výzamosti 0,05 testujeme hypotézu, že distribučí fukce těchto rozložeí jsou shodé eboli mediáy jsou shodé proti alterativě, že jsou rozdílé, tj. H 0 : x 0,50 - y 0,50 = 0 proti H : x 0,50 - y 0,50 0. Postup provedeí testu: a) Všech + m hodot X,..., X a Y,..., Y m uspořádáme vzestupě podle velikosti. b) Zjistíme součet pořadí hodot X,..., X a ozačíme ho T. Součet pořadí hodot Y,..., Y m ozačíme T. c) Vypočteme statistiky U = m + (+)/ T, U = m + m(m+)/ - T. Přitom platí U + U = m. d) Pokud mi(u,u ) tabelovaá kritická hodota (pro daé rozsahy výběrů m, a daé α), pak ulovou hypotézu o totožosti obou distribučích fukcí zamítáme a hladiě výzamosti α. V tabulkách: = mi{m,} a m = max{m,}.
Asymptotická variata dvouvýběrového Wilcoxoova testu: Pro velká, m (, m > 30) lze využít asymptotické ormality statistiky U. m U Platí-li H 0, pak U 0 = N(0,), kde U = mi(u,u ). m(m+ + ) Kritický obor: pro oboustraou alterativu W = (, u α / pro levostraou alterativu W = (, u α, u α /, ) pro pravostraou alterativu W = u α, ) H 0 zamítáme a asymptotické hladiě výzamosti α, když, U 0 W. Předpoklady použití dvouvýběrového Wilcoxoova testu: - daé dva áhodé výběry jsou ezávislé - rozložeí, z ichž daé dva áhodé výběry pocházejí, jsou spojitá - distribučí fukce těchto rozložeí se mohou lišit pouze posuutím - sledovaá veličia má aspoň ordiálí charakter (Neí-li splě předpoklad, že distribučí fukce se mohou lišit pouze posuutím, lze použít apř. dvouvýběrový Kolmogorovův Smirovův test.)
Příklad: Bylo vybráo 0 polí stejé kvality. Na čtyřech z ich se zkoušel ový způsob hojeí, zbylých šest bylo ošetřeo starým způsobem. Pole byla oseta pšeicí a sledoval se její hektarový výos. Je třeba zjistit, zda ový způsob hojeí má týž vliv a průměré hektarové výosy pšeice jako starý způsob hojeí. hektarové výosy při ovém způsobu: 5 5 49 55 hektarové výosy při starém způsobu: 45 54 48 44 53 50 Test proveďte a hladiě výzamosti 0,05. Řešeí: Na hladiě výzamosti 0,05 testujeme H 0 : x 0,50 - y 0,50 = 0 proti oboustraé alterativě H : x 0,50 - y 0,50 0. usp. hodoty 44 45 48 49 50 5 5 53 54 55 pořadí x-ových hodot 4 6 7 0 pořadí y-ových hodot 3 5 8 9 T = 4 + 6 + 7 + 0 = 7, T = + + 3 + 5 + 8 + 9 = 8 U = 4.6 + 4.5/ - 7 = 7, U = 4.6 + 6.7/ - 8 = 7 Kritická hodota pro α = 0,05, mi(4,6) = 4, max(4,6) = 6 je. Protože mi(7,7) = 7 >, emůžeme a hladiě výzamosti 0,05 zamítout hypotézu, že ový způsob hojeí má a hektarové výosy pšeice stejý vliv jako starý způsob.
Výpočet pomocí systému STATISTICA: Utvoříme ový datový soubor se dvěma proměými a 0 případy. Do proměé vyos apíšeme zjištěé hodoty a do proměé hojei apíšeme 4x číslo pro ový způsob hojeí a 6x číslo pro starý způsob hojeí. Statistiky Neparametrická statistika Porováí dvou ezávislých vzorků OK Proměé Sezam závislých proměých vyos, Nezáv. (grupov.) proměá hojei OK M-W U test. Upozorěí: Ve STATISTICE je dvouvýběrový Wilcoxoův test uvede pod ázvem Maův Whiteyův test. Ma-Whiteyův U test (vyos) Dle promě. hojei Ozačeé testy jsou výzamé a hladiě p <,05000 Sčt poř. Sčt poř. U Z Úroveň p Z Proměá skup. skup. upraveé Úroveň p N plat. skup. N plat. skup. *str. přesé p vyos 7,00000 8,00000 7,000000,066004 0,8643,066004 0,8643 4 6 0,3538 Ve výstupí tabulce jsou součty pořadí T, T, hodota testové statistiky mi(u, U ) ozačeá U, hodota asymptotické testové statistiky U 0 (ozačeá Z), asymptotická p-hodota pro U 0 a přesá p-hodota (oz. *str. přesé p ta se používá pro rozsahy výběrů pod 30). V ašem případě přesá p-hodota = 0,3538, tedy H 0 ezamítáme a hladiě výzamosti 0,05. Výpočet je vhodé doplit krabicovým diagramem. 56 Krabicový graf dle skupi Proměá: vyos 54 5 50 vyos 48 46 44 4 Je zřejmé, že výosy při ovém způsobu hojeí jsou vesměs ižší ež při starém způsobu a také vykazují mohem větší variabilitu. hojei Mediá 5%-75% Mi-Max
Dvouvýběrový Kolmogorovův - Smirovův test Nechť X a,, X,, Ym Y jsou dva ezávislé áhodé výběry ze dvou spojitých rozložeí, jejichž distribučí fukce se mohou lišit ejeom posuutím, ale také tvarem. Testujeme hypotézu H 0 : distribučí fukce těchto rozložeí jsou shodé (tj. všech + m veliči pochází z téhož rozložeí ) proti alterativě H : distribučí fukce jsou rozdílé. Nechť F (x) je výběrová distribučí fukce. výběru a F (y) je výběrová distribučí fukce. výběru. Testová statistika = max F (x) F (x). D < x< H 0 zamítáme a hladiě výzamosti α, když D ( α), kde D ( α) je tabelovaá kritická hodota. D, m,m Pro větší rozsahy, m lze kritickou hodotu aproximovat vzorcem + m l. m α
Příklad: Výrobce určitého výrobku se má rozhodout mezi dvěma dodavateli polotovarů vyrábějících je růzými techologiemi. Rozhodující je procetí obsah určité látky.. techologie:,5,57,7,34,68. techologie:,75,67,56,66,7,79,64,55 Na hladiě výzamosti 0,05 posuďte pomocí dvouvýběrového K-S testu, zda je oprávěý předpoklad, že obě techologie poskytují stejé proceto účié látky. Výpočet pomocí systému STATISTICA: Utvoříme ový datový soubor se dvěma proměými a 3 případy. Do proměé X apíšeme zjištěé hodoty a do proměé ID apíšeme 5x číslo pro prví techologii a 8x číslo pro starý druhou techologii. Statistiky Neparametrická statistika Porováí dvou ezávislých vzorků OK Proměé Sezam závislých proměých X, Nezáv. (grupov.) proměá ID OK Kolmogorov-Smirovův -výběrový test. Max záp Max klad Úroveň p Průměr Průměr Sm.odch. Sm.odch. N plat. N plat. Proměá rozdíl rozdíl skup. skup. skup. skup. skup. skup. obsah -0,400000 0,05000 p >.0,564000,667500 0,474 0,08547 5 8 Ve výstupí tabulce pro dvouvýběrový K-S test dostaeme maximálí záporý a maximálí kladý rozdíl mezi hodotami obou výběrových distribučích fukcí, dolí omezeí pro p-hodotu (p > 0,), průměry, směrodaté odchylky a rozsahy obou výběrů. Jelikož p-hodota převyšuje hladiu výzamosti 0,05, a této hladiě elze ulovou hypotézu zamítout.
Kruskalův - Wallisův test William Kruskal (99 005): Americký matematik Wilso Alle Wallis (9 988): Americký matematik Nechť je dáo r 3 ezávislých áhodých výběrů o rozsazích,..., r. Předpokládáme, že tyto výběry pocházejí ze spojitých rozložeí. Ozačme = +... + r. Na asymptotické hladiě výzamosti α chceme testovat hypotézu, že všechy tyto výběry pocházejí z téhož rozložeí.
Postup testu: a) Všech hodot seřadíme do rostoucí poslouposti. b) Určíme pořadí každé hodoty v tomto sdružeém výběru. c) Ozačme Tj součet pořadí těch hodot, které patří do j-tého výběru, j =,..., r (kotrola: musí platit T +... + T r = (+)/). r Tj d) Testová statistika má tvar: Q = 3( + ). Platí-li H ( + ) 0, má statistika Q asymptoticky rozložeí χ (r-). e) Kritický obor: W = χ α ( r ), ). f) H 0 zamíteme a asymptotické hladiě výzamosti α, když Q χ -α (r-). j= j
Příklad: V roce 980 byly získáy tři ezávislé výběry obsahující údaje o průměrých ročích příjmech (v tisících dolarů) čtyř sociálích skupi ve třech růzých oblastech USA. jiží oblast: 6 0 5 9 pacifická oblast: 3 7 3 severovýchodí oblast: 7 4 8 5 Na hladiě výzamosti 0,05 testujte hypotézu, že příjmy v těchto oblastech se eliší. Řešeí: Výpočty uspořádáme do tabulky T = + 3 + 7 + =, T = 4 + 5 + 8 + = 9, T 3 = + 6 + 9 + 0 = 7, Usp. hodoty 6 7 0 3 4 5 7 5 8 9 3 Pořadí.výběru 3 7 Pořadí.výběru 4 5 8 Pořadí 3.výběru 6 9 0 r T Q j 9 7 = 3( + ) = 3 3 = 0, ( + ) j= 5 j 3 + + 4 4 4, ( r ), ) = χ 0, ( ), ) = 5,99 ) W = χ α 95, Protože Q < 5,99, H 0 ezamítáme a asymptotické hladiě výzamosti 0,05. Rozdíly mezi průměrými ročími příjmy v uvedeých třech oblastech se eprokázaly.
Mediáový test Výchozí situace je stejá jako u K-W testu Postup testu: a) Všech hodot uspořádáme do rostoucí poslouposti. b) Najdeme mediá x 0,50 těchto hodot. c) Ozačme P j počet hodot v j-tém výběru, které jsou větší ebo rovy mediáu x 0,50. r Pj d) Testová statistika má tvar Q M = 4 j= d) Kritický obor: W = χ α ( r ), ). j. Platí-li H 0, má statistika Q M asymptoticky rozložeí χ (r-). e) H 0 zamíteme a asymptotické hladiě výzamosti α, když Q M χ -α (r-).
Příklad: Pro data o průměrých ročích příjmech proveďte mediáový test. Hladiu výzamosti volte 0,05. Řešeí: Usp. hodoty 6 7 0 3 4 5 7 5 8 9 3 4 + 5 Mediá je průměr 6. a 7. uspořádaé hodoty: x 0, 50 = = 4, 5. V prvím výběru existují hodoty, které jsou větší ebo rovy 4,5, stejě tak i ve druhém a třetím výběru, tedy P = P = P 3 =. r Pj Testová statistika: Q M = 4 = 4 ( ) = 0 j= + + j 4 Kritický obor: W = χ α ( r ), ) = χ 0, 95 ( ), ) = 5,99, ) Protože Q M < 5,99, H 0 ezamítáme a asymptotické hladiě výzamosti 0,05.
Metody mohoásobého porováváí Zamíteme-li hypotézu, že všechy áhodé výběry pocházejí z téhož rozložeí, zajímá ás, které dvojice áhodých výběrů se liší a zvoleé hladiě výzamosti. Testujeme H 0 : k-tý a l-tý áhodý výběr pocházejí z téhož rozložeí, k, l =,.., r, k l proti H : aspoň jeda dvojice výběrů pochází z růzých rozložeí. a) Neméyiho metoda (Peter Neméyi 97 00: Americký matematik maďarského původu) - Všechy výběry mají týž rozsah p (tříděí je vyvážeé). - Vypočteme T l - T k. - V tabulkách ajdeme kritickou hodotu (pro daé p, r, α ). - Pokud T l - T k tabelovaá kritická hodota, pak a hladiě výzamosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložeí. b) Obecá metoda mohoásobého porováváí Tl Tk - Vypočteme. l k - Ve speciálích statistických tabulkách ajdeme kritickou hodotu h KW (α ). Při větších rozsazích výběrů je možo ji ahradit kvatilem χ -α (r-). Tl Tk - Jestliže ( + )h KW ( α) l k + l, pak a hladiě výzamosti α zamítáme hypotézu, že l-tý a k-tý výběr k pocházejí z téhož rozložeí.
Příklad: Čtyři laborati provedli aalytické staoveí proceta iklu v oceli. Každý hodotil pět vzorků. Laborat A: 4,5 4,6 4,0 4,30 4,5 Laborat B: 4,38 4,40 4,9 4,39 4,45 Laborat C: 4,3 4,6 4,0 4,4 4,7 Laborat D: 4,4 4,3 4,4 4,37 4,43 Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že všechy čtyři áhodé výběry pocházejí ze stejého rozložeí. Pokud ulovou hypotézu zamítete, zjistěte, které dvojice výběrů se liší. Výpočet pomocí systému STATISTICA: Vytvoříme ový datový soubor o dvou proměých a 0 případech. Do proměé ikl apíšeme změřeé hodoty, do proměé laborat apíšeme 5x pro. laborata atd. až 5x4 pro 4. laborata. Statistiky Neparametrická statistika Porováí více ezávislých vzorků - OK Sezam závislých proměých ikl, Nezáv. (grupovací) proměá laborat OK Summary: Kruskal-Wallis ANOVA & Media test. Ve dvou výstupích tabulkách se objeví výsledky K-W testu a mediáového testu.
Kruskal-Wallisova ANOVA založ. a poř.; ikl (ikl v oceli) Nezávislá (grupovací) proměá : laborat Kruskal-Wallisův test: H ( 3, N= 0) =3,7774 p =,003 Závislá: ikl Kód Počet platých Součet pořadí 5 9,00000 5 75,00000 3 3 5 7,00000 4 4 5 79,00000 Mediáový test, celk. mediá = 4,9500; ikl (ikl v oceli) Nezávislá (grupovací) proměá : laborat Závislá: Chi-Kvadr. = 3,60000 sv = 3 p =,0035 ikl 3 4 Celkem <= Mediá: pozorov. 4,00000,00000 5,00000 0,00000 0,00000 očekáv.,50000,50000,50000,50000 poz.-oč.,50000 -,50000,50000 -,50000 > Mediá: pozorov.,00000 4,00000 0,00000 5,00000 0,00000 očekáv.,50000,50000,50000,50000 poz.-oč. -,50000,50000 -,50000,50000 Celkem: oček. 5,00000 5,00000 5,00000 5,00000 0,00000 Oba testy zamítají hypotézu o shodě mediáů v daých čtyřech skupiách a asymptotické hladiě výzamosti 0,05.
Nyí provedeme mohoásobé porováváí, abychom zjistili, které dvojice laboratů se liší. Zvolíme Víceás. porováí průměrého pořadí pro vš. skupiy. Víceásobé porováí p hodot (oboustr.); ikl (ikl v oceli Nezávislá (grupovací) proměá laborat : Kruskal-Wallisův test: H ( 3, N= 0) =3,7774 p =,003 Závislá: 3 4 ikl R:5,8000 R:5,000 R:5,4000 R:5,800 0,08364,000000 0,04558 0,08364 0,06779,000000 3,000000 0,06779 0,03664 4 0,04558,000000 0,03664 Tabulka obsahuje p-hodoty pro porováí dvojic skupi. Vidíme, že a hladiě výzamosti 0,05 se liší laborati A, D a laborati C, D. Grafické zázorěí výsledků 4,50 Krabicový graf dle skupi Proměá: ikl 4,45 4,40 4,35 4,30 ikl 4,5 4,0 4,5 4,0 4,05 3 4 laborat Mediá 5%-75% Mi-Max
Porováí empirického a teoretického rozložeí Osova: - testy dobré shody pro diskrétí a spojité rozložeí při úplě i eúplě specifikovaém problému - jedoduchý test pro expoeciálí a Poissoovo rozložeí Motivace Možost použití statistických testů je podmíěa ějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložeí, z ěhož získaá data pocházejí. Moho testů je založeo a předpokladu ormality. Opomíjeí předpokladů o typu rozložeí může v praxi vést i ke zcela zavádějícím výsledkům, proto je uté věovat tomuto problému patřičou pozorost.
Testy dobré shody pro diskrétí a spojité rozložeí Testujeme hypotézu, která tvrdí, že áhodý výběr X,..., X pochází z rozložeí s distribučí fukcí Φ(x). a) Je-li distribučí fukce spojitá, pak data rozdělíme do r třídicích itervalů ( u j, u j +, j =,..., r. Zjistíme absolutí četost j j-tého třídicího itervalu a vypočteme pravděpodobost p j, že áhodá veličia X s distribučí fukcí Φ(x) se bude realizovat v j-tém třídicím itervalu. Platí-li ulová hypotéza, pak p j = P(u j < X u j+ ) = Φ(u j+ ) - Φ(u j ). b) Má-li distribučí fukce ejvýše spočetě moho bodů espojitosti, pak místo třídicích itervalů použijeme variaty x [j], j =,, r. Pro variatu x [j] zjistíme absolutí četost j a vypočteme pravděpodobost p j, že áhodá veličia X s distribučí fukcí Φ(x) se bude realizovat variatou x [j]. Platí-li ulová hypotéza, pak p = Φ x limφ x = P X = x. j ( ) ( ) [ j] Testová statistika: x x[ j] K = ( ) r ( j p j ) j= p j [ j]. Platí-li ulová hypotéza, pak K χ (r--p), kde p je počet odhadovaých parametrů daého rozložeí. (Např. pro ormálí rozložeí p =, protože z dat odhadujeme středí hodotu a rozptyl.) Nulovou hypotézu zamítáme a asymptotické hladiě výzamosti α, když testová statistika K χ -α(r--p). Aproximace se považuje za vyhovující, když teoretické četosti p j 5, j =,..., r. Upozorěí: Hodota testové statistiky K je silě závislá a volbě třídicích itervalů. Navíc při esplěí podmíky p j 5, j =,..., r je třeba ěkteré itervaly resp. variaty slučovat, což vede ke ztrátě iformace.
Příklad: Testováí shody empirického a teoretického rozložeí při úplě specifikovaém problému Byl zjišťová počet poruch určitého zařízeí za 00 hodi provozu ve 50 disjuktích 00 h itervalech. Výsledky měřeí: Počet poruch za 00 hodi provozu 0 3 4 a víc Absolutí četost 5 48 36 0 4 Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že áhodý výběr X,..., X 50 pochází z rozložeí Po(,). Řešeí: Pravděpodobost, že áhodá veličia s rozložeím Po(λ), kde λ =, bude abývat hodot 0,,..., 4 a víc je j j λ,, = e, j = 0,,,3, p4 = ( p0 + p + p p3 ). λ p j = e + j! j! Výpočty potřebé pro staoveí testové statistiky K uspořádáme do tabulky. j j p j p j ( j - p j ) / p j 0 5 0,30 50.0,30=45,5,039 48 0,36 50.0,36=54,5 0,698 36 0,7 50.0,7=3,55 0,366 3 0 0,087 50.0,087=3,05 0,73 4 4 0,034 50.0,034=5, 0,37 Podmíky dobré aproximace jsou splěy, všechy teoretické četosti jsou větší ež 5. K =,039 + 0,698 + 0,73 + 0,37 = 3,053, r = 5, χ 0,95(4) = 9,488. Protože 3,053 < 9,488, ulovou hypotézu ezamítáme a asymptotické hladiě výzamosti 0,05.
Výpočet pomocí systému STATISTICA: Načteme datový soubor poruchy.sta. Proměá POCET obsahuje počet poruch, proměá CETNOST pak absolutí četosti zjištěého počtu poruch. Statistiky Prokládáí rozděleí Diskrétí rozděleí Poissoovo OK Proměá POCET klikeme a ikou se závažím Proměá vah CETNOST Stav Zaputo OK záložka Parametry - Lambda, - Výpočet. Proměá: POCET, Rozděleí:Poissoovo, Lambda =,00 (poruchy.sta) Kategorie <= 0,00000,00000,00000 3,00000 < Nekoečo Chí-kvadrát = 3,0337, sv = 3, p = 0,38646 Pozorovaé Kumulativ. Procet Četosti Pozorovaé Pozorovaé Kumul. % Pozorovaé Očekáv. Četosti Kumulativ. Očekáv. Procet Očekáv. Kumul. % Očekáv. 5 5 34,66667 34,6667 45,794 45,79 30,943 30,94 48 00 3,00000 66,6667 54,495 99,394 36,4330 66,67 36 36 4,00000 90,6667 3,5897 3,93,68598 87,9487 0 46 6,66667 97,3333 3,059 44,9347 8,67439 96,63 4 50,66667 00,0000 5,06535 50,0000 3,37690 00,0000 V záhlaví výstupí tabulky je uvedea hodota testového kritéria (3,0337), počet stupňů volosti = 3 a p-hodota (0,38646). Nulová hypotéza se tedy ezamítá a asymptotické hladiě výzamosti 0,05. Počet stupňů volosti 3 však eodpovídá tomu, že záme parametr λ, ve skutečosti je počet stupňů volosti 4. Proto pro výpočet p-hodoty otevřeme ový datový soubor o jedé proměé a jedom případu. Do Dlouhého jméa apíšeme =-IChi(3,0337;4). Dostaeme p-hodotu 0,55. Pro vytvořeí grafu se vrátíme do Proložeí diskrétích rozložeí Základí výsledky Graf pozorovaého a očekávaého rozděleí 60 Proměá: POCET, Rozděleí:Poissoovo, Lambda =,0000 Chí-kvadrát test = 3,0337, sv = 3, p = 0,38646 P 50 Počet pozorováí 40 30 0 0 0-0 3 4 5 Kategorie (horí meze) V grafu jsou patré určité rozdíly mezi hodotami pravděpodobostí a četostí fukce, ale tyto rozdíly ejsou příliš velké.
Příklad: Testováí shody empirického a teoretického rozložeí při eúplě specifikovaém problému V tabulce jsou roztříděy fotbalové zápasy určité soutěže podle počtu vstřeleých braek. Počet braek 0 3 4 a víc Počet zápasů 9 30 7 0 8 Na hladiě výzamosti 0,05 testujte hypotézu, že jde o výběr z Poissoova rozložeí. Výpočet pomocí systému STATISTICA: Načteme datový soubor braky.sta. Proměá POCET obsahuje počet vstřeleých braek, proměá CETNOST pak počet zápasů, v ichž bylo dosažeo zjištěého počtu braek. Statistiky Prokládáí rozděleí Diskrétí rozděleí Poissoovo OK Proměá POCET klikeme a ikou se závažím Proměá vah CETNOST Stav Zaputo OK Výpočet. Proměá: POCET, Rozděleí:Poissoovo, Lambda =,500 (braky.sta) Kategorie <= 0,00000,00000,00000 3,00000 < Nekoečo Chí-kvadrát =,0705, sv = 3, p = 0,55790 Pozorovaé Kumulativ. Procet Kumul. % Očekáv. Kumulativ. Procet Kumul. % Četosti Pozorovaé Pozorovaé Pozorovaé Četosti Očekáv. Očekáv. Očekáv. 9 9,6905,690 8,7494 8,7494,330,330 30 49 35,749 58,3333 8,440 46,85733 33,4695 55,785 7 66 0,380 78,574,08580 67,9433 5,04 80,8847 0 76,90476 90,476 0,5490 78,48603,5507 93,4358 8 84 9,538 00,0000 5,5397 84,00000 6,5644 00,0000 V tomto případě je parametr λ Poissoova rozložeí ezámý, je odhadut pomocí výběrového průměru a odhad čií,5. Dále je v záhlaví výstupí tabulky uvedea hodota testového kritéria (Chí kvadrát =,0705), počet stupňů volosti r p = 5 = 3 a p-hodota (0,5578). Nulová hypotéza se tedy ezamítá a asymptotické hladiě výzamosti 0,05. Pro vytvořeí grafu se vrátíme do Proložeí diskrétích rozložeí Základí výsledky Graf pozorovaého a očekávaého rozděleí. 35 P 30 5 Počet pozorováí 0 5 0 5 0-0 3 4 5 Kategorie (horí meze)
Pozámka k testu dobré shody: Teto test může být použit i v těch případech, kdy rozložeí, z ěhož daý áhodý výběr pochází, eodpovídá ějakému zámému rozložeí (apř. expoeciálímu, ormálímu, Poissoovu,...), ale je určeo ituitivě ebo a základě zkušeosti. Příklad: Ve svých pokusech pozoroval J.G. Medel 0 rostli hrachu a a každé z ich počet žlutých a zeleých seme. Výsledky pokusu: číslo rostliy 3 4 5 6 7 8 9 0 počet žlutých seme 5 3 4 70 4 0 3 44 50 44 počet zeleých seme 7 5 7 3 6 3 9 4 8 celkem 36 39 9 97 37 6 45 53 64 6 Z geetických modelů vyplývá, že pravděpodobost výskytu žlutého semee by měla být 0,75 a zeleého 0,5. Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že výsledky Medelových pokusů se shodují s modelem. Řešeí: Výpočty potřebé pro staoveí testové statistiky K uspořádáme do tabulky. j j p j p j ( j - p j ) / p j 5 0,75 36.0,75=7 0,4848 3 0,75 39.0,75=9,5 0,58547 0 44 0,75 6.0,75=46,5 0,34409 K = 0,4848 + 0,58547 +... + 0,34409 =,797495, r = 0, χ 0,95(9) = 6,9. Protože,797495 < 6,9, ulovou hypotézu ezamítáme a asymptotické hladiě výzamosti 0,05.
Výpočet pomocí systému STATISTICA: Načteme datový soubor Medel hrach.sta. Proměá celkem obsahuje celkový počet seme, X obsahuje pozorovaý počet žlutých seme a Y vypočítaé teoretické četosti žlutých seme (v ašem případě X*0,75). Statistiky Neparametrická statistika Pozorovaé versus očekávaé χ OK - Pozorovaé četosti X, Očekávaé četosti Y - OK Výpočet. Dostaeme tabulku: Případ C: C: C: 3 C: 4 C: 5 C: 6 C: 7 C: 8 C: 9 C: 0 Sčt Pozorovaé vs. očekávaé četosti (Medel hrach.sta) Chi-Kvadr. =,797495 sv = 9 p =,99480 POZN.: Nestejé součty pozor. a oček. četostí pozorov. očekáv. P - O (P-O)^ X Y /O 5,0000 7,0000 -,00000 0,4848 3,0000 9,500,75000 0,58547 4,0000 4,500-0,5000 0,004386 70,0000 7,7500 -,75000 0,0395 4,0000 7,7500-3,75000 0,506757 0,0000 9,5000 0,50000 0,08 3,0000 33,7500 -,75000 0,09074 44,0000 39,7500 4,5000 0,454403 50,0000 48,0000,00000 0,083333 44,0000 46,5000 -,50000 0,34409 355,0000 358,5000-3,50000,797495 Ve výstupí tabulce ajdeme hodotu testové statistiky (Chi-Kvadr =,797495), počet stupňů volosti (sv = 9) a odpovídající p-hodotu, kterou porováme se zvoleou hladiou výzamosti. V ašem případě je p-hodota 0,9948, takže ulová hypotéza se ezamítá a asymptotické hladiě výzamosti 0,05.
Příklad: Při 60 hodech kostkou jsme dosáhli těchto výsledků: 9 x jedička, x dvojka, 0 x trojka, 3 x čtyřka, x pětka a 6 x šestka. Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že kostka je homogeí. Řešeí: = 60 j j p j p j ( j - p j ) ( j - p j ) / p j 9 /6 0 /0 /6 0 /0 3 0 /6 0 0 0 4 3 /6 0 9 9/0 5 /6 0 /0 6 6 /6 0 6 6/0 K =,8, r = 6, p = 0, χ 0,95(5) =,07. Protože K <,07, H 0 ezamítáme a asymptotické hladiě výzamosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor kostka.sta. Proměá X obsahuje pozorovaé četosti jedotlivých čísel,, 6 a proměá Y obsahuje teoretické četosti (v ašem případě 0). Statistiky Neparametrická statistika Pozorovaé versus očekávaé χ OK - Pozorovaé četosti X, Očekávaé četosti Y - OK Výpočet. Dostaeme tabulku: Pozorovaé vs. očekávaé četosti (kostka.sta) Chi-Kvadr. =,800000 sv = 5 p =,730786 pozorov. očekáv. P - O (P-O)^ Případ X Y /O C: 9,00000 0,00000 -,00000 0,00000 C:,00000 0,00000,00000 0,00000 C: 3 0,00000 0,00000 0,00000 0,000000 C: 4 3,00000 0,00000 3,00000 0,900000 C: 5,00000 0,00000,00000 0,00000 C: 6 6,00000 0,00000-4,00000,600000 Sčt 60,00000 60,00000 0,00000,800000 Ve výstupí tabulce ajdeme hodotu testové statistiky (Chi-Kvadr =,8), počet stupňů volosti (sv = 5) a odpovídající p- hodotu, kterou porováme se zvoleou hladiou výzamosti. V ašem případě je p-hodota 0,730786, takže ulová hypotéza se ezamítá a asymptotické hladiě výzamosti 0,05.
Příklad: Ze zázamů autosalóu byl ve 00 áhodě vybraých dech zjiště počet prodaých aut. Počet prodaých aut za de 0 3 4 5 a víc Počet dů 9 43 9 5 3 Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že počet prodaých aut za de se řídí Poissoovým rozložeím. Řešeí: Parametr λ Poissoova rozložeí ezáme, odhademe ho pomocí výběrového průměru. m = j x r j= 00 [ j] = ( 0 9 + 43 + 9 + 3 + 4 5 + 5 3) =,7 = λ. Pravděpodobost, že áhodá veličia X ~ Po(,7) bude,7 abývat hodot p j, j = 0,,,3,4,5 a víc, je p = e, j = 0,,,3, 4, p = ( p + p + p + p + p ) j,7 j! j j j p j p j ( j - p j ) ( j - p j ) / p j 0 9 0,87 8,7 85,939 4,7035 43 0,306 3,06 4,5636 4,5899 9 0,64 6,4 6,76 0,56 3 0,496 4,96 5,686,048 4 5 0,0636 6,36,8496 0,908 5 a víc 3 0,096,96 0,006 0,0005 Vidíme, že eí splěa podmíka dobré aproximace. Sloučíme proto variaty 4 a 5. j j p j p j ( j - p j ) ( j - p j ) / p j 0 9 0,87 8,7 85,939 4,7035 43 0,306 3,06 4,5636 4,5899 9 0,64 6,4 6,76 0,56 3 0,496 4,96 5,686,048 4 a víc 8 0,093 9,3,744 0,869 K = 0,7846, r = 5, p =, χ 0,95(3) = 7,85. Protože K 7,85, H 0 zamítáme a asymptotické hladiě výzamosti 0,05. 5 0 3 4
Výpočet pomocí systému STATISTICA: Načteme datový soubor autosalo.sta. Proměá POCET obsahuje počet prodaých aut, proměá CETNOST pak počet dů, v ichž byl prodá zjištěý počet aut. Statistiky Prokládáí rozděleí Diskrétí rozděleí Poissoovo OK Proměá POCET klikeme a ikou se závažím Proměá vah CETNOST Stav Zaputo OK Výpočet. Proměá: POCET, Rozděleí:Poissoovo, Lambda =,69000 (autosalo.sta) Kategorie <= 0,00000,00000,00000 3,00000 4,00000 < Nekoečo Chí-kvadrát = 0,7309, sv = 3 (uprav.), p = 0,038 Pozorovaé Kumulativ. Procet Kumul. % Očekáv. Kumulativ. Procet Kumul. % Četosti Pozorovaé Pozorovaé Pozorovaé Četosti Očekáv. Očekáv. Očekáv. 9 9 9,00000 9,0000 8,4596 8,450 8,4596 8,450 43 5 43,00000 5,0000 3,8380 49,6358 3,8380 49,6358 9 8 9,00000 8,0000 6,3503 75,986 6,3503 75,986 9,00000 9,0000 4,8440 90,830 4,8440 90,830 5 97 5,00000 97,0000 6,759 97,07 6,759 97,07 3 00 3,00000 00,0000,89834 00,0000,89834 00,0000 V záhlaví výstupí tabulky uvedea hodota testového kritéria (0,7309), počet stupňů volosti 3 a p-hodota (0,038). Nulová hypotéza se tedy zamítá a asymptotické hladiě výzamosti 0,05. Vidíme, že esouhlasí počet stupňů volosti, měl by být 4. Proto p-hodotu vypočteme zvlášť. Otevřeme ový datový soubor o jedé proměé a jedom případu. Do Dlouhého jméa apíšeme =-IChi(0,7309;4). Dostaeme p-hodotu 0,098. Pro vytvořeí grafu se vrátíme do Proložeí diskrétích rozložeí Základí výsledky Graf pozorovaého a očekávaého rozděleí. 50 45 40 35 Proměá: POCET, Rozděleí:Poissoovo, Lambda =,69000 Chí-kvadrát test = 0,7309, sv = 3 (uprav.), p = 0,038 P Počet pozorováí 30 5 0 5 0 5 0-0 3 4 5 6 Kategorie (horí meze) V tomto případě jsou patré začé rozdíly mezi pozorovaými a teoretickými četostmi.
Jedoduchý test expoeciálího rozložeí Testujeme hypotézu, která tvrdí, že áhodý výběr X,..., X pochází z expoeciálího rozložeí. Ozačme M výběrový průměr a S výběrový rozptyl tohoto áhodého výběru. Víme, že středí hodota áhodé veličiy X ~ Ex(λ) je E(X) = /λ a rozptyl je D(X) = /λ. ( ) S Test založíme a statistice K =, která se v případě platosti H 0 asymptoticky řídí rozložeím χ (-). M W = 0, χ α / χ α /,. Kritický obor: ( ) ( ) ) Jestliže K W, H 0 zamítáme a asymptotické hladiě výzamosti α. Příklad: Byla zkoumáa doba životosti 45 součástek (v hodiách). Zjistili jsme, že průměrá doba životosti čiila m = 99,93 h a rozptyl s = 738,9 h. Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že daý áhodý výběr pochází z expoeciálího rozložeí. Řešeí: ( ) S 44 738,9 Testová statistika: K = = = 3,94 M 99,93 Kritický obor: W = 0, χ α / ( ) χ α / ( ), ) = 0, χ 0,05( 44) χ 0, 975 ( 44), ) = 0,7,575 64,0, ) Protože se testová statistika erealizuje v kritickém oboru, hypotézu o expoeciálím rozložeí ezamítáme a asymptotické hladiě výzamosti 0,05.
Jedoduchý test Poissoova rozložeí Testujeme hypotézu, která tvrdí, že áhodý výběr X,..., X pochází z Poissoova rozložeí. Ozačme M výběrový průměr a S výběrový rozptyl tohoto áhodého výběru. Víme, že středí hodota áhodé veličiy X ~ Po(λ) je E(X) = λ a rozptyl je D(X) = λ. ( ) S Test založíme a statistice K =, která se v případě platosti H 0 asymptoticky řídí rozložeím χ (-). M Kritický obor: W = 0, χ α / ( ) χ α / ( ), ). Příklad: Studujeme rozložeí počtu pacietů, kteří během 75 dů přijdou a pohotovost. Osmihodiovou pracoví dobu rozdělíme do půlhodiových itervalů a v každém itervalu zjistíme počet příchozích pacietů: Počet pacietů 0 3 4 5 6 7 8 9 0 Pozorovaá četost 79 88 8 75 96 4 45 0 7 3 Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že daý áhodý výběr pochází z Poissoova rozložeí. Řešeí: Nejprve musíme vypočítat realizaci výběrového průměru a výběrového rozptylu: m = ( 0 79 + 88 + + 0 ) =,803 00 s = [ 79 ( 0,803) + 88 (,803) + + ( 0,803) ] =, 708579 99 ( ) S 99,708579 K = = = 58,579, M,803 = 0;04,93 96,86; ), Kritický obor: W = 0, χ α / ( ) χ α / ( ), ) H 0 ezamítáme a asymptotické hladiě výzamosti 0,05.
Příklad: V systému hromadé obsluhy byla sledováa doba obsluhy 70 zákazíků (v mi). Výsledky jsou uvedey v tabulce rozložeí četostí: Doba obsluhy Počet zákazíků (0, 3] 4 (3,6] 6 (6,9] 0 (9,] 9 (,5] 8 (5,8] 5 (8,] 3 (,4] 5 Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že daý áhodý výběr pochází z expoeciálího rozložeí. Použijte: a) test dobré shody, b) jedoduchý test expoeciálího rozložeí Řešeí: Testujeme H 0 : áhodý výběr X,, X 70 pochází z Ex(λ) proti H : o H 0. Ad a) Nejprve odhademe parametr λ expoeciálího rozložeí: λ ˆ = = m r j= 0 j x 70 [ j] = ( 4,5 + 6 4,5 + + 5,5) Pravděpodobost, že áhodá veličia s rozložeím Ex(λ), kde λ = 0, se bude realizovat v itervalu ( u j, u j + je λx p j = Φ(u j+ ) - Φ(u j ), j =,, r, kde Φ ( x) = e. Výpočty potřebé pro staoveí testové statistiky K uspořádáme do tabulky. = 0,
( j, u j u + x [j] j p j p j (0, 3],5 4 0,858 0,0033 (3,6] 4,5 6 0,04 4,87 (6,9] 7,5 0 0,458 0,044 (9,] 0,5 9 0,04 7,884 (,5] 3,5 8 0,0744 5,056 (5,8] 6,5 5 0,053 3,78 (8,] 9,5 3 0,0378,6556 (,4],5 5 0,07,8967 Podmíky dobré aproximace ejsou splěy, sloučíme tedy itervaly (5,8], (8,] a (,4]. ( j, u j u + x [j] j p j p j ( j - p j ) / p j (0, 3],5 4 0,858 0,0033,807 (3,6] 4,5 6 0,04 4,87 0,054 (6,9] 7,5 0 0,458 0,044 0,004 (9,] 0,5 9 0,04 7,884 0,400 (,5] 3,5 8 0,0744 5,056,5000 (5,4] 9,5 3 0,8 8,704,7047 Testová statistika K =,807 + +,7047 = 6,678, r = 6, p =, r p = 4, χ 0,95(4) = 9,4877. Testová statistika se erealizuje v kritickém oboru W = 9,4877, ), a asymptotické hladiě výzamosti 0,05 elze zamítout hypotézu, že doba obsluhy se řídí expoeciálím rozložeím.
S Ad b) Jedoduchý test expoeciálího rozložeí je založe a statistice K =, která se v případě platosti H 0 M asymptoticky řídí rozložeím χ (-). Kritický obor: W = 0, χ α / ( ) χ α / ( ), ). Nejprve musíme vypočítat realizaci výběrového průměru a výběrového rozptylu: m = ( 4,5 + 6 4,5 + + 5,5) = 8, 943 70 s = 9,5 8,943 + 6 4,5 8,943 + + 5 69 ( ) S 69 4,447 K = = = 35,765. M 8,943 [ ( ) ( ) (,5 8,943) ] = 4, 447 Kritický obor: W = 0, χ α / ( ) χ α / ( ), ) = 0, χ 0,05( 69) χ 0, 975 ( 69), ) = 0;47,94 93,8565, ) H 0 zamítáme a asymptotické hladiě výzamosti 0,05. ( ).
Hodoceí kotigečích tabulek Osova: - zavedeí kotigečí tabulky - testováí hypotézy o ezávislosti a měřeí síly závislosti - test homogeity - aalýza čtyřpolích tabulek Motivace Při zpracováí dat se velmi často setkáme s úkolem zjistit, zda dvě áhodé veličiy omiálího typu jsou stochasticky ezávislé. Např. ás může zajímat, zda ve sledovaé populaci je barva očí a barva vlasů ezávislá. Zpravidla chceme také zjistit itezitu případé závislosti sledovaých dvou veliči. K tomuto účelu byly zkostruováy růzé koeficiety, které abývají hodot od 0 do. Čím je takový koeficiet bližší, tím je závislost mezi daými dvěma veličiami silější a čím je bližší 0, tím je slabší.
Kotigečí tabulky Nechť X,Y jsou dvě omiálí áhodé veličiy (tj. obsahová iterpretace je možá jeom u relace rovosti). Nechť X abývá variat x [],..., x [r] a Y abývá variat y [],..., y [s]. Ozačme: π = P X = x Y = y simultáí pravděpodobost dvojice variat (x [j], y [k] ) jk ( [ j] [ k] ) ( X x [ j] ) ( Y ) π = P = margiálí pravděpodobost variaty x [j] j.. k = P = y π [ k] margiálí pravděpodobost variaty y [k] Simultáí a margiálí pravděpodobosti zapíšeme do kotigečí tabulky: y y []... y [s] π j. x π jk x [] π... π s π................ x [r] π r... π rs π r. π.k π.... π.s
Pořídíme dvourozměrý áhodý výběr (X, Y ),..., (X, Y ) rozsahu z rozložeí, kterým se řídí dvourozměrý diskrétí áhodý vektor (X, Y). Zjištěé absolutí simultáí četosti jk dvojice variat (x [j], y [k] ) uspořádáme do kotigečí tabulky: y y []... y [s] j. x jk x []... s................ x [r] r... rs r..k.....s j. = j +... + js je margiálí absolutí četost variaty x [j].k = k +... + rk je margiálí absolutí četost variaty y [k] Simultáí pravděpodobost π jk odhademe pomocí simultáí relativí četosti j. a π.k odhademe pomocí margiálích relativích četostí p j. = a.k p. k =. p = jk jk, margiálí pravděpodobosti π j.
Pořídíme dvourozměrý áhodý výběr (X, Y ),..., (X, Y ) rozsahu z rozložeí, kterým se řídí dvourozměrý diskrétí áhodý vektor (X, Y). Zjištěé absolutí simultáí četosti jk dvojice variat (x [j], y [k] ) uspořádáme do kotigečí tabulky: y y []... y [s] j. x jk x []... s................ x [r] r... rs r..k.....s j. = j +... + js je margiálí absolutí četost variaty x [j].k = k +... + rk je margiálí absolutí četost variaty y [k] Simultáí pravděpodobost π jk odhademe pomocí simultáí relativí četosti j. a π.k odhademe pomocí margiálích relativích četostí p j. = a.k p. k =. p = jk jk, margiálí pravděpodobosti π j.
Testováí hypotézy o ezávislosti Testujeme ulovou hypotézu H 0 : X, Y jsou stochasticky ezávislé áhodé veličiy proti alterativě H : X, Y ejsou stochasticky ezávislé áhodé veličiy. Kdyby áhodé veličiy X, Y byly stochasticky ezávislé, pak by platil multiplikativí vztah jk j.. k j =,,r, k =,, s: π jk = π j. π.k eboli =, tj. = j..k j.. k jk. Číslo se azývá teoretická četost dvojice variat (x [j], y [k] ). Testová statistika: K = r s j= k= Platí-li H 0, pak K se asymptoticky řídí rozložeím χ ((r-)(s-)). Kritický obor: W = χ α (( r )( s ) ), ). jk j. j.. k.k. Hypotézu o ezávislosti veliči X, Y tedy zamítáme a asymptotické hladiě výzamosti α, když K χ -α((r-)(s-)). Podmíky dobré aproximace Rozložeí statistiky K lze aproximovat rozložeím χ j.. k ((r-)(s-)), pokud teoretické četosti aspoň v 80% případů abývají hodoty větší ebo rové 5 a ve zbylých 0% eklesou pod. Neí-li splěa podmíka dobré aproximace, doporu- čuje se slučováí ěkterých variat.
Měřeí síly závislosti K Cramérův koeficiet: V =, kde m = mi{r,s}. Teto koeficiet abývá hodot mezi 0 a. Čím blíže je k, tím je (m ) závislost mezi X a Y těsější, čím blíže je k 0, tím je tato závislost volější. Výzam hodot Cramérova koeficietu: mezi 0 až 0, zaedbatelá závislost, mezi 0, až 0,3 slabá závislost, mezi 0,3 až 0,7 středí závislost, mezi 0,7 až silá závislost. Carl Harald Cramér (893 985): Švédský matematik
Příklad V sociologickém průzkumu byl z uchazečů o studium a vysokých školách poříze áhodý výběr rozsahu 360. Mimo jié se zjišťovala sociálí skupia, ze které uchazeč pochází (veličia X) a typ školy, a kterou se hlásí (veličia Y). Výsledky jsou zazameáy v kotigečí tabulce: Sociálí skupia Typ školy j. uiverzití techický ekoomický I 50 30 0 90 II 30 50 0 00 III 0 0 30 60 IV 50 0 50 0.k 40 0 0 360 Na asymptotické hladiě výzamosti 0,05 testujte hypotézu o ezávislosti typu školy a sociálí skupiy. Vypočtěte Cramérův koeficiet.
Řešeí: Nejprve vypočteme všech teoretických četostí: Sociálí skupia Typ školy j. uiverzití techický ekoomický I 50 30 0 90 II 30 50 0 00 III 0 0 30 60 IV 50 0 50 0.k 40 0 0 360.. 90 40.. 90 0.. 3 90 0 = = 35, = = 7,5, = = 7,5, 360 360 360.. 00 40.. 00 0.. 3 00 0 = = 38,9, = = 30,6, = = 30,6, 360 360 360 3.. 60 40 3.. 60 0 3.. 3 60 0 = = 3,3, = = 8,3, = = 8,3, 360 360 360 4.. 0 40 4.. 0 0 4.. 3 0 0 = = 4,8, = = 33,6, = = 33,6 360 360 360 Vidíme, že podmíky dobré aproximace jsou splěy, všechy teoretické četosti převyšují číslo 5. Dosadíme do vzorce pro testovou statistiku K: ( 50 35) ( 30 7,5) ( 50 33,6) K = + + + = 76,84. 35 7,5 33,6 Dále staovíme kritický obor: W = χ α (( r )( s ) ), ) = χ 0,95( ( 4 )( 3 ) ), ) = χ 0, 95( 6), ) =,6, ) Protože K W, hypotézu o ezávislosti typu školy a sociálí skupiy zamítáme a asymptotické hladiě výzamosti 0,05. 76,4 Vypočteme Cramérův koeficiet: V = = 0, 367. 360 Hodota Cramérova koeficietu svědčí o tom, že mezi veličiami X a Y existuje středě silá závislost.
Výpočet pomocí systému STATISTICA: Vytvoříme ový datový soubor o třech proměých (X - sociálí skupia, Y typ školy, četost) a případech: X Y 3 četost I uiverzití 50 I techický 30 3 I ekoomický 0 4 II uiverzití 30 5 II techický 50 6 II ekoomický 0 7 III uiverzití 0 8 III techický 0 9 III ekoomický 30 0 IV uiverzití 50 IV techický 0 IV ekoomický 50
Statistiky Základí statistiky/tabulky OK Specif. Tabulky List X, List Y OK, zapeme proměou vah četost OK, Výpočet a záložce Možosti zaškrteme Očekávaé četosti. Dostaeme kotigečí tabulku teoretických četostí: Souhrá tab.: Očekávaé četosti (typ skoly) Četost ozačeých buěk > 0 Pearsoův chí-kv. : 76,8359, sv=6, p=,000000 X Y uiverzití Y techický Y ekoomický Řádk. součty I 35,0000 7,5000 7,5000 90,0000 II 38,8889 30,5556 30,5556 00,0000 III 3,3333 8,3333 8,3333 60,0000 IV 4,7778 33,6 33,6 0,0000 Vš.skup. 40,0000 0,0000 0,0000 360,0000 Všechy teoretické četosti jsou větší ež 5, podmíky dobré aproximace jsou splěy. V záhlaví tabulky je uvedea hodota testové statistiky K = 76,8359, počet stupňů volosti 6 a odpovídající p-hodota. Je velmi blízká 0, tedy a asymptotické hladiě výzamosti 0,05 zamítáme hypotézu o ezávislosti typu školy a sociálí skupiy. Hodotu testové statistiky a Cramérův koeficiet dostaeme také tak, že a a záložce Možosti zaškrteme Pearsoův & M-V chí kvadrát a Cramérovo V, a záložce Detailí výsledky vybereme Detailí rozm. tabulky. Statist. Chí-kvadr. sv p Pearsoův chí-kv. M-V chí-kvadr. Fí Kotigečí koeficiet Cramér. V 76,83589 df=6 p=,00000 84,5358 df=6 p=,00000,46988,493947,366749
Test homogeity v tabulce typu x s Máme kotigečí tabulku, v íž veličia X má je dvě variaty a veličia Y s variat: y y []... y [s] π j. x π jk x [] π... π s π. x [] π... π s π. π.k π.... π.s Pořídíme dvourozměrý áhodý výběr (X, Y ),..., (X, Y ) rozsahu z rozložeí, kterým se řídí dvourozměrý diskrétí áhodý vektor (X, Y). Zjištěé absolutí simultáí četosti jk dvojice variat (x [j], y [k] ) uspořádáme do kotigečí tabulky: y y []... y [s] j. x π jk x []... s. x []... s. π.k.....s Na asymptotické hladiě výzamosti α testujeme hypotézu H 0 : π k = π k, k =,,, s proti alterativě H : aspoň jeda dvojice pravděpodobostí se liší. Na problém lze pohlížet tak, že máme s ezávislých áhodých výběrů z alterativích rozložeí, přičemž prví má rozsah = + a pochází z rozložeí A( ϑ ),., s-tý má rozsah s = s + s a pochází z rozložeí A( ϑ s ). Testujeme hypotézu H 0 : ϑ = = proti alterativě H : o H 0. ϑs
V kapitole o hodoceí áhodých výběrů z alterativích rozložeí jsme použili testovou statistiku: s Q = ( M M ) ( s ) M ( M ) j j * χ, když H 0 platí. * * j= Kritický obor: W = χ α ( s ), ) H 0 tedy zamítáme a asymptotické hladiě výzamosti α, když výběrových průměrů. Nyí použijeme testovou statistiku K = s j= k= jk j. j.. k.k Q W. Přitom M * s j M j j= = je vážeý průměr, stejě jako u testu ezávislosti. Lze dokázat, že při výše uvedeém ozačeí jsou statistiky Q a K totožé. Tedy test homogeity lze provést stejě jako test ezávislosti. Tato statistika se v případě platosti ulové hypotézy asymptoticky řídí rozložeím χ (s-). Kritický obor: W = χ α ( s ), ) Nulovou hypotézu zamítáme a asymptotické hladiě výzamosti α, když K W..
Příklad: 04 áhodě vybraých matek bylo dotázáo, zda jejich kojeec dostává dudlík. Zjišťoval se též ejvyšší stupeň dosažeého vzděláí matky. Vzděláí matky Počet matek Počet dětí s dudlíkem ZŠ 39 7 SŠ 47 34 VŠ 8 5 Na asymptotické hladiě výzamosti 0,05 testujte hypotézu, že používáí dudlíku ezávisí a vzděláí matky. (Jedá se o příklad 8.6.. ze skript Základí statistické metody. Zde je uvedeo, že testová statistika Q se realizuje hodotou,67, kritický obor je W = 5,99, ), tedy ulovou hypotézu ezamítáme a asymptotické hladiě výzamosti 0,05.) Řešeí: Data zapíšeme do kotigečí tabulky x 3. Matka ZŠ Matka SŠ Matka VŠ j. Dudlík ao 7 34 5 76 Dudlík e 3 3 8.k 39 47 8 04 Ověříme splěí podmíek dobré aproximace:.. 76 39.. 76 47.. 3 76 8.. 8 39.. 8 47.. 3 8 8 = = 8,5, = =,65, = = 4,85, = = 8,5, = = 39,35, = = 3,5 04 04 04 04 04 04 Podmíky dobré aproximace jsou splěy, pouze v případě ze 6 je teoretická četost meší ež 5. Dosadíme do vzorce pro testovou statistiku K: ( 7 8,5) ( 34,65) ( 3 3,5 ) K = + + + =,686 8,5,65 3,5 Kritický obor: W = χ α ( s ), ) = χ 0, 95 ( ), ) = 5,99, ) Na asymptotické hladiě výzamosti 0,05 se tedy eprokázalo, že používáí dudlíku závisí a vzděláí matky.
Čtyřpolí tabulky Nechť r = s =. Pak hovoříme o čtyřpolí kotigečí tabulce a používáme ozačeí: = a, = b, = c, = d. X Y j. y [] y [] x [] a b a+b x [] c d c+d.k a+c b+d Test ezávislosti ve čtyřpolí tabulce Testovou statistiku pro čtyřpolí kotigečí tabulku lze zjedodušit do tvaru: ( ad bc) K =. ( a + b)( c + d)( a + c)( b + d) Platí-li hypotéza o ezávislosti veliči X, Y, pak K se asymptoticky řídí rozložeím χ (). Kritický obor: W = χ α ( ), ) Nulovou hypotézu zamítáme a asymptotické hladiě výzamosti α, když K W. Povšiměte si, že za platosti hypotézy o ezávislosti ad = bc.
Pro čtyřpolí tabulku avrhl R. A. Fisher přesý (exaktí) test ezávislosti zámý jako Fisherův faktoriálový test. Sir Roald Aylmer Fisher (890 96): Britský statistik a geetik. (Fisherův přesý test je popsá apř. v kize K. Zvára: Biostatistika, Karolium, Praha 998. Pricip spočívá v tom, že pomocí kombiatorických úvah se vypočítají pravděpodobosti toho, že při daých margiálích četostech dostaeme tabulky, které se od ulové hypotézy odchylují aspoň tak, jako daá tabulka.) Upozorěí: STATISTICA poskytuje p-hodotu pro Fisherův přesý test. Jestliže vyjde p α, pak hypotézu o ezávislosti zamítáme a hladiě výzamosti α.