Uverzta Jaa Evagelsty Purkyě v Ústí ad Labem Přírodovědecká fakulta Úvod do teore měřeí Prof. Chlář
emář 0 Průměr, rozptyl a směrodatá odchylka X = X = ( X X ) = = = Výpočty pomocí vzorců a pomocí statstckých fukcí Vlastost průměru a rozptylu vzhledem k leárím trasformacím hodot. Kostrukce tabulky pro zolovaé hodoty: dex hodoty x x - průměr (x - průměr)^ 3 6 3 5 4 3 5 5 6 9 7 4 8 5 9 3 0 součet průměr rozptyl POZOR: průměr defovat jako ázev Povšmout s ulového součtu odchylek. Aplkace statstckých fukcí: PRUMER, VAR.VYBER a MODCH.VYBER, kotrola výpočtů z tabulky. 3. Expermetováí se zadaým čísly (demostrace změ a číselé ose), sledováí příslušých změ vypočítaých charakterstk: všecha čísla zvětší o kostatu (apříklad o 3), všecha čísla se vyásobí kostatou (apříklad číslem ), čísla se změí tak, aby průměr zůstal zachová a rozptyl se zmešl (zvětšl), atd.
emář 0 Uspořádaý soubor, mmum, maxmum, rozpětí Medá, kvartly, kvartlové rozpětí Výpočty těchto charakterstk pomocí statstckých fukcí Vlastost těchto charakterstk vzhledem k leárím trasformacím 4. Zvolte s sam 6 růzých dvoucferých čísel a pomocí statstckých fukcí MIN, MAX, MEDIAN, QUARTIL zjstěte hodoty pět požadovaých charakterstk. dex hodoty x 3 6 3 5 4 mmum 5 95 dolí kvartl 6 9 medá 7 54 horí kvartl 8 65 maxmum 9 43 0 5 3 36 3 75 4 83 5 5 6 79 5. Z jejch číselých hodot odhalte, jaký je jejch výzam, a jak se počítají (soubor hodot s můžete uspořádat). 6. Jaký výzam mají pojmy rozpětí a kvartlové rozpětí? 7. Jak se pořadové charakterstky měí, když hodoty leárě trasformujeme č jak měíme, apříklad: všecha čísla zvětšíme o kostatu (apříklad o 3), všecha čísla se vyásobíme kostatou (apříklad číslem ), jak máme změt čísla, aby medá zůstal zachová a rozpětí (kvartlové rozpětí) se zmešlo (zvětšlo), atd. 5. ezamte se se statstckým ástrojem Popsá statstka pro pole hodot. 3
emář 03 Geerováí áhodých velč (zejméa ormálí rozděleí) Kostrukce hstogramu Vylučováí odlehlých hodot 8. Naučte se používat ástroj Geerátor pseudoáhodých čísel (je třeba mít k dspozc doplěk Aalýza Dat) a statstckou fukc Četost (dvojhmat). mulujte 00 hodů mcí a zjstěte počet hozeých líců a rubů. mulujte 00 hodů kostkou a zjstěte, kolkrát padla jedotlvá čísla. mulujte áhodý výběr rozsahu 500 z výšek ldí pomocí geerátoru ormálího rozděleí (µ = 75, σ = 0). 9. Naučte se používat ástroj Hstogram (v doplňku Aalýza dat). Neí vhodé, aby počet třídích tervalů byl přílš malý aebo přílš velký. Doporučuje se jej volt tak, aby byl přblžě rove číslu ze turgesova vzorce: + 3,3. log, kde je počet měřeí. 0. Vylučováí odlehlých hodot pomocí vtřích hradeb: Pomocí dolího kvartlu DK, horího kvartlu HK a kvartlového rozpětí KR, které je dáo vztahem KR = HK DK, vypočítáme obě vtří hradby: dolí hradba : DH = DK,5. KR, horí hradba : HH = HK +,5. KR. Za odlehlé hodoty považujeme ty, které jsou meší ež dolí hradba a větší ež horí hradba. Tyto hodoty z výběrového souboru vyloučíme a test pak opakujeme pro redukovaý soubor. Dále zpracováváme je hodoty zbývající.. Vylučováí odlehlých hodot pomocí Grubbsova testu (vhodé pro meší výběrové soubory, kde rozsah výběru epřevyšuje číslo 0): Nejprve vypočítáme pomocí směrodaté odchylky číslo =. Pak pro mmum souboru m vypočítáme hodotu a podobě pro maxmum souboru max vypočítáme hodotu T max T m X m =, max X =. Extrémí hodotu vyloučíme, pokud vypočteá hodota T m č T max převýší hodotu T(,α) uvedeou v ásledující tabulce. Teto test pak 4
opakujeme pro redukovaý soubor do té doby, ež extrémí hodotu jž test evyloučí. Dále zpracováváme je hodoty zbývající. 5. Vylučováí odlehlých hodot pomocí Dea-Dxoova Q-testu (vhodé pro malé výběrové soubory, kde rozsah výběru epřevyšuje číslo 0): Pro teto test potřebujeme ejprve vypočítat rozpětí R = max m. Hodoty souboru uspořádáme podle velkost vzestupě tak, aby bylo m = X < X < X < < X < X = max. 3 (Pokud echceme soubor uspořádávat, můžeme získat druhou ejmeší hodotu a druhou ejvětší hodotu pomocí ástroje Popsá statstka.) X m Pak pro mmum souboru m vypočítáme hodotu Q m =, R max X =. R a pro maxmum souboru max vypočítáme hodotu Q Extrémí hodotu vyloučíme, pokud vypočteá hodota Q m č Q max převýší hodotu Q(,α) uvedeou v ásledující tabulce. Teto test pak opakujeme pro redukovaý soubor do té doby, ež extrémí hodotu jž test evyloučí. Dále zpracováváme je hodoty zbývající. 6. V ásledující tabulce se vyskytuje tzv. hlada výzamost α. Je to hodota ašeho rzka, že se př použtí testu dopustíme chyby (přesěj: je to pravděpodobost toho, že testem ozačíme hodotu za odlehlou, když tomu tak ve skutečost eí). Krtcké hodoty pro testy vylučováí odlehlých výsledků Počet měřeí Grubbsův test T(,α) max Dea-Dxoův Q-test Q(,α) α = 0,05 α = 0,0 α = 0,05 α = 0,0 3,4,46 0,94 0,988 4,689,73 0,765 0,889 5,869,955 0,64 0,760 6,996,30 0,560 0,698 7,093,65 0,507 0,637 8,7,374 0,468 0,590 9,37,464 0,437 0,555 0,94,540 0,4 0,57,343,606,387,663 3,46,74 4,46,759 5,493,800 6,53,837 7,55,87 8,557,903 9,600,93 0,63,959 5
emář 04 Dstrbučí fukce, kvatly. Pomocí geerátoru pseudoáhodých čísel s vytvořte soubor 50 čísel s ormálím rozděleím (středí hodotu a směrodatou odchylku s zvolte lbovolě). Na tato data užjte ástroj Pořadová statstka a percetly. Odhalte výzam údajů ve všech sloupcích získaé tabulky. 3. Pomocí údajů v tabulce vytvořte graf tzv. dstrbučí fukce, která pro lbovolě zvoleou hodotu udává, kolk procet čísel z daého souboru je meší, ež tato hodota: 00% Dstrbučí fukce 90% 80% 70% 60% 50% 40% 30% 0% 0% 0% 3 4 5 6 7 8 9 30 3 3 33 34 Odečtěte z grafu přblžou hodotu medáu a zkotrolujte s svůj odhad jeho staoveím pomocí fukce MEDIAN č QUARTIL. Totéž udělejte pro oba kvartly. Jaký výzam mají čísla, která azýváme decly, resp. cetly? 4. Naučte se používat statstcké fukce PERCENTIL a PERCENTRANK. Jaký je jejch vztah ke grafu dstrbučí fukce? 6
emář 05 Bodové a tervalové odhady pro parametry ormálího rozděleí tatstcké zpracováí hodot opakovaých měřeí ějaké velčy vychází tohoto předpokladu: ahodlé chyby způsobují, že aměřeé hodoty x se od správé hodoty μ lší, přčemž malé odchylky (a obě stray) jsou více pravděpodobé a větší odchylky jsou málo pravděpodobé. Vhodým modelem pro aměřeé hodoty x je tedy ormálí rozděleí No ( µ ; σ ), kde μ je středí hodota a rozptyl σ je charakterstkou přesost měřící metody. 5. Pomocí geerátoru pseudoáhodých čísel s vytvořte soubor 0 000 čísel s ormálím rozděleím (středí hodotu volte 30 a směrodatou odchylku volte 3). Tato data uspořádejte do 0 sloupců a 500 řádků. Tato čísla budou modelem měřeí velčy se správou hodotou 30, která provádělo 500 expermetátorů, z chž každý hodotu měřl ezávsle 0krát. Pro měřeí každého expermetárora (každý řádek) vypočítejte výběrový průměr a výběrový rozptyl. 6. Pomocí ástrojů Popsá statstka a Hstogram porovejte rozděleí hodot u základích dat (0 000 čísel), výběrových průměrů (500 čísel) a výběrových rozptylů (dalších 500 čísel). Jaké závěry plyou ze získaých formací? Výběrový průměr je vhodým bodovým odhadem středí hodoty μ ormálího rozděleí (tedy správé hodoty, kterou měříme). Výběrový rozptyl je vhodým bodovým odhadem rozptylu σ ormálího rozděleí (tedy přesost metody, kterou pro měřeí užíváme). Oba dva bodové odhady jsou však zatížey ahodlým chybam, hodoty bodových odhadů jsou tedy je přblžě rovy správým hodotám. 7
7. Př zpracováí měřeí se pokoušíme staovt rozmezí (terval) v ěmž skutečá (ezámá) hodota s velkou pravděpodobostí leží. Například: 95% procetí terval spolehlvost pokrývá ezámou hodotu parametru s pravděpodobostí (spolehlvostí) 0,95 = 95%. 99% procetí terval spolehlvost pokrývá ezámou hodotu parametru s pravděpodobostí (spolehlvostí) 0,95 = 95%. 8. Výpočet tervalu spolehlvost pro parametr µ ormálího rozděleí provedeme podle tohoto tvrzeí: PRAVD ( X t < µ < X + t ) = α kde kvatl (percetl) t tudetova rozděleí získáme pomocí fukce TINV s těmto hodotam parametrů: Prst = α, Volost =, aebo použjeme dále uvedeou tabulku kvatlů. Zjstěte s pro zvoleou hodotu α = 0,05 a hodotu = 0 číselou hodotu kvatlu t.. X + t. Vypočítejte pro každý řádek dolí mez tervalu spolehlvost X t. Vypočítejte pro každý řádek horí mez tervalu spolehlvost. Zjstěte logckou operací v každém řádku, zda byla expermetátorem tervalem spolehlvost zachycea správá hodota μ = 30 (dolí mez je meší ež 30 a současě je horí mez větší ež 30). Zjstěte (pomocí fukce Průměr) u kolka procet expermetátorů se tervalem spolehlvost podařlo pokrýt správou hodotu 30. 9. Výpočet tervalu spolehlvost pro parametr σ ormálího rozděleí provedeme podle tohoto tvrzeí: ( ) ( ) PRAVD ( < σ < ) = α χ χ kde kvatly χ a χ získáme fukcí CHIINV s těmto hodotam parametrů: pro χ : Prst = α /, Volost =, pro χ : Prst = - α /, Volost =, aebo použjeme dále uvedeou tabulku kvatlů. Zjstěte s pro zvoleou hodotu α = 0,05 a hodotu = 0 číselou hodotu kvatlů χ a χ. ( ). Vypočítejte pro každý řádek dolí mez tervalu spolehlvost χ. 8
Vypočítejte pro každý řádek horí mez tervalu spolehlvost ( ). Zjstěte logckou operací v každém řádku, zda byla expermetátorem tervalem spolehlvost zachycea správá hodota σ = 9 (dolí mez je meší ež 9 a současě je horí mez větší ež 9). Zjstěte (pomocí fukce Průměr) u kolka procet expermetátorů se tervalem spolehlvost podařlo pokrýt správou hodotu 9. Tabulky kvatlů: t α = 0,05 α = 0,0 χ χ 3 4,3066 7,37778 0,05064 9,9499 0,59653 0,000 4 3,845 9,34840 0,579 5,84085,83807 0,077 5,77645,436 0,4844 4,60408 4,8607 0,0698 6,57058,8349 0,83 4,03 6,74965 0,475 7,4469 4,44935,3734 3,70743 8,5475 0,67573 8,3646 6,077,68986 3,49948 0,7774 0,9895 9,3060 7,53454,797 3,35538,95486,34440 0,66 9,078,70039 3,4984 3,5897,7349,84 0,4830 3,4696 3,696 5,8805,5585,0099,900 3,8574 3,058 6,75686,6030 3,788 3,33666 4,40378 3,05454 8,9966 3,07379 4,6037 4,73558 5,00874 3,08 9,893 3,56504 5,4479 6,893 5,687,97685 3,3943 4,07466 6,345 7,48836 6,6,94673 3,8049 4,60087 7,990 8,8453 6,90766,9079 34,6705 5,46 8,098 30,9098 7,5648,8983 35,7838 5,6977 9,009 3,564 8,3074,87844 37,5639 6,6477 0,0930 3,8534 8,9065,86094 38,58 6,8439,08596 34,6958 9,59077,84534 39,99686 7,4338,0796 35,47886 0,89,8337 4,40094 8,03360 3,07388 36,78068 0,9833,8876 4,79566 8,6468 4,06865 38,0756,68853,80734 44,839 9,6038 5,06390 39,36406,405,79695 45,55836 9,8860 6,05954 40,64650 3,97,78744 46,9797 0,5965 7,05553 4,934 3,84388,7787 48,8978,60 8,0583 43,945 4,57337,77068 49,64504,80765 9,0484 44,46079 5,30785,7636 50,99356,468 30,0453 45,78 6,04705,75639 5,33550 3,07 t χ χ χ. 9
emář 06 Prcpy testováí statstckých hypotéz Testy o parametrech ormálího rozděleí No ( µ ; σ ) - jede výběr. Ilustratví příklad: Hraj se soupeřem hru, př íž záleží a tom, jak ám padají šestky a hozeých kostkách. Zatímco u mé kostky padá šestka podle očekáváí zhruba v jedé šestě případů, zdá se m, že a jeho kostce padá šestka daleko častěj. Hlodá ve mě podezřeí, že jeho kostka je falešá, o to ale popírá. Dohodl jsme se, že test jeho kostky uděláme takto: hodí 4krát kostkou a spočítáme, kolkrát mu pade šestka. Když bude počet hozeých šestek moc velký, prohlásíme kostku za falešou a vyřadíme j ze hry. Jaký výzam ale máme dát slovům moc velký? Pomůže ám ásledující tabulka? Pravděpodobost tohoto jevu Počet hozeých šestek za podmíky, že kostka je správá 0 0,0579548 0,0603797530988 0,388734394573 3 0,03680335040 4 0,3865085964 5 0,709068574 6 0,083583098385 7 0,0557730778 8 0,0368403057775 9 0,0084098864987 0 0,00569659496 0,0006430573508 0,000393908493 3 0,000057960 4 0,0000040407455 5 0,0000005389437 6 0,00000006063 7 0,00000000570646 8 0,00000000044384 9 0,0000000000803 0 0,0000000000040 0,00000000000005 0,00000000000000 3 0,00000000000000 4 0,00000000000000 Hlada výzamost 0,05 0,95 = 95% 0,05 = 5% 0
. Obecý postup př testováí statstckých hypotéz o parametrech ormálího rozděleí: Nejprve zformulujeme tzv. ulovou hypotézu H 0 o vybraém parametru rozděleí. Nulová hypotéza má tvar rovost, apříklad: µ = 75 ebo σ =0,, a podobě. Prot této hypotéze postavíme tzv. alteratví hypotézu H a, která má obvykle tvar erovost, apříklad: µ > 75 ebo σ <0,, a podobě. Vybereme vhodou áhodou velču G, tzv. testové krtérum. Zvolíme malé kladé číslo α (bývá zvykem volt zejméa hodoty α = 0, 0, resp. α = 0,05, resp. α = 0, 0), které budeme azývat hladou výzamost. Určíme tzv. krtcký obor W. Te má tuto vlastost: jestlže platí ulová hypotéza H 0, pak hodota testového krtéra G pade do W s malou pravděpodobostí α, a aopak skoro jstě (s pravděpodobostí -α ) hodota G epade do W. Z dat vypočteme hodotu testového krtéra a porováme s krtckým oborem: jestlže jestlže G W, pak zamíteme ulovou hypotézu H 0, G W, pak ezamíteme ulovou hypotézu H 0. 3. Testová krtéra a krtcké obory pro jedotlvé hypotézy a pro jejch alteratvy: T-test pro ulovou hypotézu H 0 : µ = kost Prot ulové hypotéze stavíme alteratví hypotézu H a : µ < kost, když X < kost. Prot ulové hypotéze stavíme alteratví hypotézu H a : µ > kost, když X > kost. X kost Testovým krtérem je áhodá velča G = Zvolíme hladu výzamost α, ejčastěj α = 0, 05. Krtckým oborem bude terval W = ( t, + ), kde kvatl t tudetova rozděleí získáme fukcí TINV s volbou parametrů Prst =.α, Volost =. χ -test pro ulovou hypotézu H 0 : σ = kost Prot ulové hypotéze stavíme alteratví hypotézu H a : σ < kost, když < kost. Prot ulové hypotéze stavíme alteratví hypotézu H a : σ > kost, když > kost. ( ) Testovým krtérem je áhodá velča G = kost Zvolíme hladu výzamost α, ejčastěj α = 0, 05. Krtckým oborem př alteratvě σ < kost bude terval W = (0, χ ), kde kvatl χ získáme fukcí CHIINV s volbou parametrů Prst = - α, Volost =. Krtckým oborem př alteratvě σ > kost bude terval W = ( χ, + ), kde kvatl získáme fukcí CHIINV s volbou parametrů Prst = α, Volost =. χ 4. Vygeerujte s data a testujte růzé hypotézy a růzých hladách výzamost.
emář 07 Testy o parametrech ormálího rozděleí dva výběry. Předpokládáme, že: jede výběr pochází z rozděleí No ( µ ; σ ) a druhý výběr pochází z rozděleí No ( µ ; σ ). Používáme ástroj Popsá statstka pro zjštěí poměrů ve výběrech a ásledě dále uvedeé testy.. Mohou astat dva případy: Výběry jsou závslé (jde o dvě opakovaá měřeí a týchž statstckých jedotkách, oba datové soubory tedy mají stejý počet měřeí). V tomto případě pro test ulové hypotézy: µ = µ použjeme tzv. Dvouvýběrový párový t-test. Výběry jsou ezávslé (hodoty z výběrů se avzájem eovlvňují, rozsah obou souborů emusí být obecě stejý). V tomto případě pro test ulové hypotézy: µ = µ máme k dspozc dva tzv. t-testy, a to: Dvouvýběrový t-test s rovostí rozptylů a Dvouvýběrový t-test s erovostí rozptylů. O tom, který z těchto testů použjeme se rozhodujeme a základě tzv. Dvouvýběrového F-testu pro rozptyl, př kterém testujeme ulovou hypotézu σ =. σ U všech těchto testů volíme za. soubor vždy te, který má větší odhad testovaého parametru (tedy buď výběrový průměr ebo výběrový rozptyl) a za. soubor te, který má odhad testovaého parametru meší. 3. Nulové hypotézy testujeme a hladě výzamost α (obvykle volíme 0,05). Počítač ám ale hladu výzamost sám vypočítá, je to hodota P, která se objeví v tabulce. Nulovou hypotézu tedy zamítáme, když je P hodota meší ež 0,05 (resp. já zvoleá hlada výzamost). Tomu také odpovídá stuace v tabulce, kdy vypočteá hodota testového krtéra převyšuje tzv. krtckou hodotu. 4. Geerujte s soubory dat a používejte výše uvedeé testy.
emář 08 Závslost ormálě rozděleých áhodých velč, korelace, grafcké zázorěí 85 75 65 Hmotost 55 45 35 5 30 40 50 60 70 80 90 Výška Na obrázku je typcká statstcká závslost. tatstckou závslost obvykle modelujeme vhodou fukčí závslostí, v ejjedodušším případě prokládáme body přímku. Těsost leárí statstcké závslost měříme koefcetem korelace, který se počítá podle ásledujícího vzorce, resp. pomocí fukce CORREL. r = ( x y x y x ( x ) ) ( y ( Koefcet korelace abývá hodoty od - do a přtom: hodotě r = odpovídá rostoucí fukčí leárí závslost, hodotě r mez 0 a odpovídá rostoucí statstcká leárí závslost, hodota r = 0 sgalzuje eexstec leárí závslost, hodotě r mez - a 0 odpovídá klesající statstcká leárí závslost, hodotě r = - odpovídá klesající fukčí leárí závslost. Například těsost statstcké závslost a hořejším obrázku je charakterzováa hodotou korelačího koefcetu r = 0,796.. Expermetujte s daty a ověřujte vlastost koefcetu korelace. y ) ) 3
emář 09 Regrese, metoda ejmeších čtverců, pás spolehlvost pro regresí fukc tatstckou závslost obvykle modelujeme vhodou fukčí závslostí. Tuto fukc hledáme tak, aby součet druhých moc odchylek měřeí od hodoty regresí fukce byl mmálí (používáme tzv. metodu ejmeších čtverců). V jedoduchých stuacích volíme leárí závslost, jejímž grafem je přímka. y 0 f(x) x. Budeme tedy předpokládat, že závslost velčy y a velčě x je leárí a regresí fukce má tvar y = f( x) = b+ b x.. Potřebé výpočty uspořádáme do podobé tabulky, kterou jsme používal př výpočtu koefcetu korelace: 3 4 5 atd. oučet x y x x y y Nezámá čísla b a b v rovc regresí fukce vypočítáme z údajů posledího součtového řádku podle těchto vzorců: x y x x ( x ) x y b =, b x ( x) xy x y =. 4
3. Zadejte s lbovolě dvojce čísel reprezetující výsledky měřeí, vypočtěte údaje v tabulce, alezěte rovc regresí přímky, aprogramujte její výpočet do dalšího sloupce tabulky a vytvořte přehledý graf. 4. Produkt Excel umožňuje pro statstckou závslost rychle alézt regresí přímku v abídce grafu stačí zadat požadavky a vytvořeí spojce tredu a zobrazeí její rovce. ezamte se s touto možostí a zkuste použít další růzé regresí fukce. 5. Vhodost regresí fukce posuzujeme velkostí čísla, které se azývá rezduálí součet čtverců: s = ( y f( x )) r Doplňte výpočetí tabulku o další sloupec a vypočítejte rezduálí součet čtverců. Přesvědčte se, že jej pro případ regresí přímky lze počítat podle ásledujícího vzorce: y b y b sr = x y. Rezduálí součet čtverců slouží k odhadu rozptylu chyb, kterých jsme se př měřeí dopustl. Odhad rozptylu je dá tímto vzorcem: s σ r (platí pro přímkovou regres). 6. Pomocí rezduálího součtu čtverců můžeme také vypočítat 95% terval spolehlvost pro hodotu regresí fukce f (x) pomocí vzorce: x + ( x ) sr ( x x x ) f ( x) ± t, ( ) ( x ) kde kvatl t vyhledáme pomocí statstcké fukce TINV s těmto hodotam parametrů: Prst = 0,05, Volost =. Doplňte výpočetí tabulku o další dva sloupce a aprogramujte do ch dolí a horí mez tervalu spolehlvost pro fukčí hodotu regresí fukce. Doplňte graf vytvoří se vám tzv. pás spolehlvost pro regresí fukc. 5