UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. Josef Tvrdík
|
|
- Jozef Liška
- před 7 lety
- Počet zobrazení:
Transkript
1 UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT Josef Tvrdík OSTRAVSKÁ UNIVERZITA 00
2 OBSAH ÚVOD... 3 PROGRAMOVÉ PROSTŘEDKY PRO STATISTICKÉ VÝPOČTY TABULKOVÝ PROCESOR EXCEL...4. STATISTICKÉ PROGRAMOVÉ SYSTÉMY NCSS SOLO ANALÝZA ROZPTYLU - JEDNODUCHÉ TŘÍDĚNÍ ZÁKLADY LINEÁRNÍ REGRESE NEPARAMETRICKÉ METODY ZNAMÉNKOVÝ TEST JEDNOVÝBĚROVÝ WILCOXONŮV TEST DVOUVÝBĚROVÝ WILCOXONŮV TEST KRUSKALŮV-WALLISŮV TEST SPEARMANŮV KOEFICIENT POŘADOVÉ KORELACE KONTINGENČNÍ TABULKY - TEST NEZÁVISLOSTI...53 LITERATURA - KOMENTOVANÝ SEZNAM STATISTICKÉ TABULKY... 6 Tabulka : Dstrbučí fukce ormovaého ormálího rozděleí...63 Tabulka : Vybraé kvatly rozděleí Chí-kvadrát...64 Tabulka 3: Vybraé kvatly Studetova t-rozděleí...65 Tabulka 4: Vybraé kvatly Fsherova Sedecorova F-rozděleí...66 Tabulka 5: Krtcké hodoty pro jedovýběrový Wlcooův test...67 Tabulka 6: Krtcké hodoty pro dvouvýběrový Wlcooův (Maův-Whteyův) test...68 Tabulka 7: Krtcké hodoty Spearmaova korelačího koefcetu...69
3 Úvod Teto tet slouží jako opora pro kurs azvaý Aalýza dat. Navazuje a kurs Základy matematcké statstky. Cílem kursu je aplkovat základí statstcké zalost v relatvě jedoduchých úlohách, s mž se velm často setkáváme př aalýze emprckých dat. I když je tet apsá s co ejvětší sahou vysvětlovat uté pojmy jejch aplkac jedoduše bez zbytečých a z pohledu využtí statstckých metod okrajových podrobostí, počítejte s tím, že tet ebude oddechová četba a že spoustu věcí bude potřeba důkladě promýšlet a k moha se opakovaě vracet. V řadě lustratvích příkladů jsou užta data ze souboru BI97, která už dost dobře záte z kursu Základy matematcké statstky, zejméa z kaptoly o popsé statstce. Časovou áročost zvládutí tohoto tetu a vyřešeí zadaých příkladů lze odhadout a přblžě 40 až 60 hod. Hlaví korespodečí úlohou, kterou byste v tomto kursu měl osvědčt získaé pozatky, je aalýza vám vybraého souboru dat z vašeho okolí. Proto se poohléděte po stuac a datech, které byste chtěl statstcky zpracovat a kde jste zvědav a výsledky této aalýzy. Případé ejasost včas kozultujte s vyučujícím. Výsledky aalýzy bude pak potřeba předložt formou vytštěé stručé a přehledé zprávy v rozsahu ma. 3 stray. Ostatí korespodečí úlohy jsou zařazey a koc příslušé kaptoly. 3
4 Programové prostředky pro statstcké výpočty Tato kaptola by vám měla pomoc v oretac v programových prostředcích užívaých ve statstckých výpočtech a aalýze dat. Jsou zde uvedey společé rysy těchto softwarových produktů. Podroběj jsou zmíěy tabulkový procesor Ecel a statstcký paket NCSS, eboť s těmto produkty se ejpravděpodoběj setkáte př řešeí vašch úloh př studu a Ostravské uverstě. Př prvím čteí této kaptoly, a které by mělo stačt až 3 hody, postačí, když získáte oretac v základích problémech a obtížích, se kterým se můžete ve výpočtech a terpretac výsledků setkat. Spíše počítejte s tím, že př řešeí kokrétího problému se budete k této kaptole vracet. Podpora statstckého zpracováí dat je součástí moha obecých programových systémů oretovaých a prác s databázem, a grafcké zpracováí dat, matematckých programových prostředků (Matlab, Mathematca) a kromě toho estuje ěkolk desítek specalzovaých statstckých programových paketů. Společým rysem těchto programových prostředků jsou operace s datovou matcí, tj. dvojrozměrou tabulkou, ve které sloupce jsou velčy a řádky pozorovaé objekty. Pro prác s tabulkam jsou určey tabulkové procesory (a př. Ecel), které jsou vybavey celou řadou statstckých fukcí a grafckých prostředků. Tyto programové prostředky začě usadňují statstcké výpočty a dovolují užvatel soustředt se a správé použtí statstckých metod, kolv a výpočetí ámahu.. Tabulkový procesor Ecel Ecel je typckým představtelem tabulkových procesorů, ěkterá jeho verse je dostupá praktcky a každém počítač. Stadardí součástí Ecelu je ěkolk desítek statstckých fukcí, které mohou být užty př statstckých výpočtech. Je vybave poměrě kvaltí grafkou, která dovoluje pohodlé kresleí statstckých grafů (prozatím s výjmkou apř. krabcových dagramů a ěkterých dalších ve statstce užívaých typů grafů). Kromě toho lze Ecel rozšířt o stadardě dodávaý doplěk Aalýza dat, který pokrývá praktcky všechy metody vysvětlovaé v základích kursech statstcké aalýzy dat. Vzhledem k tomu, že Ecel je tzv. lokalzová, to zameá, že podrobá ápověda ke všem fukcím je k dspozc v čeště, a práce s tabulkovým procesory je součástí výuky předcházejících předmětů, ebudeme se jím yí podroběj zabývat. Pouze přpojujeme upozorěí a ěkteré edostatky zjštěé ve statstckých fukcích a doplňku Aalýza dat. V tetu jsou užty ctace z helpů české lokalzace Ecelu 97. 4
5 Často užívaým modulem doplňku Aalýzy dat je Hstogram. S využtím mplctího astaveí vstupích parametrů můžete dostat ásledující obrázek: Hstogram četost 5 0 četost třídy další Drobé vady a kráse hstogramu je možo omluvt. Legeda a adps Hstogram jsou zbytečé, je zabírají místo, pops vodorové osy eříká c. Sloupce ejsou ad celou šířkou tervalů, počet výzamých číslc v popsu pod sloupc je esmyslě velký. To lze apravt vhodější volbou vstupích parametrů ebo dodatečou úpravou grafu. Závažějším edostatkem však je, že hodoty popsující středy sloupců (středy jedotlvých tervalů) ejsou hodoty odpovídající středu, ale pravému okraj tervalu. Ecel 97 ěkdy selhává ve výpočtu běžých základích jedorozměrých statstk. V Ecelu je zřejmě pro výpočet výběrového rozptylu a dalších s ím souvsejících fukcí (SMODCH, SMODCH.VYBER) užt ve starších statstckých učebcích doporučovaý vzorec s ( ) Pro velké hodoty a př jejch malé varabltě je počítačová hodota výrazu v hraatých závorkách dost odlšá od skutečého součtu čtverců odchylek od průměru, př velm velkých hodotách může být dokoce záporá. Podle výsledků ěkolka testovacích příkladů lze soudt, že v Ecelu je tato možost vyřešea tak, že bez jakéhokol varováí je výsledá hodota rozptylu získaá Ecelem rova ule. 5
6 Mez statstckým fukcem jsou fukce pro výpočet hodot dstrbučích fukcí a kvatlů často užívaých rozděleí. Jeda z ch se jmeuje NORMDIST a z jejího helpu se dočteme ásledující: ápověda: NORMDIST Vrací kumulatví ormálí rozděleí se zadaou středí hodotou a směrodatou odchylkou. Tato fukce má ve statstce velm šroké použtí, včetě testováí hypotéz. Sytae NORMDIST(; průměr; směrod_odch; kumulatví) X je hodota, pro ž počítáme rozděleí. Průměr je artmetcký průměr rozděleí. Směrod_odch je směrodatá odchylka rozděleí. Kumulatví je logcká hodota, která určuje tvar fukce. Pokud kumulatví je PRAVDA, NORMDIST vrací kumulatví dstrbučí fukc; je-l NEPRAVDA, vrací pravděpodobostí míru. Pozámky... Pokud průměr 0 a směrod_odch, NORMDIST vrací stadardí ormálí rozděleí, NORMSDIST. Příklad NORMDIST(4;40;,5;PRAVDA) se rová 0, koec ápovědy. Fukce NORMDIST je stěží může vracet kumulatví ormálí rozděleí, ale z popsu lze vytušt, že tím je míěa hodota dstrbučí fukce ebo hustoty (kol pravděpodobostí míra ) ormálího rozděleí podle toho, jakou zadáme hodotu posledího vstupího parametru kumulatví. Druhý parametr je vysvětle jako artmetcký průměr rozděleí, což patrě vzklo chybým překladem aglckého termíu mea, který měl být přelože jako středí hodota. Ncméě se dočteme, že pro stadardí ormálí rozděleí (česky se říká ormalzovaé ormálí rozděleí) můžeme použít fukc NORMSDIST, která fuguje zcela podle ašeho očekáváí, NORMSDIST (.96) Podobě řádě se chová verzí fukce NORMSINV, eboť pro zadaou hodotu dstrbučí fukce vrátí správou hodotu kvatlu, apř. NORMSINV (0.05) Zkusíme-l kvatly t-rozděleí, které očekáváme pod fukcí s ázvem TINV, její druhý parametr je počet stupňů volost. K ašemu překvapeí však zjstíme, že TINV (0.05, 500) +.487, ačkol bychom očekával hodotu blízkou -.96, tj. blízkou tomuto kvatlu ormovaého ormálího rozděleí. Na další pokus můžeme alézt hodotu kvatlu podobou očekávaé alespoň co do absolutí hodoty, TINV (0.05,500) Lehce zepokoje ahlédeme do helpu fukce TINV a dočteme se: 6
7 ápověda: TINV Vrací verzí fukc k fukc TDIST pro daé stupě volost. Sytae TINV(prst; volost) Prst je pravděpodobost daého dvojstraého t-rozděleí. Volost je počet stupňů volost. Pozámky: Pokud eí ěkterý z argumetů umercký, vrací fukce TINV chybovou hodotu #HODNOTA!. Pokud je prst < 0 ebo pokud je prst >, vrací TINV chybovou hodotu #NUM!. Pokud eí argumet volost celé číslo, je a celé číslo převede. Pokud je volost <, vrací TINV chybovou hodotu #NUM!. Fukce TINV se počítá jako TINVp( t<x ), kde X je áhodá proměá, která doprovází t-rozděleí. Fukce TINV používá opakující se techku propočítáváí fukce. Se zadaou pravděpodobostí hodotou se fukce TINV opakuje dokud eí výsledek přesý a ± 30^-7. Pokud fukce TINV edosáhe požadovaého výsledku po 00 opakováích, vrací fukce chybovou hodoty #N/A. Příklad: TINV(0,054645;60) se rová,96 koec ápovědy. Některé formulace z ápovědy ás možá pobavly, ěkteré trochu vyvedly z míry ebo uvedly do pochybostí, apř. pravděpodobost daého dvojstraého t-rozděleí. Co to vůbec je pravděpodobost ějakého rozděleí a co se může skrývat pod dvojstraým t-rozděleím? Ncméě je jasé, že klíčem k pochopeí je zjstt, k jaké fukc je fukce TINV verzí a zde je uvedeo, že k fukc TDIST. Z helpu fukce TDIST zjstíme toto: ápověda: TDIST Vrátí hodotu dstrbučí fukce t Studetova rozděleí. V případě, že ezáme směrodatou odchylku základího souboru, je j možo odhadout pomocí výběrové směrodaté odchylky t. T-rozděleí je používáo př hypotetckém testováí malých vzorků dat. Sytae TDIST(; volost; stray) X je číslo, pro které hledáme hodotu dstrbučí fukce. Volost je celé číslo, ozačující počet stupňů volost. Stray určuje, zda se jedá o jedostraé č dvoustraé rozděleí. Pokud je parametr stray, vrací TDIST hodotu fukce jedostraého rozděleí. Pokud je parametr stray, vrací TDIST hodotu fukce dvojstraého rozděleí. Pozámky: Pokud eí argumet umercký, vrací fukce TDIST chybovou hodotu #HODNOTA!. Pokud je volost <, vrací TDIST chybovou hodotu #NUM!. 7
8 Argumety volost a stray jsou převáděy a celá čísla. Pokud argumet stray abývá jých hodot ež ebo, vrací TDIST chybovou hodotu #NUM!. Fukce TDIST se počítá jako TDISTp( <X ), kde X je áhodá proměá, která doprovází t-rozděleí. Příklad: TDIST(,96;60,) se rová 0, koec ápovědy. Naše dlema se jak ezmešlo, podle ápovědy se obě fukce počítají stejě, TDISTp( <X ) a TINVp( t<x ), obě fukce mají být zřejmě ějaké pravděpodobost. Ale jak mohla vyjít hodota fukce TINV větší ež jeda? Navíc TDIST jsou vlastě fukce dvě, vybíráme jedu z ch zadáím hodoty jejího třetího vstupího parametru stray. Ke které z ch je TINV verzí? Naštěstí z uvedeých příkladů a ápověd můžeme usoudt téměř s jstou, že platí ásledující vztah: TINV ( α, ) t ( α / ), kde t ( α / ) je ( α / ) -kvatl t-rozděleí s stup volost, takže ezáporé hodoty kvatlů umíme pomocí fukce TINV vyčíslt. To, že t- rozděleí je symetrcké, sad eí uté přpomíat, takže a kvatly t-rozděleí se umíme dostat v Ecelu. Roztomlost alezeme v modulech doplňku Aalýza dat pro běžé statstcké testy. Např. dvouvýběrový t-test poskyte ásledující výstup: Dvouvýběrový t-test s rovostí rozptylů Soubor Soubor stř. hodota rozptyl pozorováí 64 7 společý rozptyl hyp. rozdíl st. hodot 0 rozdíl 89 t stat P(T<t) () t krt ().6656 P(T<t) () t krt () Pro užvatele rozlšujícího mez jedostraým a oboustraým testem je výstup redudatí, užvatel mez těmto varatam erozlšujícímu tato redudace stejě epomůže. Zájem může vzbudt statstka ozačeá jako rozdíl. Skutečost, že platí rozdíl + (tedy je rove počtu stupňů volost) svádí k doměce, že zkratku df terpretoval překladatel jako aglcké dfferece a přeložl do češty. Tato chyba se vyskytuje ve většě testů mplemetovaých v doplňku Aalýza dat. 8
9 Užíváte-l pro statstcké výpočty Ecel, vždy velm pečlvě zkoumejte, co vlastě vám ve výsledcích Ecel poskytuje a výstupy z Ecelu, zejméa z jeho české lokalzovaé verse, epřeášejte bez rozmyslu do svých prezetací a dokumetů. 9
10 . Statstcké programové systémy Statstckých programů komerčě šířeých estuje velké možství. Jako ejpopulárější příklady můžeme zmít SPSS, SAS, S-Plus, Statstca, Stata, Mtab, Ustat ebo NCSS. To jsou tzv. obecé, tj. pokrývají celou škálu statstckých metod, jé jsou specalzovaé a aalýzu ěkterých dat (časové řady, kategorálí data ap.). Všechy statstcké programy však mají tyto základí fukce: mport dat (vstup datové tabulky přpraveé v jém programovém prostředku, třeba v Ecelu ebo v Accesu) mapulace s daty (trasformace, uspořádávaí dat, výběry podmož datové matce, spojováí datových matc) základí deskrptví statstky grafcké prostředky ukládáí dat k sadému využtí pro další zpracováí (tzv. savefle) eport dat (ve formátech vhodých pro jé programové prostředky) presetace výsledků ve formě souborů pro další zpracováí tetovým procesory Ovládáí statstckých programů je v současé době možé většou přes meu a koy podobě jako u ostatích programových produktů pracujících pod Wdows, dříve převažovalo ovládáí pomocí příkazového jazyka, které bylo poěkud áročější pro epravdelého užvatele ebo začátečíka. Vzhledem k tomu, že Ostravská uversta je vybavea statstckým pakety SOLO a NCSS, zaměříme se a tyto produkty podroběj... NCSS Ozačeí NCSS je zkratka ázvu Number Crucher Statstcal Systems. Autorem tohoto statstckého paketu je Jerry L. Htze, stejě jako zámého paketu SOLO. V NCSS lze ostatě ávazost a SOLO sado vystopovat, zejméa v paletě metod a ve struktuře a orgazac výstupů. NCSS je uversálí statstcký paket, doporučovaý zejméa užvatelůmestatstkům. Pokrývá však aprostou většu požadavků velm sofstkovaé statstcké aalýzy dat. Ovládá se pomocí výběru z meu. NCSS komukuje stylem abízím, co pravděpodobě můžete ebo máte v daé stuac požadovat, pokud vám to evyhovuje, musíte to vyjádřt. Výsledky (tetový grafcký výstup společě) jsou ve formátu RTF (Rch Tet Format) a tedy sado mportovatelé do běžých tetových procesorů. Základy ovládáí NCSS lustrují ásledující obrázky. Výběrem z meu přepíáme mez pracovím oky se zpracovávaým daty, okem tzv. šablo (templates), ve kterém specfkujeme vstupí parametry zvoleé aalytcké procedury, okem 0
11 aktuálích výsledků a okem tzv. LOG souboru s výsledky pro trvalé uložeí po ukočeí sezeí. Hlaví způsob ovládáí je výběr z meu a vyplňováí formulářů pomocí myš, v mohém podobé prác s tabulkovým procesory. Vyplěé šabloy lze uložt pro opakovaé použtí. Do LOG souboru se ukládají pouze ty výsledky, které užvatel uloží eplctě, jak jsou ztracey a oko aktuálích výsledků je přepsováo ásledující spuštěou procedurou. Zadáváí trasformací velč a sdružováí kategorí je jedoduché, spuštěí výpočtu je pro podmožu případů je možé, ale poměrě komplkovaé, je potřeba defovat logckou podmíku vybírá podmožy pomocí fukce FILTER a př všech výpočtech teto fltr pak aktvovat ve vstupích parametrech výpočtu. Pokud úloha vyžaduje komplkovaější předzpracováí dat, je většou výhodé toto předzpracováí udělat jým programovým prostředkem apř. Ecelem a data pak do NCSS mportovat. Import a eport moha běžých formátů dat je součástí NCSS. Tabulka s datovou matcí se lší od Ecelu v tom, že ázvy velč jsou v ázvech sloupců a a velčy apř. př zadáváí vstupích parametrů výpočtu do šabloy se odkazujeme pomocí jejch jme.
12 Kromě datové matce máme k dspozc lst s ázvy velč, ve kterém můžeme ázvy velč upravovat a také zadávat artmetcké výrazy pro výpočet odvozeých velč (trasformace). Šablou pro zadáváí trasformací otevřeme z položky Data v hlavím meu, odkud lze otevřít šablou pro astaveí a aktvac fltru:
13 Požadovaé výpočty se zadávají volbou z meu, a př. zde z položky Aalyss hlavího meu rozbalíme skupy mplemetovaých statstckých metod: 3
14 Vyplěím šabloy se vstupím parametry výpočtu je možé specfkovat úroveň podrobost a formát výstupu. Výstup je pak ve formátu RTF v okě aktuálího výstupu: 4
15 Podobě volbou Graphcs v hlavím meu otevřeme abídku grafckých procedur. U všech těchto procedur je možé specfkovat obsah vzhled grafckých výstupů: 5
16 Součástí fukcí NCSS je tzv. pravděpodobostí kalkulátor, který ahrazuje obsáhlé statstcké tabulky: Výhodou NCSS je sadé ovládáí pomocí meu, pohodlá práce s méě rozsáhlým daty, vysoká grafcká kvalta výstupů jejch sadý mport do tetových procesorů. K dspozc je podrobá ápověda ve formě kompletího mauálu v aglčtě. Pomocí NCSS byly zpracováy ěkteré výsledky a grafy v těchto skrptech. Přestože NCSS je kvaltí ástroj pro statstckou aalýzu dat a dovolí vám velm rychlou a efektví prác, ale eí, ostatě jako žádý jý statstcký program, pojstkou prot chybám v aplkacích statstky... SOLO Nyí už poěkud zapomeutý paket SOLO je uversálí programový statstcký paket pracující pod operačím systémem MS DOS a s mmálím ároky a hardware. Pro užvatele programu SOLO je k dspozc český mauál v khově Ostravské uversty. Ovládá se pomocí meu a vyplňováí formulářů z klávesce. Ve srováí s NCSS je horší kvalta výstupů, eboť výsledky v programu SOLO jsou ukládáy do tetových (ASCII) souborů a obtížější práce s grafckým výstupy. V abídce základích statstckých metod jsou oba pakety srovatelé. 6
17 Př užíváí statstckých programových prostředků věujte pozorost převodům zpracovávaých dat mez růzým programovým prostředky. Častým zdrojem obtíží př tomto převodu (bývá ozačová také jako mport a eport dat) mohou být zejméa chybějící hodoty v datech, které emusí být předvedey správě. Pokud data obsahují desetá čísla, můžou vkout potíže př eshodách oddělovače desetých míst (čárka ebo tečka). Proto př operacích eportu a mportu dat byste vždy měl zkotrolovat prví a posledí řádek datové matce a základí popsé charakterstky převáděého souboru, abyste tak s vysokou pravděpodobostí mohl vyloučt echtěou změu v datech způsobeou esprávým převodem. Ze špatých dat elze získat dobré výsledky. Statstcká aalýza dat s dobrým programovým vybaveím je v aprosté většě případů duševě áročá čost vyžadující soustředěí a obezřetost. Dovedost ovládáí statstckého software představuje je meší část požadavků kladeých a řeštele úlohy. Kotrolí otázky:. Jaká je obvyklá struktura dat zpracovávaá statstckým programy?. Co je to mport dat a jaká jsou jeho úskalí? 3. Jaké jsou výhody a evýhody Ecelu ve srováí se specalzovaým statstckým pakety? 4. Na datech ze souboru BI97 s vyzkoušejte základí statstcké fukce a doplěk Aalýza dat. Pojmy k zapamatováí: statstcká data, jejch struktura obvyklé fukce ve statstckých paketech mport a eport dat statstcké fukce v Ecelu a jejch edostatky doplěk Ecelu Aalýza dat 7
18 Korespodečí úloha č. Vygeerujte v Ecelu áhodý výběr o rozsahu 000 z ormálě rozděleé populace se středí hodotou 6 a rozptylem. Návod: Z cetrálí lmtí věty víte, že součet áhodých čísel z rovoměrého rozděleí a tervalu (0,) tj. získaých v Ecelu fukcí NAHCIS má přblžě ormálí rozděle. Vygeerujte tedy tabulku o 000 řádcích a k sloupcích s áhodým čísly z rovoměrého rozděleí a tervalu (0,) a výběr z ormálího rozděleí pak můžete získat jako řádkové součty ve sloupc k + v této tabulce. Z vlastostí spojtého rovoměrého rozděleí určete, jak velký počet sloupců k potřebujete, abyste dostal výběr z populace se středí hodotou 6 a rozptylem. a) akreslete hstogram velčy v prvím sloupc vaší tabulky a hstogram velčy v (k+)-ím sloupc vaší tabulky b) testujte hypotézu, že výběr v (k+)-ím sloupc je z populace se středí hodotou 6 (užjte jedovýběrový t-test) c) opakujte celý postup 00 krát (využjte opakováí výpočtu v Ecelu stskem klávesy F9) a zjstěte relatví četost zamítutí ulové hypotézy. Zdůvoděte zjštěé výsledky. 8
19 3 Aalýza rozptylu - jedoduché tříděí Jako aalýza rozptylu (ANOVA) je ozačová soubor postupů duktví statstky užívaých př testováí hypotéz o středích hodotách př růzém, často velm komplkovaém uspořádáí epermetu. Aalýzou rozptylu se podrobě zabývají specalzovaé statstcké moografe. Zde s ukážeme je základí myšleky aalýzy rozptylu a úloze, která se azývá aalýza rozptylu s jedoduchým tříděím (oe-way ANOVA). K prostudováí této kaptoly by mělo stačt as až 3 hody. Na aalýzu rozptylu s jedoduchým tříděím můžeme pohlížet jako a zobecěí dvouvýběrového t-testu pro stuac, kdy máme testovat shodu středích hodot ve více ež dvou populacích. V takových úlohách emůžeme použít opakovaě dvouvýběrový t-test pro všechy dvojce výběru, pokud chceme, aby pravděpodobost chyby prvího druhu byla rova zvoleé hladě výzamost. Předpokládejme, že máme I ( I ) ezávslých výběrů (tj. pozorovaá data jsou z I růzých skup). Náhodé velčy ( jejch pozorovaé hodoty) v -tém výběru ozačíme Y, Y, K, Y, >,,, K, I výběry jsou z populací, které mají rozděleí N ( µ, σ ), tedy rozptyly ve všech populacích jsou shodé. I Celkem tedy máme k dspozc ezávslých áhodých velč. Nulovou hypotézu, kterou chceme testovat, můžeme zapsat jako H 0 : µ µ K µ I () Každou tuto áhodou velču můžeme tedy vyjádřt jako součet Y j µ + α + e j,, K, ;,, K, I () j, kde áhodé velčy e j jsou ezávslé a mají stejé rozděleí N(0, σ ), σ > 0. Tím jsme formuloval statstcký model: Každou pozorovaou hodotu Y j považujeme za součet hodoty µ společé pro všechy skupy, hodoty α vyjadřující vlv -té skupy a ormálě rozděleé áhodé složky e s ulovou středí hodotou. Hodoty µ, σ, α, α, K, αi jsou ezámé parametry modelu. Pokud přdáme tzv. reparametrzačí podmíku j I α 0, (3) 9
20 jsou hodoty parametrů µ, α, α, K, α I určey jedozačě a ulovou hypotézu () můžeme zapsat jako H 0 : α α K α I (4) 0 Tato formulace je ekvvaletí formulac (). Parametr α pak můžeme chápat jako výsledek (efekt) charakterzující -tou skupu, v aalýze rozptylu se ěkdy říká efekt -tého ošetřeí (treatmet). Testovaá hypotéza vyjadřuje, že skupy se elší, vlv ošetřeí je ulový. Úkolem aalýzy rozptylu je vlastě vysvětlt varabltu všech vyšetřovaých áhodých velč, čl vysvětlt varabltu jejch pozorovaých hodot. Pro zkráceí dalšího zápsu zavedeme ozačeí Y Y j, Y j Y I I Y j j Y, Y Y Y j I Y j Y j j (5) V těchto zkratkách je vždy de, přes který se sčítá, vyzače tečkou. Vdíme, že Y. je výběrový průměr -tého výběru (skupový průměr), Y je výběrový průměr ze všech pozorováí (celkový průměr, grad mea). Varabltu pozorováí charakterzuje součet čtverců odchylek od celkového průměru S T I ( Y Y (6) j j ) Teto tzv. celkový součet čtverců můžeme rozložt S T I I ( Yj Y ) [ ( Yj Y ) + ( Y Y )] I I I ( Yj Y ) + [ ( Yj Y )( Y Y )] + ( Y Y ) j j I I I ( Yj Y ) + ( Y Y ) ( Yj Y ) + ( Y Y ) j j I I ( Yj Y ) + ( Y Y ) j j j j (7) 0
21 Pozámka: Prostředí čle v součtu, ( Y Y ) ( Yj Y ) 0, I j eboť ( Yj Y ) 0,, K,I (součet odchylek od průměru je vždy rove j ule) Koec pozámky. Dva čley v posledím řádku (7) jsou charakterstkam varablty I uvtř skup Se ( Yj Y ) (8) j (součet čtverců odchylek pozorovaých hodot od skupových průměrů) I mez skupam S ( Y Y ) (9) A A (vážeý součet čtverců odchylek skupových průměrů od celkového průměru). Vztah (7) tedy můžeme zapsat jako S S + S (0) T e Jak víme, celkový součet čtverců S T má ( - ) stupňů volost, mezskupový součet čtverců S A má ( I ) stupňů volost a vtří (také se říká resduálí ebo chybový, Error Sum of Squares) S e má zbylé stupě volost, tj. ( - I). Pokud platí ulová hypotéza (4), je jak statstka SA /( I ), tak statstka Se /( I) estraým odhadem téhož rozptylu σ a jejch podíl má tedy za platost ulové hypotézy F-rozděleí F SA /( I ) FI I S /( I) ~, () e Pokud ulová hypotéza eplatí, je statstka SA /( I ) výrazě větší. Krtckým oborem pro zamítutí ulové hypotézy (4) je W F, I( α ), + ). I Výsledky aalýzy rozptylu jsou obvykle presetováy v tabulkové formě, v počítačových výstupech se sloupcem s hodotou p, což je pravděpodobost, že áhodá velča mající rozděleí F je větší ebo rova hodotě I, I statstky F. Výzam hodoty p vysvětluje ásledující obrázek. Je zřejmé, že pokud platí, p α, ulovou hypotézu zamítáme, jak ezamítáme.
22 hustota F-rozděleí f() F p U složtějších ávrhů epermetu má tabulka výsledků aalýzy rozptylu více řádků. zdroj varablty suma čtverců stupě volost středí čtverec (mea square) mez skupam S A I S A / (I ) F p SA ( I ) hodota p S ( I) e uvtř skup S e I S e / ( - I) celkový S T S T / ( - ) Zamíteme-l ulovou hypotézu o shodě všech středích hodot H 0 : µ µ K µ I, obvykle ás zajímá, která dvojce středích hodot se lší. K tomu slouží testy azývaé mohoásobé porováí (multple comparso). Těch je ěkolk druhů a zájemce odkazujeme a lteraturu, apř. Aděl 978, 993, Havráek 993 atd., podobě jako zájemce o složtější modely aalýzy rozptylu.
23 Pozámka: Pokud bychom užl aalýzu rozptylu s jedoduchým tříděím a data pocházející je ze dvou výběrů, bude mít statstka F z rov.() tvar F S / A ~ F, Se /( ) a hodota statstky F bude rova druhé mocě statstky t ze dvouvýběrového oboustraého t-testu. Tyto dva testy jsou tedy ekvvaletí. Koec pozámky. Rozkladu celkového rozptylu (0) můžeme užít pro výpočet směrodaté odchylky, máme-l k dspozc pouze skupové charakterstky - průměry a směrodaté odchylky s,,, K, I. Směrodatá odchylka je odmoca z celkového rozptylu, tj. I ST Se + S A s s I ( ) + ( ), () kde celkový průměr spočítáme jako vážeý průměr skupových průměrů, I. 3
24 Aplkac aalýzy rozptylu s jedoduchým tříděím ukážeme a ásledujícím příkladu. Příklad: Máme posoudt, zda středí hodota velčy Delka (data BI97) jsou stejé ve všech čtyřech lokaltách.. Pro test hypotézy o shodě středích hodot H 0 : µ µ µ 3 µ 4 užjeme aalýzu rozptylu s jedoduchým tříděím. Výpočet provedeme s pomocí programu NCSS. V ěm z meu Aalyss vybereme ANOVA, dále Oe-way ANOVA. Zadáme velču Delka jako Depedet varable a velču Lokatta jako Factor varable (tato velča rozděluje pozorováí do čtyřech skup) a dostaeme výstup, který zda uvedeme ve zkráceé podobě: Aalyss of Varace Report Respose delka Bo Plot Secto Bo Plot delka lokal Aalyss of Varace Table Source Sum of Mea Prob Term DF Squares Square F-Rato Level A (lokal) S(A) Total (Adjusted) Z tabulky aalýzy rozptylu vdíme, že p 0,77. Tedy ulovou hypotézu emůžeme zamítout a žádé rozumě zvoleé hladě výzamost. Rozdíly v poloze pozorovaých hodot velčy Delka v jedotlvých skupách (vz krabcové dagramy a obrázku) emůžeme přčítat ějakým systematckým rozdílům mez skupam, ale pouze důsledku ahodlého kolísáí. 4
25 Kotrolí otázky:. Jaká hypotéza se testuje v aalýze rozptylu s jedoduchým tříděím?. Jaké jsou předpoklady pro užtí aalýzy rozptylu s jedoduchým tříděím? 3. Co je celkový průměr a skupové průměry? 4. Čemu se říká celkový součet čtverců a jak jej lze rozložt? 5. Co je v aalýze rozptylu s jedoduchým tříděím testovou statstkou, jaké má rozděleí za platost ulové hypotézy? 6. Kdy zamítáme ulovou hypotézu? Pojmy k zapamatováí: skupové průměry a celkový průměr celkový součet čtverců a jeho rozklad mport a eport dat varablta uvtř skup a mez skupam tabulka výsledků aalýzy rozptylu 5
26 4 Základy leárí regrese Regrese je sad ejčastěj užívaá statstcká metoda. Odhaduje se, že 80 až 90% aplkací statstky je ějakou z varat regresí aalýzy. Prcpy regresí aalýzy se pokusíme vysvětlt a ejjedodušším tzv. klasckém leárím regresím modelu. K prostudováí této kaptoly s reservujte as 4 hody. Leárí regrese se zabývá problémem vysvětleí změ jedé áhodé velčy leárí závslostí a jedé ebo více jých velčách. Uvažujme ejedodušší případ, kdy máme jedu áhodou velču Y a jedu velču. Data mají tvar, který je uvede v ásledující tabulce: Y Y Y M Y Hodoty velčy umíme astavt přesě (apř. teplotu v termostatu), hodoty velčy Y jsou zatížey áhodým kolísáí, způsobeým třeba epřesostm měřící metody (apř. objem plyu). K dspozc tedy máme dvojc pozorovaých hodot. Příklad takových dat ukazuje obrázek 4. Y 0 0 Obr. 4- Na obrázku vdíme, že s rostoucí hodotou se zhruba leárě měí hodota Y, body a obrázku kolísají kolem myšleé přímky, kterou bychom mohl aměřeým body proložt. Hodoty áhodé velčy Y můžeme vyjádřt jako součet dvou složek: Y β + β + e,,,k, () 0 kde β 0, β jsou ezámé koefcety a e áhodá složka (prostě hodota ějaké áhodé velčy). 6
27 Pokud Ee ( ) 0,,, K,, rov. () můžeme přepsat EY ( ) β0 + β () čl středí hodoty áhodé velčy Y za podmíky, že velča má hodotu, leží a přímce daé rov.(). Rovce () a () formulují regresí model, v tomto případě leárí regresí model s jedou vysvětlující proměou (regresorem) a jedou vysvětlovaou proměou Y. Nezámé koefcety β 0, β jsou parametry regresího modelu, také se jm říká regresí koefcety. Regresí model je vlastě vyjádřeím aší teoretcké představy o závslost velčy Y a velčě. Jedou ze základích úloh regresí aalýzy je odhad parametrů regresího modelu z pozorovaých dat. V případě ašeho leárího modelu je potřeba odhadout regresí koefcety β 0, β z dat, tz. alézt takové hodoty b 0, b, které by určovaly přímku Y b0 + b co ejlépe prokládající aměřeá data. Hodoty b0, b, jsou pak odhady regresích koefcetů β 0, β, $Y je odhadem EY ( ). Co ejlepší proložeí může být formulováo růzým způsoby, ejčastěj se užívá metoda ejmeších čtverců (MNČ), tj. hledáme takové hodoty b0, (úsek který vytíá přímka a ose Y), b, (směrce přímky), aby součet čtverců odchylek pozorovaých hodot od hodot modelových byl co ejmeší: ( ) ( 0 ) S Y Y $ Y b b m e (3) Metodu ejmeších čtverců vysvětluje ásledující obrázek. Řešíme úlohu, jak volt hodoty b 0, a b, aby součet ploch vyzačeých čtverců byl co ejmeší. Y b b
28 Hodoty b 0,, b mmalzující S e alezeme tak, že parcálí dervace položíme rovy ule: S b e Se 0, 0. (4) b 0 Tím dostaeme soustavu tzv. ormálích rovc (v tomto případě dvou rovc), v obecém případě, kdy regresí model má více parametrů ež model (), je počet ormálích rovc rove počtu parametrů. Jsou-l ormálí rovce leárí (jako třeba v uvedeém příkladě), říkáme, že regresí model je leárí v parametrech. Po dosazeí a úpravách rov.(4) S b e 0 S b e ( Y b0 b) Y b0 b [ ( 0 ) ] Y b b Y b0 b má soustava ormálích rovc tvar b + b Y (5) b b Y Řešeí této soustavy rovc můžeme vyjádřt eplctě, tj. jako b b ( ) Y b Y b (6) 0 Y ( )( Y) ( ) ( )( ( ) Y Y Z rov. (6) vdíme, že přímka proložeá metodou ejmeších čtverců, tj.splňující, Y. podmíku (3), prochází bodem [ ] ) (7) 8
29 Dosadíme-l z rov. (7) do (6), dostaeme ( ) ( )( ) ( ) ( )( ) ( )( ) ( ) 0 Y Y Y Y Y b (8) Nyí přpomeeme ěkteré rovost, které budou důležté př dalších výkladech o ěkterých statstckých vlastostech odhadů b 0,, b. ( ) ( ) ( ) (9) ( ) ( ) ( ) (0) ( )( ) ( ) ( )( ) Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y () ( ) ( )( ) Y Y Y Y Y Y Y () Z rov. (7), (9) a () pak dostaeme ( )( ) ( ) [ ] b Y Y Y Y s s y ( ) ( )( ) ( ) ( ), kde je výběrový rozptyl velčy a s s y je výběrová kovarace. 9
30 Jelkož r b y sy sy ry. s s sy, vdíme, že ss y S využtím () a () můžeme rov. (7) přepsat ( ) ( ) Y b (3) Odtud ( ) ( ) Y. b Pak pro středí hodoty áhodých velč v předchozí rovc platí ( ) ( ) ( ) β0 + β β( ) β( ) E( b ) E( Y) ( ) A zřejmě tedy Eb ( ) β, takže b je estraým odhadem parametru β. Podobě pro b můžeme dosadt do (6) 0 b Y b Y ( ) Y ( ) ( ) ( ) 0 Y c Y Pak pro středí hodotu b 0 platí 0 ) c E( Y ) c ( β 0 + β) β 0c + βc E ( b β eboť 0 c a také ( ) ( ) ( ) ( ) 0 c ( ) ( ) ( ) ( ) 0 30
31 Tedy b 0 je estraým odhadem parametru β 0. Chceme-l určt rozptyly odhadů b 0,, b, potřebujeme ještě další předpoklady o áhodé složce e v rov. (): a) Ee ( ) 0,,, K, (teto předpoklad už byl vyslove dříve) b) var( e) E( e ) σ,,, K, (rozptyl e je kostatí, tzv. homoskedascta) c) cov( e, e ) E( ee ) 0, j,, j,, K, j j (e, e j jsou ekorelovaé) Z rov.() vdíme, že var( Y) var( e ) σ. Pak z rov.(3) dostaeme var( b ) var( Y) [ ( ) ] ( ) σ ( ) (4) Z rov. (4) vdíme, že rozptyl odhadu směrce regresí přímky můžeme sížt byla co ejvětší. vhodou volbou hodot regresoru tak, aby ( ) Z rov.(6) dostaeme var( b0 ) var( Y) + var( b ) σ + (5) ( ) Podobě rozptyl odhadu úseku regresí přímky můžeme sížt zvětšeím byla co ejvětší. rozsahu výběru a volbou hodot regresoru tak, aby ( ) Přdáme-l k předpokladům (a), (b), (c) ještě d) e ~ N( 0, σ ),,, K, (odchylky hodot Y mají ormálí rozděleí), pak b j βj N j var( b ) ~ ( 0, ), 0, (6) j 3
32 Pokud bychom zal var( b j ), mohla by statstka defovaá rov.(6) sloužt jako testové krtérum pro testy hypotéz o parametrech regresího modelu. Obyčejě však var( b j ) ezáme, eboť ezáme σ - vz rov. (4) a (5). Hodotu (tzv. rezduálí rozptyl) však můžeme odhadout: σ s σ ( Y Y$ ) ( Y b0 b) Se (7) Charakterstka s defovaá rov. (7) - výběrový resduálí rozptyl - je estraým odhadem hodoty σ. Dosadíme-l teto odhad do rov. (4) a (5) místo σ, získáme odhady rozptylů regresích parametrů. Ozačme odmocy z těchto odhadů rozptylů SE( b j ), j 0, (směrodatá odchylka ebo také stadardí chyba odhadu regresího parametru). Pak áhodá velča b j βj t j SE( b ) ~,, 0, (8) j a pro testováí hypotéz β j 0 můžeme užít statstku b j t SE( b ) ~. j Pozámka: Leárí regresí model () můžeme celkem sado zobect, může obsahovat více ež jede regresor. Máme-l k regresorů, k >, leárí regresí model má tvar: Y β + β + β + K β + e,,, 0 p k K, Pak resduálí rozptyl se odhaduje jako σ s Se k ( Y Y ) k tj. součet resduálích čtverců se dělí rozsahem výběru zmešeým o počet parametrů regresího modelu, což je k+. V těchto případech pak platí b j β SE( b ) j j ~ t k, j 0,, K, k, 3
33 tedy tyto áhodé velčy mají Studetovo t-rozděleí s -k- stup volost. Koec pozámky. Příklad: Uvažujme data ze souboru BI97. Naším úkolem je odhad regresích parametrů leárího modelu závslost velčy VAHA a velčě DELKA. V řešeí využjeme statstcký program NCSS. Volbou Fle/Ope otevřeme soubor BI97.S0 (tzv. savefle vytvořeý dříve programem NCSS) a v meu Aalyss vybereme Multple Regresso.. V šabloě regrese zvolíme jako vysvětlovaou velču (Depedet varable) VAHA, jako regresory (Idepedet varables) zvolíme jedou velču, a to DELKA. Po spuštěí výpočtu dostaeme ásledující výstup (zde je uvede v trochu zkráceé podobě): Multple Regresso Report Depedet vaha Regresso Equato Secto Idepedet Regresso Stadard T-Value Prob Decso Varable Coeffcet Error (Ho: B0) Level (5%) Itercept Accept Ho delka E Reject Ho R-Squared Regresso Coeffcet Secto Idepedet Regresso Stadard Lower Upper Stad. Varable Coeffcet Error 95% C.L. 95% C.L. Coeff. Itercept delka E T-Crtcal Aalyss of Varace Secto Sum of Mea Prob Source DF Squares Square F-Rato Level Itercept Model Error Total(Adjusted) Root Mea Square Error R-Squared Mea of Depedet Adj R-Squared Coeffcet of Varato E-0 Press Value Sum Press Resduals Press R-Squared
34 Hstogram of Resduals of vaha Resduals vs Predcted Cout 5.0 Resduals Resduals of vaha Predcted Možá je délka výstupu této aší jedoduché úlohy poěkud překvapvá, ale aučíme se v tomto výstupu číst. Odhady parametrů leárího regresího modelu jsou v část Regresso Equato Secto. Na řádku Itercept je odhad úseku regresí přímky - vz rov. (8) - a další charakterstky týkající se tohoto parametru, a řádku delka pak je odhad směrce - vz rov. (7) - a další charakterstky týkající se tohoto parametru. Odhady parametrů b 0,, b., jsou tedy ve sloupc Regresso Coeffcet.. Ve sloupc Stadard Error jsou pak SE( b j ), j 0, - vz rov (4),(5) a ásledující tet. Ve sloupc T-Value jsou hodoty testového krtéra b j SE( b ) j pro test hypotézy β j 0 - vz rov. (8)- a ve sloupc Prob Level jsou výzamost p pro oboustraý test. Výsledkem aší úlohy jsou odhady b 0 (úsek),7 a b (směrce)0,886. Kromě toho vdíme, aše data ás opravňují zamítout hypotézu β 0, (p < 0, ), takže zřejmě váha s rostoucí délkou se výzamě měí. Naprot tomu hypotézu β 0 0 zamítout emůžeme (p 0,76) a tudíž je oprávěé předpokládat, že regresí přímka prochází počátkem. Takový regresí model je s jedím parametrem, a to směrcí, bychom měl prozkoumat v dalším kroku. Výzam důležté charakterstky R-Squared vysvětlíme pozděj. V část Regresso Coeffcet Secto se opakují odhady regresích koefcetů a jejch směrodatých odchylek a dále jsou zde uvedey 00(-α )-procetí tervalové odhady regresích parametrů ( ve sloupcích Lower 95% C.L a Upper 95% C.L.), hodota α může být zvolea př zadáí výpočtu. Část Aalyss of Varace Secto vysvětlíme pozděj. Z dalších charakterstk je užtečá Root Mea Square Error, což je odmoca z Error Mea Square a je to směrodatá odchylka odhadu, odmoca z výrazu daého rov. (7), tedy výběrová resduálí směrodatá odchylka s. 34
35 Grafy ve výstupu - hstogram resduí Y Y $ a závslost resduí Y Y $ a hodotě predkovaé regresím modelem, tj. a Y $ jsou užtečým ástrojem pro vzuálí přblžé ověřeí předpokladů (a), (b), (c) a (d) užtých př odvozováí vztahů pro odhad regresích parametrů a rozděleí statstk, zejméa pro ověřeí kostatího rozptylu, ekorelovaost resduí a jejch ormálího rozděleí. Koec příkladu. Nyí se vrátíme k vysvětleí charakterstk, které jsme v předchozím příkladu přeskočl. Z odstavce o aalýze rozptylu víme, že celkový součet čtverců odchylek aměřeých hodot velčy Y od jejch průměru můžeme rozložt a dva sčítace: ( ) ( ) ( Y Y Y Y$ + Y$ Y ) (9) Ozačme jedotlvé sumy čtverců podle jejch výzamu celková suma čtverců (total sum of squares): ( ) TSS Y Y resduálí suma čtverců (resdual sum of squares): RSS Se Y Y$ ( ) modelová suma čtverců (model sum of squares): ( ) MSS Y $ Y Rov. (9) tedy můžeme číst takto: Celkovou varabltu vysvětlovaé velčy rozložíme a část, která odpovídá varabltě vysvětleé regresím modelem a a část, kterou model evysvětluje, která zbývá, tedy je resduálí. To můžeme zapsat: TSS MSS + RSS (0) Pak můžeme zavést koefcet (de) determace R (R-squared). R MSS TSS RSS TSS TSS RSS () TSS Vdíme, že koefcet determace je vlastě podíl celkové varablty závslé velčy vysvětleý regresím modelem. Je zřejmé, že 35
36 0 R () Hodotu dosahuje R tehdy, když RSS 0 (vz rov. ), tz. v případě leárího regresího modelu s jedím regresorem, že závslost Y a je přesě leárí (model vysvětluje vše). Hodotu 0 dosahuje koefcet determace tehdy, když model evysvětluje c z varablty Y, tz. RSSTSS (regresí přímka je rovoběžá s osou ). Lze také ukázat, že pro leárí regresí model s jedím regresorem - rov. () ebo () -je koefcet determace rove druhé mocě výběrového korelačího koefcetu, tedy R. (3) r y Výběrový koefcet determace R (R-squared), defovaý rov. () je vychýleým odhadem populačího koefcetu determace, adhodocuje. Proto součástí výstupu z regrese je tzv. adjustovaý koefcet determace adjusted R (adj R-squared), který toto vychýleí sžuje. Tabulka aalýzy rozptylu je obvyklou součástí počítačových výstupů regresích programů. Její strukturu pro výběr o rozsahu a regresí model s k parametry (počet regresorů je k -) můžeme vyjádřt zdroj varablty suma čtverců stupě volost středí čtverec (mea square) model MSS k- MSS / (k-) F MSS /( k ) RSS /( k ] error RSS -k RSS / (-k) total TSS - Statstka F v předposledím sloupc tabulky má, jsou-l splěy předpoklady (a) až (d), Fsherovo F rozděleí s (k ) a ( k) stup volost. Tuto statstku můžeme užít pro test hypotézy, že populačí koefcet determace je rove ule. Je-l hodota této F statstky v krtckém oboru, zameá to, že výzamá část varablty velčy Y je vysvětlea leárí závslostí a velčě. 36
37 Kotrolí otázky:. Co vyjadřuje leárí regresí model, jaký má tvar?. Co jsou parametry leárího modelu? Jak se odhadují z dat? 3. Co se mmalzuje v metodě ejmeších čtverců? 4. Jaké jsou předpoklady v klasckém leárím modelu? Jak jejch platost lze ověřt? 5. Jaké hypotézy o parametrech lze testovat? Co je testovou statstkou? 6. Jakých hodot může abývat koefcet determace? Jak lze jeho hodotu terpretovat? 7. Spočítejte úlohu řešeou v příkladu v této kaptole pomocí Ecelu, zoretujte se ve výstupech a porovejte výsledky. Pojmy k zapamatováí: leárí regresí model odhad parametrů regresího modelu, metoda ejmeších čtverců resduálí rozptyl, rozptyly odhadů parametrů celkový a resduálí součet čtverců, koefcet determace Korespodečí úloha č. Máte tyto charakterstky velč a y: 00 s 7.50 r y 0.90 y.5 Určete: a) rovc regresí přímky, b) koefcet determace. s y.5 37
38 5 Neparametrcké metody V této rozsáhlé kaptole se sezámíme se základy tzv. eparametrckých metod. Jsou to metody, kdy předmětem testu hypotézy eí tvrzeí o hodotě parametru ějakého kokrétího rozděleí, ale ulová hypotéza je formulováa obecěj, apř. jako shoda rozděleí ebo ezávslost velč. Tuto kaptolu doporučujeme studovat po jedotlvých podkaptolách a podle potřeby se v tetu vracet a vzájemě porovávat výhody a evýhody jedotlvých testů. Postupy a algortmy užívaé v eparametrckých metodách, zejméa operace s pořadím hodot, mohou být spratví pro aplkac v moha oborech formatky. Dosud jsem se setkával je s testy hypotéz o parametrech ormálího rozděleí (t-testy, ANOVA, testy o parametrech leárího regresího modelu). Všechy tyto testy vycházejí z předpokladu, že máme jede ebo více výběrů z ormálího rozděleí. Tak slý předpoklad př praktckých aplkacích ebývá často splě. Pak je a místě otázka, jakou statstckou metodu volt, abychom dostal spolehlvé výsledky a aby aše rozhodutí př testu hypotézy ebylo ovlvěo právě je esplěím předpokladů pro použtí těchto tzv. parametrckých metod. Jedím z dlouhá léta osvědčeých alteratvích postupů je použtí tzv. eparametrckých metod. Nebudeme se podroběj zabývat společým vlastostm eparametrckých metod, je se spokojíme s tím, že eparametrcké metody evyžadují, aby výběry byly z ormálího rozděleí. Většou stačí, když jde o výběry ze spojtých rozděleí, u eparametrckých metod se ulová hypotéza často týká medáu rozděleí. Neparametrcké metody často vycházejí z pořadí pozorovaých hodot v jejch vzestupém uspořádáí. Předpoklady pro aplkac eparametrckých metod jsou oprot parametrckým metodám daleko slabší, tz. že př aplkacích jsou splěy častěj. Obecě však platí, že tato výhoda eparametrckých testů je vyvážea evýhodou ve srováí s testy parametrckým jsou eparametrcké testy slabší, tz. že pravděpodobost zamítutí ulové hypotézy v stuac, kdy zamítuta být má, je meší. Proto by eparametrcké testy měly být užíváy je tehdy, kdy předpoklady pro parametrcké testy splěy ejsou. 38
39 5. Zamékový test Obvyklá formulace jedovýběrového zamékového testu je ásledující: Uvažujeme výběr ze spojtého rozděleí (emusí být symetrcké) a chceme testovat ulovou hypotézu, že medá tohoto rozděleí ~ je rove jsté hodotě prot jedostraé alteratvě, a př. že medá tohoto rozděleí je 0 větší ež 0, tedy H 0 : ~ 0 H : ~ > 0 Testovou statstkou je počet hodot ve výběru větší ež 0. Za platost ulové hypotézy má testová statstka Z bomcké rozděleí, Z ~ B(, p), kde hodota parametru p 0,5 (z defce medáu), je rozsah výběru. Je-l hodota testové statstky rova z, pak ulovou hypotézu zamítáme ve prospěch alteratvy tehdy, když P( Z z) α, kde α je zvoleá hlada výzamost. Pravděpodobost P ( Z z) α lze sado spočítat jako P( Z z ) k z k k k k z k z k 0 k Z vlastostí bomckého rozděleí můžeme určt středí hodotu a rozptyl testové statstky za platost ulové hypotézy E ( Z) p a var( Z ) p ( p) 4 Pro větší rozsahy výběru lze aplkovat cetrálí lmtí větu, pak ormovaá áhodá velča Z Z U () 4 má přblžě ormovaé ormálí rozděleí N(0, ), což pak lze užít pro přblžé určeí hodoty P( Z z ) u výběrů větších rozsahů. Zamékový test bývá velm často užívá jako test párový, přísá formulace tohoto párového testu je ásledující: Mějme dva závslé výběry ze spojtých rozděleí ( X, X, K, X ) a ( Y, Y, K, Y ) (tz. dvě pozorováí pro každý objekt) a testujeme hypotézu, že medáy obou velč jsou shodé, většou prot jedostraé alteratvě, apř. H 0 : H : X ~ Y ~ X ~ < Y ~ 39
40 Testovou statstkou je pak počet pozorováí, kdy Y > jako u jedovýběrového zamékového testu. X, další postup je stejý Př volější formulac párového zamékového testu se můžeme spokojt je s kvaltatvím porováím. Např. zjšťujeme, zda jstý léčebý postup přáší pacetům subjektví poct zlepšeí zdravotího stavu. Léčebý postup je aplková a pacetů, dotazem a každého paceta zjstíme, že u z pacetů astalo zlepšeí, u -z zhoršeí. Testujeme tedy hypotézu, že pravděpodobost zlepšeí je rova 0,5 prot jedostraé alteratvě, že tato pravděpodobost je větší, tedy H 0 : p 0, 5 H : p > 0, 5 Příklad: Poltcká straa ABC s chtěla rychlým průzkumem ověřt, zda předvolebí beseda přspěla ke zvýšeí její důvěryhodost. V průzkumu bylo 6 áhodě vybraým účastíkům po besedě položea otázka, zda je jejch důvěra ve strau ABC větší ež před besedou. Odpovědí ANO bylo 0, NE odpovědělo 6 dotázaých. Lze se domívat, že předvolebí beseda přspěla ke zvýšeí její důvěryhodost? Odpověď a tuto otázku dá test hypotézy H 0 : p 0, 5 (beseda eměla vlv) prot alteratvě H : p > 0,5 (beseda zvýšla důvěru) Za platost H 0 má počet kladých odpovědí Z bomcké rozděleí, Z ~ B(6, 0,5) P( Z 0) 6 6 k 0 k k 0 6 k , L a tedy ulovou hypotézu zamítout emůžeme, tz. eí důvod věřt, že beseda zvýšla důvěryhodost stray ABC. Pokud bychom užl asymptotckou statstku (), dostaeme z 0 6 u. 6 Pravděpodobost P ( U ) 0, 587, je o dost meší ež přesá hodota spočítaá z bomckého rozděleí B(6, 0,5), ale opět a v tomto případě emůžeme zamítou ulovou hypotézu a jakékolv rozumě zvoleé hladě výzamost α. Dost vysoký rozdíl mez P ( Z 0) 0, 75 a 40
41 P ( U ) 0,587, tj. přblžě 0,07 je způsobe malým rozsahem výběru ( 6). Př větších hodotách se rozdíly sžují, jak ukazuje ásledující tabulka. z z/ P ( Z 0) u P( U u) 6 0 5/8 0,75 0, /8 0,0766 0, /8 0,0997 0,075 V tabulce také vdíme, jak s rostoucím rozsahem výběru roste síla testu. Př stejé relatví četost kladých odpovědí pro 6 a 3 ulovou hypotézu ezamítáme, pro 64 už bychom a hladě výzamost α 0, 05 ulovou hypotézu zamítl. 5. Jedovýběrový Wlcooův test Jedovýběrový Wlcooův test se podobě jako jedovýběrový zamékový test užívá k testu hypotézy, že medá ějakého spojtého rozděleí je rove daé hodotě. Oprot zamékovému testu předpokládáme, že rozděleí, z ěhož máme výběr X, X, K, X, je eje spojté, ale symetrcké kolem bodu a, tj. pro jeho hustotu f platí f ( a + ) f ( a ) a hodota a X ~ je hodotou medáu tohoto rozděleí. Jedovýběrovým Wlcooovým testem testujeme hypotézu H 0 : X ~ 0 H ~ : X 0 Předpokládejme, že žádá z hodot ve výběru eí rova. Velčy Y X 0 (odchylky od předpokládaé hodoty 0 ) seřadíme do eklesající posloupost podle jejch absolutí hodoty pořadí hodoty Y () X 0 Y + Y( K Y. Nechť R je ( ) ) ( ) v této posloupost. Je zřejmé, že za platost ulové hypotézy jsou Y, Y, K,Y ezávslé áhodé velčy, jejchž rozděleí je symetrcké kolem uly. Proto by měly být součty pořadí ezáporých odchylek S záporých odchylek S zhruba stejé. R Y 0 R Y < 0 + ( + ) Samozřejmě platí, že součet pořadí je S S + S + + K+ a ulovou hypotézu zamíteme, jestlže se hodoty S +, S podstatě lší, tz. je-l m( S +, S ) meší ebo rovo krtcké hodotě w ( α). Ta je pro meší hodoty tabelováa (vz Tabulka 5 v část Statstcké tabulky ebo apř. Aděl, 993). 4
42 Tabelovaé krtcké hodoty jsou spočítáy kombatorcky s využtím klascké pravděpodobost. Pro větší rozsahy výběru lze užít asymptotckou apromac. Za platost ulové hypotézy je + ( + ) + E ( S ) a var( S ) ( + )( + ) a bylo také dokázáo, že s rostoucím se rozděleí statstky S blíží ormálímu rozděleí. Pak můžeme k testu ulové hypotézy užít statstku + S + E( S ) U, + var( S ) která má přblžě ormovaé ormálí rozděleí N(0, ). H0 zamíteme, je-l absolutí hodota této statstky U u( α / ), kde u ( α / ) je ( α / ) - kvatl rozděleí N(0, ). Příklad: 0 pokusých osob mělo bez předchozího výcvku ezávsle a sobě odhadout, kdy od daého sgálu uplye jeda muta. Byly získáy ásledující výsledky (v sekudách): 53, 48, 45, 55, 63, 5, 66, 56, 50, 58. Naším úkolem je testovat hypotézu H 0 : X ~ 60s prot alteratvě H : X ~ 60 s, tedy rozhodout, zda aše pozorováí ám poskytuje důvod odmítout představu, že polova osob v populac délku jedé muty podhodocuje a polova adhodocuje. X Y X Hodoty Y uspořádáme do eklesající posloupost podle Y : () pořadí Y X Kladé hodoty Y jsou zvýrazěy. Pak + S + 5, + 0(0 + ) S S S , m( S +, S ) 7. Krtcká hodota v tabulce je w 0 (0,05) 8, tz. že H 0 : X ~ 60s můžeme zamítout. Pokud bychom pro tak malý rozsah výběru užl asymptotcký postup (je však doporučová pro rozsah výběru > 0 ), dostaeme 4
43 + ( + ) 0 E ( S ) 7, ( + )( + ) var( S ) 96, U S + E( S var( S + + ) ) 7 7,5,09 96,5 Protože U, 96, ( u ( 0,975), 96, vz tabulka ormovaého ormálího rozděleí), zamítl bychom ulovou hypotézu a hladě výzamost α 0, 05 tímto asymptotckým postupem. Kdybychom v tomto příkladu užl zamékový test, ulovou hypotézu bychom zamítout emohl. Př oboustraé alteratvě H : X ~ 0 můžeme zamítout, když hodota testové statstky Z (počet kladých zaméek) je buď přílš malá ( Z k ) ebo přílš velká ( Z k ). Hodoty k, k, jsou ejmeší, resp. ejvětší z čísel, pro která platí α P ( Z k), α P ( Z k ) Za platost ulové hypotézy má Z ~ B(,0,5), tz. rozděleí je symetrcké a k. Hodotu k pro 0 a α 0,05 určíme takto: k k P ( Z k) P( Z k) 0 0 0, , , Hodota k, počet kladých odchylek je rove, tedy větší ež k a ulovou hypotézu bychom zamítout emohl. Uvedeý příklad lustruje, že Wlcooův jedovýběrový test je slější ež test zamékový. Všměme s, že P ( Z ) 0, 0547, tz. větší ež α 0, 05. Tedy zamékový test by a této hladě výzamost ezamítul H 0 : X ~ 60s a prot jedostraé alteratvě H : X ~ < 60s. Pozámka: Používáme-l statstcký software pro vyhodoceí eparametrckých testů, je a místě obezřetost př terpretac výstupu z programu. Zejméa př terpretac 43
44 tzv, p-value, Některé statstcké programy uvádějí jako p-value je hodotu z asymptotckého testu, eboť určeí přesé hodoty pro eparametrcký test bývá výpočetě áročé. Proto zejméa př zpracováí výběrů meších rozsahů pečlvě pročtěte mauál ebo help programu a pokud je hodota ve výstupu programu je asymptotcká, použjte krtcké hodoty ze statstckých tabulek. 5.3 Dvouvýběrový Wlcooův test Dvouvýběrový Wlcooův test je eparametrckou obdobou dvouvýběrového t- testu. V případě dvouvýběrového t-testu se testuje hypotéza o shodě středích hodot dvou ormálích rozděleí, ze kterých jsou dva ezávslé výběry. Wlcooův test je založe a pořadí a lze ho použít pro výběry, které ejsou z ormálích rozděleí. Uvažujme dva ezávslé výběry ze dvou spojtých rozděleí: X, X,, áhodý výběr z rozděleí s dstrbučí fukcí F K X m K Y Y, Y,, áhodý výběr z rozděleí s dstrbučí fukcí G Wlcooův dvouvýběrový test je obecě zformulová jako test hypotézy o shodě dstrbučích fukcí H 0 : H : F G F G Ale většou alteratvu chápeme jako posuutí, tj. H : G ( ) F( ), 0, pro kterou je teto test ctlvý (má přjatelou sílu). Pokud se dstrbučí fukce lší spíše je rozptylem ebo tvarem, eí užtí dvouvýběrového Wlcooova testu vhodé. Wlcooův dvouvýběrový test je založe pořadí pozorovaých hodot v tzv. sdružeém výběru. Všech m+ hodot X, X, K, X m,y, Y, K,Y uspořádáme vzestupě, za platost ulové hypotézy jsou oba výběry z téhož rozděleí. Pořadí R ve sdružeém výběru má tedy hodoty,, K, m +. Pokud se ve sdružeém výběru vyskytují shodé hodoty, přřadíme jm odpovídající průměré pořadí. Součet pořadí hodot X, X,, ozačíme, součet pořadí hodot Y, Y,,Y ozačíme T. Je zřejmé, že K K m + + T T R ( m + )( m + + ) a dále, že středí hodoty ET a ET jsou za platost H0 rovy ásobku průměrého pořadí a rozsahu výběru, tj. X m T 44
UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. Josef Tvrdík
UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT (OPRAVENÁ VERZE 006) Josef Tvrdík OSTRAVSKÁ UNIVERZITA 00 Obsah: Úvod... 3 Programové prostředky pro statstcké výpočty... 4. Tabulkový
VíceMetody zkoumání závislosti numerických proměnných
Metody zkoumáí závslost umerckých proměých závslost pevá (fukčí) změě jedoho zaku jedozačě odpovídá změa druhého zaku (podle ějakého fukčího vztahu) (matematka, fyzka... statstcká (volá) změám jedé velčy
Vícea další charakteristikou je četnost výběrového souboru n.
Předáška č. 8 Testováí rozptylu, testy relatví četost, testy dobré shody, test ezávslost kvaltatvích zaků Testy rozptylu Testy se používají k ověřeí hypotézy o určté velkost rozptylu a k ověřeí vztahu
VíceIlustrativní příklad ke zkoušce z B_PS_A léto 2014.
Ilustratví příklad ke zkoušce z B_PS_A léto 0. Jsou dáa data výběrového souboru výšky že vz IS/ Učebí materály/ Témata 8, M. Kvaszová. č. výška č. výška 89 5 90 7 57 8 5 58 5 8 9 58 0 8 0 8 8 9 8 8 95
VíceOdhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.
Odhady parametrů základího souboru Ig. Mchal Dorda, Ph.D. Úvodí pozámky Základí soubor můžeme popsat jeho parametry, apř. středí hodota μ, rozptyl σ atd. Př praktckých úlohách ovšem zpravdla elze vyšetřt
VíceIlustrativní příklad ke zkoušce z B_PS_A léto 2013.
Ilustratví příklad ke zkoušce z B_PS_A léto 0. Jsou dáa data výběrového souboru výšky že vz IS/ Učebí materály/ Témata 8, M. Kvaszová. č. výška č. výška 89 5 90 7 57 8 5 58 5 8 9 58 0 8 0 8 8 9 8 8 95
VíceOdhady parametrů základního. Ing. Michal Dorda, Ph.D.
Odhady parametrů základího souboru Úvodí pozámky Základí soubor můžeme popsat jeho parametry, apř. středí hodota μ, rozptyl atd. Př praktckých úlohách ovšem zpravdla elze vyšetřt celou populac, provádíme
VíceUČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY. Přírodovědecká fakulta ANALÝZA DAT. 2. upravené vydání. Josef Tvrdík
UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. upraveé vydáí Josef Tvrdík OSTRAVSKÁ UNIVERZITA 008 OBSAH: Úvod... 3 Parametrcké testy o shodě středích hodot... 4. Jedovýběrový t-test...
VíceTestování statistických hypotéz
Testováí statstckých hypotéz - Testováí hypotéz je postup, sloužící k ověřeí předpokladů o ZS (hypotéz a základě výběrových dat (tj. hodot z výběrového souboru. - ypotéza = určtý předpoklad o základím
VícePRAVDĚPODOBNOST A STATISTIKA
Matematka IV PRAVDĚPODOBNOT A TATITIKA Lbor Žák Matematka IV Lbor Žák Regresí aalýza Regresí aalýza zkoumá závslost mez ezávslým proměým X ( X,, X k a závsle proměou Y. Tato závslost se vjadřuje ve tvaru
VíceTento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i
: ometové míry polohy zahrují růzé druhy průměrů pomocí kterých můžeme charakterzovat cetrálí tedec dat ometové míry polohy jsou jedoduché číselé charakterstky které se vyčíslují ze všech prvků výběru
VíceGenerování dvojrozměrných rozdělení pomocí copulí
Pravděpodobost a matematcká statstka eerováí dvojrozměrých rozděleí pomocí copulí umbelova copule PRAHA 005 Vpracoval: JAN ZÁRUBA OBSAH: CÍL PRÁCE TEORIE Metoda verzí trasformace O copulích Sklarova věta
Více12. Neparametrické hypotézy
. Neparametrcké hypotézy V této část se budeme zabývat specálí částí teore statstckých hypotéz tzv. eparametrckým hypotézam ebo jak řečeo eparametrckým statstckým testy. Neparametrcké se azývají proto,
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOT A TATITIKA Přpomeutí pojmů,, P m θ, R θ R - pravděpodobostí prostor - parametrcký prostor - parametrcká fukce,, T - áhodý vektor defovaý a pravděpodobostím prostoru,, P θ s hustotou f x,
VícePRAVDĚPODOBNOST A STATISTIKA
SP4 Přpomeutí pojmů PRAVDĚPODOBNOST A STATISTIKA SP4 Přpomeutí pojmů SP4 Přpomeutí pojmů Pravděpodobost Náhodý jev: - základí prostor - elemetárí áhodý jev A - áhodý jev, - emožý jev, jstý jev podjev opačý
VíceNEPARAMETRICKÉ METODY
NEPARAMETRICKÉ METODY Jsou to metody, dy předmětem testu hypotézy eí tvrzeí o hodotě parametru ějaého orétího rozděleí, ale ulová hypotéza je formulováa obecěji, apř. jao shoda rozděleí ebo ezávislost
Více6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.
6 Itervalové odhady parametrů základího souboru V předchozích kapitolách jsme se zabývali ejprve základím zpracováím experimetálích dat: grafické zobrazeí dat, výpočty výběrových charakteristik kapitola
Více4.2 Elementární statistické zpracování. 4.2.1 Rozdělení četností
4.2 Elemetárí statstcké zpracováí Výsledkem statstckého zjšťováí (. etapa statstcké čost) jsou euspořádaá, epřehledá data. Proto 2. etapa statstcké čost zpracováí, začíá většou jejch utříděím, zpřehleděím.
VícePRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2
SP3 Neparametrcké testy hypotéz PRAVDĚPODOBNOST A STATISTIKA Neparametrcké testy hypotéz čast Lbor Žák SP3 Neparametrcké testy hypotéz Lbor Žák Neparametrcké testy hypotéz - úvod Neparametrcké testy statstckých
VíceNejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A
Nejstoty měřeí Pro každé přesé měřeí potřebujeme formac s jakou přesostí bylo měřeí provedeo. Nejstota měřeí vyjadřuje terval ve kterém se achází skutečá hodota měřeé velčy s určtou pravděpodobostí. Nejstota
VícePřednáška č. 10 Analýza rozptylu při jednoduchém třídění
Předáška č. 0 Aalýza roztylu ř jedoduchém tříděí Aalýza roztylu je statstcká metoda, kterou se osuzuje romělvost oakovaých realzací áhodého okusu tj. romělvost áhodé velčy. Náhodá velča vzká za relatvě
Více, jsou naměřené a vypočtené hodnoty závisle
Měřeí závslostí. Průběh závslost spojtá křvka s jedoduchou rovcí ( jedoduchým průběhem), s malým počtem parametrů, která v rozmezí aměřeých hodot vsthuje průběh závslost, určeí kokrétího tpu křvk (přímka,
VíceTest dobré shody se používá nejčastěji pro ověřování těchto hypotéz:
Ig. Marta Ltschmaová Statstka I., cvčeí 1 TESTOVÁNÍ NEPARAMETRICKÝCH HYPOTÉZ Dosud jsme se zabýval testováím parametrcký hypotéz, což jsou hypotézy o parametrech rozděleí (populace). Statstckým hypotézám
VíceMendelova univerzita v Brně Statistika projekt
Medelova uverzta v Brě Statstka projekt Vypracoval: Marek Hučík Obsah 1. Úvod... 3. Skupové tříděí... 3 o Data:... 3 o Počet hodot:... 3 o Varačí rozpětí:... 3 o Počet tříd:... 4 o Šířka tervalu:... 4
VíceÚvod do korelační a regresní analýzy
Úvod do korelačí a regresí aalýz Bude ás zajímat, jak těsě spolu souvsí dva sledovaé jev Příklad: vztah mez rchlostí auta a brzdou dráhou vztah mez věkem žáka a rchlostí v běhu a 60 m vztah mez spotřebou
VíceOdhady parametrů 1. Odhady parametrů
Odhady parametrů 1 Odhady parametrů Na statistický soubor (x 1,..., x, který dostaeme statistickým šetřeím, se můžeme dívat jako a výběrový soubor získaý realizací áhodého výběru z áhodé veličiy X. Obdobě:
Více8. Zákony velkých čísel
8 Zákoy velkých čísel V této část budeme studovat velm často užívaá tvrzeí o součtech posloupost áhodých velč Nedříve budeme vyšetřovat tvrzeí azývaá souhrě ako slabé zákoy velkých čísel Veškeré úvahy
VíceÚvod do teorie měření
Uverzta Jaa Evagelsty Purkyě v Ústí ad Labem Přírodovědecká fakulta Úvod do teore měřeí Prof. Chlář emář 0 Průměr, rozptyl a směrodatá odchylka X = X = ( X X ) = = = Výpočty pomocí vzorců a pomocí statstckých
Více12. N á h o d n ý v ý b ě r
12. N á h o d ý v ý b ě r Při sledováí a studiu vlastostí áhodých výsledků pozáme charakter rozděleí z toho, že opakovaý áhodý pokus ám dává za stejých podmíek růzé výsledky. Ty odpovídají hodotám jedotlivých
Více5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC
5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC V této kaptole se dozvíte: jak je defováa fukce přrozeá odmoca v kompleím oboru a jaké má vlastost včetě odlšostí od odmocy v reálém
VíceSpolehlivost a diagnostika
Spolehlvost a dagostka Složté systémy a jejch spolehlvost: Co je spolehlvost? Vlv spolehlvost kompoetů systému Návrh systému z hledska spolehlvost Aplkace - žvotě důležté systémy - vojeské aplkace Teore
VíceVY_52_INOVACE_J 05 01
Název a adresa školy: Středí škola průmyslová a umělecká, Opava, příspěvková orgazace, Praskova 399/8, Opava, 74601 Název operačího programu: OP Vzděláváí pro kokureceschopost, oblast podpory 1.5 Regstračí
Více3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.
3. Hodoceí přesost měřeí a vytyčováí. Odchylky a tolerace ve výstavbě. 3.1 Úvod o měřeí obecě 3.2 Chyby měřeí a jejch děleí 3.2.1 Omyly a hrubé chyby 3.2.2 Systematcké chyby 3.2.3 Náhodé chyby 3.3 Výpočet
VíceIntervalové odhady parametrů některých rozdělení.
4. Itervalové odhady parametrů rozděleí. Jedou ze základích úloh mtematické statistiky je staoveí hodot parametrů rozděleí, ze kterého máme k dispozici áhodý výběr. Nejčastěji hledáme odhady dvou druhů:
Více8 NELINEÁRNÍ REGRESNÍ MODELY
8 NELINEÁRNÍ REGRESNÍ MODELY 8 Tvorba eleárího regresího modelu Postup tvorby eleárího regresího modelu se dá rozčlet do těchto kroků: Návrh regresího modelu Obvykle se jako eleárí regresí model používá
VíceNáhodný výběr 1. Náhodný výběr
Náhodý výběr 1 Náhodý výběr Matematická statistika poskytuje metody pro popis veliči áhodého charakteru pomocí jejich pozorovaých hodot, přesěji řečeo jde o určeí důležitých vlastostí rozděleí pravděpodobosti
VícePravděpodobnost a aplikovaná statistika
Pravděpodobost a aplikovaá statistika MGR. JANA SEKNIČKOVÁ, PH.D. 6. KAPITOLA CENTRÁLNÍ LIMITNÍ VĚTA 6.11.2017 Opakováí: Čebyševova erovost příklad Pravděpodobost vyrobeí zmetku je 0,5. Odhaděte pravděpodobost,
VíceChyby přímých měření. Úvod
Chyby přímých měřeí Úvod Př zjšťováí velkost sledovaé velčy dochází k růzým chybám, které ovlvňují celkový výsledek. V pra eestuje žádá metoda měřeí a měřcí zařízeí, které by bylo absolutě přesé, což zameá,
VícePravděpodobnost a aplikovaná statistika
Pravděpodobost a aplikovaá statistika MGR. JANA SEKNIČKOVÁ, PH.D. 3. ÚKOL JB TEST 3. Úkol zadáí pro statistické testy U každého z ásledujících testů uveďte ázev (včetě autora), předpoklady použití, ulovou
Více[ jednotky ] Chyby měření
Chyby měřeí Provedeme-l určté měřeí za stejých podmíek vícekrát, jedotlvá měřeí se mohou odlšovat (z důvodu koečé rozlšovací schopost měř. přístrojů, áhodých vlvů apod.). Chyba měřeí: e = x x x...přesá
VícePřednáška V. Úvod do teorie odhadu. Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs.
Předáška V. Úvod do teore odhadu Pojmy a prcpy teore odhadu Nestraé odhady Metoda mamálí věrohodost Průměr vs. medá Opakováí výběrová dstrbučí fukce Sestrojíme výběrovou dstrbučí fukc pro výšku a váhu
VícePRAVDĚPODOBNOST A STATISTIKA
SP Záko velkých čísel, cetrálí lmtí věta PRAVDĚPODOBNOST A STATISTIKA Lbor Žák SP Záko velkých čísel, cetrálí lmtí věta Lbor Žák Kovergece podle pravděpodobost Posloupost áhodých proměých,,,, koverguje
Více9. Měření závislostí ve statistice. 9.1. Pevná a volná závislost
Dráha [m] 9. Měřeí závslostí ve statstce Měřeí závslostí ve statstce se zývá především zkoumáím vzájemé závslost statstckých zaků vícerozměrých souborů. Závslost přtom mohou být apříklad pevé, volé, jedostraé,
VíceP1: Úvod do experimentálních metod
P1: Úvod do epermetálích metod Chyby a ejstoty měřeí - Každé měřeí je zatížeo určtou epřesostí, která je způsobea ejrůzějším egatvím vlvy, vyskytujícím se v procesu měřeí. - Výsledek měřeí se díky tomu
VícePRAVDĚPODOBNOST A STATISTIKA
SP esty dobré shody PRAVDĚPODOBNOS A SAISIKA Lbor Žá SP esty dobré shody Lbor Žá Přpomeutí - estováí hypotéz o rozděleí Ch-vadrát test Chí-vadrát testem terý e založe a tříděém statstcém souboru. SP esty
Vícejsou varianty znaku) b) při intervalovém třídění (hodnoty x
Výběr z eřeštelých příkladů ze zkouškových testů Jde o výběr z tpů příkladů, jejchž úspěšost řešeí u zkoušek se blíží ule. Itervalové versus bodové tříděí V tabulce je uvedeo rozděleí četostí a) př bodovém
VíceLineární regrese ( ) 2
Leárí regrese Častým úolem je staoveí vzájemé závslost dvou (č více) fzálích velč a její matematcé vjádřeí. K tomuto účelu se používají růzé regresí metod, pomocí chž hledáme vhodou fuc f (), apromující
Vícei 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky
Téma 6.: Základí pojmy matematické statistiky Vlastosti důležitých statistik odvozeých z jedorozměrého áhodého výběru: Nechť X,..., X je áhodý výběr z rozložeí se středí hodotou μ, rozptylem σ a distribučí
Více1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru
Lekce Normálí rozděleí v rově V této lekc se udeme věovat měřeí korelačí závslost dvojce áhodých velč (dvousložkového áhodého vektoru) Vcházet udeme z ormálího rozděleí pravděpodoost áhodého vektoru v
VíceUniverzita Karlova v Praze Pedagogická fakulta
Uverzta Karlova v Praze Pedagogcká fakulta SEMINÁRNÍ PRÁCE Z OBECNÉ ALGEBRY DĚLITELNOST CELÝCH ČÍSEL V SOUSTAVÁCH O RŮZNÝCH ZÁKLADECH / Cfrk C. Zadáí: Najděte pět krtérí pro děltelost v jých soustavách
Více14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou
4. Testováí statistických hypotéz Úvod Při práci s daty se mohdy spokojujeme s itervalovým či bodovým odhadem parametrů populace. V mohých případech se však uchylujeme k jiému postupu, většiou jde o případy,
VíceDeskriptivní statistika 1
Deskriptiví statistika 1 1 Tyto materiály byly vytvořey za pomoci gratu FRVŠ číslo 1145/2004. Základí charakteristiky souboru Pro lepší představu používáme k popisu vlastostí zkoumaého jevu určité charakteristiky
Více8. Analýza rozptylu.
8. Aalýza rozptylu. Lieárí model je popis závislosti, který je využívá v řadě disciplí matematické statistiky. Uvedeme jeho popis a tvrzeí, která budeme využívat. Setkáme se s ím jedak v aalýze rozptylu,
VíceZÁKLADY PRAVDĚPODOBNOSTI A STATISTIKY
UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ZÁKLADY PRAVDĚPODOBNOSTI A STATISTIKY Josef Tvrdík OSTRAVSKÁ UNIVERZITA 00 OBSAH: ÚVOD... 4. CO JE STATISTIKA?... 4. STATISTICKÁ DATA... 5.3 MĚŘENÍ
Více11. Popisná statistika
. Popsá statstka.. Pozámka: Př statstckém zkoumáí ás zajímají hromadé jevy a procesy, u kterých zkoumáme zákotost, které se projevují u velkého počtu prvků. Prvky zkoumáí azýváme statstcké jedotky. Př
VíceCvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu
Cvičeí 6: Výpočet středí hodoty a rozptylu, bodové a itervalové odhady středí hodoty a rozptylu Příklad 1: Postupě se zkouší spolehlivost čtyř přístrojů Další se zkouší je tehdy, když předchozí je spolehlivý
VíceStatistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).
Statstka. Základí pojmy Statstcký soubo - daá koečá, epázdá moža M předmětů pozoováí, majících jsté společé vlastost (událost, věc,.) Jedotlvé pvky této možy se azývají pvky statstckého soubou (statstcké
Více1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL
Elea Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy POPISNÁ STATISTIKA V PROGRAMU MS EXCEL RYCHLÝ NÁHLED KAPITOLY Žádý výzkum se v deší době evyhe statistickému zpracováí dat. Je jedo,
VíceRegrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n
Regrese Aproxmace metodou ejmeších čtverců v v ( ) = f x v v x x x x Je dáo bodů [x, ], =,,, předpoládáme závslost a x a chceme ajít fuc, terá vsthuje teto tred - Sažíme se proložt fuc = f x ta, ab v =
Více8.2.1 Aritmetická posloupnost I
8.2. Aritmetická posloupost I Předpoklady: 80, 802, 803, 807 Pedagogická pozámka: V hodiě rozdělím třídu a dvě skupiy a každá z ich dělá jede z prvích dvou příkladů. Čley posloupostí pak při kotrole vypíšu
VíceInterpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2
Iterpolace pomocí sple křvky dáo: bodů v rově úkol: alézt takovou křvku, která daým body prochází y f f 2 f 0 f x0 x... x 2 x x Iterpolace pomocí sple křvky evýhodou polyomálí terpolace změa ěkterého z
VíceMetody statistické analýzy. doc. Ing. Dagmar Blatná, CSc.
Metody statstcké aalýzy doc. Ig. Dagmar Blatá, CSc. Bakoví sttut vysoká škola, a.s. Praha 0 METODY STATISTICKÉ ANALÝZY Autor: Recezet: Vydal: Tsk: Vydáí: doc. Ig. Dagmar Blatá, CSc. doc. Ig. Jří Trešl,
Více11. Regresní analýza. Čas ke studiu kapitoly: 60 minut. Cíl VÝKLAD Úvod
. egresí aalýza Čas ke studu kaptoly: 6 mut Cíl Po prostudováí tohoto odstavce udete umět vysvětlt pojem oecý leárí model prcp leárího regresího modelu používat výsledky regresí aalýzy verfkovat regresí
VícePRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady
SP Bodové a tervalové odhady PRAVDĚPODOBNOST A STATISTIKA Bodové a tervalové odhady Lbor Žák SP Bodové a tervalové odhady Lbor Žák Bodové a tervalové odhady Nechť je áhodá proměá, která má dstrbučí fukc
Víceodhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.
10 Cvičeí 10 Statistický soubor. Náhodý výběr a výběrové statistiky aritmetický průměr, geometrický průměr, výběrový rozptyl,...). Bodové odhady parametrů. Itervalové odhady parametrů. Jedostraé a oboustraé
VíceZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)
ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU) Základy teorie pravděpodobosti měřeí chyba měřeí Provádíme kvalifikovaý odhad áhodá systematická výsledek ejistota výsledku Základy teorie pravděpodobosti
VíceDoc. Ing. Dagmar Blatná, CSc.
PRAVDĚPODOBNOST A STATISTIKA Doc. Ig. Dagmar Blatá, CSc. Statsta statstcé údaje o hromadých jevech čost, terá vede zísáí statstcých údajů a jejch zpracováí teore statsty - věda o stavu, vztazích a vývoj
VíceÚloha II.S... odhadnutelná
Úloha II.S... odhadutelá 10 bodů; průměr 7,17; řešilo 35 studetů a) Zkuste vlastími slovy popsat, k čemu slouží itervalový odhad středí hodoty v ormálím rozděleí a uveďte jeho fyzikálí iterpretaci (postačí
VíceU. Jestliže lineární zobrazení Df x n n
MATEMATICKÁ ANALÝZA III předášky M. Krupky Zmí semestr 999/ 3. Iverzí a mplctí zobrazeí V této kaptole uvádíme dvě důležté věty, které acházeí aplkace v moha oblastech matematky: Větu o verzím a větu o
VíceJednoduchá lineární regrese
Jedoduchá leárí regrese Motvace: Cíl regresí aalýz - popsat závslost hodot velč Y a hodotách velč X. Nutost vřešeí dvou problémů: a) jaký tp fukce se použje k popsu daé závslost; b) jak se staoví kokrétí
VíceÚloha III.S... limitní
Úloha III.S... limití 10 bodů; průměr 7,81; řešilo 6 studetů a) Zkuste vlastími slovy popsat postup kostrukce itervalových odhadů středí hodoty v případě obecého rozděleí měřeých dat (postačí vlastími
Vícejako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých
9 Limití věty. V aplikacích teorie pravděpodobosti (matematická statistika, metody Mote Carlo se užívají tvrzeí vět o kovergeci posloupostí áhodých veliči. Podle povahy kovergece se limití věty teorie
VíceS1P Popisná statistika. Popisná statistika. Libor Žák
SP Popsá statstka Popsá statstka Lbor Žák SP Popsá statstka Lbor Žák Základí zdroje : skrpta Mateatka IV - doc. RNDr. Z. Karpíšek, CSc. ateatka o le - http://athole.fe.vutbr.cz/ Základ ateatcké statstk
VíceOptimalizace portfolia
Optmalzace portfola ÚVOD Problémy vestováí prostředctvím ákupu ceých papírů sou klasckým tématem matematcké ekoome. Celkový výos z portfola má v době rozhodováí o vestcích povahu áhodé velčy, eíž rozložeí
VíceSP2 Korelační analýza. Korelační analýza. Libor Žák
Korelačí aalýza Přpomeutí pojmů áhodá proměá áhodý vetor áhodý vetor Náhodý výběr: pro áhodou proměou : pro áhodý vetor : pro áhodý vetor : Přpomeutí pojmů - ovarace Kovarace áhodých proměých ovaračí oefcet
VíceCvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu
Cvičeí 6: Bodové a itervalové odhady středí hodoty, rozptylu a koeficietu korelace, test hypotézy o středí hodotě při zámém rozptylu Příklad : Bylo zkoumáo 9 vzorků půdy s růzým obsahem fosforu (veličia
Více11. Časové řady. 11.1. Pojem a klasifikace časových řad
. Časové řad.. Pojem a klasfkace časových řad Specfckým statstckým dat jsou časové řad pomocí chž můžeme zkoumat damku jevů v čase. Časovou řadou (damcká řada, vývojová řada) rozumíme v čase uspořádaé
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Bodové a itervalové odhady Nechť X je áhodá proměá, která má distribučí fukci F(x, ϑ). Předpokládejme, že záme tvar distribučí fukce (víme jaké má rozděleí) a ezáme parametr
VíceVýukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT
Základy práce s tabulkou Výukový modul III. Iovace a zkvaltěí výuky prostředctvím IC éma III..3 echcká měřeí v MS Excel Pracoví lst 5 Měřeí teploty. Ig. Jří Chobot VY_3_INOVACE_33_5 Aotace Iovace a zkvaltěí
VíceANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacn_a_regresn_analyza jsme řešl rozdíl mez korelační a regresní analýzou. Budeme se teď věnovat pouze lneárnímu vztahu dvou velčn, protože je nejjednodušší
VíceLineární regresní model (VJ REGMOD-2)
eárí regresí model (VJ REGOD-) Základí formace V rámc této výukové jedotky s adefujeme leárí regresí model a sezámíme se s typy proměých využtelých jako predktory (vysvětlující proměé) v takovém modelu.
Více14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat
4. Korelace 4. Teoretcké základy korelace 4. Způsoby měřeí závslostí pro růzé typy dat Př prác se statstckým údaj se velm často setkáváme s daty, která jsou tvořea dvojcem, trojcem hodot. Složky takovýchto
VícePravděpodobnostní modely
Pravděpodobostí modely Meu: QCEpert Pravděpodobostí modely Modul hledá metodou maimálí věrohodosti (MLE Maimum Likelihood Estimate) statistický model (rozděleí) který ejlépe popisuje data. Je přitom k
Více1.1 Definice a základní pojmy
Kaptola. Teore děltelost C. F. Gauss: Matematka je královou všech věd a teore čísel je králova matematky. Základím číselým oborem se kterým budeme v této kaptole pracovat jsou celá čísla a pouze v ěkterých
VíceTestování hypotéz. 3.1 Základní pojmy a obecný postup při testování
Lekce 3 Testováí hypotéz Vlajkovou lodí matematcké statstky jsou techky testováí hypotéz. Formulace hypotéz a jejch ověřováí jsou základím mechasmem postupu ldského pozáí. Pokud jsou formace, potřebé k
VíceAPLIKOVANÁ STATISTIKA
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA MANAGEMENTU A EKONOMIKY VE ZLÍNĚ APLIKOVANÁ STATISTIKA FRANTIŠEK PAVELKA PETR KLÍMEK ZLÍN 000 Recezoval: Haa Lošťáková Fratšek Pavelka, Petr Klímek, 000 ISBN 80 4
VíceStatistika - vícerozměrné metody
Statstka - vícerozměré metody Mgr. Mart Sebera, Ph.D. Katedra kezologe Masarykova uverzta Fakulta sportovích studí Bro 0 Obsah Obsah... Sezam obrázků... 4 Sezam tabulek... 4 Úvod... 6 Pojmy... 7 Náhodé
VíceLABORATORNÍ CVIČENÍ Z FYZIKY. Měření objemu tuhých těles přímou metodou
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE KATEDRA FYZIKY LABORATORNÍ CVIČENÍ Z FYZIKY Jméo: Petr Česák Datum měřeí:.3.000 Studjí rok: 999-000, Ročík: Datum odevzdáí: 6.3.000 Studjí skupa: 5 Laboratorí skupa:
Více8.2.1 Aritmetická posloupnost
8.. Aritmetická posloupost Předpoklady: 80, 80, 803, 807 Pedagogická pozámka: V hodiě rozdělím třídu a dvě skupiy a každá z ich dělá jede z prvích dvou příkladů. Př. : V továrě dokočí každou hodiu motáž
Více14. B o d o v é o d h a d y p a r a m e t r ů
4. B o d o v é o d h a d y p a r a m e t r ů Na základě hodot áhodého výběru z rozděleí určitého typu odhadujeme parametry tohoto rozděleí, tak aby co ejlépe odpovídaly hodotám výběru. Formulujme tudíž
VíceTesty statistických hypotéz
Úvod Testy statstckých hypotéz Václav Adamec vadamec@medelu.cz Testováí: kvalfkovaá procedura vedoucí v zamítutí ebo ezamítutí ulové hypotézy v podmíkách ejstoty Testy jsou vázáy a rozděleí áhodých velč
VíceOdhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:
Odhady parametrů polohy a rozptýleí pro často se vyskytující rozděleí dat v laboratoři se vyčíslují podle ásledujících vztahů: a : Laplaceovo (oboustraé expoeciálí rozděleí se vyskytuje v případech, kdy
VíceP2: Statistické zpracování dat
P: Statistické zpracováí dat Úvodem - Statistika: věda, zabývající se shromažďováím, tříděím a ásledým popisem velkých datových souborů. - Základem statistiky je teorie pravděpodobosti, založeá a popisu
VíceIntervalové odhady parametrů
Itervalové odhady parametrů Petr Pošík Části dokumetu jsou převzaty (i doslově) z Mirko Navara: Pravděpodobost a matematická statistika, https://cw.felk.cvut.cz/lib/ee/fetch.php/courses/a6m33ssl/pms_prit.pdf
VícePravděpodobnost a aplikovaná statistika
Pravděpodobost a aplikovaá statistika MGR. JANA SEKNIČKOVÁ, PH.D. 4. KAPITOLA STATISTICKÉ CHARAKTERISTIKY 16.10.2017 23.10.2017 Přehled témat 1. Pravděpodobost (defiice, využití, výpočet pravděpodobostí
VícePravděpodobnostní model doby setrvání ministra školství ve funkci
Pravděpodobostí model doby setrváí miistra školství ve fukci Základí statistická iferece Data Zdro: http://www.msmt.cz/miisterstvo/miistri-skolstvi-od-roku-848. Ke statistickému zpracováí byla vzata pozorováí
VícePři sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací
3. Náhodý výběr Při sledováí a studiu vlastostí áhodých výsledků pozáme charakter rozděleí z toho, že opakovaý áhodý pokus ám dává za stejých podmíek růzé výsledky. Ty odpovídají hodotám jedotlivých realizací
Více7 LIMITNÍ VĚTY. Čas ke studiu kapitoly: 70 minut. Cíl:
7 LIMITNÍ VĚTY Čas ke studu kaptoly: 70 mut Cíl: o prostudováí tohoto odstavce budete umět formulovat a používat lmtí věty aproxmovat já rozděleí rozděleím ormálím - 96 - Výklad: V této kaptole adefujeme
VícePRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor
SP Náhodý vektor PRAVDĚPODOBNOS A SAISIKA Náhodý vektor SP Náhodý vektor Náhodý vektor Náhodý vektor slouží k popsu výsledku pokusu kdy měříme více údaů o procesu. Před provedeím pokusu eho výsledek a
VíceUNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy
UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesé výchovy VYBRANÉ NEPARAMETRICKÉ STATISTICKÉ POSTUPY V ANTROPOMOTORICE Zdeěk Havel Davd Chlář 0 VYBRANÉ NEPARAMETRICKÉ
Více