UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. Josef Tvrdík



Podobné dokumenty
Metody zkoumání závislosti numerických proměnných

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY. Přírodovědecká fakulta ANALÝZA DAT. 2. upravené vydání. Josef Tvrdík

a další charakteristikou je četnost výběrového souboru n.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. Josef Tvrdík

Testování statistických hypotéz

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

4.2 Elementární statistické zpracování Rozdělení četností

Generování dvojrozměrných rozdělení pomocí copulí

Mendelova univerzita v Brně Statistika projekt

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

PRAVDĚPODOBNOST A STATISTIKA

Úvod do korelační a regresní analýzy

, jsou naměřené a vypočtené hodnoty závisle

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

PRAVDĚPODOBNOST A STATISTIKA

12. N á h o d n ý v ý b ě r

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

NEPARAMETRICKÉ METODY

Odhady parametrů 1. Odhady parametrů

Spolehlivost a diagnostika

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

8. Zákony velkých čísel

Testy statistických hypotéz

Úvod do teorie měření

Univerzita Karlova v Praze Pedagogická fakulta

12. Neparametrické hypotézy

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Chyby přímých měření. Úvod

Náhodný výběr 1. Náhodný výběr

[ jednotky ] Chyby měření

9. Měření závislostí ve statistice Pevná a volná závislost

VY_52_INOVACE_J 05 01

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a aplikovaná statistika

Deskriptivní statistika 1

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a aplikovaná statistika

ZÁKLADY PRAVDĚPODOBNOSTI A STATISTIKY

Intervalové odhady parametrů některých rozdělení.

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

Statistika - vícerozměrné metody

P1: Úvod do experimentálních metod

Lineární regrese ( ) 2

Jednoduchá lineární regrese

Optimalizace portfolia

Doc. Ing. Dagmar Blatná, CSc.

PRAVDĚPODOBNOST A STATISTIKA

8 NELINEÁRNÍ REGRESNÍ MODELY

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

11. Časové řady Pojem a klasifikace časových řad

LABORATORNÍ CVIČENÍ Z FYZIKY. Měření objemu tuhých těles přímou metodou

APLIKOVANÁ STATISTIKA

8.2.1 Aritmetická posloupnost I

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

1.1 Definice a základní pojmy

UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy

11. Popisná statistika

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

Úloha II.S... odhadnutelná

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

U. Jestliže lineární zobrazení Df x n n

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT

S1P Popisná statistika. Popisná statistika. Libor Žák

Přednáška V. Úvod do teorie odhadu. Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs.

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

1 Popis statistických dat. 1.1 Popis nominálních a ordinálních znaků

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Statistická analýza dat

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Výsledky této ásti regresní analýzy jsou asto na výstupu z poítae prezentovány ve form tabulky analýzy rozptylu.

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Pravděpodobnostní modely

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce

8.2.1 Aritmetická posloupnost

8. Analýza rozptylu.

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

PRAVDĚPODOBNOST A STATISTIKA

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

P2: Statistické zpracování dat

Úloha III.S... limitní

Intervalové odhady parametrů

11. Regresní analýza. Čas ke studiu kapitoly: 60 minut. Cíl VÝKLAD Úvod

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

T e c h n i c k á z p r á v a. Pokyn pro vyhodnocení nejistoty měření výsledků kvantitativních zkoušek. Technická zpráva č.

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

Užití binomické věty

1. Základy měření neelektrických veličin

Fakulta elektrotechniky a informatiky Statistika STATISTIKA

Transkript:

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT (OPRAVENÁ VERZE 006) Josef Tvrdík OSTRAVSKÁ UNIVERZITA 00

Obsah: Úvod... 3 Programové prostředky pro statstcké výpočty... 4. Tabulkový procesor Ecel... 4. Statstcké programové systémy... 0.. NCSS... 0.. SOLO... 6 3 Parametrcké testy o shodě středích hodot (t-testy)... 8 Souhr:... 5 Kotrolí otázky:... 6 Pojmy k zapamatováí:... 6 4 Aalýza rozptylu - jedoduché tříděí... 7 5 Základy leárí regrese... 34 6 Neparametrcké metody... 46 6. Zamékový test... 47 6. Jedovýběrový Wlcooův test... 49 6.3 Dvouvýběrový Wlcooův test... 5 6.4 Kruskalův-Wallsův test... 55 6.5 Spearmaův koefcet pořadové korelace... 57 6.6 Kotgečí tabulky - test ezávslost... 6 Lteratura - kometovaý sezam... 67 Statstcké tabulky... 70 Tabulka : Dstrbučí fukce ormovaého ormálího rozděleí... 7 Tabulka : Vybraé kvatly rozděleí Chí-kvadrát... 7 Tabulka 3: Vybraé kvatly Studetova t-rozděleí... 73 Tabulka 4: Vybraé kvatly Fsherova Sedecorova F-rozděleí... 74 Tabulka 5: Krtcké hodoty pro jedovýběrový Wlcooův test... 75 Tabulka 6: Krtcké hodoty pro dvouvýběrový Wlcooův (Maův-Whteyův) test... 76 Tabulka 7: Krtcké hodoty Spearmaova korelačího koefcetu... 77

Úvod Teto tet slouží jako opora pro kurs azvaý Aalýza dat. Navazuje a kurs Základy matematcké statstky. Cílem kursu je aplkovat základí statstcké zalost v relatvě jedoduchých úlohách, s mž se velm často setkáváme př aalýze emprckých dat. I když je tet apsá s co ejvětší sahou vysvětlovat uté pojmy jejch aplkac jedoduše bez zbytečých a z pohledu využtí statstckých metod okrajových podrobostí, počítejte s tím, že tet ebude oddechová četba a že spoustu věcí bude potřeba důkladě promýšlet a k moha se opakovaě vracet. V řadě lustratvích příkladů jsou užta data ze souboru BI97, která už dost dobře záte z kursu Základy matematcké statstky, zejméa z kaptoly o popsé statstce. Časovou áročost zvládutí tohoto tetu a vyřešeí zadaých příkladů lze odhadout a přblžě 40 až 60 hod. Hlaví korespodečí úlohou, kterou byste v tomto kursu měl osvědčt získaé pozatky, je aalýza vám vybraého souboru dat z vašeho okolí. Proto se poohléděte po stuac a datech, které byste chtěl statstcky zpracovat a kde jste zvědav a výsledky této aalýzy. Případé ejasost včas kozultujte s vyučujícím. Výsledky aalýzy bude pak potřeba předložt formou vytštěé stručé a přehledé zprávy v rozsahu ma. 3 stray. Ostatí korespodečí úlohy jsou zařazey a koc příslušé kaptoly. 3

Programové prostředky pro statstcké výpočty Tato kaptola by vám měla pomoc v oretac v programových prostředcích užívaých ve statstckých výpočtech a aalýze dat. Jsou zde uvedey společé rysy těchto softwarových produktů. Podroběj jsou zmíěy tabulkový procesor Ecel a statstcký paket NCSS, eboť s těmto produkty se ejpravděpodoběj setkáte př řešeí vašch úloh př studu a Ostravské uverstě. Př prvím čteí této kaptoly, a které by mělo stačt až 3 hody, postačí, když získáte oretac v základích problémech a obtížích, se kterým se můžete ve výpočtech a terpretac výsledků setkat. Spíše počítejte s tím, že př řešeí kokrétího problému se budete k této kaptole vracet. Podpora statstckého zpracováí dat je součástí moha obecých programových systémů oretovaých a prác s databázem, a grafcké zpracováí dat, matematckých programových prostředků (Matlab, Mathematca) a kromě toho estuje ěkolk desítek specalzovaých statstckých programových paketů. Společým rysem těchto programových prostředků jsou operace s datovou matcí, tj. dvojrozměrou tabulkou, ve které sloupce jsou velčy a řádky pozorovaé objekty. Pro prác s tabulkam jsou určey tabulkové procesory (apř. Ecel), které jsou vybavey celou řadou statstckých fukcí a grafckých prostředků. Tyto programové prostředky začě usadňují statstcké výpočty a dovolují užvatel soustředt se a správé použtí statstckých metod, kolv a výpočetí ámahu.. Tabulkový procesor Ecel Ecel je typckým představtelem tabulkových procesorů, ěkterá jeho verse je dostupá praktcky a každém počítač. Stadardí součástí Ecelu je ěkolk desítek statstckých fukcí, které mohou být užty př statstckých výpočtech. Je vybave poměrě kvaltí grafkou, která dovoluje pohodlé kresleí statstckých grafů (prozatím s výjmkou apř. krabcových dagramů a ěkterých dalších ve statstce užívaých typů grafů). Kromě toho lze Ecel rozšířt o stadardě dodávaý doplěk Aalýza dat, který pokrývá praktcky všechy metody vysvětlovaé v základích kursech statstcké aalýzy dat. Vzhledem k tomu, že Ecel je tzv. lokalzová, to zameá, že podrobá ápověda ke všem fukcím je k dspozc v čeště, a práce s tabulkovým procesory je součástí výuky předcházejících předmětů, ebudeme se jím yí podroběj zabývat. Pouze přpojujeme upozorěí a ěkteré edostatky zjštěé ve statstckých fukcích a doplňku Aalýza dat. V tetu jsou užty ctace z helpů české lokalzace Ecelu 97. 4

Často užívaým modulem doplňku Aalýzy dat je Hstogram. S využtím mplctího astaveí vstupích parametrů můžete dostat ásledující obrázek: Hstogram 30 5 0 četost 5 0 četost 5 0 45 6. 77.44444444 93.66666667 09.8888889 6. třídy 4.3333333 58.5555556 74.7777778 další Drobé vady a kráse hstogramu je možo omluvt. Legeda a adps Hstogram jsou zbytečé, je zabírají místo, pops vodorové osy eříká c. Sloupce ejsou ad celou šířkou tervalů, počet výzamých číslc v popsu pod sloupc je esmyslě velký. To lze apravt vhodější volbou vstupích parametrů ebo dodatečou úpravou grafu. Závažějším edostatkem však je, že hodoty popsující středy sloupců (středy jedotlvých tervalů) ejsou hodoty odpovídající středu, ale pravému okraj tervalu. Ecel 97 ěkdy selhává ve výpočtu běžých základích jedorozměrých statstk. V Ecelu je zřejmě pro výpočet výběrového rozptylu a dalších s ím souvsejících fukcí (SMODCH, SMODCH.VYBER) užt ve starších statstckých učebcích doporučovaý vzorec s ( ) Pro velké hodoty a př jejch malé varabltě je počítačová hodota výrazu v hraatých závorkách dost odlšá od skutečého součtu čtverců odchylek od průměru, př velm velkých hodotách může být dokoce záporá. Podle výsledků ěkolka testovacích příkladů lze soudt, že v Ecelu je tato možost vyřešea tak, že bez jakéhokol varováí je výsledá hodota rozptylu získaá Ecelem rova ule. 5

Mez statstckým fukcem jsou fukce pro výpočet hodot dstrbučích fukcí a kvatlů často užívaých rozděleí. Jeda z ch se jmeuje NORMDIST a z jejího helpu se dočteme ásledující: ápověda: NORMDIST Vrací kumulatví ormálí rozděleí se zadaou středí hodotou a směrodatou odchylkou. Tato fukce má ve statstce velm šroké použtí, včetě testováí hypotéz. Sytae NORMDIST(; průměr; směrod_odch; kumulatví) X je hodota, pro ž počítáme rozděleí. Průměr je artmetcký průměr rozděleí. Směrod_odch je směrodatá odchylka rozděleí. Kumulatví je logcká hodota, která určuje tvar fukce. Pokud kumulatví je PRAVDA, NORMDIST vrací kumulatví dstrbučí fukc; je-l NEPRAVDA, vrací pravděpodobostí míru. Pozámky... Pokud průměr 0 a směrod_odch, NORMDIST vrací stadardí ormálí rozděleí, NORMSDIST. Příklad NORMDIST(4;40;,5;PRAVDA) se rová 0,908789 koec ápovědy. Fukce NORMDIST je stěží může vracet kumulatví ormálí rozděleí, ale z popsu lze vytušt, že tím je míěa hodota dstrbučí fukce ebo hustoty (kol pravděpodobostí míra ) ormálího rozděleí podle toho, jakou zadáme hodotu posledího vstupího parametru kumulatví. Druhý parametr je vysvětle jako artmetcký průměr rozděleí, což patrě vzklo chybým překladem aglckého termíu mea, který měl být přelože jako středí hodota. Ncméě se dočteme, že pro stadardí ormálí rozděleí (česky se říká ormalzovaé ormálí rozděleí) můžeme použít fukc NORMSDIST, která fuguje zcela podle ašeho očekáváí, NORMSDIST (.96) 0.97500. Podobě řádě se chová verzí fukce NORMSINV, eboť pro zadaou hodotu dstrbučí fukce vrátí správou hodotu kvatlu, apř. NORMSINV (0.05) -.95996. Zkusíme-l kvatly t-rozděleí, které očekáváme pod fukcí s ázvem TINV, její druhý parametr je počet stupňů volost. K ašemu překvapeí však zjstíme, že TINV (0.05, 500) +.487, ačkol bychom očekával hodotu blízkou -.96, tj. blízkou tomuto kvatlu ormovaého ormálího rozděleí. Na další pokus můžeme alézt hodotu kvatlu podobou očekávaé alespoň co do absolutí hodoty, TINV (0.05,500) +.96478. Lehce zepokoje ahlédeme do helpu fukce TINV a dočteme se: 6

ápověda: TINV Vrací verzí fukc k fukc TDIST pro daé stupě volost. Sytae TINV(prst; volost) Prst je pravděpodobost daého dvojstraého t-rozděleí. Volost je počet stupňů volost. Pozámky: Pokud eí ěkterý z argumetů umercký, vrací fukce TINV chybovou hodotu #HODNOTA!. Pokud je prst < 0 ebo pokud je prst >, vrací TINV chybovou hodotu #NUM!. Pokud eí argumet volost celé číslo, je a celé číslo převede. Pokud je volost <, vrací TINV chybovou hodotu #NUM!. Fukce TINV se počítá jako TINVp( t<x ), kde X je áhodá proměá, která doprovází t-rozděleí. Fukce TINV používá opakující se techku propočítáváí fukce. Se zadaou pravděpodobostí hodotou se fukce TINV opakuje dokud eí výsledek přesý a ± 30^-7. Pokud fukce TINV edosáhe požadovaého výsledku po 00 opakováích, vrací fukce chybovou hodoty #N/A. Příklad: TINV(0,054645;60) se rová,96 koec ápovědy. Některé formulace z ápovědy ás možá pobavly, ěkteré trochu vyvedly z míry ebo uvedly do pochybostí, apř. pravděpodobost daého dvojstraého t-rozděleí. Co to vůbec je pravděpodobost ějakého rozděleí a co se může skrývat pod dvojstraým t-rozděleím? Ncméě je jasé, že klíčem k pochopeí je zjstt, k jaké fukc je fukce TINV verzí a zde je uvedeo, že k fukc TDIST. Z helpu fukce TDIST zjstíme toto: ápověda: TDIST Vrátí hodotu dstrbučí fukce t Studetova rozděleí. V případě, že ezáme směrodatou odchylku základího souboru, je j možo odhadout pomocí výběrové směrodaté odchylky t. T-rozděleí je používáo př hypotetckém testováí malých vzorků dat. Sytae TDIST(; volost; stray) X je číslo, pro které hledáme hodotu dstrbučí fukce. Volost je celé číslo, ozačující počet stupňů volost. Stray určuje, zda se jedá o jedostraé č dvoustraé rozděleí. Pokud je parametr stray, vrací TDIST hodotu fukce jedostraého rozděleí. Pokud je parametr stray, vrací TDIST hodotu fukce dvojstraého rozděleí. Pozámky: Pokud eí argumet umercký, vrací fukce TDIST chybovou hodotu #HODNOTA!. Pokud je volost <, vrací TDIST chybovou hodotu #NUM!. 7

Argumety volost a stray jsou převáděy a celá čísla. Pokud argumet stray abývá jých hodot ež ebo, vrací TDIST chybovou hodotu #NUM!. Fukce TDIST se počítá jako TDISTp( <X ), kde X je áhodá proměá, která doprovází t-rozděleí. Příklad: TDIST(,96;60,) se rová 0,054645 koec ápovědy. Naše dlema se jak ezmešlo, podle ápovědy se obě fukce počítají stejě, TDISTp( <X ) a TINVp( t<x ), obě fukce mají být zřejmě ějaké pravděpodobost. Ale jak mohla vyjít hodota fukce TINV větší ež jeda? Navíc TDIST jsou vlastě fukce dvě, vybíráme jedu z ch zadáím hodoty jejího třetího vstupího parametru stray. Ke které z ch je TINV verzí? Naštěstí z uvedeých příkladů a ápověd můžeme usoudt téměř s jstou, že platí ásledující vztah: TINV ( α, ) t ( α / ), kde t ( α / ) je ( α / ) -kvatl t-rozděleí s stup volost, takže ezáporé hodoty kvatlů umíme pomocí fukce TINV vyčíslt. To, že t-rozděleí je symetrcké, sad eí uté přpomíat, takže a kvatly t-rozděleí se umíme dostat v Ecelu. Roztomlost alezeme v modulech doplňku Aalýza dat pro běžé statstcké testy. Např. dvouvýběrový t-test poskyte ásledující výstup: Dvouvýběrový t-test s rovostí rozptylů Soubor Soubor stř. hodota.99 07.7778 rozptyl 734.0097 83.056 pozorováí 64 7 společý rozptyl 76.354 hyp. rozdíl st. hodot 0 rozdíl 89 t stat 0.654039 P(T<t) () 0.57387 t krt ().6656 P(T<t) () 0.54773 t krt ().986978 Pro užvatele rozlšujícího mez jedostraým a oboustraým testem je výstup redudatí, užvatel mez těmto varatam erozlšujícímu tato redudace stejě epomůže. Zájem může vzbudt statstka ozačeá jako rozdíl. Skutečost, že platí rozdíl + (tedy je rove počtu stupňů volost) svádí k doměce, že zkratku df terpretoval překladatel jako aglcké dfferece a přeložl do češty. Tato chyba se vyskytuje ve většě testů mplemetovaých v doplňku Aalýza dat. 8

Užíváte-l pro statstcké výpočty Ecel, vždy velm pečlvě zkoumejte, co vlastě vám ve výsledcích Ecel poskytuje a výstupy z Ecelu, zejméa z jeho české lokalzovaé verse, epřeášejte bez rozmyslu do svých prezetací a dokumetů. 9

. Statstcké programové systémy Statstckých programů komerčě šířeých estuje velké možství. Jako ejpopulárější příklady můžeme zmít SPSS, SAS, S-Plus, Statstca, Stata, Mtab, Ustat ebo NCSS. To jsou tzv. obecé, tj. pokrývají celou škálu statstckých metod, jé jsou specalzovaé a aalýzu ěkterých dat (časové řady, kategorálí data ap.). Všechy statstcké programy však mají tyto základí fukce: mport dat (vstup datové tabulky přpraveé v jém programovém prostředku, třeba v Ecelu ebo v Accesu) mapulace s daty (trasformace, uspořádávaí dat, výběry podmož datové matce, spojováí datových matc) základí deskrptví statstky grafcké prostředky ukládáí dat k sadému využtí pro další zpracováí (tzv. savefle) eport dat (ve formátech vhodých pro jé programové prostředky) presetace výsledků ve formě souborů pro další zpracováí tetovým procesory Ovládáí statstckých programů je v současé době možé většou přes meu a koy podobě jako u ostatích programových produktů pracujících pod Wdows, dříve převažovalo ovládáí pomocí příkazového jazyka, které bylo poěkud áročější pro epravdelého užvatele ebo začátečíka. Vzhledem k tomu, že Ostravská uversta je vybavea statstckým pakety SOLO a NCSS, zaměříme se a tyto produkty podroběj... NCSS Ozačeí NCSS je zkratka ázvu Number Crucher Statstcal Systems. Autorem tohoto statstckého paketu je Jerry L. Htze, stejě jako zámého paketu SOLO. V NCSS lze ostatě ávazost a SOLO sado vystopovat, zejméa v paletě metod a ve struktuře a orgazac výstupů. NCSS je uversálí statstcký paket, doporučovaý zejméa užvatelůmestatstkům. Pokrývá však aprostou většu požadavků velm sofstkovaé statstcké aalýzy dat. Ovládá se pomocí výběru z meu. NCSS komukuje stylem abízím, co pravděpodobě můžete ebo máte v daé stuac požadovat, pokud vám to evyhovuje, musíte to vyjádřt. Výsledky (tetový grafcký výstup společě) jsou ve formátu RTF (Rch Tet Format) a tedy sado mportovatelé do běžých tetových procesorů. Základy ovládáí NCSS lustrují ásledující obrázky. Výběrem z meu přepíáme mez pracovím oky se zpracovávaým daty, okem tzv. šablo (templates), ve kterém specfkujeme vstupí parametry zvoleé aalytcké procedury, okem 0

aktuálích výsledků a okem tzv. LOG souboru s výsledky pro trvalé uložeí po ukočeí sezeí. Hlaví způsob ovládáí je výběr z meu a vyplňováí formulářů pomocí myš, v mohém podobé prác s tabulkovým procesory. Vyplěé šabloy lze uložt pro opakovaé použtí. Do LOG souboru se ukládají pouze ty výsledky, které užvatel uloží eplctě, jak jsou ztracey a oko aktuálích výsledků je přepsováo ásledující spuštěou procedurou. Zadáváí trasformací velč a sdružováí kategorí je jedoduché, spuštěí výpočtu je pro podmožu případů je možé, ale poměrě komplkovaé, je potřeba defovat logckou podmíku vybírá podmožy pomocí fukce FILTER a př všech výpočtech teto fltr pak aktvovat ve vstupích parametrech výpočtu. Pokud úloha vyžaduje komplkovaější předzpracováí dat, je většou výhodé toto předzpracováí udělat jým programovým prostředkem apř. Ecelem a data pak do NCSS mportovat. Import a eport moha běžých formátů dat je součástí NCSS. Tabulka s datovou matcí se lší od Ecelu v tom, že ázvy velč jsou v ázvech sloupců a a velčy apř. př zadáváí vstupích parametrů výpočtu do šabloy se odkazujeme pomocí jejch jme.

Kromě datové matce máme k dspozc lst s ázvy velč, ve kterém můžeme ázvy velč upravovat a také zadávat artmetcké výrazy pro výpočet odvozeých velč (trasformace). Šablou pro zadáváí trasformací otevřeme z položky Data v hlavím meu, odkud lze otevřít šablou pro astaveí a aktvac fltru:

Požadovaé výpočty se zadávají volbou z meu, apř. zde z položky Aalyss hlavího meu rozbalíme skupy mplemetovaých statstckých metod: 3

Vyplěím šabloy se vstupím parametry výpočtu je možé specfkovat úroveň podrobost a formát výstupu. Výstup je pak ve formátu RTF v okě aktuálího výstupu: 4

Podobě volbou Graphcs v hlavím meu otevřeme abídku grafckých procedur. U všech těchto procedur je možé specfkovat obsah vzhled grafckých výstupů: 5

Součástí fukcí NCSS je tzv. pravděpodobostí kalkulátor, který ahrazuje obsáhlé statstcké tabulky: Výhodou NCSS je sadé ovládáí pomocí meu, pohodlá práce s méě rozsáhlým daty, vysoká grafcká kvalta výstupů jejch sadý mport do tetových procesorů. K dspozc je podrobá ápověda ve formě kompletího mauálu v aglčtě. Pomocí NCSS byly zpracováy ěkteré výsledky a grafy v těchto skrptech. Přestože NCSS je kvaltí ástroj pro statstckou aalýzu dat a dovolí vám velm rychlou a efektví prác, ale eí, ostatě jako žádý jý statstcký program, pojstkou prot chybám v aplkacích statstky... SOLO Nyí už poěkud zapomeutý paket SOLO je uversálí programový statstcký paket pracující pod operačím systémem MS DOS a s mmálím ároky a hardware. Pro užvatele programu SOLO je k dspozc český mauál v khově Ostravské uversty. Ovládá se pomocí meu a vyplňováí formulářů z klávesce. Ve srováí s NCSS je horší kvalta výstupů, eboť výsledky v programu SOLO jsou ukládáy do tetových (ASCII) souborů a obtížější práce s grafckým výstupy. V abídce základích statstckých metod jsou oba pakety srovatelé. 6

Př užíváí statstckých programových prostředků věujte pozorost převodům zpracovávaých dat mez růzým programovým prostředky. Častým zdrojem obtíží př tomto převodu (bývá ozačová také jako mport a eport dat) mohou být zejméa chybějící hodoty v datech, které emusí být předvedey správě. Pokud data obsahují desetá čísla, můžou vkout potíže př eshodách oddělovače desetých míst (čárka ebo tečka). Proto př operacích eportu a mportu dat byste vždy měl zkotrolovat prví a posledí řádek datové matce a základí popsé charakterstky převáděého souboru, abyste tak s vysokou pravděpodobostí mohl vyloučt echtěou změu v datech způsobeou esprávým převodem. Ze špatých dat elze získat dobré výsledky. Statstcká aalýza dat s dobrým programovým vybaveím je v aprosté většě případů duševě áročá čost vyžadující soustředěí a obezřetost. Dovedost ovládáí statstckého software představuje je meší část požadavků kladeých a řeštele úlohy. Kotrolí otázky:. Jaká je obvyklá struktura dat zpracovávaá statstckým programy?. Co je to mport dat a jaká jsou jeho úskalí? 3. Jaké jsou výhody a evýhody Ecelu ve srováí se specalzovaým statstckým pakety? 4. Na datech ze souboru BI97 s vyzkoušejte základí statstcké fukce a doplěk Aalýza dat. Pojmy k zapamatováí: statstcká data, jejch struktura obvyklé fukce ve statstckých paketech mport a eport dat statstcké fukce v Ecelu a jejch edostatky doplěk Ecelu Aalýza dat 7

3 Parametrcké testy o shodě středích hodot (t-testy) Jedovýběrový oboustraý t-test jsme podrobě vysvětll v učebím tetu Základy matematcké statstky (odst. 4.3) a doporučujeme tam základy testováí hypotéz zovu s přpomeout. Oboustraá alteratva H : µ 75 cm však eí jedá možá formulace alteratví hypotézy. Máme-l k dspozc ějakou aprorí formac o středí hodotě sledovaé populace, apř. studet jsou od mládí dobře žve a tedy jejch výška má větší středí hodotu ež 75 cm, můžeme zformulovat alteratvu jedostraě: H 0 : µ 75 cm H : µ > 75 cm (tzv. pravostraá alteratva) Další postup testu bude zcela aalogcký jako u oboustraého testu, pouze krtcký obor bude jý, totž W t ( α), ). Nulovou hypotézu můžeme zamítout ve prospěch této alteratvy tehdy, když výběrový průměr je o hodě větší ež 75, přesěj vyjádřeo, když pro hodotu testového krtéra platí 75 t( α ). s / Vdíme, že pravděpodobost eoprávěého zamítutí ulové hypotézy je opět rova hladě výzamost α. Tím, že jsme alteratvu formuloval s využtím ějaké aprorí formace, stačí k zamítutí ulové hypotézy, aby hodota testového krtera byla alespoň t( α ), v ašem příkladu t 5 ( 095, ) 75,. Zcela aalogcky, pokud bychom měl k tomu důvod, můžeme formulovat levostraou alteratvu H :µ < 75 cm. Pak krtcký obor je ( W, t( α ). Obecě př užíváí testů, zejméa jedostraých, je vhodé ejdříve formulovat alteratvu ve tvaru obsahujícím tvrzeí, které bychom chtěl prokázat. Pak pokud ulovou hypotézu zamíteme, máme téměř jstotu (s rzkem rovým α ), že tvrzeí vyjádřeé alteratví hypotézou je pravdvé. Často užívaým testem je dvouvýběrový t-test. Předpokládejme, že máme dva ezávslé výběry o rozsahu, resp., ze dvou ormálě rozděleých populací, prví populace má rozděleí N ( µ, σ ), druhá N ( µ, σ ). Z kaptoly 4. víme - vz rov. 4.-0-, že když ezámé parametry můžeme považovat za shodé, tedy shodý), pak áhodá velča σ, σ σ σ σ (rozptyl v obou populacích je 8

T ( µ µ ) ( ) + ( ) s s + + ~ t + Chceme-l testovat hypotézu, že středí hodoty v obou populacích jsou shodé, tj. H 0 : µ µ prot ěkteré z alteratv H : µ µ (oboustraá alteratva) H : µ < µ (levostraá alteratva) H : µ > µ (pravostraá alteratva) užjeme testovou statstku T eq ( ) + ( ) s s + +, () která má za platost ulové hypotézy Studetovo t-rozděleí s stup volost. + Pokud rozptyly v obou populacích ejsou shodé, tj. hypotézy o shodě středích hodot statstka σ σ, je pro test T oeq s s + () která má přblžě t-rozděleí s ν stup volost, kde počet stupňů volost ν se určí podle vztahu ν s s + s + s Zameá to tedy, že př testováí ulové hypotézy o shodě středích hodot se musíme rozhodout, zda je splě předpoklad o shodě rozptylů, tj. σ σ σ ebo eí a podle toho volt testové krterum daé výrazem () 9

ebo (). Toto rozhodutí provedeme testem hypotézy H 0 : alteratvě H: σ σ. σ σ prot Pokud aše výběry o rozsazích, jsou z ormálě rozděleých populací, N ( µ, σ ), N ( µ, σ ), platí (vz 4.-5) ( ) s σ ~ χ a ( ) s ~ χ σ a také platí (vz odst. 3.5.5) s s / σ / σ ~ F, Za platost ulové hypotézy σ σ má testová statstka F toto rozděleí: s ~ F, s F (3) Lze se dohodout, že deováí výběrů zvolíme tak, aby platlo s s, praktcky to zameá. ve jmeovatel bude meší z obou výběrových rozptylů. Pak krtckým oborem bude ) W F, ( α), +, (4) jým slovy, hypotézu o shodě rozptylů σ σ zamíteme, když poměr výběrových rozptylů bude podstatě větší ež jeda. Stuac lustruje ásledující obrázek, F 59 6 ( 0, 95), 804., 0

hustota F-rozděleí f().4. 0.8 59 6 0.6 0.4 α 0,05 0. 0 0.6..8.4 Př testováí hypotéz obvykle používáme statstcký software. Př dvouvýběrovém t-testu je ve výsledcích (NCSS, SOLO) vyhodoce jak výraz () tak výraz () a je a ás, abychom s vybral správou část výsledku pro terpretac. Postup s ukážeme a příkladu Příklad : Máme posoudt, zda středí hodota velčy K (data BI97, vz kaptola ) jsou stejé v populac odrůdy odrůdy. Použjeme program NCSS, z meu Aalyss vybereme T-Tests, z ch Twosample. Zadáme K jako Respose varable a velču Odruda jako Group varable (tato velča rozděluje pozorováí do dvou skup) a dostaeme výstup, který zde uvedeme ve zkráceé podobě. Varable k Descrptve Statstcs Secto Stadard 95% LCL 95% UCL Varable Cout Mea Devato of Mea of Mea odruda 60 3.84833 3.4597.95659 4.74007 odruda 7.7778.76777.089 3.765 Equal-Varace T-Test Secto Alteratve Prob Decso Power Power Hypothess T-Value Level (5%) (Alpha.05) (Alpha.0) Dfferece <> 0.7 0.0960 Reject Ho 0.590054 0.3480 Dfferece < 0.7 0.98599 Accept Ho 0.00006 0.000003 Dfferece > 0.7 0.0480 Reject Ho 0.708885 0.44086 Dfferece: (odruda)-(odruda) Asp-Welch Uequal-Varace Test Secto Alteratve Prob Decso Power Power

Hypothess T-Value Level (5%) (Alpha.05) (Alpha.0) Dfferece <> 0.4054 0.0960 Reject Ho 0.658359 0.40780 Dfferece < 0.4054 0.99040 Accept Ho 0.00009 0.00000 Dfferece > 0.4054 0.009580 Reject Ho 0.76856 0.50535 Dfferece: (odruda)-(odruda) Tests of Assumptos Secto Assumpto Value Probablty Decso(5%) Skewess Normalty (odruda) -0.373 0.8435 Caot reject ormalty Skewess Normalty (odruda) 0.7455 0.455956 Caot reject ormalty Varace-Rato Equal-Varace Test.5556 0.89787 Caot reject equal varaces Plots Secto 0.00 Bo Plot 7.00 k 4.00.00 8.00 G Groups G I zkráceý výstup je dost obsažý a apoprvé ám dá trochu práce se v ěm oretovat a správě terpretovat výsledky. Naším úkolem je testovat ulovou hypotézu o shodě středích hodot prot oboustraé alteratvě, tj. H 0 : µ µ H : µ µ Stejou ulovou alteratví hypotézu můžeme formulovat takto: H 0 : µ µ 0 H : µ µ 0 Této formulac odpovídá forma výsledků, kde se objevuje rozdíl středích hodot (dfferece). Ještě se musíme rozhodout, zda máme pro aše rozhodováí užít statstku T eq defovaou rov. () ebo statstku T oeq defovaou rov.(), čl který odstavec z výsledků se ás týká, zda Equal varaces secto ebo Uequal varaces secto. Musíme rozhodout, zda můžeme považovat za splěý předpoklad o shodě rozptylů v obou populacích č kolv. K tomuto rozhodutí ám poslouží test hypotézy H 0 : σ σ prot alteratvě H: σ σ. Jeho výsledky alezeme v odstavc testů předpokladů (Tests of Assumptos) a řádku Varace-Rato Equal-Varace Test. Tam alezeme hodotu testové statstky spočteé podle vztahu (3) a kromě toho také tzv. výzamost této hodoty, která je uvedea ve sloupc Probablty. Tato výzamost (probablty, ěkdy ozačovaá také p-value, prob-level ebo krátce p) je často užívaou charakterstkou, která usadňuje terpretac výsledků. V případě jedostraého

testu, a to teto test je, vz rov. (4), udává pravděpodobost, že za platost ulové hypotézy bude mít testová statstka hodotu větší ež spočítaou z výběru, tedy v ašem příkladu p P( X 5556, ) 0, 9. Smysl p v tomto příkladu v jých jedostraých testech vysvětluje ásledující obrázek. hustota F-rozděleí f().4. 0.8 59 6 0.6 0.4 0.,5556 p 0,9 0 0.6..8. 4 Je zřejmé, že pokud platí, p α, ulovou hypotézu zamítáme, jak ezamítáme. Jelkož v ašem příkladu vyšlo p 0,9, tedy větší ež obvykle voleá hlada výzamost α 005,, přjímáme představu o shodě rozptylů v obou populacích, σ σ. Proto statstka pro test hypotézy o rovost středích hodot obou populací je statstka Teq defovaá rovcí (). Její hodotu alezeme ve výsledcích v odstavc Equal-Varace T-Test. Její hodota je,7 a u í je uvedea odpovídající hodota p. Jelkož ale v tomto případě se jedá o oboustraý test, p udává pravděpodobost, že za platost ulové hypotézy bude absolutí hodota testové statstky větší ebo rova absolutí hodotě statstky spočítaé z výběru, tedy v ašem příkladu p P( X, 7) 0, 03. Jedoduše řečeo, u oboustraých testů zamítáme ulovou hypotézu, je-l hodota testové statstky buď velm velká ebo velm malá. Opět pokud platí, že p α, ulovou hypotézu zamítáme. Názorě stuac vdíme a ásledujícím obrázku. 3

f ( ) p / p / 0 Jelkož v uvedeém příkladu je p 003,, hypotézu o shodě středích hodot, tedy µ µ 0, a hladě výzamost α 005, zamítáme. Pokud bychom předem z ějakých důvodů zvoll hladu výzamost α 00,, aše výběrová data by ám eposkytovala důvod ulovou hypotézu zamítout. Obecě můžeme říc, že počítačové výstupy výsledků statstckých testů s uvedeým hodotam p usadňují terpretac v tom, že epotřebujeme pro určováí krtckého oboru statstcké tabulky. To, zda vypočteá statstka je č eí v krtckém oboru, pozáme bezprostředě z hodoty p: Je-l p α, víme, že hodota testového krtera je v krtckém oboru, pokud p > α, hodota testového krtera v krtckém oboru eí. V uvedeém dvouvýběrovém t-testu se vychází z předpokladu, že oba výběry jsou z ormálě rozděleých populací. Splěí tohoto předpokladu eí tak důležté, pokud rozsahy obou výběrů jsou dost velké. Jak víme z odstavce o cetrálí lmtí větě, př dostatečě velkém počtu pozorováí má testové krterum U s s + (5) ormovaé ormálí rozděleí N(0,) a př velkém počtu stupňů volost se tvar t-rozděleí přblžuje rozděleí N(0,). Pro velké rozsahy výběrů hodoty testových statstk () a () se přblžují hodotě daé rov. (5). Tudíž statstku U můžeme pak použít pro test hypotézy o shodě středích hodot dvou populací lbovolého rozděleí. 4

Dalším často užívaým t-testem je tzv. párový t-test. Obecě o párových testech hovoříme tehdy, když máme pro vybraé objekty změřey dvojce hodot, apř. délka levé a pravé kočety, kreví tlak před a po podáí léku, stupeň opotřebeí pravé a levé peumatky atd. Ve statstce je tato stuace ozačováa jako dva závslé výběry stejého rozsahu. Máme-l tedy dva závslé áhodé výběry ( X, X,, ) ( ) X, Y, Y,, Y, můžeme zjstt rozdíly těchto výběrových hodot D X Y a spočítat výběrové statstky velčy D, průměr d a rozptyl s d. Př testu hypotézy o shodě středích hodot velč X a Y, tedy H0 : µ µ 0 vlastě testujeme, zda středí hodota velčy D je ulová. To je stuace, kterou už záme z jedovýběrového t-testu. Testovým krterem pro test této hypotézy je T p s d d /, (6) která má rozděleí t -. Podobě jako u jedovýběrového testu může být alteratví hypotéza formulováa jako oboustraá ebo jedostraá. Př párovém testu můžeme ulovou hypotézu formulovat eje tak, že středí hodoty obou velč jsou shodé, ale tak, že jejch rozdíl je rove hodotě a, H 0 : µ µ a. Pak testovou statstkou je T p d a, (7) s / d která opět za platost ulové hypotézy má rozděleí t -. Souhr: Statstcký test hypotézy se užívá k rozhodováí za ejstoty. Rozhodujeme mez ulovou hypotézou a alteratvou. Jsou dva druhy chybého rozhodutí. Pravděpodobost chyby I. druhu př testu volíme předem (hlada výzamost). Test hypotézy je aalogcký rozhodováí soudu, ale rozdíl je v tom, že pravděpodobost chyby prvího druhu je u statstckých testů záma, dokoce j zvolíme. Krtcký obor test závsí a tom, jak je zformulováa alteratva. 5

Kotrolí otázky:. Proč testy o parametrech jsou rozhodováí v ejstotě?. Vysvětlete rozdíl mez chybou prvího a druhého druhu. 3. Proč je zamítutí ulové hypotézy pro praktcké rozhodováí užtečější výsledek ež ezamítutí ulové hypotézy? 4. Kdy můžeme formulovat jedostraou alteratvu? Jakou ám to pak přáší výhodu? 5. Čím se lší párový t-test od jedovýběrového t-testu? Pojmy k zapamatováí: statstcké testováí hypotéz ulová hypotéza, alteratva chyby prvího a druhého druhu hlada výzamost síla testu testová statstka (krterum) krtcký obor jedovýběrový t-test dvouvýběrový t-test párové testy, párový t-test hodota testové statstky a odpovídající p-value Korespodečí úloha č. Vygeerujte v Ecelu áhodý výběr o rozsahu 000 z ormálě rozděleé populace se středí hodotou 6 a rozptylem. Návod: Z cetrálí lmtí věty víte, že součet áhodých čísel z rovoměrého rozděleí a tervalu (0,) tj. získaých v Ecelu fukcí NAHCIS má přblžě ormálí rozděleí. Vygeerujte tedy tabulku o 000 řádcích a k sloupcích s áhodým čísly z rovoměrého rozděleí a tervalu (0,) a výběr z ormálího rozděleí pak můžete získat jako řádkové součty ve sloupc k + v této tabulce. Z vlastostí spojtého rovoměrého rozděleí určete, jak velký počet sloupců k potřebujete, abyste dostal výběr z populace se středí hodotou 6 a rozptylem. a) akreslete hstogram velčy v prvím sloupc vaší tabulky a hstogram velčy v (k+)-ím sloupc vaší tabulky b) testujte hypotézu, že výběr v (k+)-ím sloupc je z populace se středí hodotou 6 (užjte jedovýběrový t-test) c) opakujte celý postup 00 krát (využjte opakováí výpočtu v Ecelu stskem klávesy F9) a zjstěte relatví četost zamítutí ulové hypotézy. Zdůvoděte zjštěé výsledky. 6