1. Přednáška. Základní etapy statistické analýzy. SVS přednášky - 1 -

Transkript

1 SVS přednášky Přednáška Základní etapy statistické analýzy SAS INSIGHT základní char. SAS LAB quided data analysis - široká nabídka opravných prostředků.

2 SVS přednášky Prostředky průzkumové analýzy Jde o kombinace různých grafických a číselných postupů, které mají podat základní informace o vlastnostech souboru. Základním prostředkem jsou grafy s různou orientací. Zobrazení datového souboru pomocí grafu Sloupcový diagram. (Bar Chart). četnosti (relativní četnost) procedury v SAS: proc jmeno_procedury data = jméno datového souboru var (proměnná)..; analyzované veličiny hodnoty (integrály) zobrazení datového souboru v grafu. proc chart data = jméno souboru vbar vyska; výsledkem je sloupcový diagram v proceduře Chart. hbar (horizontální orientace) vbar (vertikální orientace)

3 SVS přednášky Procedury gchart mají lepší grafické výstupy proc gchart data=a; hbar vyska; procedura automaticky data setřídí do intervalů podle Sturgesova pravidla automaticky vypočítá počet těch intervalů (tříd K). pozn.: Při velkém rozsahu n náhodného výběru rozdělujeme hodnoty do tzv. tříd (třídních intervalů). Celý obor hodnot je pak rozdělen na třídní intervaly, přičemž daná pozorovaná hodnota spadá vždy do jedné třídy. Počet tříd k lze volit podle potřeby. Obvykle se k pohybuje mezi 5 a 20, nebo se volí je., popř. použijeme tzv. Sturgesovo pravidlo, podle kterého Histogram Zdokonalení sloupcového diagramu. - zobrazení četností ve formě sloupců četnosti - histogram nám určuje homogenitu souboru, určí zda je homogenní nebo zda se rozpadá do dílčích menších podsouborů. (homogení soubor má jen jednu nejčetnější hodnotu) X intervaly Y četnosti or relativní četnosti. Z grafu lze odhadnout, jestli údaje datového souboru jsou soustředěny symetricky nebo nesymetricky.

4 SVS přednášky Grafický výstup v proceduře univariate pokud chci v proceduře jen grafický výstup (histogram), musím potlačit numerické výstupy. proc univariable data = jméno souboru histogram_jméno proměnné pro kterou kreslím Je třeba posoudit, jestli data mají normální rozdělení do histogramu proto dáme křivku normal, případně exponencial. proc univariable data = jméno souboru histogram <jm>/ normal exponencial; box plot grafické zobrazení tvz. pětičíselného souhrnu

5 SVS přednášky Přednáška 2.1. Stem and leaf display ~ STEMPLOT Technika kombinující jednoduché grafické a numerické vyjádření - semigrafická technika: soubor: připomíná histogram, ale zde všechny jednotlivé hodnoty jsou zobrazeny a současně při otočení o 90stupnů je vidět případná asymetrie sloupců. př.: měření výšky tuku zaměstnanců. 2 proměnné - výška tuku FAT - pohlaví gender BOX PLOT v SAS insight: analyze box plot (Y) (závislá proměnný fat)

6 SVS přednášky Zobrazení četností proc freq data=dd; tables fat; The SAS System 15:20 Tuesday, January 2, Procedura FREQ Kumulativní Kumulativní fat Četnost Procenta četnost procenta Základní charakteristiky souboru proc univariate data=dd; Procedura UNIVARIATE Proměnná: fat a. Momenty N 23 Součet vah 23 Průměr Součet pozorování. 459 Std odchylka Rozptyl Šikmost Špičatost Nekorigovaný SS 9951 Korigovaný SS Variační koeficient Std chyba průměru b. Základní statistické míry Poloha Variabilita Průměr Std odchylka Medián Rozptyl Modus Rozpětí Mezikvartilové rozpětí NOTE: Zobrazený režim je nejmenší z 2 režimů s počtem 3.

7 SVS přednášky c. Testy polohy: Mu0=0 Test -Statistika- ----p hodnota----- Studentovo t t Pr > t <.0001 Znaménko M 11.5 Pr >= M <.0001 Znam. pořadí S 138 Pr >= S <.0001 Kvantily (Definice 5) Kvantil Odhad 100% max % 31 95% 30 90% 28 75% Q % Medián 21 25% Q % 12 5% 12 1% 8 0% Min. 8 d. Procedura UNIVARIATE Proměnná: fat Extrémní pozorování ----Nejnižší Nejvyšší---- Hodnota Poz Hodnota Poz

8 SVS přednášky Sten and leaf display + box plot přidáním příkazu plot do procedury univariate vyvolá zobrazení dat. var proměnná (upřesnění). proc univariate data=dd plot; var fat; Kmen List # Krb.graf násobit listy větve číslem 10**+1 Třídění podle pohlaví Funkcí class roztřídíme výstupy podle pohlaví. proc univariate data=dd plot; class gender; var fat; Graf pravděpodobnosti norm. rozdělení * ++* *+*++++ ***+*+*+*+* +**+**+++ +*++*+*+* * Procedura UNIVARIATE Proměnná: fat gender = f Momenty N 10 Součet vah 10 Průměr 22.3 Součet pozorování. 223 Std odchylka Rozptyl Šikmost Špičatost Nekorigovaný SS 5227 Korigovaný SS Variační koeficient Std chyba průměru Základní statistické míry Poloha Variabilita Průměr Std odchylka Medián Rozptyl Modus Rozpětí Mezikvartilové rozpětí NOTE: Zobrazený režim je nejmenší z 2 režimů s počtem 2.

9 SVS přednášky Testy polohy: Mu0=0 Test -Statistika- ----p hodnota----- Studentovo t t Pr > t <.0001 Znaménko M 5 Pr >= M Znam. pořadí S 27.5 Pr >= S Kvantily (Definice 5) Kvantil Odhad 100% max % % % % Q % Medián % Q % % % % Min The SAS System 15:20 Tuesday, January 2, Procedura UNIVARIATE Proměnná: fat gender = f Extrémní pozorování ----Nejnižší Nejvyšší---- Hodnota Poz Hodnota Poz Kmen List # Krb.graf *--+--* Graf pravděpodobnosti norm. rozdělení 31+ *+++ *++++ * * *+*++ * * *

10 SVS přednášky zvolení stonků: STEM ženy stem Muži u mužů je vyšší variabilita, hodnoty jsou více rozptýleny okolo středu, ale muži mají delší stone. Technika je výhodná u malých souborů.

11 SVS přednášky Kvalitativní znaky - procedura gchart Zde budeme provádět vizualizace údajů o kvalitativních znacích v proceduře gchart lze použít sloupcový diagram (bart chart) Př.: Základní skript pro grafický výstup. proc gchart data=jnémo souboru; hbar jm.kvalitativní zobrazované proměnné /sumvar=hodnota podle které se třídí; hbar_jméno kvalitativního znaku strana / sumvar(sečte hodnoty proměnné podíl) a rovná se podíl orientace grafu vodovorně příkaz hbar (vertikálně bbar) subgroup doplňkový příkaz pro barevné odlišení a dole se objeví barevné zastoupení stran. descending- pokud chceme sloupečky uspořádat sestupným způsobem, tak do syntaxe procedury přidáme (ascending) rozšířený skript pro zobrazený výstup: proc gchart data=b; hbar strana/sumvar=podil subgroup=strana descending; 2 možnost je pomocí výsečového grafu koláčový graf (procedura stejná) proc gchart data=svs; pie strana/sumvar=podíl; pie_ jméno kvalitativní zobrazované proměnné

12 SVS přednášky Koblihový graf - DONUT zobrazí podíly a indentifikuje zkratkou jednotlivé kvalitativní proměnné. proc gchart data=b; donut strana/sumvar=podil; trojrozměrné výsečové grafy proc gchart data=svs; pie3d strana/sumvar=podíl; další grafické metody V sasu lze jednotlivé výseče vyříznout ze zobrazení proc gchart data=ms; pie3d strana/sumvar=podil sice=arrow explode="a" "B"; slice= arrow/inside/none/outside ovlivňuje popis zvoleného segmentu. explode =<seznam> -uvádí seznam oddělených segmentů. A B chci specielně odtrhnout úseky vztahující se ke stanám A a B. *komentář poznámka musí být ukončena středníkem; arrow šipky k výsekům

13 SVS přednášky Př.: proc gchart data=ms; pie3d strana/sumvar=podil slice=arrow explode="a" "B"; pozn: úseky které jsou zastoupené méně než 5% SAS sloučí do jednoho - OTHER. 2 proměnné i. kvalitativní akcie ii. kvantitativní počet Př.: podniky počet akcií absolutní zastoupení proměnné počtu, nikoli procentické. sumvar=<variable> - počítá součet hodnot danné proměnné noheading potlačuje tisk hlavičky (nadpisu) percent=arrow/.. value=arrow/inside/none/outside - připisuje jednotlivým segmentům jejich absolutní hodnoty. percent pokud chceme absolutní vyjádření přepočítat na % u jednotlivých akcií. slice=arrow/inside/none/outside ovlivňuje popis zvoleného segmentu zobrazované proměnné. explode seznam oddělených segmentů- proc gchart data=a; pie3d akcie/sumvar=pocet noheading percent=arrow value=inside alice=arrow explode="c"; V soudobé statistické metodologii se moc nepoužívají zkreslující dojem.

14 SVS přednášky Vyjádření pomocí STEM PLOTU procedura univariate 3. přednáška proc univariate data=sasuser.fitness mu=50 cibasic normal plot trimmed=2 winsorized=2; var oxygen; 3.1. průzkumová analýza rozdělení četností klíčovou roli zde hraje procedura univariate. Doplňkové příkazy: mu0=50 tímto příkazem je požadováno provedení testu hypotézy, že průměr základního souboru stat. znaku OXYGEN je roven 50. CIBASIC výpočet intervalů spolehlivosti pro základní statistické char.(požadují normalitu rozdělení) NORMAL výpočet testu normality rozdělení, otestování zdali je rozdělení normální. (důležité pro test MU=50 a pro výpočet intervalu spolehlivosti). PLOT konstrukce visuelních prostředků TRIMMED výpočet useknutého průměru spolu s výpočtem intervalu spolehlivosti. WINSOR výpočet winsorizovaného průměru spolu s příslušným intervalem spolehlivosti pro průměr a jednovýběrovým testem hypotézy o hodnotě průměru prostřednictvím hypotézy nás zajímal výpočet intervalů spolehlivosti.

15 SVS přednášky výstupy procedury univariate testy polohy : test polohy MU0=50 studentovo t (jednovýběrový ttest) parametrický test, který požaduje normální rozdělení. znaménko M známenkový test neparametrický test nepožaduje normalitu rozdělení Znam pořadí S jednovýběrový Wilcoksonův test neparametrický test nepožaduje normalitu rozdělení ani symetrii Pr (0,0102) < 0,05 => H0 se zamítá (MU0=50) testy normality (záleží na výběru statistika který vybere a použije) Shapiro-wilk pro malé soubory (obvykle použijeme) n<2000, kvalitní neparametrický test, ale požaduje symetrické rozdělení četností symetrický histogram (v souboru nesmí být odlehlé hodnoty) soubory s n>2000: Kolmagorov-Smirnov Cramer von Mises Anderson darling Tyto testy testují hypotézu: H 0 : soubor má normální rozdělení P value > 0,05 => Soubor má normální rozdělení H A : soubor nemá normální rozdělení P value < 0,05 => Soubor nemá normální rozdělení Pr (P value) je menší než 5% tak zamítáme H0. U malých souborů (n<30) uvedené testy mají snahu přijímat HO, uvedené testy jsou slabé a odchylku od normálního rozdělení mohou potvrdit až u velkých souborů a proto se testu doplňují vhodným grafickým prostředkem příkaz PLOT. PLOT semigrafická podoba. ~ zobrazí STEM PLOT : kmen listopad Problematické hodnoty jsou maximální 60,1 a 58,6.

16 SVS přednášky Dále se zobrazí graf. pravděpodobnostního rozdělení graf normálního rozdělení pokud jsou hodnoty ideální tak body splývají s přímkou, ta je znázorněna křížky a naše data *. závěr: U testů normality kombinujeme výstup z Shapirova testu s grafikou, zvláště u malých souborů (do 30). Pokud nám nevyjde normalita rozdělení (ttest), tak užijeme neparametrické testy. Neparametrické testy nepožadují, aby analyzovaná data měla normální rozdělení. Wilkoksonův test je považován za velice kvalitní, ale chce aby soubor měl symetrické rozdělení četností symetrický histogram. U nás je v BOX PLOTU problém s odlehlými hodnotami a v tomto případě dáme přednost znaménkovému testu (nepožaduje ani notmalitu ani symetrii). Pokud máme v souboru nějaké nesrovnalosti tak soubor modifikujeme. Provedeme úpravu: trimmet=2 ~ systém odsekne 2 maximální hodnoty v souboru,ale systém automaticky odsekne i 2 minimální hodnoty = 27 hodnot. Operace cenzorování, která u souborů s malým rozsahem není vždy žádoucí. winsorized=2 - winzorizace je alternativa k odseknutí - 2 maximální hodnoty byly nahrazeny třetí maximální hodnotou který byla hned před nimi a na konci se mi objeví 3 stejné hodnoty, které již nejsou považovány zas odlehlé, totéž se provede i u nejmenších hodnot. Došlo k potlačení extrémů. výstup pro useknutý průměr Upravené průměry (useknutý nebo cenzorovaný průměr) vzniklo useknutím dvou hodnot. meze interval spolehlivosti 45,2 49,03 t pro H0 Pr> t 0,0047 (opět H0 zamítáme) výstup pro winzorizovaný průměr Průměry se neliší a tudíž obě hodnoty tam nehrají roli a lze je ponechat v souboru. pozn.: V SAS je zkratka ODS dovoluje nám z výstupů v systému sas vybrat pouze důležité výstupy (charakteristiky) a také v lepších formátech.

17 SVS přednášky procedura MEANS Další procedura v průzkumové analýze proc means data=sasuser.fitness; var oxigen; výstup: - oxigen je proměnná. Chceme nasadit proceduru na pouze jednu proměnnou oxigen, jinak by to provedl u všech proměnných. N průměr Std odch (směrodatná odchylka) min. max 31 47,36 5, poskytuje pouze základná informace o souboru variabilitu a typickou hodnbotu (průměr). výstup lze rozšířit: proc means data=sasuser.fitnes n mean median min max g1 q2 range grange std cv skewness kurtosis maxdec=3; var oxygen age weight runtime runpulse runpulse; (u kterých proměnných má počítat) doplňkové příkazy na vyžádání: n počet pozorování mean průměr medián Q1 dolní kvartil Q3 - horní kvartil cd var. koeficient relativnéí char. variability směr odch/ průměr* 100 při porovnání variability u proměnných vyjádřených v různých jednotkách std posílá směrodatnou odchylku range variační rozpětí grange kvartilové rozpětí robusní char. variability skewness koeficient šikmosti kurtosis koeficient špičatosti signalizuje lehké a těžké konce. šikmost a špičatost by měla být v případě normálního rozdělení přibližně rovny 0! maxdec = 3 počet desetinných míst.

18 SVS přednášky proměnná FAT - hodnota tuku proměnná GENDER Př.: 13 pozorování a měříme vrstvu podkožního tuku. prohlížení datového souboru procedura PRINT proc print data=svs; var fat gender; zvlášť spočítat pro muže a ženy: proc means data=svs; class (třídení) = gender; var (pro kterou proměnnou má procedura rpoběhnout) fat; statistickou významnost mezi ženou a mužem provedeme ttestem: proc ttest data=svs; class gender; var fat; (testujeme z hlediska hodnoty tuku) title porovnání skupin ; výstup: T testy equal pokud máme stejné rozptyly souborů, koukáme na tento řádek unegual pokud rovnost variancí určí různou variabilitu souborů dvou výběrový ttest požaduje aby oba soubory měli stejnou variabilitu při porovnání. doplňkový test pro Ttesty - rovnost variancí test variability souboru můžu a žen oba soubory mají stejný rozptyl.

19 SVS přednášky Přednáška - Analýza 2 a více souborů výběrový ttest 2 nezávislé náhodné výběry a testujeme hypozézu: Ho: w1 = w2 => průměry základních souborů w1,w2 (mí) předpoklady použitelnosti: 1.) nezávislost pozorování 2.) oba výběry mají normální rozdělení 3.) shodná variabilita obou porovnávaných souborů př.: Je třeba posoudit zda zavedení nové výrobní technologie má statisticky významný vliv na zvýšení rychlosti pracovní operace. Bylo provedeno měření doby trvání této operace při staré i nové technologii a zjištěny tyto výsledky: Chceme posoudit výsledky z hlediska doby trvání stat.významnost. test hypotézy: Ho: průměry základních souborů se neliší. w1 = w2 1. otestujeme nejprve nezávislost předpoklad je splněn 2. otestování normality rozdělení: Každá analýza začíná průzkumovou etapou průzkumovou analýzou grafická technika: analyze BOX PLOT starat/novat jako Y. Roletka zobrazí další charakteristiky.

20 SVS přednášky schématické box ploty Př.: skript: proc boxplot data=ms; plot doba*technologie/boxstyle=schematic; nejsou zde problematické údaje. 1 soubor má zvláštní rozdělení. Horní kvartil splívá s max. hodnotou. Průměr, medián splynul buď s horním nebo dolním kvartilem. Medián a průměr se zde odlišují = asymetrie rozdělení a to stěžuje předpoklad normality rozdělení. Pro starou technologii je náročné splnit normalitu rozdělení

21 SVS přednášky Zářezové boxploty do jaké míry se tyto soubory odlišují, poskytují důkazy na rozdíl od normálních. proc boxplot data=b; plot doba*technologie/notched; Zářezy představují grafické vyjádření intervalu spolehlivosti pro medián. Začátek zářezů u druhého souboru a konec pokud se v promítnutí na sebe zářezy nepřekrývají tak to znamená že soubory se statisticky významně liší a zamítnutí hypotézy Ho. Při překrytí není statisticky významný rozdíl.

22 SVS přednášky Průzkumová analýza pomocí means Další ověření normality rozdělení: proc means data=b maxdec=2; class technologie; pouze základní charakteristiky: směrodatná odchylka nové technologie je menší (1,65) hodnoty jsou vyrovnanější. maxdec= zaokrouhlení na libovolný počet desetinných míst class = rozdělení přístupu do 2 souboru dle technologie. c)ověření normality v obou souborech - užitím testů normality implementovaných v proceduře univariete ods select TestsForNormality; proc univariate data=ms normal; class technologie; var doba; nechceme všechny výstupy, ale jen testy normality a proto je omezíme zkratkou ODS output delivery systém: ods select TestsForNormality;

23 SVS přednášky vybereme Shapiro wilka u nové technologie: P (0,35) > alfa (0,05) => H0 platí a soubor má normální rozdělení u staré technologie P(0,0195) < 0,05 => Ha zamítáme H0 a není splněna normalita. d) Další ověřování normality Přes výsledky testů normality bychom měli dále ověřit, protože síla zvoleného testu vynikne až u velkých souborů a proto konfrontujeme s dalšími grafickými výstupy: proc univariate data=b noprint; class technologie; histogram doba/normal (color=red) kernel (color=green); probplot doba/normal (mu=est sigma=est); příkaz noprint potlačuje nadbytečné numerické výstupy chceme histogramem proložit gausovu křivku a proto je za doba/normal kernel přibalí jádrovou hustotu představuje empirické vyrovnání hystogramu, chceme zelenou barvu hustoty. probplot chceme doplnit analýzu pravděpodobnostními grafy mu=est (estimate ~ odhad) do pravděpodobnostních grafů zobrazí ideální přímku, jak by měla data vypadat, bez toho se zobrazí pouze křížky a hvězdičky. sigma (směrodatná odchylka) odhadnutá z našich dat.

24 SVS přednášky soubor má normální rozdělení, jádrová hustota a gausova křivka se tolik neliší jde o malý soubor. u staré je diference mezi gausovkou a jádrovou křivkou velká.

25 SVS přednášky e) Vlastní provedení 2 výběrovéího ttestu není ale splněn předpoklad normality! proc ttest data=b; class technologie; var doba; (jméno proměnné kterou chci analyzovat) Průměr je doplněn horní a dolní mezí intervalu spolehlivosti. Diff je rozdíl souborů

26 SVS přednášky rovnost variancí kontroluje předpoklad stejné variability (stability nebo vyrovnanosti výsledků) souborů. pomocná hypotéza: H0 oba soubory byli pořízeny ve stejné kvalitě a hodnoty jsou stejně rozházené. H0: sigma1.2 = sigma2.2 P (0,1165) > 0,05 => H0 platí a předpoklad je splněn a lze se podívat na ttesty: rozptyl podle výsledku testu shodnosti rozptylů si vyberu test. equal stejné rozptyly P(0,0158) <0,05 => H0 zamítáme. unequal nestejné rozptyly Ha průměrné doby nejsou stejné a nová technologie vede k významnému zrychlení té operace. f) neparametrický dvouvýběrový ttest. Řešení problému s nesplněním požadavku na normální rozdělení a ttest byl doplněn neparametrickým dvouvýběrovým Wilcoxonovým (univerzálnějším) testem - neparametrické testy (npar1way) proc npar1way data=b wilcoxon; class technologie; var doba;

27 SVS přednášky Poskytuje základní informace - wilkoksonovo score nahrazení hodnot pořadovými čísli, čísla se sečtou zvlášť pro oba soubory. Pokud se soubory neliší, čísla se sobě dost podobají. Zajímá nás pouze jeden výstup. Normální aproximace: Jednostranná hodnota Dvoustranná hodnota - 0,02 => potvrzujeme Ha. souvisí s zadáním testovali jsme H0 : doba S = doba N (průměr) proti jednostrané alternativě w1<w2. vyberu jednostranou alternatiuvu. pokud testuji Ha: w1 nerovná se w2 vyberu oboustranou. A soubor, respektive nová technologie vede ke kratší době. Potvrdíme ttest parametrický. Narušení normality nemá až zase zásadní roli, mnohem více ovlivňuje narušení variability. U obou nesplnění předpokladů se dá použít wilkokson, ale je méně silný než ttest.

28 SVS přednášky Přednáška Porovnání více než 2 souborů z hlediska jejich středních hodnot 5.1. Analýza rozptylu předpoklady: rozšíření ttestu pro více souborů. 1. analyzované výběry pocházejí ze základních souborů s normálním rozdělením 2. - analyzované soubory mají stejnou variabilitu někdy nazýván předpoklad homoskedasticity. Opakem (neplatí stejná variabilita) je heterostedasticita. Př.: výrobce zkouší 4 různá barevná a grafická provedení obalů svých výrobků. Následující údaje představují počty výrobků balených v různých obalech které byly prodány během jednoho měsíce ve 4 různých hypermarketech. Posuďte zda počet prodaných výrobků je statisticky významně ovlivňován druhem zvolených obalů H0: δ 1 = δ 2... δ K, K>2 HA: alespoň jeden obal vede k jiným výsledkům. 2 proměnné: prodej kvantitativní obal - kvalitativní výběry nemají stejné počty pozorování nevyvážený model. H0: m1=m2=m3=m4 SAS: 2 možnosti analýzy a) proc anova (analysis of Variance) - lze použít pouze pro vyvážený model. b) pro nevyvážený i vyvážený lze použít univerzální proc. proc glm (general linear model) Začneme opět průzkumovou analýzou a naše výběrové soubory si zobrazíme pozn: u malých souborů není analýza rozptylu zkreslována robusnost. A.R je odolná na narušení normality!!! 1.) zářezové box ploty pro posouzení odlehlostí atd. Porovnáváme soubory mezi sebou, pokud soubory dáme přes sebe a vruby se nepřekrývají, tak se soubory pravděpodobně od sebe odlišují, jde pouze o orientační pomůcku. proc boxplot data=dm; plot prodej*obal/boxstyle=schematic notches;

29 SVS přednášky /boxstyle schematic notches zářezy na krabičce horní kvartyl dolní kvartil medián křížek průměr hranice souboru interval spolehlivosti pro medián netypická hodnota (extrémní) 2.) Nejlépe se prodává z hlediska průměrného počtu 2, nejméně atraktivní je obal č.4. proc glm data=dm; class obal; model prodej=obal; means obal/hovtest t tukey lines cldiff; class třídící proměnná jak prodej závisý na obalu (analyzovaná = klasifikační) means chceme průměry pro obal- hovtest ověření předpokladu stejné variability. t (lsd) nejmenší významný rozdíl (pokud zamítneme H0, umožní interpretovat odlišný soubor) jak jeden soubor dopadne v porovnání s ostatními. tukey srovnání všech diferencí každý s každým

30 SVS přednášky lines cldiff pozn.: metody mnohonásobného porovnávání pro rozlišení souborů a idenfifikace odlišností od ostatních souborů. V sasu asi 15, např.: t metoda tukey metoda (T) Výstup lze mít ve dvojí formě vyžádáme požadavkem lines nebo cldiff. pozn.: Je třeba rozlišit mezi plánovaním porovnávání porov.souborů nebo následné porovnávání. plánované se týká situace, kdy před analýzou si vytipuji jeden (je zajímavý) a ten chci porovnat s ostatními. V tomto případě metoda lst. Pokud chceme porovnat soubory všechny mezi sebou ~ následné srovnávání (posthok) vyberu metodutukey. The SAS System 10:46 Wednesday, January 31, The GLM Procedure Class Level Information Třída Úrovně Hodnoty obal Number of Observations Read 20 Number of Observations Used Závislá proměnná: prodej The SAS System 10:46 Wednesday, January 31, The GLM Procedure Součet Průměrný F Zdroj DF čtverců kvadrát hodnota Pr > F Model Chyba Korigovaný součet H0 se zamítá (0,0042< 0,005) Platí Ha existuje statisticky významný rozdíl Odmocnina

31 SVS přednášky R-kvadrát Koef prom MSE prodej Průměr Průměrný F Zdroj DF Type I SS kvadrát hodnota Pr > F obal Průměrný F Zdroj DF Type III SS kvadrát hodnota Pr > F obal koeficient determinace z kolika % je závisle proměnná (závisí) je ovlivňována tou nezávislou proměnnou (obalem) ~ 55%. - Obal z 55% ovlivňuje množství prodaných výrobků. doplňková syntaxe za / : hovtest: testuje pomocnou hypotézu na shodu rozptylů. The GLM Procedure Levene's Test for Homogeneity of prodej Variance ANOVA of Squared Deviations from Group Means Součet Průměrný F Zdroj DF čtverců kvadrát hodnota Pr > F obal E E Chyba E E8 Přijímáme H0 neexistuje stat. významný rozdíl mezi variabilitou.

32 SVS přednášky nyní je třeba ujasnit, které obaly vyčnívají: LSD: The GLM Procedure t Testy (LSD) pro prodej NOTE: Tento test určuje četnost srovnávací chyby typu I, nikoli četnost experimentální chyby. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota t Least Significant Difference Harmonic Mean of Cell Sizes NOTE: Cell sizes are not equal. Průměry se stejným písmenem nejsou významně odlišné. t Seskupování Průměr N obal A A B A B B C C C Least Significant Difference - nejmenší významný rozdíl. Pokud průměr překročí hodnotu, je statistycky významný. Průměry se stejným číslem se neliší. B jsou označeny obaly 2 a 1 a od sebe se významně neodlišují. 1 a 4 obal se od sebe také neliší, mají stejné písmeno C. 3 a 4 obal se odlišily statisticky významně. tukey: The SAS System 10:46 Wednesday, January 31, The GLM Procedure Tukeyho test studentizovaného rozsahu (HSD) pro prodej NOTE: Tento test určuje četnost experimentální chyby typu I, obecně však má vyšší četnost chyby typu II než REGWQ. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota studentizovaného rozsahu Minimální rozdíl významnosti opatrnější významný průměr je vyšší. Harmonic Mean of Cell Sizes NOTE: Cell sizes are not equal. Průměry se stejným písmenem nejsou významně odlišné.

33 SVS přednášky Tukey Seskupování Průměr N obal A A A A B A B B Cldiff ekvivalence k předchozím 2 výstupům: The GLM Procedure t Testy (LSD) pro prodej NOTE: Tento test určuje četnost srovnávací chyby typu I, nikoli četnost experimentální chyby. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota t Srovnání významnosti při úrovni 0.05 jsou indikovány ***. Rozdíl obal mezi 95% Confidence Srovnání průměry Limits *** *** *** *** *** *** The SAS System 10:46 Wednesday, January 31, The GLM Procedure Tukeyho test studentizovaného rozsahu (HSD) pro prodej NOTE: Tento test určuje četnost experimentální chyby typu I. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota studentizovaného rozsahu

34 SVS přednášky Srovnání významnosti při úrovni 0.05 jsou indikovány ***. Rozdíl obal mezi Souběžné 95% Srovnání průměry Confidence Limits *** *** *** *** Závěr: pokud test homogenity nevyjde stejně nebo máme pochybnosti, proceduru nahradím neparametrickým testem kruskal walis. Kruskal Wallisův nezávislý na 1 a 2 předpokladu a ale nemá takovou sílu. proc nparlway data=dm wilcoxon; class obal; var prodej; H0: se zamítá a platí Ha a výsledky z glm lze považovat za platné. 6p. 1. Analýza vícerozměrných statistických souborů - na souboru zkoumáme větší počet znaků

35 SVS přednášky Jednoduchá regresní a korelační analýza Zkoumáme statistickou závislost a její sílu. Y závisle proměnná (vysvětlovaná proměnná) X nezávislá proměnná (vysvětlující proměnná ~ regresní) Regrese průběh (tvar) závislosti. Korelace určení těsnosti závislosti. Předpoklady použitelnosti regresní a korelační analýzy: 1.) Normalita rozdělení analyzovaných veličin (alespoň přibližně splnit) 2.) požadavky na rezidua nezávislé náhodné veličiny které mají normální rozdělení s nulovou střední hodnotou a konstantní rozptyl. proměnné Y;X - regres.f : Y = a + bx korelační pole - body na přímce porovnáme se skutečnými. rozdíl: Yi - Y i = rezidua. R _ C O korelační pole P_CO

36 SVS přednášky Ex= 0 - kladná a záporná rezidua se vyruší, protože korelační funkce je proložena nejlepším možným způsobem, ani blíž ani dál od jedné strany. Př.: CO = auta proc reg proc corr proc univariate A) průzkumová analýza proc gplot data=ms; plot co*cars; symbol v=dot c=blue; /*specifikace grafu*/ quit; plot závisle proměnná (osa Y) * nezávisle proměnná. symbol doplňkový příkaz: V = dot (tečky), star atd. C = barva bodů quit výstup z jednotlivých procedůr. Zvýšení auto -> zvýšení CO. Odhad ukazuje přímou a střední závislost až silnou závislost, odlehlé pozorování může skreslit analýzu.

37 SVS přednášky B) Posouzení normality ods exclude Moments BasicMeasures TestsForLocation Quantiles ExtremeObs; proc univariate data=ms normal plot; quit; ods exlude vyloučení nežádoucích výstupů. V procedůře testujeme normalitu NORMAL. The SAS System 10:59 Sunday, January 7, Procedura UNIVARIATE Proměnná: co Testy normality Test --Statistika p hodnota----- Shapiro-Wilk W Pr < W Kolmogorov-Smirnov D Pr > D > Cramer-von Mises W-Kv Pr > W-Kv > Anderson-Darling A-Kv Pr > A-Kv > Kmen List # Krb.graf *--+--* Graf pravděpodobnosti norm. rozdělení 23+ +*++ *+++ * *+*++ *++ ++* *+* ++*+ ++* 5+ +* U malých souborů předpoklad normality je splněn. Medián přibližně by se měl nacházet uprostřed krabice s vousy. Graf pravděpodobnosti norm. rozdělení opět ukazuje na rozdělení N. U obou proměnných je předpoklad normality splněn.

38 SVS přednášky The SAS System 10:59 Sunday, January 7, Procedura UNIVARIATE Proměnná: cars Testy normality Test --Statistika p hodnota----- Shapiro-Wilk W Pr < W Kolmogorov-Smirnov D Pr > D > Cramer-von Mises W-Kv Pr > W-Kv > Anderson-Darling A-Kv Pr > A-Kv > Kmen List # Krb.graf *--+--* C) corelační analýza Graf pravděpodobnosti norm. rozdělení *++++ * *+++++* *+*+*+++ *++*++* * proc corr data=ms; /*výpočet korelace mezi analyzovanými proměnnými s proc CORR*/ quit; Spočtou se korelace mezi všemi proměnnými, mezi dvojicemi. V souboru jsou jen 2 proměnné a zde je to tudíž žádoucí. U př. s více proměnnými je takový výstup nežádoucí a je třeba upřesnit příkazem VAR. The SAS System 10:59 Sunday, January 7,

39 SVS přednášky Procedura CORR 2 Proměnné: co cars Jednoduché statistiky Proměnná N Průměr Std odch Součet Minimum Maximum co cars Pearsonovy korelační koeficienty, N = 12 Prob > r pro H0: Rho=0 co cars logická kontrola hodnot MIN/MAX co cars korelační matice - diagonála - maximální korelace mezi proměnnou CO a Cars. síla závislosti mezi 2 proměnnými korelace <-1; 1> ~ nepřímá závislost/přímá: středně silná P hodnota H0: Rho = 0-0,05 > 0,0071 -> HA. model je statisticky významný. - určí statistickou významnost nejen pro náš výběr, ale pro celý základní soubor. Pokud není stat. významný (platí H0), tak výsleek platí pouze pro našich 12 měření a výsledky nejsou zobecnitelné. pozn.: výbrová korelace r korelace v ZS - RO Pokud není splněna normalita, tak použijeme Spearmanův koeficient koeralce neparametrický koeficient. proc corr data=ms spearman; quit; Máme tedy významný model a středně silnou závislost D) nalezení regresní přímky proc reg data=ms; model co=cars; quit; model vysvětlovaný=vysvětlující. The SAS System 10:59 Sunday, January 7, Procedura REG Model: MODEL1 Závislá proměnná: co Number of Observations Read 12 Number of Observations Used 12

40 SVS přednášky Analýza rozptylu Součet Průměr F Zdroj DF čtverců Kvadrát hodnota Pr > F Model Chyba Korigovaný součet Odmocnina MSE R-kvadrát Závislý průměr Přizp R-kv Koef prom analýza rozptylu Ověření zobecnění pro ZS. informuje o tom, zda regresní přímka je platná i pro základní soubor a ne pouze pro náš výběr. Hodnotí model jako celek. H0: pouze výběrový charakter není zobecnitelné HA: model je statisticky významný a model je zobecnitelný. koef. determinace R 2 = 53,1% Z kolika procent jsou změny závisle proměnné vysvětlitelné nezávislou proměnnou. Emise jsou z 53% vyvolány frekvencí projíždějících aut. Odhady parametrů Odhad Standardní Proměnná DF parametru chyba t hodnota Pr > t Regresní carstanta intercept (regresní) a absolutní člen regresní koeficient b (stejné znaménko jako korelační) hodnota říká, o kolik se v průměru změní závisle proměnná když se nezávisle proměnná změní o jednotku. o 1000 vozů více -> CO naroste o 6,46 individuální p hodnoty hodnotí jednotlivé složky absolutní člen není stat. významný regresní člen je statisticky významný. jako celek je to stat. významné. U ideálního je všechno významné. Současný model je použitelný, ale ne 100% E) Zkooumání vlastností reziduí proc reg data=ms; model co=cars/r influence spec; /*r - studentizovaná rezidua a cookova vzdálenost,*/ plot co*cars/cframe=pink; /*pozadí grafu - cframe*/ plot r.*p.; /*reziduální graf*/ plot cookd.*p./cframe=ligr;

41 SVS přednášky symbol v=dot c=green h=1; output out=diag r=rezid; /*vytvoření nového souboru Diag */ quit; 8.p 2. Vícenásobná regrese a korelace Př: studenti do jaké míry je ovlivňována proměnná body (Y) proměnnou hodiny a IQ. Zajímá nás společné kombinované působení obou veličin na absolutní člen. pozn.: pouze 2 proměnné Y.(X) ~ JEDNODUCHÁ REGRESE A KOR. r <-1, 0> Y (X1,X2..Xk) ~ vícenásobná reg a korelace. 1.) změření těsnosti závislosti korelace koef.mnohonásobné korelace R (v jed. r) <0, 1> koeficient mnoh. determinace R 2 - z kolika % je y vysvětlováno veličinami X1 až Xk. 2.) průběh těsnosti regrese hledáme rovnici která popíše závislost Y a ostatních proměnných. Regresní přímka: Y = b 0 +b 1 X 1 +. b K X K b 0 = absolutní člen b 1 = parciální regresní koeficient, charakterizují část vlivů působící na příslušnou proměnnou X Předpoklady použitelnosti mnohonásobné regrese a korelace: a. normalita rozdělení analyzovaných proměnných b. nezávislost vysvětlujících proměnných každá proměnná přispěje novou informací k vysvětlení veličiny Y. Y = b 0 +b 1 X 1 + b 2 X 2

42 SVS přednášky Ověření multikolinearity: i. spočtu korelační matici vysvětlujících proměnných: X1 X2. Xk X1 1 r x1x2 r x1 xk X Xk 1 r xj xk < 0,75 r xj xk > 0,75 ~ multikolinearita - hodnota korelačního koef. ii. v SASU VIF Variance Inflation Factor VIF > 10 ~ multikolinearita. c. Rezidua, tvz rozdíly Yi Yi`, i = 1,2,3 n by měla mít normální rozdělení s nulovou stření hodnotou a konstantním rozptylem a konstantním rozptylem. - konstantní rozptyl čím je variabilita větší, tím jsou hodnoty kolísavější a méně přesná - normální rozdělení říká, že odhadnutá regresní přímka leží zhruba ve středu hodnot (naměřených) testování: začneme posouzením normality vstupních dat univariate (test lze vynechat v případě malých souborů, uvedené testy Shapiro-wilk atd jsou kvalitní až od n>30.) v tomto případě zbytečné málo dat! Lépe přes box plot atd. The SAS System 10:42 Sunday, January 14, Procedura UNIVARIATE Proměnná: R_hodiny (hodiny residuals) Testy normality Test --Statistika p hodnota----- Shapiro-Wilk W Pr < W Kolmogorov-Smirnov D Pr > D > Cramer-von Mises W-Kv Pr > W-Kv > Anderson-Darling A-Kv Pr > A-Kv > Kmen List # Krb.graf *--+--* násobit listy větve číslem 10**-1

43 SVS přednášky Graf pravděpodobnosti norm. rozdělení * *+ * *+*++* * * * * veličina IQ nemá normální rozdělení a proto není ideální použití pearsonova koef. a proto do skriptu zahrneme ještě spearmana. spočte difoltně spearmena: proc corr var_ proměnné pro které chci provést výpočet. quit; bez příkazu Var spočte všechny korelace proměnných. spočtění korelační matice: proc corr data=ms pearson spearman; quit; rozšířený model mnohonásobné regrese influence zjistí, jestli v množině vysvětlujících proměnných není nějaká odlehlá hodnota. - Leverage( vliv) hii - DFFITS Welschova kulova vzdálenost opět posouzení vlivnost r vlivnost a odlehlost spec spočte tvz Whiteův test umožňuje posoudit konstantní rozptyl reziruí. plot r. *p. konstrukce reziduálního grafu, orientační posouzení vlastností plot cookd. *p. graf hodnot cookovi vzdálenosti symbol - provedení grafů : v=dot (tečky) c=green; output - vytvoříme pomocný soubor: out=diag (název souboru) r=rezid; a s jeho pomocí chceme kontrolovat vlastnosti reziduí, obsahuje jedinou proměnnou nazvanou rezid rezidua.

44 SVS přednášky Proc reg data=ms corr; model body=hodiny iq/r influence vif spec; plot r. *p.; plot cookd. *p.; symbol v=dot c=green; output out=diag r=rezid; quit; Proc reg data=ms corr; model body=hodiny iq/r influence vif spec; plot r. *p.; plot cookd. *p.; symbol v=dot c=green; output out=diag r=rezid; quit; cokova vzdálenost je obecnější do jaké míry to pozorování ovlivňuje celý model DFFITS - do jaké míry to nalezené pozorovaní ovlivňuje tu jednu konkrétní hodnotu veličiny Y, kde byla vlivná hodnota nalezrna.

45 SVS přednášky P Vícenásobná regrese Y = a + bx + cx 2 Y = b 0 + b 1 X1 + b 2 X2 Př.: proc gplot data=a; plot spotreba*rychlost; symbol v=dot c=blue; 2 vysvětlující proměnné X1 původní rychlost vozu X2 rychlost 2 1. průzkumová analýza

46 SVS přednášky mod insight: pro lineární model. pozn.: vyžádání souboru procedura PRINT zobrazí soubor na který se chci podivat. proc print data=svs; var spotreba rychlost synraxe: proc svs1; set svs; rychlost2=rychlost*rychlost; proc reg data=svs1; LINEAR: model spotreba=rychlost; plot spotreba*rychlost; plot r.*p.; symbol v=dot c=red h=1; QUADRATIC: model spotreba=rychlost rychlost2/r influence spec; plot r.*p.; plot cookd.*p.; - nakreslí graf cook.vzdáklenosti. Osa X(predikované hodnoty, osa Y (cook.vz) ~ pro kterou vyrovnanou hodnotu se objevil problém. plot cookd.*obs.; - pro které pozorování se problém objevil.

47 SVS přednášky plot r.*p.; / konstrukce reziduálního grafu. plot cookd chark kooovy vzdalenosti výstupy: model: LINEAR statisticky významný. R 2 = 0,6273 plot r.*p.; - reziduální graf modelu. Podle reziduí se dá usuzovat, že model lineární není, ideální průběh reziduí u lin.modelu zobrazuje obdélník. model: Quadratic statisticky významný. R 2 = 0,98 ~ 98% - variabilita proměné spotřeba je z 98% vysvětlená proměnnou spotřeba. odhady parametrů individuální P-hodnoty jsou sta.významné. Výstupové statistiky/ Výstupy regresní diagnostiky posouzení kvality modelu QUADRATIC: model spotreba=rychlost rychlost2/r influence spec;

48 SVS přednášky studentizovaná rezidua podává informaci, zda ve vysvětlované proměnné nebyla nějaká hodnota, která by narušila model (extrém nebo odlehlost) - hodnoty ve sloupci porovnáme s /SR/ >2, nebo z hvězdičkovým výstupem ****, v modelu nebyla nalezena Y hodnota která by model zkreslila. Případný údaj je třeba ještě otestovat na vlivnost. cookovo D - cookova vzdálenost určí že pozorování je nejen odlehlé, ale i vlivné. Hodnotí kombinace veličiny Y, X a X 2 Jak vlivné pozorování ovlivňuje všechny hodnoty Y. ukazuje vlivnost v globále, je ovlivněna počtem pozorování 4 D > n D > 0,5 = vlivné pozorování - pozorování č.8, DFFITS (lepší test než cookova vzdálenost) Welschova-kuova vzdálenost Říká jakým způsobem vlivné pozorování ovlivnilo pouze pozorování Y8. p DFFITS > 2 = 0,80 n p=3 n=8 DFFITS > = vlivné pozorování p počet parametrů regresního modelu. (b0, b2, b3) opět identifikovala pozorování č.8 jako vlivné. Hat Diag H klobouková matice H ii p 3 6 > 2 = 2 = = 0,75 n 8 8 n počet měření p počet regresních parametrů (a, b = 2) Ve sloupci žádný takový údaj není. Provedeme kontrolu údajú a. test první a druhé specifikace momentu výstup Whiteůva testu kontroluje předpoklad použitelnosti modelu zda rezidua (rozdíl závislé proměnné a predikované) mají konstantní rozptyl. P-hodnota: 0,15 P.hot > 0,05 => H0. H0: rezidua mají konstantní variabilitu.

49 SVS přednášky p Kromě zkoumání kvantitativních proměnných je možné se zabývat zkoumáním kvatitativních proměnných. Jejich obměny nejsou vyjádřeni číselně. Kategoriální proměnné (Kvalitativní) např.: vzdělání ZS, SS, VS národnost kvalifikace barva očí základní pojmy: (různé členění) 1) typy kvalitativních znaků: a. alternativni znaky (pouze 2 obměny pohlaví) b. množné (vzdělání atd.) 2) nominální znaky jednotlivé varianty znaku můžeme pouze pojmenovat, ale nedají se utřídit např od nejmenší k největší. (národnost) 3) ordinální znaky znaky lze pojmenovat a zároveň jdou setřídit na stupně. (vzdělání, kvalifikace) Analýza kvalitativních znaků: znak A, B A A1, A2.Ak B- B1,B2,..Bm zkoumání je založeno na sestavení kontingenční tabulky kx m B N 2 k B N1 n n M M n k1 n n n KKK n k 2 KKK n n ij m 1m KKKn 2m M M km M M nij empirické (experimentální četnosti) - kolikrát se společně vyskytla varianta A1, B1 společně. 2 základní úkoly: I. posouzení závislosti kategoriálních znaků II. určení síly závislosti (těsnosti) III.

50 SVS přednášky použití 2 testů: chí kvadrát vyžaduje spočítat očekávané četnosti, na základě velikosti těch očekávaných četností se rozhodneme o užití testu. Tečkový způsob zápisu. ( n = ij o 2 ij ) χ k m oij počet stupňů volnosti f = ( k 1 )( m 1 ) f = 1 1 = 1 tabulková hodnota 2 χ 3,841 0,05;1 = porovnání vypočtené a tabulkové hodnoty 2 2 χ < χ 2 dif H 0 nazamítáme 2 χ > χ 2 dif H 0 zamítáme existuje závislost a můžeme prokázat její těsnost v SASU porovnáváme vypočtenou hladinu významnosti (P value). SAS se řídí heslem všechno se může hodit a vyhodí vše co umí, je třeba si vybrat vhodnou charakteristiku. p < α H 0 zamítáme H0: kvalitativní znaky A a B jsou nezávislé. očekávané četnosti počítají se z marginálních četností ni n j oij = n chí kvadrát pro kontingenční tabulku k X m se nedá použít, jestli že více než 20% očekávaných četností je < 5, případně když alespoň v jednom políčku kontingenční tabulky je očekávaná četnost < 1. V těchto případech je nutno některé sousedící skupiny spojit (řádky nebo sloupce). Výstupy ~ 2 typy: o chí kvadrátové míry těsnosti závislosti odvozeny od tesu chí kvadrát Cramerovo V V = 2 χ n ( k 1;) pokud H 0 nezamítáme nemá smysl počítat těsnost závislosti

51 SVS přednášky K = menší hodnota z počtu řádků a sloupců. 0 V < 0,3 velmi slabá závislost 0,3 V < 0,8 (0,75) střední závislost 0,8 V < 1 velmi silná závislost U tabulky 2X2 je třeba rozhodovat vždy v absolutní hodnotě. zásadní nevýhodou chí kvadrát testů závislosti je to, že nemají statistický obsah. Příklad: V = 0,56 střední závislost, ale samo o sobě to číslo neznamená nic. Na rozdíl od r 2 který vysvětluje variabilitu závislé proměnné. Nerozlišuje jestli zkoumané znaky jsou nominální nebo ordinální, dále nerozlišuje jestli znak je závisle nebo nezávisle proměnná. o Predikční míry míry typu PRE (proportionale reduction error) mají překonat zmiňované nevýhody. Testy pouze pro znaky nominální/ordinální.charakteristiky rozlišují mezi závislou a nezávislou (asimetrické). pozn.: vstupní tabulka 2x2 Asociační tabulka pohlaví / souhlas ANO NE M B B Ž C D zvláštnosti chí kvadrát test dává spolehlivé výsledky pouze pro dostatečně velké rozsahy výběru. Pro n<20 jsou výsledky obvykle velmi nepřesné a tento test by se neměl používat. pro 20<n<40 se test chí doporučuje používat pouze tehdy, jestliže žádná očekávaná četnost není menší než 5. n>40 pokud nepoužijeme test Chí kvadrát, použijeme Fisherův test. Fisherův přesný test Buňka (1,1) Četnost (F) 10 Levostranný Pr <= F Pravostranný Pr <= F Tabulková pravděpodobnost (P) Dvoustranný Pr <= P Velikost výběru = 20

52 SVS přednášky Př.: Bylo sledováno zda pravidelná účast studentů na přednáškách má vliv na úspěch v prvním termínu u ZK. Ověřte zda existuje závislost mezi znaky. účast/ uspěch ANO NE Ano ne Tři proměnné: proměnná počet je kvantitativní.úspěch a účast jsou kvalitativní. Příslušná procedura: proc freq data=ms; tables uspech*ucast/expected norow nocol nopercent chisq measures; weight pocet; tables jméno_řádkové proměnné(úspěch)* sloupcová proměnná weight jméno kvantitativní proměnné. Bez ní by byli všechny četnosti nahrazeny 1. /: expected vyžádání očekávaných četností, kůli zvolení testu. norow,nocol,nopercent vyjadřují procentické zastoupení v řádcích, sloupcích a celkové. Tímto je potlačujeme. chisq vytištění testového kritéria chí.kvadrát measures predikční míry The SAS System 11:33 Sunday, January 28, Procedura FREQ Tabulka pro uspech podle ucast uspech ucast Četnost Očekávaná ano ne Součet ano ne Součet Splňuje podmínky pro užití chí kvadrát testu, 80>20

53 SVS přednášky Statistiky pro tabulku uspech na ucast Statistika DF Hodnota Pr Chí-kvadrát Chí-kvadrát poměru věrohodností Spojitě přizp. Chí-kvadrát Mantel-Haenszelův Chí-kvadrát Koeficient Fí Kontingenční koeficient Cramerovo V p( 0,0007) < α H 0 zamítáme Prokázali jsme závislost mezi účastí na přednáškách a ZK. 0,3 V < 0,8 (0,75) střední závislost Fisherův přesný test Buňka (1,1) Četnost (F) 30 Levostranný Pr <= F Pravostranný Pr <= F 7.164E-04 Tabulková pravděpodobnost (P) 5.889E-04 Dvoustranný Pr <= P The SAS System 11:33 Sunday, January 28, Procedura FREQ Statistiky pro tabulku uspech na ucast Statistika Hodnota ASE Gama Kendallovo Tau-b Stuartovo Tau-c Somersovo D C R Somersovo D R C Pearsonova korelace Spearmanova korelace Lambdaasymetrické C R Lambdaasymetrické R C Lambdasymetrické Koeficient nejistoty C R Koeficient nejistoty R C Symetrický koeficient nejistoty Pro znaky nomiální Pro znaky ordinální Zde se jedná o znaky nominální a zhodnotíme pomocí koef. lambda Lambda asymetrické C R (závisle proměnná sloupcová/ řádková nezávislá) Lambda asymetrická R/C (obráceně úspěch/účast. Lamba symetrické nediferencuje. Lambdaasymetrická R/C = 0,2857 proměnná účast na přednáškách ovlivňuej úspěch z 29%.

54 SVS přednášky Typ studie Hodnota 95% Meze interv. spolehlivosti Případové řízení (Poměr šancí) Skupina (Riziko slp1) Skupina (Riziko slp2) Velikost výběru = p Př.: Bylo zkoumáno, zda použití určitého očkovacího sera může snížit počet onemocnění nakažlivou chorobou. Pokus byl proveden u 23 pokusných zvířat stejného stáří (12 jich bylo očkováno) a 11 neočkováno. A byla vystevena stejné nákaze. Výsledky šetření jsou uvedeny v tabulce: počet nakažených nenakažených celkem očkovaných neočkovaných celkem teoretická četnost: (12*8) / 3 = 4,17 < 5 => nelze použít chíkvadrát test pro ověření nulové hypotézy H0: výskyt nákazy není závislý na očkování. použijeme: Fisherův test celkem tři proměnné: 1. ockování ano/ ne 2. nákaza ano/ne vysvětlovaná proměnná je ve sloupci i. tyto proměnné nelze třídit podle nějaké stupnice a jde o znaky nominální. 3. počet skript: ods rtf; proc freg data=ms; tables ockovani*nakaza/norow nocol nopercent chisq measures; weight pocet; ods rtf close;

55 SVS přednášky použitý: proc freg data=mss; tables ockovani*nakaza/norow nocol nopercent chisq measures; weight pocet; P (0,0094) < 0,05 => HA. Procedura FREQ Tabulka pro ockovani podle nakaza ockovani nakaza Četnost ano ne Součet ano ne Součet Statistiky pro tabulku ockovani na nakaza Statistika DF Hodnota Pr Chí-kvadrát Chí-kvadrát poměru věrohodností Spojitě přizp. Chí-kvadrát Mantel-Haenszelův Chí-kvadrát Koeficient Fí Kontingenční koeficient Cramerovo V VAROVÁNÍ: 50% buněk má očekávané počty menší než 5. Chí-kvadrát může být neplatný test. Fisherův přesný test Buňka (1,1) Četnost (F) 1 Levostranný Pr <= F Pravostranný Pr <= F Tabulková pravděpodobnost (P) Dvoustranný Pr <= P doplňkové charakteristiky příkaz measure: koef. mají statistický obsah Procedura FREQ Statistiky pro tabulku ockovani na nakaza Statistika Hodnota ASE Gama Kendallovo Tau-b Stuartovo Tau-c Somersovo D C R Somersovo D R C Pearsonova korelace Spearmanova korelace Lambdaasymetrické C R Lambdaasymetrické R C Lambdasymetrické

Zobrazit více