1. Přednáška. Základní etapy statistické analýzy. SVS přednášky - 1 -

Podobné dokumenty
Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

KGG/STG Statistika pro geografy

Poznámky k předmětu Aplikovaná statistika, 9.téma

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Testy nezávislosti kardinálních veličin

Dynamické metody pro predikci rizika

6. T e s t o v á n í h y p o t é z

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Jednofaktorová analýza rozptylu

Analýza rozptylu dvojného třídění

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

Národníinformačnístředisko pro podporu jakosti

Přednáška 5. Výběrová šetření, Exploratorní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pořízení licencí statistického SW

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Testování hypotéz a měření asociace mezi proměnnými

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

4ST201 STATISTIKA CVIČENÍ Č. 8

VŠB Technická univerzita Ostrava

Analýza dat na PC I.

Inovace bakalářského studijního oboru Aplikovaná chemie

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

KORELACE. Komentované řešení pomocí programu Statistica

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Ilustrační příklad odhadu LRM v SW Gretl

Příloha č. 1 Grafy a protokoly výstupy z adstatu

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Uni- and multi-dimensional parametric tests for comparison of sample results

Aplikovaná statistika v R - cvičení 2

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Kontingenční tabulky, korelační koeficienty

Zpracování a vyhodnocování analytických dat

Literatura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější)

Metodologie pro ISK II

Regresní analýza. Eva Jarošová

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

Úkol 12. Přemysl Bejda. 22. března SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury.

Porovnání dvou výběrů

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

PRAVDĚPODOBNOST A STATISTIKA

M cvičení : GLM04b (Vztah mezi Poissonovým a

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Statistika, Biostatistika pro kombinované studium. Jan Kracík

MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

Tomáš Karel LS 2012/2013

ADDS cviceni. Pavlina Kuranova

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Vybrané partie z biostatistiky

Semestrální práce. 2. semestr

6. Lineární regresní modely

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Pomůcka pro cvičení: 3. semestr Bc studia

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Seminář 6 statistické testy

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech.

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

(Auto)korelační funkce Statistické vyhodnocování exp. dat M. Čada ~ cada

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Korelační a regresní analýza

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Design Experimentu a Statistika - AGA46E

SRG Přírodní škola, o.p.s. Orientace v Přírodě. Bez kompasu

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Přednáška IX. Analýza rozptylu (ANOVA)

Transkript:

SVS přednášky - 1-1. Přednáška Základní etapy statistické analýzy SAS INSIGHT základní char. SAS LAB quided data analysis - široká nabídka opravných prostředků.

SVS přednášky - 2-1.1. Prostředky průzkumové analýzy Jde o kombinace různých grafických a číselných postupů, které mají podat základní informace o vlastnostech souboru. Základním prostředkem jsou grafy s různou orientací. Zobrazení datového souboru pomocí grafu 1.1.1. Sloupcový diagram. (Bar Chart). četnosti (relativní četnost) procedury v SAS: proc jmeno_procedury data = jméno datového souboru var (proměnná)..; analyzované veličiny hodnoty (integrály) zobrazení datového souboru v grafu. proc chart data = jméno souboru vbar vyska; výsledkem je sloupcový diagram v proceduře Chart. hbar (horizontální orientace) vbar (vertikální orientace)

SVS přednášky - 3 - Procedury gchart mají lepší grafické výstupy proc gchart data=a; hbar vyska; procedura automaticky data setřídí do intervalů podle Sturgesova pravidla automaticky vypočítá počet těch intervalů (tříd K). pozn.: Při velkém rozsahu n náhodného výběru rozdělujeme hodnoty do tzv. tříd (třídních intervalů). Celý obor hodnot je pak rozdělen na třídní intervaly, přičemž daná pozorovaná hodnota spadá vždy do jedné třídy. Počet tříd k lze volit podle potřeby. Obvykle se k pohybuje mezi 5 a 20, nebo se volí je., popř. použijeme tzv. Sturgesovo pravidlo, podle kterého 1.1.2. Histogram Zdokonalení sloupcového diagramu. - zobrazení četností ve formě sloupců četnosti - histogram nám určuje homogenitu souboru, určí zda je homogenní nebo zda se rozpadá do dílčích menších podsouborů. (homogení soubor má jen jednu nejčetnější hodnotu) X intervaly Y četnosti or relativní četnosti. Z grafu lze odhadnout, jestli údaje datového souboru jsou soustředěny symetricky nebo nesymetricky.

SVS přednášky - 4-1.1.3. Grafický výstup v proceduře univariate pokud chci v proceduře jen grafický výstup (histogram), musím potlačit numerické výstupy. proc univariable data = jméno souboru histogram_jméno proměnné pro kterou kreslím Je třeba posoudit, jestli data mají normální rozdělení do histogramu proto dáme křivku normal, případně exponencial. proc univariable data = jméno souboru histogram <jm>/ normal exponencial; 1.1.4. box plot grafické zobrazení tvz. pětičíselného souhrnu

SVS přednášky - 5-2. Přednáška 2.1. Stem and leaf display ~ STEMPLOT Technika kombinující jednoduché grafické a numerické vyjádření - semigrafická technika: soubor: připomíná histogram, ale zde všechny jednotlivé hodnoty jsou zobrazeny a současně při otočení o 90stupnů je vidět případná asymetrie sloupců. př.: měření výšky tuku zaměstnanců. 2 proměnné - výška tuku FAT - pohlaví gender BOX PLOT v SAS insight: analyze box plot (Y) (závislá proměnný fat)

SVS přednášky - 6 - Zobrazení četností proc freq data=dd; tables fat; The SAS System 15:20 Tuesday, January 2, 2007 37 Procedura FREQ Kumulativní Kumulativní fat Četnost Procenta četnost procenta 8 1 4.35 1 4.35 12 3 13.04 4 17.39 13 1 4.35 5 21.74 16 2 8.70 7 30.43 18 1 4.35 8 34.78 19 1 4.35 9 39.13 20 2 8.70 11 47.83 21 2 8.70 13 56.52 22 3 13.04 16 69.57 23 2 8.70 18 78.26 24 1 4.35 19 82.61 26 1 4.35 20 86.96 28 1 4.35 21 91.30 30 1 4.35 22 95.65 31 1 4.35 23 100.00 Základní charakteristiky souboru proc univariate data=dd; Procedura UNIVARIATE Proměnná: fat a. Momenty N 23 Součet vah 23 Průměr 19.9565217 Součet pozorování. 459 Std odchylka 5.99604613 Rozptyl 35.9525692 Šikmost -0.1011105 Špičatost -0.3896871 Nekorigovaný SS 9951 Korigovaný SS 790.956522 Variační koeficient 30.045547 Std chyba průměru 1.25026205 b. Základní statistické míry Poloha Variabilita Průměr 19.95652 Std odchylka 5.99605 Medián 21.00000 Rozptyl 35.95257 Modus 12.00000 Rozpětí 23.00000 Mezikvartilové rozpětí 7.00000 NOTE: Zobrazený režim je nejmenší z 2 režimů s počtem 3.

SVS přednášky - 7 - c. Testy polohy: Mu0=0 Test -Statistika- ----p hodnota----- Studentovo t t 15.96187 Pr > t <.0001 Znaménko M 11.5 Pr >= M <.0001 Znam. pořadí S 138 Pr >= S <.0001 Kvantily (Definice 5) Kvantil Odhad 100% max. 31 99% 31 95% 30 90% 28 75% Q3 23 50% Medián 21 25% Q1 16 10% 12 5% 12 1% 8 0% Min. 8 d. Procedura UNIVARIATE Proměnná: fat Extrémní pozorování ----Nejnižší---- ----Nejvyšší---- Hodnota Poz Hodnota Poz 8 4 24 13 12 17 26 15 12 12 28 21 12 10 30 22 13 1 31 8

SVS přednášky - 8-2.1.1. Sten and leaf display + box plot přidáním příkazu plot do procedury univariate vyvolá zobrazení dat. var proměnná (upřesnění). proc univariate data=dd plot; var fat; Kmen List # Krb.graf 3 01 2 2 68 2 2 0011222334 10 +--+--+ 1 6689 4 +-----+ 1 2223 4 0 8 1 ----+----+----+----+ násobit listy větve číslem 10**+1 Třídění podle pohlaví Funkcí class roztřídíme výstupy podle pohlaví. proc univariate data=dd plot; class gender; var fat; Graf pravděpodobnosti norm. rozdělení 32.5+ * ++*++++++ +*+*++++ ***+*+*+*+* +**+**+++ +*++*+*+* 7.5+ +++++*++ +----+----+----+----+----+----+----+----+----+----+ -2-1 0 +1 +2 Procedura UNIVARIATE Proměnná: fat gender = f Momenty N 10 Součet vah 10 Průměr 22.3 Součet pozorování. 223 Std odchylka 5.31350481 Rozptyl 28.2333333 Šikmost -0.6035944 Špičatost 0.47746822 Nekorigovaný SS 5227 Korigovaný SS 254.1 Variační koeficient 23.8273758 Std chyba průměru 1.68027775 Základní statistické míry Poloha Variabilita Průměr 22.30000 Std odchylka 5.31350 Medián 22.50000 Rozptyl 28.23333 Modus 22.00000 Rozpětí 18.00000 Mezikvartilové rozpětí 5.00000 NOTE: Zobrazený režim je nejmenší z 2 režimů s počtem 2.

SVS přednášky - 9 - Testy polohy: Mu0=0 Test -Statistika- ----p hodnota----- Studentovo t t 13.27162 Pr > t <.0001 Znaménko M 5 Pr >= M 0.0020 Znam. pořadí S 27.5 Pr >= S 0.0020 Kvantily (Definice 5) Kvantil Odhad 100% max. 30.0 99% 30.0 95% 30.0 90% 29.0 75% Q3 26.0 50% Medián 22.5 25% Q1 21.0 10% 14.0 5% 12.0 1% 12.0 0% Min. 12.0 The SAS System 15:20 Tuesday, January 2, 2007 49 Procedura UNIVARIATE Proměnná: fat gender = f Extrémní pozorování ----Nejnižší---- ----Nejvyšší---- Hodnota Poz Hodnota Poz 12 17 23 19 16 16 23 23 21 20 26 15 22 18 28 21 22 14 30 22 Kmen List # Krb.graf 30 0 1 28 0 1 26 0 1 +-----+ 24 22 0000 4 *--+--* 20 0 1 +-----+ 18 16 0 1 14 12 0 1 0 ----+----+----+----+ Graf pravděpodobnosti norm. rozdělení 31+ *+++ *++++ *+++ 25+ +++ * *+*++ * ++++ 19+ ++++ +*+ ++++ 13+ ++++* +----+----+----+----+----+----+----+----+----+----+ -2-1 0 +1 +2

SVS přednášky - 10 - zvolení stonků: STEM 0 1 2 3 ženy stem Muži 6 0 8 3 8 1 3 2 6 2 1 3 9 8 2 6 2 0 2 0 2 0 1 4 3 1 - u mužů je vyšší variabilita, hodnoty jsou více rozptýleny okolo středu, ale muži mají delší stone. Technika je výhodná u malých souborů.

SVS přednášky - 11-2.2. Kvalitativní znaky - procedura gchart Zde budeme provádět vizualizace údajů o kvalitativních znacích v proceduře gchart lze použít sloupcový diagram (bart chart) Př.: Základní skript pro grafický výstup. proc gchart data=jnémo souboru; hbar jm.kvalitativní zobrazované proměnné /sumvar=hodnota podle které se třídí; hbar_jméno kvalitativního znaku strana / sumvar(sečte hodnoty proměnné podíl) a rovná se podíl orientace grafu vodovorně příkaz hbar (vertikálně bbar) subgroup doplňkový příkaz pro barevné odlišení a dole se objeví barevné zastoupení stran. descending- pokud chceme sloupečky uspořádat sestupným způsobem, tak do syntaxe procedury přidáme (ascending) rozšířený skript pro zobrazený výstup: proc gchart data=b; hbar strana/sumvar=podil subgroup=strana descending; 2 možnost je pomocí výsečového grafu koláčový graf (procedura stejná) proc gchart data=svs; pie strana/sumvar=podíl; pie_ jméno kvalitativní zobrazované proměnné

SVS přednášky - 12 - Koblihový graf - DONUT zobrazí podíly a indentifikuje zkratkou jednotlivé kvalitativní proměnné. proc gchart data=b; donut strana/sumvar=podil; trojrozměrné výsečové grafy proc gchart data=svs; pie3d strana/sumvar=podíl; další grafické metody V sasu lze jednotlivé výseče vyříznout ze zobrazení proc gchart data=ms; pie3d strana/sumvar=podil sice=arrow explode="a" "B"; slice= arrow/inside/none/outside ovlivňuje popis zvoleného segmentu. explode =<seznam> -uvádí seznam oddělených segmentů. A B chci specielně odtrhnout úseky vztahující se ke stanám A a B. *komentář poznámka musí být ukončena středníkem; arrow šipky k výsekům

SVS přednášky - 13 - Př.: proc gchart data=ms; pie3d strana/sumvar=podil slice=arrow explode="a" "B"; pozn: úseky které jsou zastoupené méně než 5% SAS sloučí do jednoho - OTHER. 2 proměnné i. kvalitativní akcie ii. kvantitativní počet Př.: podniky počet akcií absolutní zastoupení proměnné počtu, nikoli procentické. sumvar=<variable> - počítá součet hodnot danné proměnné noheading potlačuje tisk hlavičky (nadpisu) percent=arrow/.. value=arrow/inside/none/outside - připisuje jednotlivým segmentům jejich absolutní hodnoty. percent pokud chceme absolutní vyjádření přepočítat na % u jednotlivých akcií. slice=arrow/inside/none/outside ovlivňuje popis zvoleného segmentu zobrazované proměnné. explode seznam oddělených segmentů- proc gchart data=a; pie3d akcie/sumvar=pocet noheading percent=arrow value=inside alice=arrow explode="c"; V soudobé statistické metodologii se moc nepoužívají zkreslující dojem.

SVS přednášky - 14 - Vyjádření pomocí STEM PLOTU procedura univariate 3. přednáška proc univariate data=sasuser.fitness mu=50 cibasic normal plot trimmed=2 winsorized=2; var oxygen; 3.1. průzkumová analýza rozdělení četností klíčovou roli zde hraje procedura univariate. Doplňkové příkazy: mu0=50 tímto příkazem je požadováno provedení testu hypotézy, že průměr základního souboru stat. znaku OXYGEN je roven 50. CIBASIC výpočet intervalů spolehlivosti pro základní statistické char.(požadují normalitu rozdělení) NORMAL výpočet testu normality rozdělení, otestování zdali je rozdělení normální. (důležité pro test MU=50 a pro výpočet intervalu spolehlivosti). PLOT konstrukce visuelních prostředků TRIMMED výpočet useknutého průměru spolu s výpočtem intervalu spolehlivosti. WINSOR výpočet winsorizovaného průměru spolu s příslušným intervalem spolehlivosti pro průměr a jednovýběrovým testem hypotézy o hodnotě průměru prostřednictvím hypotézy nás zajímal výpočet intervalů spolehlivosti.

SVS přednášky - 15-3.2. výstupy procedury univariate 3.2.1. testy polohy : test polohy MU0=50 studentovo t (jednovýběrový ttest) parametrický test, který požaduje normální rozdělení. znaménko M známenkový test neparametrický test nepožaduje normalitu rozdělení Znam pořadí S jednovýběrový Wilcoksonův test neparametrický test nepožaduje normalitu rozdělení ani symetrii Pr (0,0102) < 0,05 => H0 se zamítá (MU0=50). 3.2.2. testy normality (záleží na výběru statistika který vybere a použije) Shapiro-wilk pro malé soubory (obvykle použijeme) n<2000, kvalitní neparametrický test, ale požaduje symetrické rozdělení četností symetrický histogram (v souboru nesmí být odlehlé hodnoty) soubory s n>2000: Kolmagorov-Smirnov Cramer von Mises Anderson darling Tyto testy testují hypotézu: H 0 : soubor má normální rozdělení P value > 0,05 => Soubor má normální rozdělení H A : soubor nemá normální rozdělení P value < 0,05 => Soubor nemá normální rozdělení Pr (P value) je menší než 5% tak zamítáme H0. U malých souborů (n<30) uvedené testy mají snahu přijímat HO, uvedené testy jsou slabé a odchylku od normálního rozdělení mohou potvrdit až u velkých souborů a proto se testu doplňují vhodným grafickým prostředkem příkaz PLOT. PLOT semigrafická podoba. ~ zobrazí STEM PLOT : kmen listopad 60 1 58 6 56 36 59 468 44 6896704968 42 5697859607894960 40 8 36 4 Problematické hodnoty jsou maximální 60,1 a 58,6.

SVS přednášky - 16 - Dále se zobrazí graf. pravděpodobnostního rozdělení graf normálního rozdělení pokud jsou hodnoty ideální tak body splývají s přímkou, ta je znázorněna křížky a naše data *. závěr: U testů normality kombinujeme výstup z Shapirova testu s grafikou, zvláště u malých souborů (do 30). Pokud nám nevyjde normalita rozdělení (ttest), tak užijeme neparametrické testy. Neparametrické testy nepožadují, aby analyzovaná data měla normální rozdělení. Wilkoksonův test je považován za velice kvalitní, ale chce aby soubor měl symetrické rozdělení četností symetrický histogram. U nás je v BOX PLOTU problém s odlehlými hodnotami a v tomto případě dáme přednost znaménkovému testu (nepožaduje ani notmalitu ani symetrii). Pokud máme v souboru nějaké nesrovnalosti tak soubor modifikujeme. Provedeme úpravu: trimmet=2 ~ systém odsekne 2 maximální hodnoty v souboru,ale systém automaticky odsekne i 2 minimální hodnoty. 31 4 = 27 hodnot. Operace cenzorování, která u souborů s malým rozsahem není vždy žádoucí. winsorized=2 - winzorizace je alternativa k odseknutí - 2 maximální hodnoty byly nahrazeny třetí maximální hodnotou který byla hned před nimi a na konci se mi objeví 3 stejné hodnoty, které již nejsou považovány zas odlehlé, totéž se provede i u nejmenších hodnot. Došlo k potlačení extrémů. výstup pro useknutý průměr Upravené průměry (useknutý nebo cenzorovaný průměr) vzniklo useknutím dvou hodnot. meze interval spolehlivosti 45,2 49,03 t pro H0 Pr> t 0,0047 (opět H0 zamítáme) výstup pro winzorizovaný průměr Průměry se neliší a tudíž obě hodnoty tam nehrají roli a lze je ponechat v souboru. pozn.: V SAS je zkratka ODS dovoluje nám z výstupů v systému sas vybrat pouze důležité výstupy (charakteristiky) a také v lepších formátech.

SVS přednášky - 17-3.3. procedura MEANS Další procedura v průzkumové analýze proc means data=sasuser.fitness; var oxigen; výstup: - oxigen je proměnná. Chceme nasadit proceduru na pouze jednu proměnnou oxigen, jinak by to provedl u všech proměnných. N průměr Std odch (směrodatná odchylka) min. max 31 47,36 5,32 37 60 poskytuje pouze základná informace o souboru variabilitu a typickou hodnbotu (průměr). výstup lze rozšířit: proc means data=sasuser.fitnes n mean median min max g1 q2 range grange std cv skewness kurtosis maxdec=3; var oxygen age weight runtime runpulse runpulse; (u kterých proměnných má počítat) doplňkové příkazy na vyžádání: n počet pozorování mean průměr medián Q1 dolní kvartil Q3 - horní kvartil cd var. koeficient relativnéí char. variability směr odch/ průměr* 100 při porovnání variability u proměnných vyjádřených v různých jednotkách std posílá směrodatnou odchylku range variační rozpětí grange kvartilové rozpětí robusní char. variability skewness koeficient šikmosti kurtosis koeficient špičatosti signalizuje lehké a těžké konce. šikmost a špičatost by měla být v případě normálního rozdělení přibližně rovny 0! maxdec = 3 počet desetinných míst.

SVS přednášky - 18 - proměnná FAT - hodnota tuku proměnná GENDER Př.: 13 pozorování a měříme vrstvu podkožního tuku. prohlížení datového souboru procedura PRINT proc print data=svs; var fat gender; zvlášť spočítat pro muže a ženy: proc means data=svs; class (třídení) = gender; var (pro kterou proměnnou má procedura rpoběhnout) fat; statistickou významnost mezi ženou a mužem provedeme ttestem: proc ttest data=svs; class gender; var fat; (testujeme z hlediska hodnoty tuku) title porovnání skupin ; výstup: T testy equal pokud máme stejné rozptyly souborů, koukáme na tento řádek unegual pokud rovnost variancí určí různou variabilitu souborů dvou výběrový ttest požaduje aby oba soubory měli stejnou variabilitu při porovnání. doplňkový test pro Ttesty - rovnost variancí test variability souboru můžu a žen oba soubory mají stejný rozptyl.

SVS přednášky - 19-4. Přednáška - Analýza 2 a více souborů 4.1. 2 výběrový ttest 2 nezávislé náhodné výběry a testujeme hypozézu: Ho: w1 = w2 => průměry základních souborů w1,w2 (mí) předpoklady použitelnosti: 1.) nezávislost pozorování 2.) oba výběry mají normální rozdělení 3.) shodná variabilita obou porovnávaných souborů př.: Je třeba posoudit zda zavedení nové výrobní technologie má statisticky významný vliv na zvýšení rychlosti pracovní operace. Bylo provedeno měření doby trvání této operace při staré i nové technologii a zjištěny tyto výsledky: Chceme posoudit výsledky z hlediska doby trvání stat.významnost. test hypotézy: Ho: průměry základních souborů se neliší. w1 = w2 1. otestujeme nejprve nezávislost předpoklad je splněn 2. otestování normality rozdělení: Každá analýza začíná průzkumovou etapou průzkumovou analýzou grafická technika: analyze BOX PLOT starat/novat jako Y. Roletka zobrazí další charakteristiky.

SVS přednášky - 20-4.1.1. schématické box ploty Př.: skript: proc boxplot data=ms; plot doba*technologie/boxstyle=schematic; nejsou zde problematické údaje. 1 soubor má zvláštní rozdělení. Horní kvartil splívá s max. hodnotou. Průměr, medián splynul buď s horním nebo dolním kvartilem. Medián a průměr se zde odlišují = asymetrie rozdělení a to stěžuje předpoklad normality rozdělení. Pro starou technologii je náročné splnit normalitu rozdělení

SVS přednášky - 21-4.1.2. Zářezové boxploty do jaké míry se tyto soubory odlišují, poskytují důkazy na rozdíl od normálních. proc boxplot data=b; plot doba*technologie/notched; Zářezy představují grafické vyjádření intervalu spolehlivosti pro medián. Začátek zářezů u druhého souboru a konec pokud se v promítnutí na sebe zářezy nepřekrývají tak to znamená že soubory se statisticky významně liší a zamítnutí hypotézy Ho. Při překrytí není statisticky významný rozdíl.

SVS přednášky - 22-4.1.3. Průzkumová analýza pomocí means Další ověření normality rozdělení: proc means data=b maxdec=2; class technologie; pouze základní charakteristiky: směrodatná odchylka nové technologie je menší (1,65) hodnoty jsou vyrovnanější. maxdec= zaokrouhlení na libovolný počet desetinných míst class = rozdělení přístupu do 2 souboru dle technologie. c)ověření normality v obou souborech - užitím testů normality implementovaných v proceduře univariete ods select TestsForNormality; proc univariate data=ms normal; class technologie; var doba; nechceme všechny výstupy, ale jen testy normality a proto je omezíme zkratkou ODS output delivery systém: ods select TestsForNormality;

SVS přednášky - 23 - vybereme Shapiro wilka u nové technologie: P (0,35) > alfa (0,05) => H0 platí a soubor má normální rozdělení u staré technologie P(0,0195) < 0,05 => Ha zamítáme H0 a není splněna normalita. d) Další ověřování normality Přes výsledky testů normality bychom měli dále ověřit, protože síla zvoleného testu vynikne až u velkých souborů a proto konfrontujeme s dalšími grafickými výstupy: proc univariate data=b noprint; class technologie; histogram doba/normal (color=red) kernel (color=green); probplot doba/normal (mu=est sigma=est); příkaz noprint potlačuje nadbytečné numerické výstupy chceme histogramem proložit gausovu křivku a proto je za doba/normal kernel přibalí jádrovou hustotu představuje empirické vyrovnání hystogramu, chceme zelenou barvu hustoty. probplot chceme doplnit analýzu pravděpodobnostními grafy mu=est (estimate ~ odhad) do pravděpodobnostních grafů zobrazí ideální přímku, jak by měla data vypadat, bez toho se zobrazí pouze křížky a hvězdičky. sigma (směrodatná odchylka) odhadnutá z našich dat.

SVS přednášky - 24 - soubor má normální rozdělení, jádrová hustota a gausova křivka se tolik neliší jde o malý soubor. u staré je diference mezi gausovkou a jádrovou křivkou velká.

SVS přednášky - 25 - e) Vlastní provedení 2 výběrovéího ttestu není ale splněn předpoklad normality! proc ttest data=b; class technologie; var doba; (jméno proměnné kterou chci analyzovat) Průměr je doplněn horní a dolní mezí intervalu spolehlivosti. Diff je rozdíl souborů

SVS přednášky - 26 - rovnost variancí kontroluje předpoklad stejné variability (stability nebo vyrovnanosti výsledků) souborů. pomocná hypotéza: H0 oba soubory byli pořízeny ve stejné kvalitě a hodnoty jsou stejně rozházené. H0: sigma1.2 = sigma2.2 P (0,1165) > 0,05 => H0 platí a předpoklad je splněn a lze se podívat na ttesty: rozptyl podle výsledku testu shodnosti rozptylů si vyberu test. equal stejné rozptyly P(0,0158) <0,05 => H0 zamítáme. unequal nestejné rozptyly Ha průměrné doby nejsou stejné a nová technologie vede k významnému zrychlení té operace. f) neparametrický dvouvýběrový ttest. Řešení problému s nesplněním požadavku na normální rozdělení a ttest byl doplněn neparametrickým dvouvýběrovým Wilcoxonovým (univerzálnějším) testem - neparametrické testy (npar1way) proc npar1way data=b wilcoxon; class technologie; var doba;

SVS přednášky - 27 - Poskytuje základní informace - wilkoksonovo score nahrazení hodnot pořadovými čísli, čísla se sečtou zvlášť pro oba soubory. Pokud se soubory neliší, čísla se sobě dost podobají. Zajímá nás pouze jeden výstup. Normální aproximace: Jednostranná hodnota Dvoustranná hodnota - 0,02 => potvrzujeme Ha. souvisí s zadáním testovali jsme H0 : doba S = doba N (průměr) proti jednostrané alternativě w1<w2. vyberu jednostranou alternatiuvu. pokud testuji Ha: w1 nerovná se w2 vyberu oboustranou. A soubor, respektive nová technologie vede ke kratší době. Potvrdíme ttest parametrický. Narušení normality nemá až zase zásadní roli, mnohem více ovlivňuje narušení variability. U obou nesplnění předpokladů se dá použít wilkokson, ale je méně silný než ttest.

SVS přednášky - 28-5. Přednáška Porovnání více než 2 souborů z hlediska jejich středních hodnot 5.1. Analýza rozptylu předpoklady: rozšíření ttestu pro více souborů. 1. analyzované výběry pocházejí ze základních souborů s normálním rozdělením 2. - analyzované soubory mají stejnou variabilitu někdy nazýván předpoklad homoskedasticity. Opakem (neplatí stejná variabilita) je heterostedasticita. Př.: výrobce zkouší 4 různá barevná a grafická provedení obalů svých výrobků. Následující údaje představují počty výrobků balených v různých obalech které byly prodány během jednoho měsíce ve 4 různých hypermarketech. Posuďte zda počet prodaných výrobků je statisticky významně ovlivňován druhem zvolených obalů. 2 2 2 H0: δ 1 = δ 2... δ K, K>2 HA: alespoň jeden obal vede k jiným výsledkům. 2 proměnné: prodej kvantitativní obal - kvalitativní výběry nemají stejné počty pozorování nevyvážený model. H0: m1=m2=m3=m4 SAS: 2 možnosti analýzy a) proc anova (analysis of Variance) - lze použít pouze pro vyvážený model. b) pro nevyvážený i vyvážený lze použít univerzální proc. proc glm (general linear model) Začneme opět průzkumovou analýzou a naše výběrové soubory si zobrazíme pozn: u malých souborů není analýza rozptylu zkreslována robusnost. A.R je odolná na narušení normality!!! 1.) zářezové box ploty pro posouzení odlehlostí atd. Porovnáváme soubory mezi sebou, pokud soubory dáme přes sebe a vruby se nepřekrývají, tak se soubory pravděpodobně od sebe odlišují, jde pouze o orientační pomůcku. proc boxplot data=dm; plot prodej*obal/boxstyle=schematic notches;

SVS přednášky - 29 - /boxstyle schematic notches zářezy na krabičce horní kvartyl dolní kvartil medián křížek průměr hranice souboru interval spolehlivosti pro medián netypická hodnota (extrémní) 2.) Nejlépe se prodává z hlediska průměrného počtu 2, nejméně atraktivní je obal č.4. proc glm data=dm; class obal; model prodej=obal; means obal/hovtest t tukey lines cldiff; class třídící proměnná jak prodej závisý na obalu (analyzovaná = klasifikační) means chceme průměry pro obal- hovtest ověření předpokladu stejné variability. t (lsd) nejmenší významný rozdíl (pokud zamítneme H0, umožní interpretovat odlišný soubor) jak jeden soubor dopadne v porovnání s ostatními. tukey srovnání všech diferencí každý s každým

SVS přednášky - 30 - lines cldiff pozn.: metody mnohonásobného porovnávání pro rozlišení souborů a idenfifikace odlišností od ostatních souborů. V sasu asi 15, např.: t metoda tukey metoda (T) Výstup lze mít ve dvojí formě vyžádáme požadavkem lines nebo cldiff. pozn.: Je třeba rozlišit mezi plánovaním porovnávání porov.souborů nebo následné porovnávání. plánované se týká situace, kdy před analýzou si vytipuji jeden (je zajímavý) a ten chci porovnat s ostatními. V tomto případě metoda lst. Pokud chceme porovnat soubory všechny mezi sebou ~ následné srovnávání (posthok) vyberu metodutukey. The SAS System 10:46 Wednesday, January 31, 2007 1 The GLM Procedure Class Level Information Třída Úrovně Hodnoty obal 4 1 2 3 4 Number of Observations Read 20 Number of Observations Used Závislá proměnná: prodej The SAS System 10:46 Wednesday, January 31, 2007 2 The GLM Procedure Součet Průměrný F Zdroj DF čtverců kvadrát hodnota Pr > F Model 3 105585.0000 35195.0000 6.58 0.0042 Chyba 16 85595.0000 5349.6875 Korigovaný součet 19 191180.0000 H0 se zamítá (0,0042< 0,005) Platí Ha existuje statisticky významný rozdíl Odmocnina

SVS přednášky - 31 - R-kvadrát Koef prom MSE prodej Průměr 0.552281 10.77195 73.14156 679.0000 Průměrný F Zdroj DF Type I SS kvadrát hodnota Pr > F obal 3 105585.0000 35195.0000 6.58 0.0042 Průměrný F Zdroj DF Type III SS kvadrát hodnota Pr > F obal 3 105585.0000 35195.0000 6.58 0.0042 koeficient determinace z kolika % je závisle proměnná (závisí) je ovlivňována tou nezávislou proměnnou (obalem) ~ 55%. - Obal z 55% ovlivňuje množství prodaných výrobků. doplňková syntaxe za / : hovtest: testuje pomocnou hypotézu na shodu rozptylů. The GLM Procedure Levene's Test for Homogeneity of prodej Variance ANOVA of Squared Deviations from Group Means Součet Průměrný F Zdroj DF čtverců kvadrát hodnota Pr > F obal 3 7.1431E8 2.381E8 1.76 0.1946 Chyba 16 2.1606E9 1.3504E8 Přijímáme H0 neexistuje stat. významný rozdíl mezi variabilitou.

SVS přednášky - 32 - nyní je třeba ujasnit, které obaly vyčnívají: LSD: The GLM Procedure t Testy (LSD) pro prodej NOTE: Tento test určuje četnost srovnávací chyby typu I, nikoli četnost experimentální chyby. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby 5349.688 Kritická hodnota t 2.11991 Least Significant Difference 99.08 Harmonic Mean of Cell Sizes 4.897959 NOTE: Cell sizes are not equal. Průměry se stejným písmenem nejsou významně odlišné. t Seskupování Průměr N obal A 766.00 5 3 A B A 720.00 5 2 B B C 650.00 6 1 C C 562.50 4 4 Least Significant Difference - nejmenší významný rozdíl. Pokud průměr překročí hodnotu, je statistycky významný. Průměry se stejným číslem se neliší. B jsou označeny obaly 2 a 1 a od sebe se významně neodlišují. 1 a 4 obal se od sebe také neliší, mají stejné písmeno C. 3 a 4 obal se odlišily statisticky významně. tukey: The SAS System 10:46 Wednesday, January 31, 2007 7 The GLM Procedure Tukeyho test studentizovaného rozsahu (HSD) pro prodej NOTE: Tento test určuje četnost experimentální chyby typu I, obecně však má vyšší četnost chyby typu II než REGWQ. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby 5349.688 Kritická hodnota studentizovaného rozsahu 4.04609 Minimální rozdíl významnosti 133.72 opatrnější významný průměr je vyšší. Harmonic Mean of Cell Sizes 4.897959 NOTE: Cell sizes are not equal. Průměry se stejným písmenem nejsou významně odlišné.

SVS přednášky - 33 - Tukey Seskupování Průměr N obal A 766.00 5 3 A A 720.00 5 2 A B A 650.00 6 1 B B 562.50 4 4 Cldiff ekvivalence k předchozím 2 výstupům: The GLM Procedure t Testy (LSD) pro prodej NOTE: Tento test určuje četnost srovnávací chyby typu I, nikoli četnost experimentální chyby. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby 5349.688 Kritická hodnota t 2.11991 Srovnání významnosti při úrovni 0.05 jsou indikovány ***. Rozdíl obal mezi 95% Confidence Srovnání průměry Limits 3-2 46.00-52.06 144.06 3-1 116.00 22.11 209.89 *** 3-4 203.50 99.49 307.51 *** 2-3 -46.00-144.06 52.06 2-1 70.00-23.89 163.89 2-4 157.50 53.49 261.51 *** 1-3 -116.00-209.89-22.11 *** 1-2 -70.00-163.89 23.89 1-4 87.50-12.59 187.59 4-3 -203.50-307.51-99.49 *** 4-2 -157.50-261.51-53.49 *** 4-1 -87.50-187.59 12.59 The SAS System 10:46 Wednesday, January 31, 2007 5 The GLM Procedure Tukeyho test studentizovaného rozsahu (HSD) pro prodej NOTE: Tento test určuje četnost experimentální chyby typu I. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby 5349.688 Kritická hodnota studentizovaného rozsahu 4.04609

SVS přednášky - 34 - Srovnání významnosti při úrovni 0.05 jsou indikovány ***. Rozdíl obal mezi Souběžné 95% Srovnání průměry Confidence Limits 3-2 46.00-86.35 178.35 3-1 116.00-10.71 242.71 3-4 203.50 63.12 343.88 *** 2-3 -46.00-178.35 86.35 2-1 70.00-56.71 196.71 2-4 157.50 17.12 297.88 *** 1-3 -116.00-242.71 10.71 1-2 -70.00-196.71 56.71 1-4 87.50-47.58 222.58 4-3 -203.50-343.88-63.12 *** 4-2 -157.50-297.88-17.12 *** 4-1 -87.50-222.58 47.58 Závěr: pokud test homogenity nevyjde stejně nebo máme pochybnosti, proceduru nahradím neparametrickým testem kruskal walis. Kruskal Wallisův nezávislý na 1 a 2 předpokladu a ale nemá takovou sílu. proc nparlway data=dm wilcoxon; class obal; var prodej; H0: se zamítá a platí Ha a výsledky z glm lze považovat za platné. 6p. 1. Analýza vícerozměrných statistických souborů - na souboru zkoumáme větší počet znaků

SVS přednášky - 35-1.1. Jednoduchá regresní a korelační analýza Zkoumáme statistickou závislost a její sílu. Y závisle proměnná (vysvětlovaná proměnná) X nezávislá proměnná (vysvětlující proměnná ~ regresní) Regrese průběh (tvar) závislosti. Korelace určení těsnosti závislosti. Předpoklady použitelnosti regresní a korelační analýzy: 1.) Normalita rozdělení analyzovaných veličin (alespoň přibližně splnit) 2.) požadavky na rezidua nezávislé náhodné veličiny které mají normální rozdělení s nulovou střední hodnotou a konstantní rozptyl. proměnné Y;X - regres.f : Y = a + bx korelační pole - body na přímce porovnáme se skutečnými. rozdíl: Yi - Y i = rezidua. R _ C O 5 0-5 korelační pole 10 8 10 12 14 16 18 P_CO

SVS přednášky - 36 - Ex= 0 - kladná a záporná rezidua se vyruší, protože korelační funkce je proložena nejlepším možným způsobem, ani blíž ani dál od jedné strany. Př.: CO = auta proc reg proc corr proc univariate 1.1.1. A) průzkumová analýza proc gplot data=ms; plot co*cars; symbol v=dot c=blue; /*specifikace grafu*/ quit; plot závisle proměnná (osa Y) * nezávisle proměnná. symbol doplňkový příkaz: V = dot (tečky), star atd. C = barva bodů quit výstup z jednotlivých procedůr. Zvýšení auto -> zvýšení CO. Odhad ukazuje přímou a střední závislost až silnou závislost, odlehlé pozorování může skreslit analýzu.

SVS přednášky - 37-1.1.2. B) Posouzení normality ods exclude Moments BasicMeasures TestsForLocation Quantiles ExtremeObs; proc univariate data=ms normal plot; quit; ods exlude vyloučení nežádoucích výstupů. V procedůře testujeme normalitu NORMAL. The SAS System 10:59 Sunday, January 7, 2007 1 Procedura UNIVARIATE Proměnná: co Testy normality Test --Statistika-- ----p hodnota----- Shapiro-Wilk W 0.961221 Pr < W 0.8011 Kolmogorov-Smirnov D 0.126052 Pr > D >0.1500 Cramer-von Mises W-Kv 0.035129 Pr > W-Kv >0.2500 Anderson-Darling A-Kv 0.213003 Pr > A-Kv >0.2500 Kmen List # Krb.graf 22 3 1 20 5 1 18 6 1 +-----+ 16 25 2 14 6 1 12 2 1 *--+--* 10 07 2 8 9 1 +-----+ 6 1 1 4 9 1 ----+----+----+----+ Graf pravděpodobnosti norm. rozdělení 23+ +*++ *+++ *+++ 17+ *+*++ *++ ++*+ 11+ +*+* ++*+ ++* 5+ +*++ +----+----+----+----+----+----+----+----+----+----+ -2-1 0 +1 +2 U malých souborů předpoklad normality je splněn. Medián přibližně by se měl nacházet uprostřed krabice s vousy. Graf pravděpodobnosti norm. rozdělení opět ukazuje na rozdělení N. U obou proměnných je předpoklad normality splněn.

SVS přednášky - 38 - The SAS System 10:59 Sunday, January 7, 2007 2 Procedura UNIVARIATE Proměnná: cars Testy normality Test --Statistika-- ----p hodnota----- Shapiro-Wilk W 0.953396 Pr < W 0.6870 Kolmogorov-Smirnov D 0.154158 Pr > D >0.1500 Cramer-von Mises W-Kv 0.03722 Pr > W-Kv >0.2500 Anderson-Darling A-Kv 0.252849 Pr > A-Kv >0.2500 Kmen List # Krb.graf 3 1 1 2 5889 4 +-----+ 2 123 3 *--+--* 1 567 3 +-----+ 1 1 1 ----+----+----+----+ 1.1.3. C) corelační analýza Graf pravděpodobnosti norm. rozdělení 3.25+ +++*++++ * *+++++*+ 2.25+ *+*+*+++ *++*++*+ 1.25+ +++*++++ +----+----+----+----+----+----+----+----+----+----+ -2-1 0 +1 +2 proc corr data=ms; /*výpočet korelace mezi analyzovanými proměnnými s proc CORR*/ quit; Spočtou se korelace mezi všemi proměnnými, mezi dvojicemi. V souboru jsou jen 2 proměnné a zde je to tudíž žádoucí. U př. s více proměnnými je takový výstup nežádoucí a je třeba upřesnit příkazem VAR. The SAS System 10:59 Sunday, January 7, 2007 4

SVS přednášky - 39 - Procedura CORR 2 Proměnné: co cars Jednoduché statistiky Proměnná N Průměr Std odch Součet Minimum Maximum co 12 13.79167 5.62615 165.50000 4.90000 22.30000 cars 12 2.21667 0.63509 26.60000 1.10000 3.10000 Pearsonovy korelační koeficienty, N = 12 Prob > r pro H0: Rho=0 co cars logická kontrola hodnot MIN/MAX co 1.00000 0.72923 0.0071 cars 0.72923 1.00000 0.0071 korelační matice - diagonála - maximální korelace mezi proměnnou CO a Cars. síla závislosti mezi 2 proměnnými korelace <-1; 1> ~ nepřímá závislost/přímá: 0.72923 -středně silná P hodnota H0: Rho = 0-0,05 > 0,0071 -> HA. model je statisticky významný. - určí statistickou významnost nejen pro náš výběr, ale pro celý základní soubor. Pokud není stat. významný (platí H0), tak výsleek platí pouze pro našich 12 měření a výsledky nejsou zobecnitelné. pozn.: výbrová korelace r korelace v ZS - RO Pokud není splněna normalita, tak použijeme Spearmanův koeficient koeralce neparametrický koeficient. proc corr data=ms spearman; quit; Máme tedy významný model a středně silnou závislost. 1.1.4. D) nalezení regresní přímky proc reg data=ms; model co=cars; quit; model vysvětlovaný=vysvětlující. The SAS System 10:59 Sunday, January 7, 2007 6 Procedura REG Model: MODEL1 Závislá proměnná: co Number of Observations Read 12 Number of Observations Used 12

SVS přednášky - 40 - Analýza rozptylu Součet Průměr F Zdroj DF čtverců Kvadrát hodnota Pr > F Model 1 185.15953 185.15953 11.36 0.0071 Chyba 10 163.02963 16.30296 Korigovaný součet 11 348.18917 Odmocnina MSE 4.03769 R-kvadrát 0.5318 Závislý průměr 13.79167 Přizp R-kv 0.4850 Koef prom 29.27632 analýza rozptylu Ověření zobecnění pro ZS. informuje o tom, zda regresní přímka je platná i pro základní soubor a ne pouze pro náš výběr. Hodnotí model jako celek. H0: pouze výběrový charakter není zobecnitelné HA: model je statisticky významný a model je zobecnitelný. koef. determinace R 2 = 53,1% Z kolika procent jsou změny závisle proměnné vysvětlitelné nezávislou proměnnou. Emise jsou z 53% vyvolány frekvencí projíždějících aut. Odhady parametrů Odhad Standardní Proměnná DF parametru chyba t hodnota Pr > t Regresní 1-0.52840 4.40615-0.12 0.9069 carstanta 1 6.46018 1.91692 3.37 0.0071 intercept (regresní) a absolutní člen regresní koeficient b (stejné znaménko jako korelační) hodnota říká, o kolik se v průměru změní závisle proměnná když se nezávisle proměnná změní o jednotku. o 1000 vozů více -> CO naroste o 6,46 individuální p hodnoty hodnotí jednotlivé složky absolutní člen - 0.9069 není stat. významný regresní člen - 0.0071 je statisticky významný. jako celek je to stat. významné. U ideálního je všechno významné. Současný model je použitelný, ale ne 100%. 1.1.5. E) Zkooumání vlastností reziduí proc reg data=ms; model co=cars/r influence spec; /*r - studentizovaná rezidua a cookova vzdálenost,*/ plot co*cars/cframe=pink; /*pozadí grafu - cframe*/ plot r.*p.; /*reziduální graf*/ plot cookd.*p./cframe=ligr;

SVS přednášky - 41 - symbol v=dot c=green h=1; output out=diag r=rezid; /*vytvoření nového souboru Diag */ quit; 8.p 2. Vícenásobná regrese a korelace Př: studenti do jaké míry je ovlivňována proměnná body (Y) proměnnou hodiny a IQ. Zajímá nás společné kombinované působení obou veličin na absolutní člen. pozn.: pouze 2 proměnné Y.(X) ~ JEDNODUCHÁ REGRESE A KOR. r <-1, 0> Y (X1,X2..Xk) ~ vícenásobná reg a korelace. 1.) změření těsnosti závislosti korelace koef.mnohonásobné korelace R (v jed. r) <0, 1> koeficient mnoh. determinace R 2 - z kolika % je y vysvětlováno veličinami X1 až Xk. 2.) průběh těsnosti regrese hledáme rovnici která popíše závislost Y a ostatních proměnných. Regresní přímka: Y = b 0 +b 1 X 1 +. b K X K b 0 = absolutní člen b 1 = parciální regresní koeficient, charakterizují část vlivů působící na příslušnou proměnnou X. 2.1. Předpoklady použitelnosti mnohonásobné regrese a korelace: a. normalita rozdělení analyzovaných proměnných b. nezávislost vysvětlujících proměnných každá proměnná přispěje novou informací k vysvětlení veličiny Y. Y = b 0 +b 1 X 1 + b 2 X 2

SVS přednášky - 42 - Ověření multikolinearity: i. spočtu korelační matici vysvětlujících proměnných: X1 X2. Xk X1 1 r x1x2 r x1 xk X2 1. 1 Xk 1 r xj xk < 0,75 r xj xk > 0,75 ~ multikolinearita - hodnota korelačního koef. ii. v SASU VIF Variance Inflation Factor VIF > 10 ~ multikolinearita. c. Rezidua, tvz rozdíly Yi Yi`, i = 1,2,3 n by měla mít normální rozdělení s nulovou stření hodnotou a konstantním rozptylem a konstantním rozptylem. - konstantní rozptyl čím je variabilita větší, tím jsou hodnoty kolísavější a méně přesná - normální rozdělení říká, že odhadnutá regresní přímka leží zhruba ve středu hodnot (naměřených). 2.2. testování: začneme posouzením normality vstupních dat univariate (test lze vynechat v případě malých souborů, uvedené testy Shapiro-wilk atd jsou kvalitní až od n>30.) v tomto případě zbytečné málo dat! Lépe přes box plot atd. The SAS System 10:42 Sunday, January 14, 2007 6 Procedura UNIVARIATE Proměnná: R_hodiny (hodiny residuals) Testy normality Test --Statistika-- ----p hodnota----- Shapiro-Wilk W 0.939701 Pr < W 0.5497 Kolmogorov-Smirnov D 0.200058 Pr > D >0.1500 Cramer-von Mises W-Kv 0.058844 Pr > W-Kv >0.2500 Anderson-Darling A-Kv 0.340696 Pr > A-Kv >0.2500 Kmen List # Krb.graf 1 7 1 1 0 1 0 8 1 +-----+ 0 334 3 *--+--* -0 2 1-0 5 1 +-----+ -1-1 6 1-2 3 1 ----+----+----+----+ násobit listy větve číslem 10**-1

SVS přednášky - 43 - Graf pravděpodobnosti norm. rozdělení 0.175+ ++*+ ++++ ++*+ * *+*++* -0.025+ * *+++ ++++ ++++ ++++ * -0.225+ +++++ * +----+----+----+----+----+----+----+----+----+----+ -2-1 0 +1 +2 veličina IQ nemá normální rozdělení a proto není ideální použití pearsonova koef. a proto do skriptu zahrneme ještě spearmana. spočte difoltně spearmena: proc corr var_ proměnné pro které chci provést výpočet. quit; bez příkazu Var spočte všechny korelace proměnných. spočtění korelační matice: proc corr data=ms pearson spearman; quit; rozšířený model mnohonásobné regrese influence zjistí, jestli v množině vysvětlujících proměnných není nějaká odlehlá hodnota. - Leverage( vliv) hii - DFFITS Welschova kulova vzdálenost opět posouzení vlivnost r vlivnost a odlehlost spec spočte tvz Whiteův test umožňuje posoudit konstantní rozptyl reziruí. plot r. *p. konstrukce reziduálního grafu, orientační posouzení vlastností plot cookd. *p. graf hodnot cookovi vzdálenosti symbol - provedení grafů : v=dot (tečky) c=green; output - vytvoříme pomocný soubor: out=diag (název souboru) r=rezid; a s jeho pomocí chceme kontrolovat vlastnosti reziduí, obsahuje jedinou proměnnou nazvanou rezid rezidua.

SVS přednášky - 44 - Proc reg data=ms corr; model body=hodiny iq/r influence vif spec; plot r. *p.; plot cookd. *p.; symbol v=dot c=green; output out=diag r=rezid; quit; Proc reg data=ms corr; model body=hodiny iq/r influence vif spec; plot r. *p.; plot cookd. *p.; symbol v=dot c=green; output out=diag r=rezid; quit; cokova vzdálenost je obecnější do jaké míry to pozorování ovlivňuje celý model DFFITS - do jaké míry to nalezené pozorovaní ovlivňuje tu jednu konkrétní hodnotu veličiny Y, kde byla vlivná hodnota nalezrna.

SVS přednášky - 45-10.P Vícenásobná regrese Y = a + bx + cx 2 Y = b 0 + b 1 X1 + b 2 X2 Př.: proc gplot data=a; plot spotreba*rychlost; symbol v=dot c=blue; 2 vysvětlující proměnné X1 původní rychlost vozu X2 rychlost 2 1. průzkumová analýza

SVS přednášky - 46 - mod insight: pro lineární model. pozn.: vyžádání souboru procedura PRINT zobrazí soubor na který se chci podivat. proc print data=svs; var spotreba rychlost synraxe: proc svs1; set svs; rychlost2=rychlost*rychlost; proc reg data=svs1; LINEAR: model spotreba=rychlost; plot spotreba*rychlost; plot r.*p.; symbol v=dot c=red h=1; QUADRATIC: model spotreba=rychlost rychlost2/r influence spec; plot r.*p.; plot cookd.*p.; - nakreslí graf cook.vzdáklenosti. Osa X(predikované hodnoty, osa Y (cook.vz) ~ pro kterou vyrovnanou hodnotu se objevil problém. plot cookd.*obs.; - pro které pozorování se problém objevil.

SVS přednášky - 47 - plot r.*p.; / konstrukce reziduálního grafu. plot cookd chark kooovy vzdalenosti výstupy: model: LINEAR statisticky významný. R 2 = 0,6273 plot r.*p.; - reziduální graf modelu. Podle reziduí se dá usuzovat, že model lineární není, ideální průběh reziduí u lin.modelu zobrazuje obdélník. model: Quadratic statisticky významný. R 2 = 0,98 ~ 98% - variabilita proměné spotřeba je z 98% vysvětlená proměnnou spotřeba. odhady parametrů individuální P-hodnoty jsou sta.významné. Výstupové statistiky/ Výstupy regresní diagnostiky posouzení kvality modelu QUADRATIC: model spotreba=rychlost rychlost2/r influence spec;

SVS přednášky - 48 - studentizovaná rezidua podává informaci, zda ve vysvětlované proměnné nebyla nějaká hodnota, která by narušila model (extrém nebo odlehlost) - hodnoty ve sloupci porovnáme s /SR/ >2, nebo z hvězdičkovým výstupem ****, v modelu nebyla nalezena Y hodnota která by model zkreslila. Případný údaj je třeba ještě otestovat na vlivnost. cookovo D - cookova vzdálenost určí že pozorování je nejen odlehlé, ale i vlivné. Hodnotí kombinace veličiny Y, X a X 2 Jak vlivné pozorování ovlivňuje všechny hodnoty Y. ukazuje vlivnost v globále, je ovlivněna počtem pozorování 4 D > n D > 0,5 = vlivné pozorování - pozorování č.8, DFFITS (lepší test než cookova vzdálenost) Welschova-kuova vzdálenost Říká jakým způsobem vlivné pozorování ovlivnilo pouze pozorování Y8. p DFFITS > 2 = 0,80 n p=3 n=8 DFFITS > = vlivné pozorování p počet parametrů regresního modelu. (b0, b2, b3) opět identifikovala pozorování č.8 jako vlivné. Hat Diag H klobouková matice H ii p 3 6 > 2 = 2 = = 0,75 n 8 8 n počet měření p počet regresních parametrů (a, b = 2) Ve sloupci žádný takový údaj není. Provedeme kontrolu údajú a. test první a druhé specifikace momentu výstup Whiteůva testu kontroluje předpoklad použitelnosti modelu zda rezidua (rozdíl závislé proměnné a predikované) mají konstantní rozptyl. P-hodnota: 0,15 P.hot > 0,05 => H0. H0: rezidua mají konstantní variabilitu.

SVS přednášky - 49-11.p Kromě zkoumání kvantitativních proměnných je možné se zabývat zkoumáním kvatitativních proměnných. Jejich obměny nejsou vyjádřeni číselně. Kategoriální proměnné (Kvalitativní) např.: vzdělání ZS, SS, VS národnost kvalifikace barva očí základní pojmy: (různé členění) 1) typy kvalitativních znaků: a. alternativni znaky (pouze 2 obměny pohlaví) b. množné (vzdělání atd.) 2) nominální znaky jednotlivé varianty znaku můžeme pouze pojmenovat, ale nedají se utřídit např od nejmenší k největší. (národnost) 3) ordinální znaky znaky lze pojmenovat a zároveň jdou setřídit na stupně. (vzdělání, kvalifikace) Analýza kvalitativních znaků: znak A, B A A1, A2.Ak B- B1,B2,..Bm zkoumání je založeno na sestavení kontingenční tabulky kx m B N 2 k B N1 n n M M n 11 21 k1 n n n 12 22 KKK n k 2 KKK n n ij m 1m KKKn 2m M M km M M nij empirické (experimentální četnosti) - kolikrát se společně vyskytla varianta A1, B1 společně. 2 základní úkoly: I. posouzení závislosti kategoriálních znaků II. určení síly závislosti (těsnosti) III.

SVS přednášky - 50 - použití 2 testů: chí kvadrát vyžaduje spočítat očekávané četnosti, na základě velikosti těch očekávaných četností se rozhodneme o užití testu. Tečkový způsob zápisu. ( n = ij o 2 ij ) χ k m oij počet stupňů volnosti f = ( k 1 )( m 1 ) f = 1 1 = 1 tabulková hodnota 2 χ 3,841 0,05;1 = porovnání vypočtené a tabulkové hodnoty 2 2 χ < χ 2 dif H 0 nazamítáme 2 χ > χ 2 dif H 0 zamítáme existuje závislost a můžeme prokázat její těsnost v SASU porovnáváme vypočtenou hladinu významnosti (P value). SAS se řídí heslem všechno se může hodit a vyhodí vše co umí, je třeba si vybrat vhodnou charakteristiku. p < α H 0 zamítáme H0: kvalitativní znaky A a B jsou nezávislé. očekávané četnosti počítají se z marginálních četností ni n j oij = n chí kvadrát pro kontingenční tabulku k X m se nedá použít, jestli že více než 20% očekávaných četností je < 5, případně když alespoň v jednom políčku kontingenční tabulky je očekávaná četnost < 1. V těchto případech je nutno některé sousedící skupiny spojit (řádky nebo sloupce). Výstupy ~ 2 typy: o chí kvadrátové míry těsnosti závislosti odvozeny od tesu chí kvadrát Cramerovo V V = 2 χ n ( k 1;) pokud H 0 nezamítáme nemá smysl počítat těsnost závislosti

SVS přednášky - 51 - K = menší hodnota z počtu řádků a sloupců. 0 V < 0,3 velmi slabá závislost 0,3 V < 0,8 (0,75) střední závislost 0,8 V < 1 velmi silná závislost U tabulky 2X2 je třeba rozhodovat vždy v absolutní hodnotě. zásadní nevýhodou chí kvadrát testů závislosti je to, že nemají statistický obsah. Příklad: V = 0,56 střední závislost, ale samo o sobě to číslo neznamená nic. Na rozdíl od r 2 který vysvětluje variabilitu závislé proměnné. Nerozlišuje jestli zkoumané znaky jsou nominální nebo ordinální, dále nerozlišuje jestli znak je závisle nebo nezávisle proměnná. o Predikční míry míry typu PRE (proportionale reduction error) mají překonat zmiňované nevýhody. Testy pouze pro znaky nominální/ordinální.charakteristiky rozlišují mezi závislou a nezávislou (asimetrické). pozn.: vstupní tabulka 2x2 Asociační tabulka pohlaví / souhlas ANO NE M B B Ž C D zvláštnosti chí kvadrát test dává spolehlivé výsledky pouze pro dostatečně velké rozsahy výběru. Pro n<20 jsou výsledky obvykle velmi nepřesné a tento test by se neměl používat. pro 20<n<40 se test chí doporučuje používat pouze tehdy, jestliže žádná očekávaná četnost není menší než 5. n>40 pokud nepoužijeme test Chí kvadrát, použijeme Fisherův test. Fisherův přesný test Buňka (1,1) Četnost (F) 10 Levostranný Pr <= F 0.9956 Pravostranný Pr <= F 0.0521 Tabulková pravděpodobnost (P) 0.0477 Dvoustranný Pr <= P 0.0623 Velikost výběru = 20

SVS přednášky - 52 - Př.: Bylo sledováno zda pravidelná účast studentů na přednáškách má vliv na úspěch v prvním termínu u ZK. Ověřte zda existuje závislost mezi znaky. účast/ uspěch ANO NE Ano 30 15 ne 10 25 Tři proměnné: proměnná počet je kvantitativní.úspěch a účast jsou kvalitativní. Příslušná procedura: proc freq data=ms; tables uspech*ucast/expected norow nocol nopercent chisq measures; weight pocet; tables jméno_řádkové proměnné(úspěch)* sloupcová proměnná weight jméno kvantitativní proměnné. Bez ní by byli všechny četnosti nahrazeny 1. /: expected vyžádání očekávaných četností, kůli zvolení testu. norow,nocol,nopercent vyjadřují procentické zastoupení v řádcích, sloupcích a celkové. Tímto je potlačujeme. chisq vytištění testového kritéria chí.kvadrát measures predikční míry The SAS System 11:33 Sunday, January 28, 2007 1 Procedura FREQ Tabulka pro uspech podle ucast uspech ucast Četnost Očekávaná ano ne Součet ano 30 15 45 22.5 22.5 ne 10 25 35 17.5 17.5 Součet 40 40 80 Splňuje podmínky pro užití chí kvadrát testu, 80>20

SVS přednášky - 53 - Statistiky pro tabulku uspech na ucast Statistika DF Hodnota Pr Chí-kvadrát 1 11.4286 0.0007 Chí-kvadrát poměru věrohodností 1 11.7384 0.0006 Spojitě přizp. Chí-kvadrát 1 9.9556 0.0016 Mantel-Haenszelův Chí-kvadrát 1 11.2857 0.0008 Koeficient Fí 0.3780 Kontingenční koeficient 0.3536 Cramerovo V 0.3780 p( 0,0007) < α H 0 zamítáme Prokázali jsme závislost mezi účastí na přednáškách a ZK. 0,3 V < 0,8 (0,75) střední závislost Fisherův přesný test Buňka (1,1) Četnost (F) 30 Levostranný Pr <= F 0.9999 Pravostranný Pr <= F 7.164E-04 Tabulková pravděpodobnost (P) 5.889E-04 Dvoustranný Pr <= P 0.001 The SAS System 11:33 Sunday, January 28, 2007 2 Procedura FREQ Statistiky pro tabulku uspech na ucast Statistika Hodnota ASE Gama 0.6667 0.1361 Kendallovo Tau-b 0.3780 0.1031 Stuartovo Tau-c 0.3750 0.1027 Somersovo D C R 0.3810 0.1038 Somersovo D R C 0.3750 0.1027 Pearsonova korelace 0.3780 0.1031 Spearmanova korelace 0.3780 0.1031 Lambdaasymetrické C R 0.3750 0.1169 Lambdaasymetrické R C 0.2857 0.1527 Lambdasymetrické 0.3333 0.1257 Koeficient nejistoty C R 0.1058 0.0593 Koeficient nejistoty R C 0.1071 0.0600 Symetrický koeficient nejistoty 0.1064 0.0596 Pro znaky nomiální Pro znaky ordinální Zde se jedná o znaky nominální a zhodnotíme pomocí koef. lambda Lambda asymetrické C R (závisle proměnná sloupcová/ řádková nezávislá) Lambda asymetrická R/C (obráceně úspěch/účast. Lamba symetrické nediferencuje. Lambdaasymetrická R/C = 0,2857 proměnná účast na přednáškách ovlivňuej úspěch z 29%.

SVS přednášky - 54 - Typ studie Hodnota 95% Meze interv. spolehlivosti Případové řízení (Poměr šancí) 5.0000 1.9141 13.0609 Skupina (Riziko slp1) 2.3333 1.3287 4.0976 Skupina (Riziko slp2) 0.4667 0.2936 0.7417 Velikost výběru = 80 12.p Př.: Bylo zkoumáno, zda použití určitého očkovacího sera může snížit počet onemocnění nakažlivou chorobou. Pokus byl proveden u 23 pokusných zvířat stejného stáří (12 jich bylo očkováno) a 11 neočkováno. A byla vystevena stejné nákaze. Výsledky šetření jsou uvedeny v tabulce: počet nakažených nenakažených celkem očkovaných 1 11 12 neočkovaných 7 4 11 celkem 8 15 23 teoretická četnost: (12*8) / 3 = 4,17 < 5 => nelze použít chíkvadrát test pro ověření nulové hypotézy H0: výskyt nákazy není závislý na očkování. použijeme: Fisherův test celkem tři proměnné: 1. ockování ano/ ne 2. nákaza ano/ne vysvětlovaná proměnná je ve sloupci i. tyto proměnné nelze třídit podle nějaké stupnice a jde o znaky nominální. 3. počet skript: ods rtf; proc freg data=ms; tables ockovani*nakaza/norow nocol nopercent chisq measures; weight pocet; ods rtf close;

SVS přednášky - 55 - použitý: proc freg data=mss; tables ockovani*nakaza/norow nocol nopercent chisq measures; weight pocet; P (0,0094) < 0,05 => HA. Procedura FREQ Tabulka pro ockovani podle nakaza ockovani nakaza Četnost ano ne Součet ano 1 11 12 ne 7 4 11 Součet 8 15 23 Statistiky pro tabulku ockovani na nakaza Statistika DF Hodnota Pr Chí-kvadrát 1 7.7378 0.0054 Chí-kvadrát poměru věrohodností 1 8.4155 0.0037 Spojitě přizp. Chí-kvadrát 1 5.4919 0.0191 Mantel-Haenszelův Chí-kvadrát 1 7.4014 0.0065 Koeficient Fí -0.5800 Kontingenční koeficient 0.5017 Cramerovo V -0.5800 VAROVÁNÍ: 50% buněk má očekávané počty menší než 5. Chí-kvadrát může být neplatný test. Fisherův přesný test Buňka (1,1) Četnost (F) 1 Levostranný Pr <= F 0.0084 Pravostranný Pr <= F 0.9997 Tabulková pravděpodobnost (P) 0.0081 Dvoustranný Pr <= P 0.0094 doplňkové charakteristiky příkaz measure: koef. mají statistický obsah Procedura FREQ Statistiky pro tabulku ockovani na nakaza Statistika Hodnota ASE Gama -0.9012 0.1144 Kendallovo Tau-b -0.5800 0.1610 Stuartovo Tau-c -0.5520 0.1655 Somersovo D C R -0.5530 0.1655 Somersovo D R C -0.6083 0.1634 Pearsonova korelace -0.5800 0.1610 Spearmanova korelace -0.5800 0.1610 Lambdaasymetrické C R 0.3750 0.3278 Lambdaasymetrické R C 0.5455 0.1734 Lambdasymetrické 0.4737 0.2271