Průzkumová analýza dat (Exploratory Data Analysis, EDA)

Podobné dokumenty

Analýza časových řad. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p

T t. S t krátkodobé náhodná složka. sezónní. Trend + periodická složka = deterministická složka

4EK211 Základy ekonometrie

Volba vhodného modelu trendu

( ) Základní transformace časových řad. C t. C t t = Μ. Makroekonomická analýza Popisná analýza ekonomických časových řad (ii) 1

Demografické projekce počtu žáků mateřských a základních škol pro malé územní celky

Pasivní tvarovací obvody RC

5EN306 Aplikované kvantitativní metody I

Využijeme znalostí z předchozích kapitol, především z 9. kapitoly, která pojednávala o regresní analýze, a rozšíříme je.

Vybrané metody statistické regulace procesu pro autokorelovaná data

Klasifikace, identifikace a statistická analýza nestacionárních náhodných procesů

FINANČNÍ MATEMATIKA- ÚVĚRY

IMPULSNÍ A PŘECHODOVÁ CHARAKTERISTIKA,

Schéma modelu důchodového systému

Zhodnocení historie predikcí MF ČR

Modelování volatility akciového indexu FTSE 100

Analýza rizikových faktorů při hodnocení investičních projektů dle kritéria NPV na bázi EVA

ZPŮSOBY MODELOVÁNÍ ELASTOMEROVÝCH LOŽISEK

Úloha V.E... Vypař se!

Návrh rozložení výroby jednotlivých výrobků do směn sloužící ke snížení zmetkovitosti

Výkonnost a spolehlivost číslicových systémů

Metodika zpracování finanční analýzy a Finanční udržitelnost projektů

Skupinová obnova. Postup při skupinové obnově

V EKONOMETRICKÉM MODELU

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika přednášky LS 2006/07

7. INDEXY ZÁKLADNÍ, ŘETĚZOVÉ A TEMPO PŘÍRŮSTKU

73-01 KONEČNÝ NÁVRH METODIKY VÝPOČTU KAPACITU VJEZDU DO OKRUŽNÍ KOMENTÁŘ 1. OBECNĚ 2. ZOHLEDNĚNÍ SKLADBY DOPRAVNÍHO PROUDU KŘIŽOVATKY

Parciální funkce a parciální derivace

2. ZÁKLADY TEORIE SPOLEHLIVOSTI

Derivace funkce více proměnných

EKONOMETRIE 6. přednáška Modely národního důchodu

Nové metody a přístupy k analýze a prognóze ekonomických časových řad

5. Využití elektroanalogie při analýze a modelování dynamických vlastností mechanických soustav

ANALÝZA EKONOMICKÝCH ČASOVÝCH ŘAD S PŘÍKLADY

Matematika v automatizaci - pro řešení regulačních obvodů:

Fyzikální korespondenční seminář MFF UK

Úloha VI.3... pracovní pohovor

ODHADY VARIABILITY POSLOUPNOSTÍ

Analýza citlivosti NPV projektu na bázi ukazatele EVA

Jméno a příjmení holka nebo kluk * Třída Datum Škola

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE PROVOZNĚ EKONOMICKÁ FAKULTA DOKTORSKÁ DISERTAČNÍ PRÁCE

Analogový komparátor

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Porovnání způsobů hodnocení investičních projektů na bázi kritéria NPV

2.2.2 Měrná tepelná kapacita

DERIVACE A MONOTÓNNOST FUNKCE DERIVACE A MONOTÓNNOST FUNKCE. y y

Přednáška kurzu MPOV. Klasifikátory, strojové učení, automatické třídění 1

Vliv funkce příslušnosti na průběh fuzzy regulace

Uživatelský manuál. Řídicí jednotky Micrologic 2.0 a 5.0 Jističe nízkého napětí

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Aplikace analýzy citlivosti při finačním rozhodování

Vojtěch Janoušek: III. Statistické zpracování a interpretace analytických dat

10 Lineární elasticita

APLIKACE INDEXU DAŇOVÉ PROGRESIVITY V PODMÍNKÁCH ČESKÉ REPUBLIKY

Specifikace minimálních požadavků železnice na ukazatele kvality signálu GNSS/GALILEO pro nebezpečnostní železniční telematické aplikace

MATEMATIKA II V PŘÍKLADECH

Návod k obsluze. Vnitřní jednotka pro systém tepelných čerpadel vzduch-voda s příslušenstvím EKHBRD011ABV1 EKHBRD014ABV1 EKHBRD016ABV1

Lineární rovnice prvního řádu. Máme řešit nehomogenní lineární diferenciální rovnici prvního řádu. Funkce h(t) = 2

listopadu 2016., t < 0., t 0, 1 2 ), t 1 2,1) 1, 1 t. Pro X, U a V najděte kvantilové funkce, střední hodnoty a rozptyly.

transformace Idea afinního prostoru Definice afinního prostoru velké a stejně orientované.

FREQUENCY SPECTRUM ESTIMATION BY AUTOREGRESSIVE MODELING

RŮSTOVÉ MODELY ČESKÉHO STRAKATÉHO SKOTU

Seznámíte se s principem integrace substituční metodou a se základními typy integrálů, které lze touto metodou vypočítat.

Katedra obecné elektrotechniky Fakulta elektrotechniky a informatiky, VŠB - TU Ostrava 4. TROJFÁZOVÉ OBVODY

5 GRAFIKON VLAKOVÉ DOPRAVY

2.2.9 Jiné pohyby, jiné rychlosti II

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Tabulky únosnosti tvarovaných / trapézových plechů z hliníku a jeho slitin.

NA POMOC FO. Pád vodivého rámečku v magnetickém poli

Srovnání výnosnosti základních obchodních strategií technické analýzy při obchodování měn CZK/USD a CZK/EUR 1

Teorie obnovy. Obnova

LindabCoverline. Tabulky únosností. Pokyny k montáži trapézových plechů Lindab

Prognózování vzdělanostních potřeb na období 2006 až 2010

PRAVDĚPODOBNOST A STATISTIKA

Scenario analysis application in investment post audit

9 Viskoelastické modely

MÍRA RIZIKA CHUDOBY V ČESKÉ REPUBLICE Z HLEDISKA POHLAVÍ LEVEL OF POVERTY RISK FROM THE GENDER SEEK IN THE CZECH REPUBLIC

Fyzikální praktikum II - úloha č. 4

STATICKÉ A DYNAMICKÉ VLASTNOSTI ZAŘÍZENÍ

Měření výkonnosti údržby prostřednictvím ukazatelů efektivnosti

, Brno Hanuš Vavrčík Základy statistiky ve vědě

4.5.8 Elektromagnetická indukce

Numerická integrace. b a. sin 100 t dt

Pilové pásy PILOUS MaxTech

4. Střední radiační teplota; poměr osálání,

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Věstník ČNB částka 25/2007 ze dne 16. listopadu 2007

Popisná statistika. Komentované řešení pomocí MS Excel

Biologické modely. Robert Mařík. 9. listopadu Diferenciální rovnice 3. 2 Autonomní diferenciální rovnice 8

Úloha II.E... je mi to šumák

Popis regulátoru pro řízení směšovacích ventilů a TUV

Stochastické modelování úrokových sazeb

ANALÝZA ČASOVÝCH ŘAD IVAN KŘIVÝ OSTRAVA URČENO PRO VZDĚLÁVÁNÍ V AKREDI TOVANÝCH STUDIJ NÍCH PROGRAMECH

1.3.4 Rovnoměrně zrychlený pohyb po kružnici

PLL. Filtr smyčky (analogový) Dělič kmitočtu 1:N

Modelování rizika úmrtnosti

7.4.1 Parametrické vyjádření přímky I

Ekonomika podniku. Katedra ekonomiky, manažerství a humanitních věd Fakulta elektrotechnická ČVUT v Praze. Ing. Kučerková Blanka, 2011

Práce a výkon při rekuperaci

x udává hodnotu směrnice tečny grafu

Transkript:

19. února 2007 Přednáška 1 maeriály: přednášky zápoče: v průběhu semesr určiý projek na zápoče a na známku, kerá bude ke zkoušce zkouška: zadaný určiý problém, na něj zadaný určiý čas, zpracováván s využiím poznaků, keré se v rámci semináře získají, a pak se obhájí poče posluchačů: 18 + 1 přednášející Základní eapy saisické analýzy SEMMA: S Sample E Explore M Modify M Modul A Assess Explore průzkumová fáze, prozkoumání důležiých vlasnosí zkoumaných da zajímá nás, zda disponibilní daový soubor nemá nějaké zvlášní neypické rysy, keré by mohli určiým způsobem ovlivni další analýzu snažíme se pozna zvlášnosi daového souboru, snaha nají shluky či neshluky (shluky soubor je asi nehomogenní, možnos rozděli a sudova zvlášť), dá se soubor modelova pomocí normálního rozdělení? (j. důležiý požadavek pro uskuečnění důležiých saisických analýz) Modify neypické údaje mohou o bý údaje chybné (nuno opravi či vyřadi) nebo o je nuno zachyi a nějak se s ím vypořáda mezery v daech doplnění údajů nuno zapoji i lidský fakor a vybra vhodnou varianu keré proměnné do vícenásobného regresního modelu zařadi Model provádíme vlasní saisické zpracování Assess vyhodnocujeme výsledky a zpracování zprávy někdy zjisíme, že je nuno celý posup opakova j. vrái se k E a upravi daa SPSS program saisický, SEMMA 5A (jiný název, sejné kroky jako v SASu) Průzkumová analýza da (Exploraory Daa Analysis, EDA) kombinace grafických, semigrafických a číselných abulkový posupů, keré podají základní informace o vlasnosech souboru Hisogram zobrazení čenosí ve formě sloupků SAS nabízí auomaicky poče říd, dle Surgesova pravidla: K 1+ 3,3log n ímo pravidlem se nemusíme řídi, řídy si můžeme určova libovolně - 1 -

Seminář z výpočení saisiky hisogram nám říká, zda je soubor homogenní, nebo zda se rozpadá do dílčích, menších podsouborů; pozná se o dle oho, zda se zobrazí jen jedna nejčenější hodnoa (pak je o homogenní soubor), nebo více jiných výrazně z věšími čenosi rozpad do více souborů zda je soubor rozdělen symericky kolem sředu nebo asymericky někdy lze zjisi, zda jsou příomny odlehlé řídy Box Plo grafické zobrazení zv. 5i číselného souhrnu minimální hodno - x min, dolní kvaril (1. kvaril) xɶ 0,25, medián - xɶ, horní kvaril xɶ 0,75, a maximální hodnoa - xɶ max ad 2) údaje odlehlé či exrémní jak je pozna? odlehlé hodnoy (ouliners) hodnoy, keré vybočí z následujícího inervalu: x ɶ ± 1, 5 IQR, kde IQR je inerkvarilové rozpěí, j. IQR=xɶ 0,75 xɶ 0,25 ; oo hodnoy se zobrazí ve formě izolovaných bodů j. měly by se prověři, zda o nejsou chybné údaje či chyby Zjišění normálního rozdělení: pohledem na hisogram zda je o rovnoměrné, ale je o velmi zběžné, SAS umí o hisogramu zakresli Gaussovu křivku graf jádrové husoy kernel densiy jedná o grafické vysižení příslušného hisogramu; jádrová husoa se snaží modelova náš hisogram, j. může o bý různě pokroucená křivka, kerá se snaží zachyi různé zlomy v hisogramu, můžeme lépe rozliši, zda se G. křivka a J. husoa od sebe liší/neliší normální pravděpodobnosní graf normal probabiliy plo je doporučován jako přesnější grafická pomůcka pro zjišťování normaliy, převádí vše do lineariy s ideální přímkou na jednu z os se vynesou skuečné údaje seřazené dle velikos, na druhou osu se vynesou hodnoy, keré by se vypočeli z modelu normálního rozdělení (je jedno, na kerou z os se co vynese) pokud jsou skuečné údaje kolem ideální přímky, pak je o velmi silně pravděpodobně model normálního rozdělení časo se sává, že údaje jsou rozmísěny nějakém sysemaickým způsobem (např. vlevo od přímky, vpravo od přímky aj.) zřejmý důkaz o om, že nás soubor nemá normální rozdělení pozn.: v SASu bývá eno graf někdy označován jako zv. QQ graf (QQ plo, Quanile-Quanile Plo) zobrazení: přes SAS Insigh nebo příkaz normal plo Numerické meody normaliy: šikmos skewness charakerisika, kerá nám říká, do jaké míry jsou daa v daovém souboru rozmísěna souměrně kolem nějaké sředové hodnoy: n A = 1 n i ( x x ) 3 i= 1 s 3 ; a by v případě normálního rozdělení měla nabýva hodnou 0, pokud o je kolem 0 v malých rozmezích, pak je ao vlasnos spojena - 2 -

špičaos kurosis - E 1 n normálního rozdělení hodnou 0 n ( x ) 4 i x i= 1 = 4 s 3, opě by měla nabýva v případě špičaos měří husou konců rozdělení čenosí analyzované veličiny, zn. charakerizuje výsky exrémně vysokých a exrémně nízkých hodno pokud E > 0 hovoříme o rozdělení s ěžkými konci (heavy-ailed disribuion), ěžké konce zasoupeny s velkou čenosí, velmi nepříjemný z hlediska saisického zpracování pokud E < 0 hovoříme o rozdělení s lehkými konci (ligh-ailed disribuion), věšina čenosí kolem vrcholu, exrémy jsou sousředěny málo, s ímo souborem se pracuje lépe než s rozdělením s ěžkými konci Seminář z výpočení saisiky Tesy normaliy Pro malé soubory y, keré mají do 2 000 pozorování: Shapiro - Wilk ( n 2000), kvaliní es, budeme jej používa Pro soubory s více než 2000 pozorování: Kolmagorov - Smirnov ( n > 2000), en SAS upřednosňuje Gramer - von Mises ( n > 2000) Anderson Darling ( n > 2000), eno es je doporučován (budeme jej používa) všechny yo esy esují hypoézu: H : 0 analyzovaný soubor má normální rozdělení p-hodnoy (p-value): pokud se objeví hodnoa p < 0, 05 (j. p je menší než 5% hladina významnosi), pak hypoézu zamíáme, pro p > 0,05 nulovou hypoézu přijímáme Přednáška 2 poče posluchačů: 15; přednášející: 1 Prohlédnuí da: proc prin daa = svs; var body; SAS/LAB Guided Daa Analysis na lišě Soluions Analysis Guided Daa Analysis 26. února 2007 Kernel densiy jádrová husoa křivka, kerá se snaží co nejlépe plynulým způsobem vysihnou var našeho hisogramu Prohlédnuí v grafu na Normal probabiliy; říkáme, že es má normální rozdělní (nulová hypoéza), objeví se p-hodnoa (používá se Shapiro-Wilk es), pokud je nižší než hladina významnosi, ak se nulová hypoéza zamíá Zobrazení čenosí: proc freq daa = svs; ables body; Charakerisiky souboru: proc univariae daa = svs; variační koeficien do 60% signalizuje přijaelnou variabiliu mezikvarilové rozpě rozdíl mezi horním a dolním kvarilem udává rozdíl 50% hodno sudenovo jednovýběrový -es - 3 -

znaménko Wilcoxonův es znam. pořadí znaménkový es kvanily čísla, kerá uspořádaný soubor rozdělí na zvolený poče dílčích čásí sejně počený, sejně obsazený; (exisují decily na 10 dílů, percenily na 100 dílů) úprava příkazu univariae: proc univariae daa = svs normal plo cibasic mu0=75; var body; normal vyvolání esu normaliy plo zobrazí se box-plo a sam-and-leaf display cibasic - základní inervaly spolehlivosi (průměr, směrodaná odchylka, rozpyl) mu0=75 průměr je 75 bodů Krb. graf Box-plo O odlehlá hodnoa méně podezřelá hodnoa 5. března 2007 Přednáška 3 Modify: prohlédnuí údajů, zda se skuečně dobře zadali (pokud o lze) vyřazení údajů (cenzurování): je o možná úprava, dříve bývala doporučovaná, vzniká problém, že vyřazováním údajů zrácíme určiou informaci provádí se zejména ehdy, máme-li velký daový soubor upravení hodno: zmenšení exrémnosi, přiblížení osaním hodnoám vhodná echnika winsorizace: všechny nejmenší hodnoy se nahradí hodnoou, kerá je před nimi soubor se nezmenší, jen se přizpůsobí jejich hodnoám ao operace je symerická; o co se provede na levé sraně, o se musí provés na pravé sraně (i když am žádná hodnoa řeba problemaická není) vhodná u souborů, keré nejsou příliš velké a rozsáhlé procedura: proc univariae daa = svs normal plo cibasic mu0 = 75 winsor = 3 rimmed = 3; var body; paramery: normal oesování, že daa mají normální rozdělení plo 3 grafické výsupy (boxplo apod.) cibasic základní inervaly spolehlivosi (průměr, směrodaná odchylka, rozpyl) mu0 = 75 es hypoézy, že nulový zisk je 75 bodů winsor = 3 za rovníko poče bodů, keré se budou přizpůsobova osaním rimmed = 3 cenzurování, usekávání 3 (v našem případě) hodno procedura pro výpis pouze hisogramu: proc univariae daa = svs noprin; hisogram body / normal kernel; probplo body/normal; normal zakreslení Gaussovy křivky kornel zakreslení jádrové husoy - 4 -

probplo normální pravděpodobnosní graf: ( ) 1 f x = e σ 2π ( x µ ) 2 2 2σ Seminář z výpočení saisiky jakmile se dá příkaz hisogram, vypadne Shapiro-Wilcox es procedura pro výpis hisogramu s přidanými informacemi: proc univariae daa = svs noprin; hisogram body / normal (color = red kernel color = green); probplo body / normal (mu = es sigma = es w = 3); symbol v = circle; inse min q1 median mean q3 max / posiion = bm; mu = es znázornění přímky, vycházející z průměrné hodnoy normálního souboru sigma = es w = 3 modifikace loušťky přímky symbol v = circle modifikace, jak by měl vypada normální pravděpodobnosí graf (míso výchozích křížků budou kolečka; lze ješě do, riangle apod.) inse doplnění/vložení ke grafu určiých výsupů/informací: min minimum, q1 dolní kvaril; median medián; mean průměr; q3 horní kvaril; max maximum; posiion kam vloži yo informace; bm boom margin (dolní okraj) Rozdělení souboru do několika dílčích podsouborů jedna proměnná kvaniaivní a jedna kvaliaivní soubor jedna hodnoa číselná (podkožní uk) a jedna pohlaví (m/f) procedura MEANS: proc means daa = svs; class gender; var fa; rozdělení výsupů dle pohlaví j. class = gender proc means daa = svs n mean median min max range sddev q1 q3 qrange cv skewness kurosis clm maxdec = 3; class = gender; var faa; range variační rozpěí qrange kvadrilové rozpěí cv variační koeficien skewness šikmos kurosis špičaos clm conffidence limi for mean inerval spolehlivosi pro průměr maxdec = 3 určí se, na kolik deseinných bude výsup variabilia do 60% - je přijaelná, více signalizuje rozházenos souboru kladná špičaos ěžké konce výsup graficky: proc char daa = svs; hbar fa / group = gender; zobrazení grafu (hbar, vbar); zadání group = jméno kvaliaivní proměnné vyvoří se graf side-by-side plo vedle sebe samosané grafy pomocí dvou procedur: proc sor daa = svs; by gender; - 5 -

proc char daa = svs; by gender; hbar fa; nejdříve seřídění da podle kvaliaivní proměnné (j. proc sor) a pak následuje procedura char, kde se dá sejné jméno jako v řídicí proceduře a vykreslím graf; 12. března 2007 Přednáška 4 účas: 15 sudenů + jeden přednášející Základní paramerické a neparamerické esy o sřední hodnoě a) případ jednoho výběru: jednovýběrový -es: H : µ = µ (1), kde µ je průměr základního souboru; µ 0 je předpokládaná hodnoa průměru základního 0 0 souboru es je založen na klíčovém předpokladu, že analyzovaný daový soubor má normální rozdělení Předpoklad: daa analyzovaného výběru pocházejí ze základního souboru s normálním rozdělením pokud je předpoklad splněné, esujeme pomocí jednovýběrového -esu pokud předpoklad není splněn použije se neparamerický Wilcoxonův es SAS: procedure UNIVARIATE procedure TTEST kombinací ěcho procedur se bude hypoéza uvádě a esova b) porovnání průměrů dvou souborů H : µ = µ, kde µ 1 je průměr 1. základního souboru; µ 2 je průměr 2. základního souboru 0 1 0 1) porovnávané výběry jsou nezávislé předpoklady použielnosi: porovnávané daové soubory předsavují náhodné výběry ze základních souborů s normálním rozdělením porovnávané soubory musí mí sejnou variabiliu, j. aby byl splněn požadavek: rozpyl 1. základního souboru se rovná rozpylu 2. základního souboru H : σ = σ (2), j. 2 2 0 1 2 pokud jsou yo požadavky splněny, esuje se hypoéza (2) pomocí dvouvýběrového -esu (paramerický es) jesliže není splněn požadavek rovnosi rozpylů, esuje se hypoéza (2) pomocí zv. Welchova esu (paramerický es) pokud porovnávané výběry nemají normální rozdělení, esuje se hypoéza (2) pomocí neparamerického dvouvýběrového Wilcoxonova esu (procedure NPAR1WAY) Procedura UNIVARIATE (pro využií T-Tesu) proc univariae daa = svs normal polo mu0 = 1000; // pro 1000 předpokládaný průměr var hmonos; paramerický es díváme se na sudenovo (v esech polohy) esy normaliy při 20 hodnoách se díváme na Shapiro-Wilk es, říká, že soubor má normální rozdělení pro malé soubory je eno es málo silný, es má endenci hypoézu přijíma; pro velké soubory má endenci bý naopak velmi silný a hypoézy zamíá díva se nejen na es, ale i na grafický výsup na graf normálního rozdělení - 6 -

neparamerický es Znam. pořadí S ( v esech polohy) Procedura TTEST proc es daa = svs H0 = 1000; var hmonos; průměr dolní CL a horní CL (inervaly spolehlivosi pro průměr) auomaicky se vypočíávají meze 95% inervalu spolehlivosi mezní odchylka o samé výsledek T-esu v bloku T-esy nabízí pouze paramerický 1-výběrový -es, nenabízí neparamerický es a nenabízí možnosi prověřování normaliy (je edy nezbyné oo provés a zkonrolova) 2-výběrové esy paramerický es proc es daa = svs; class echnologie; //kvaliaivní proměnná var doba; //kvaniaivní proměnná blok rovnos variancí (na konci): zda je splněn rovnos rozpylů pokud o plaí, pak se díva do bloku T- esy díva se do bloku se správným T-esem sloupec Rozpyl Equal versus Unequal záleží na naší rovnosi varianci neparamerický es: proc npar1way daa = svs wilcoxon; class echnologie; var doba; sloupec Wilcoxonův dvouvýběrový es blok normální aproximace dvousranná p-hodnoa (Pr > Z ) pro závislé esy párové výběrý proc es daa = svs; paired sandardni * usporna; //párové údaje, jména dílčích souborů, keré porovnávám, oddělení hvězdičkou ve výsupu podíva se na T-Tesy diference souborů es pro nulovou hodnou rozdílu daa svs; se svs; rozdil = sandardni usporna; //rozdil mezi posupy pro univariae daa = svs; var rozdil; Přednáška 5 Analýza rozpylu rozšíření problemaiky párového -esu, slouží k porovnávání více než 2 souborů nulová hypoéza: průměry více než dvou souborů se sobě rovnají alernaivní: alespoň jeden ze souborů má jiný průměr echnika není použielná univerzálně daa musí splňova určié předpoklady H : µ = µ =... = µ ki, kde se jedná o průměry základních souborů 0 1 2 A : 0 alespoň jeden průměr se osaním nerovná 19. února 2007-7 -

zkraka ANOVA analýza rozpylu analysis of variance ANOV paramerická esovací meoda předpoklady použielnosi analýzy rozpylu: 1) porovnávané výběrové soubory jsou navzájem nezávislé 2) analyzovaná daa předsavují náhodné výběry, keré byly pořízeny ze základních souborů, keré mají normální rozdělení s konsanním rozpylem porovnávané výběry by měli mí přibližně sejnou variabiliu pokud nejsou splněny výše uvedené předpoklady nuno použí neparamerický es neparamerická obdobou ANOVA je zv. Kruskal-Wallisův es příklad porovnání 3 souborů, předsavují dobu, kerá uplynule od podání určiého léku do doby, než příznaky nemoci usoupili (léky B1, B2, B3), analyzovaná daa je doba v minuách meoda OSD zjišění normaliy meoda ODS (oupu delivery sysem) ve spojení s procedurami SASu umožňuje, abychom lépe provedli es normaliy (i lepší výsup, než např. procedura univariae): ods exclude momens esforlocaion quaniles exremeobs; proc univariae daa = svs normal plo; class lek; var doba; exclude vyloučení: momens (vyloučení bloku s momeny); esforlocaion (esy polohy); quaniles (vyřazení bloku s kvanily), exremeobs (exrémní pozorování) dále vyžádání si esu normaliy a zobrazení grafických výsupů Obecný lineární model procedura GLM proc glm daa = svs; class = lek; model doba = lek; means lek; model chceme modelova, jak doba závisí na léku proc glm daa = svs; class = lek; model doba = lek; means lek / hoves ukey; proc boxplo; plo doba * lek; hoves es homogeniy rozpylu ověření, zda soubory mají sejnou variabiliu (Levene s Tes for Homogeniy ) ukey rozlišení meodou mnohonásobného porovnávání (muliple comparsion) Tukeyho es es probíhá ím způsobem, že se vypočou všechny možné rozdíly mezi možnými porovnávanými průměry -meoda spočíá minimální rozdíl významnosi předsavuje hranici, kerá odděluje nepodsaný náhodný rozdíl průměrů od oho již podsaného, významného pokud rozdíly překročí uo hranici, pak diference mezi porovnávanými soubory je významný SAS o vše sám shrne zařazení procedury bloxplo, vzájemná pozice doba a léku vyvážený pokusný plán je charakerizován ím, že všechny porovnávané soubory mají sejný poče pozorování (vyvážený = orogonální) LSD meoda leas significaion difference ehdy, když nás předem bude zajíma jedna konkréní diference, jeden konkréní soubor j. bude-li se liši od osaních je pro nás důležiý a chceme se na něj zaměři - 8 -

Seminář z výpočení saisiky v omo případě je doporučována meoda LSD, je silnější, zejm. v om, že minimální hodnoa (minimální rozdíl významnosi) je nižší, j. je cilivější proc glm daa = svs; class = lek; model doba = lek; means lek / hoves LSD; proc boxplo; plo doba * lek; paramerem LSD vyžádána procedura LSD S-meoda Scheffé (auor), pokud je pokusný plán nevyvážený (j. výběry mají nesejné soubory) proc glm daa = svs; class = lek; model doba = lek; means lek / hoves scheffe; proc boxplo; plo doba * lek; paramer scheffe univerzální/vhodná meoda, může bý použia i pro vyvážené pokusné plány, je méně cilivá, je schopná odhali až velké rozdíly mezi porovnávanými rozdíly poznamka:šidákova meoda paramer sidak lze použí pro paramerické i neparamerické esy Meoda REGWQ proc glm daa = svs; class = lek; model doba = lek; means lek / hoves regwq; dle názvů příjmení auorů ao echnika se zaměřuje na odhalení chyby 2. druhu (předchozí se spíše zaměřovali na odhalení chyby 1. druhu) Dunneova meoda proc glm daa = svs; CLDIFF class = lek; model doba = lek; means lek / hoves dunne ( B2 ); porovnávání se sandardem máme nějaký průměr, kerý považujeme za sandard a chceme o porovna s ímo sandardem vybraným (do závorky napsa název kaegorie) proc glm daa = svs; class = lek; model doba = lek; means lek / hoves ukey cldiff; míso seskupení průměrů písmenky, spočíají se všechny rozdíly souborů, hvězdičkami se vyznačí, keré průměry se odlišují - 9 -

26. března 2007 Přednáška 6 Anova (2) Procedura GLM: daa nezávislá porovnávané výběry sejné rozpyly normální rozdělení pomocná nulová hypoéza: H : σ = σ =... = σ, k > 2 2 2 2 0 1 2 k analýza rozpylu je velmi odolná vůči nesrovnalosem v normaliě rozdělení, ale je hodně ovlivňována nesplněním pomocného požadavku doplňkový požadavek hoves Levenův es (homogenia rozpylu) Brown-Forsyhe es v současnosi nejlepší es pro homogeniu rozpylu dle saisické meodologie: do příkazu: hoves = bf Procedura ANOVA synaxe je úplně sejná jako u GLM: proc ANOVA pokud je pokusný plán vyvážený, všechny porovnávané výběrové soubory mají sejné rozsahy, ak je možno používa uo proceduru ao procedura je rychlejší, má lepší algorimus Nesrovnalosi Jak posupova v případě, že není splněné předpoklad o shodě rozpylů, případně když je výrazně narušena normalia rozdělení. V omo případě není procedura GLM vhodným posupem. Analýza rozpylu = paramerická esovací meoda ( nuná normalia rozdělní, shoda rozpylů); pokud yo předpoklady splněny nejsou, pak je nuno zvoli neparamerickou meodu (obdobu) analýzy rozpylu Kruskal-Wallisův es Kruskal-Wallisův es funguje univerzálněji, nepožaduje žádné požadavky na vsupní daa má menší sílu než ANOVA proc NPAR1WAY pokud se es zamíne, ak SAS implicině neřekne, kerý en soubor je jiný v případě, že nulová hypoéza H : σ = σ =... = σ, k > 2 byla zamínua, je nuné pomocí meody 2 2 2 0 1 2 k mnohonásobného porovnávání provés deailnější zhodnocení výsledků analýzy rozhodnou, keré průměry se od sebe saisicky významně liší meoda LSD může bý zavádějící, při opakovaném použií může vés k chybě 1. druhu, můžeme odhalova rozdíly, keré ve skuečnosi nejsou pouze při velmi omezeném poču 1 či 2 diferencí je meoda vhodná než osaní T-meoda (ukey) velmi cilivá na posupy, bývá doporučována zejm. u vyvážených pokusných plánů, pak bývá v ěcho případech považována za jednu z nejlepších SAS ji doplnil, může bý používána i pro nevyvážené pokusné plány, ale velmi dobře funguje zejména u vyvážených plánů, u nevyvážených plánů můžou bý lepší jiné meody Bonferoni argumen bon je použielná univerzálně pro vyvážené i nevyvážené pokusné plány, dokáže odhali menší diference, slabší než T-meoda - 10 -

Šidák meoda sidak v případě nevyvážených pokusný plánů, zde funguje dobře a dává dobré výsledky S-meoda Scheffé, paramer scheffe Seminář z výpočení saisiky meoda univerzální, poměrně slabá, je schopna odhalova až poměrně velké rozdíly mezi soubory, pokud nás zajímají rozdíly nejen mezi bezprosředními průměry, ale i mezi zv. konrasy určié lineární kombinace průměrů; pokud vyvořím určié lineární kombinace rozdílů např. by nás zajímalo j. lineární konrasem by bylo: první a druhý průměr a o bych zprůměrňoval: µ 1 + µ 2 2 konrasy Dunne meoda první lineární konras, µ 3 + µ 4 2 např. druhý lineární konras a chceme porovna yo dva zapisuje se: dunne ( jmeno_e_variany_se_kerou_osani_porovnavame ) meoda, kerá je vhodná pro porovnávání s jednou hodnoou, jesliže mám jeden průměr, kerý považujeme za normu, sandard, s nímž porovnávám všechny osaní Duncanův es paramer duncan pro vyvážený i nevyvážený plán meoda REGWQ Rayen-Eino-Gabriel-Welsch-Q velmi kvaliní, silný es na rozdíl od předchozích esů, keré se snaží omezi chybu první druhu (j. zamínuí hypoézy, kerá je ve skuečnosi správná), se eno es snaží zamezi chybě druhého druhu (j. přijeí hypoézy, kerá je ve skuečnosi chybná) j. snaží se omezi riziko, že bychom přijali riziko, kerá je ve skuečnosi nesprávná Příklad: proc glm daa = svs; class lek; model doba = lek; means lek / hoves = bf lsd bon ukey eidam scheffe regwq dune ( B2 ); proc boxplo; plo doba * le / noched; plo druhá proměnná je řídící; noched určié grafické zhodnocení esu -es LSD pokud rozdíl Les Sign. Diff. uo hodnou, budeme jej považova za výrazný; čím je číslo menší, ím je meoda silnější zářez v box-plou graficky vymezuje hranice inervalu spolehlivosi pro medián; pokud se yo hranice překryjí, pak v omo případě mezi ěmio soubory s velkou pravděpodobnosí není rozdíl; pokud se nepřekrývají, pak rozdíl je s velkou pravděpodobnosí box-plo v základní podobě skeleální yp není schopna odliši neypické, odlehlé aj. hodnoy; skeleální forma vede vždycky úsečku v k maximu/minimu; abychom am měli odlehlé hodnoy, ak se musí napsa k proceduře: boxsyle = schemaic, pak boxploy zobrazují údaje exrémní, neypické, vybočující Přednáška 7 Analýza saisických závislosí Korelační a regresní analýza zabývá se zkoumáním zv. saisických závislosí - 2. dubna 2007-11 -

- 12 - Seminář z výpočení saisiky závislos funkční každé hodnoě nezávislé proměnné je přiřazena právě jedna hodnoa závisle proměnné korelační pole (scaerplo) při zkoumání závislosi je: korelace jak silná závislos, jak ěsně spolu veličiny souvisejí regrese jak vypadá pole jednoduchá závislos je charakerizována ím, že jsou pouze dvě veličiny: y - závisle proměnná vysvělovaná proměnná x - nezávisle proměnná vysvělující proměnná, regresor zkoumá se, do jaké míry je veličina y ovlivňována nezávisle proměnnou x mnohonásobná závislos: y = f ( x x x ),,..., k 1 2 je věší poče vysvělujících proměnných, keré ovlivňují vysvělovanou proměnnou jednosranná závislos: u jednoduchých závislosí pokud pouze jedna z ěch dvou veličin může logicky vysupova v roli závisle proměnné a druhá v roli nezávisle proměnné obousranná závislos: jen u jednoduchých závislosí v závislosi na siuaci lze přehazova závisle a nezávisle proměnné Korelační pole: umožní posoudi, zda vůbec exisuje závislos mezi proměnnými exisence závislosi z jeho zobrazení lze idenifikova, zda v daovém maeriálu neexisují odlehlé hodnoy idenifikace možný var závislosi z varu či uspořádání můžeme někeré funkce popisující var závislosi vylouči nebo zařadi v závislosi na grafickém znázornění: lineární funkce, parabola, sinus/cosinus funkce, nebo am závislos nemusí bý, resp. je slabá dle pole připomínající shluk kauzální příčinná závislos: i když graf vypadá hezky, nelze říci, že exisuje nějaká ao závislos musíme se pá je o logické, má o smysl? odpovídá o racionálním důvodům (např. délka sukní a akci na burze ) jak zkouma korelační pole (ukázka, proč se na o díva i graficky): body na přímce vhodné korelační pole, lze proloži přímkou a uvés k ní rovnici a koeficien deerminace R-square, říká, na kolik model z kolika % vysihuje daný problém body mají nelineární průběh Příklad: SAS sice proloží přímku, kerá má sejnou rovnici a R-square jako v prvním případě body s odlehlým pozorováním (buď jakoby vodorovná přímka nebo svislá) z SASUSER.MONOX 1) nejdříve se podíva na korelační pole procedura GPLOT: proc gplo daa = sasuser.monox; plo co * cars; symbol v = do h = 2 w = 2 c = red; nejdříve se uvádí závisle proměnná (co) a pak nezávisle proměnná (cars) na dalším řádku se nasavuje formáování v = do jak budou body v grafu zobrazeny (puníky); h = 2 heigh jak silné jsou body; w = 2 wigh (do heigh); c = red color

modul SAS/LAB: v Guided daa analysis exový výklad; assumpions violaed narušeny předpoklady inerpreaion overall findings assumpions: prozkoumání: response scaling jesli je řeba daa upravova curvilineariy nelieneairaia ouliers odlehlé údaje consan variance konsanní variany influenial observaions vlivná pozorování kde je hvězdička am je problém klik na o další výsledek ouliers: poenciální pozorování idenifikováno číslem, opě je možno získa exovou nápovědu Seminář z výpočení saisiky overall fi: Pr > F zda je model saisicky významný; j. zda mezi veličinami exisuje či neexisuje saisická závislos parameer esimaes: inercep absoluní člen v rovnici rovnice: y = a + bx, kde a je inercep a b je název proměnné SAS/Insigh: koeficieny jsou nezávisle esovány esují se i jeho složky es říká že člen není saisicky významný spousa výsupů Regresní diagnosika předsavuje soubor posupů, keré dovolují zhodnoi kvaliu zkonsruovaného modelu a kvaliu vsupních da je založena na pojmu reziduí: ei = yi y i, kde y i jsou empirické hodnoy, na přímce předsavují prosředek pro reziduální / regresní diagnosiku předpoklady na rezidua: y i jsou vypočené hodnoy dle modelu j. hodnoy měly by o bý nezávislé náhodné veličiny, keré mají normální rozdělení s nulovou sřední hodnoou a konsanním rozpylem pokud jsou rezidua v obdélníku dobré nebo mohou bý v parabole (nežádoucí) rezidua v megafonu byly zjišťovány se sejnou přesnosí (nežádoucí) rezidua v sinus křivce je závislos mezi reziduí (nežádoucí) Regresní procedura: proc reg daa = sasuser.monox; model co = cars; /* závisle proměnná = nezávisle proměnní */ plo co * cars; výsup: analýza rozpylu říká, zda je model saisicky významný; pokud by model nebyl významný, pak pro nás nemá příliš velkou cenu, plaí jen pro naše údaje - 13 -

pak je informace o koeficienu deerminace odhady paramerů včeně jejich oesování s významnosí obrázek s korelačním polem + po sraně vhodné informace deailnější regresní diagnosika: proc reg daa = sasuser.monox; model co = cars/r; /* /r paramer na vyžádání reziduí */ výsup se doplní o následující informace: Sudenizováná rezidua (v CZ překladu Sudenovo reziduu) informace, zda v množině y údajů veličiny závisle proměnné není nějaký problém něco, co vybočilo informuje o příomnosi odlehlých pozorování pokud překročí 2 je o odlehlé pozorování nebo akéž sudenizovana rezidua s více jak 4 a více hvězdiček pozorování odlehlé + vlivné ovlivňuje kvaliu Cookovo D Cookova vzdálenos musí se spočía hranice: 4, pokud nějaký údaje uo hranici překročí n proc reg daa = sasuser.monox; model co = cars/r influence; /* influence rozšíření výsupu */ rozšíření výsupu k dalším sloupečkům všíma si zejm. sloupečku Ha Diag H obsahuje charakerisiky leverege vliv informují nás, jesli v množině x hodno není odlehlé pozorování; výpoče hranice: 2 p, kde p je poče paramerů rovnice (j. pro naši rovnici o je 2) n Přednáška 8 Vícenásobná regrese a korelace 10 posluchačů + 1 přednášející e y y ', i 1,2,..., n 2 = = s požadavkem, aby ei N ( Θ, σ ) i i i, kde 2 σ je konsanní 16. dubna 2007 y = b0 + b1 x1 +... + bk xk, kde y je vysvělovaná proměnná (závisle proměnná); x,..., 1 x k jsou vysvělující 0 proměnné (nezávisle proměnné, regresory) b - absoluní člen modelu (inercep), b,..., 1 b k - parciální regresní koeficieny Mulikolinearia: nežádoucí vlasnos aby se proměnné mezi sebou navzájem neovlivňovali pokud jsou proměnné mezi s sebou silně závislé r > 0,75 pokud je ao hranice překročena, pak v modelu je určiá nežádoucí provázanos xi y j vysvělujících proměnných měly by se hodnoy upravi spočíání charakerisiky VIF (Variance Inflaion Facor), pokud VIF > 10 příslušná hodnoa je nadbyečná dopady mulikolineariy: Příklad model nemá dobré vysvělující vlasnosi model je velmi nesabilní přidáním dalšího pozorování může model velmi změni při vorbě odhadů může naopak někdy odhad zlepši U 10 podniků 3 proměnné: neschopnos (pracovní), průměrný věk, podíl žen na celkovém poču zaměsnanců. Do jaké míry je neschopnos ovlivňovaná věkem zaměsnanců a podílem žen. - 14 -

1) Posouzení normaliy rozdělení analyzovaných proměnných: ods exclude Momens BasicMeasures TessForLocaion Quaniles ExremeObs; proc univariae daa = svs normal plo; 2) Scaer Plo Marix maice korelačních polí jednolivých proměnných proc insigh daa = svs; scaer neschopnos vek zeny * neschopnos vek zeny; scaer následuje seznam proměnných, za hvězdičkou jsou zopakovány proměnné; zobrazí se maice korelačních grafů každá proměnná s každou 3) Zjišění korelace proc corr daa = svs; spočíá základní saisické charakerisiky proměnných pak spočíá korelační maici (korelační koeficieny a p-hodnoy) 4) Výpoče paramerického Personova korelačního koeficienu a Spearmanova neparamerického koeficienu pořadové korelace zároveň polačení isku základních saisických charakerisik proc corr daa = svs spearman pearson nosimple; 5) Procedura CORR s využiím příkazu WITH proc corr daa = svs nosimple; var vek zeny; wih neschopnos; koreluj vek a zeny s proměnnou neschopnos 6) Modifikace procedury CORR uspořádání korelačních koeficienů podle absoluní hodnoy paramer rank proc corr daa = svs nosimple rank; 7) Základní synaxe procedury REG proc reg daa = svs; model neschopnos = vek zeny; závisle proměnná = seznam nezávisle proměnných zda je model saisicky významný (nul. hypoéza že není saisiky významný) R-kvadrá koeficien mnohonásobné deerminace; konsaování, jak dané proměnné vysvělují vysvělovanou proměnnou odhady paramerů jak vypadají koeficieny rovnice u jednolivých proměnných, na konci jsou individuální p-hodnoy, jak jsou saisicky významné nebo nevýznamné koeficieny; např. model jako celek může bý významný, ale rozpadá se na jednolivé čási 8) Procedura REG doplněná o volielné argumeny isk grafů regresní diagnosiky (graf reziduí, graf hodno Cookovy vzdálenosi) posouzení mulikolineariy VIF posouzení homoskedasiciy SPEC (zda je splněn požadavek konsannosi rozpylu) 1 proc reg daa = svs corr simple; 2 model neschopnos = vek zeny / sb r influcence vif spec; 3 plo r. * p. / cframe = ligr; 4 plo cookd. *p. / cframe = yellow; 5 symbol v = do c = green; 6 oupu ou = diag r = rezid; 7 8 qui; - 15 -

1. simple základní saisické proměnné, corr spočíání korelačního koeficienů (pearsonovské) 2. sb sandardizované regresní koeficieny (bea koeficieny) vliv jednolivých vysvělujících proměnných na vysvělovanou proměnnou; r vyžaduje rezidua pro regresní charakerisiku; influcence vliv odlehlých pozorování; vif esování mulikolineariy; spec výpoče Whie esu umožňuje oesova, zda rezidua mají požadovaný konsanní rozpyl 3. plo r.*p. zobrazí rezidua; cframe = ligr barva pozadí (svěle šedivá) 6. oupu slouží k esování oho, zda rezidua mají konsanní rozpyl s nulovým průměrm; vygeneruje nový daový soubor, jehož jméno se zapíše za příkaz ou (j. diag), bude v sobě auomaicky obsahova soubor svs a navíc bude obsahova rezidua, j. r=rezid do souboru se zařadí rezidua (do proměnné rezid) 8. qui pro jisou, aby se nemíchali proměnné; Whie es jako Tes první a druhé specifikace momenu zajímá nás z něj p-hodnoa, pokud věší než 5%, pak je všechno v pořádku rezidua mají konsanní rozpyl Charakerisika VIF jako Inflace proměnné hranice je 10 9) Tesování normaliy reziduí ods exclude Momens BasicMeasures Quaniles ExremeObs; proc univariae daa = diag normal plo; var rezid; pozor aplikuje se na nový v předchozím případě vyvořený daový soubor diag 23. dubna 2007 Přednáška 9 Vícenásobná regresní a korelační analýza (2) Určení opimální podmnožiny vysvělujících proměnných princip úspornosi modelu princip parsimoie chceme, aby model byl co možná nejjednodušší, i za cenu oho, že zraíme nějakou informaci, ale pokud bude model maemaicky relaivně jednoduchý apod., pak se o vyplaí příklad ze SASUSER.FITNESS 1) Nejdříve pomocí procedury corr zjišění korelační maice: proc corr daa = sasuser.finess pearson spearman nosimple; var age - - maxpulse; wih oxygen; s proměnnou oxygen chci korelova osaní proměnné v příkazu var se vyjmenují vysvělující proměnné, se kerými chci počía je zde fígl na usnadnění napíše se první a poslední v řadě spočíají se korelační koeficieny mezi závisle proměnnou a osaními proměnnými; neparamerické Spearmanovy korelační koeficieny Necha proběhnou proceduru corr proc corr daa = sasuser.finess nosimple; var age - - maxpulse; zjišťujeme, že někeré proměnné lze vyřadi, proože mají mezi s sebou silnou závislos spočíáme si proceduru reg pokud je hodnoa > 10 pak je o problemaická proměnná proc reg daa = sasuser.finess; model oxygen = age - - maxpulse / sb r influence spec vif; plo r. * p.; plo cookd. * obs.; symbol v = do c = red; - 16 -

sb sandardizované koeficieny; argumen r sudenizovaná rezidua a cookova vzdálenos; spec posouzení, zda argumeny mají sálos reziduí vif informace o mulikolineariě První blok Analýza rozpylo hodnoí významnos modelu je významný (p < alfa) R-kvadrá říká, že spořeba kyslíku je vysvělována z cca 84% Blok odhady paramerů: Seminář z výpočení saisiky pro každou proměnnou je spočíán její koeficien, její p-hodnoa, model jako celek může bý významný, ale někeré složky významné bý nemusí Blok inflace proměnné: slouží k posouzení mulikolienariy charakerisiky VIF hranice je 10, blíží se k omu runpulse a maxpulse proměnné obvyklé regresní koeficieny (odhad parameru v bloku odhady paramerů) vliv jednolivé proměnné na závisle proměnnou (j. o kolik se v průměru změní nezávisle proměnná změní, když se závisle proměnná změní o jednu jednoku) sloupeček sandardizovaný odhad j. bea koeficieny, nebo sandardizované regresní koeficieny získali se pomocí požadavku STB v příkazu procedury, umožní posoudi, jaký je relaivní vliv, v jakém vzahu jsou jednolivé vysvělující proměnné vůči sobě; bea koeficieny umožní porovna důležios jednolivých proměnných závěr: pokud chceme posuzova, jak se konkréní vysvělující proměnná podílí na vysvělované proměnné, používáme vsupní odhady parameru; pokud chceme důležios odhadu posoudi navzájem, musíme je porovnáva pomocí bea koeficienů graf reziduálních hodno: měly by bý kolem osy a neměly by se moc zvěšova graf Cookovy vzdálenosi hodnoící vlivnos jednolivých pozorování počíá se pomocí známého vzorce (viz výše) v našem případě jsou 2 hodnoy překračující Výběr opimální podmnožiny vysvělujících proměnných meodami: forward: posupně zařazuje proměnné; nejdříve u, kerá se jeví jako nejdůležiější j. má nejvěší korelační koeficien a je zároveň saisicky nejvíce významný; pak zkusí zařadi další až dojde do savu, kdy o je sále ješě vhodné j. koeficien deerminace se saisicky významně zvýší; v závěru parciální R-square kolik o jednolivá proměnná vysvěluje danou proměnnou; pak je samozřejmě R-kvadrá modelu, kde se posupně R-sqare sčíají backward: zařadí proměnné všechny a posupně vyřazuje nejméně důležiou proměnnou j. dle sloupce individuálních p-hodno j. a, kerá je nejvěší a překračuje hodnou hladiny významnosi a je nejméně důležiá sepwise: kombinuje meody forward a backward; R-square: počíá všechny modely s jednou proměnnou a porovná je dle hodnoy koeficienu deerminace; pak spočíá s dalšími j. 4, 5 - a ponechává na uživaele, co chce vybra a je dobré am ponecha modelů je celkem 2 p 1 kde p je původní poče vysvělujících proměnných Adj R-square: jako R-square dle upraveného koeficienu deerminace, počíá se rochu pozměněný R-square C(p) Mallows: jako R-sqare dle Mallowsova koeficienu - 17 -

proc reg daa sasuser.finess; Forward: model oxygen = age - - maxpulse / selecion = f; Backward: model oxygen = age - - maxpulse / selecion = b; Sepwise: model oxygen = age - - maxpulse / selecion = sepwise; R_square: model oxygen = age - - maxpulse / selecion = rsquare; Adj_Rsquare: model oxygen = age - - maxpulse / selecion = adjrsq; Mallows_Cp: model oxygen = age - - maxpulse / selecion = Cp; výše uvedené posupy se nemusí shodova 30. dubna 2007 Přednáška 10 Vícenásobná regresní a korelační analýza (3) pokračování echnik zařazování vyřazování proměnných v modelu společné pro backward a forwad je o, že proměnná je v modelu zařazena/vyřazena navždy princip úspornosi modelu princip parsimonie: měli bychom se snaži vybra model, kerý má co nejméně proměnných a je co nejjednodušší proc reg daa = sasuser.finess; R_square: model oxygen = age - - maxpulse / selecion = square bes = 5; Adj_Rsquare: model oxygen = age - - maxpulse / selecion = adjrsq bes = 5; Mallows_Cp: model oxygen = age - - maxpulse / selecion = Cp bes = 5; bes = 5 kolik modelů chci, aby se uvedlo j. chci aby meoda vygenerovala pouze 5 nejlepších modelů Kvaliaivní znaky ve saisice můžeme pouze zjišťova, kolikrá byla zasoupen měřený znak alernaivní znak např. pohlaví, když jsou edy možné max. 2 variany množný kvaliaivní znak znak má více varian než dvě (např. národnos, kvalifikace pracovníka aj.) nominální znaky pouze můžeme jednolivé variany znaku pojmenova, nemůže yo variany seřídi dle nějaké supnice j. různé variany ordinální znaky lze je nejen pojmenova (jednolivé variany), ale lze je seřadi [Příklad] Bylo posouzeno, zda pravidelná účas sudenů na přednáškách má vliv na úspěch v prvním ermínu u zkoušky. Ověře, zda exisuje závislos mezi ěmio znaky a určee sílu závislosi. Hodnoy: účas na přednáškách (ano/ne); a úspěch u 1. zkoušky (ano/ne) hodnoy: ano/ano: 30 15 (2. řádek) 10, 25 Asociační abulka (nebo abulka 2x2) abulka předsavuje čenosi j. kolik se vyskylo sudenů, keří chodili na přednášky (uspěly u zkoušky u 1. ermínu) Analýza ve dvou krocích: 1. krok: esování nulové hypoézy: 2 kvaliaivní znaky jsou nezávislé pokud uo nulovou hypoézu zamíneme pak jsou závislé 2. krok pokud jsme nulovou hypoézy nezamíly posup končí 2. krok: změření síly závislosi j. jak je silná - 18 -

Posup v SASu: procedura freq jak údaje abulky založi do SASovského souboru viz abulka níže: úspěch účas poče ano ano 30 ano ne 15 ne ano 10 ne ne 25 ods rf; proc freq daa = svs; ables uspech * ucas / norow nocol nopercen expeced chisq measures; weigh poce; ods rf close; ables nejdříve zapisova proměnnou řádkovou, pak sloupečkovou weigh následuje kvaniaivní proměnná j. čenos v abulce norow, nocol, nepercen polačení zbyečných deailů chisq vyiskne se chi-kvadrá výpis: empirické čenos j. y, keré byly zadány (v 1. řádku abulky) očekávané (eoreické) čenos j. y, keré byly vypočíány (díky slovíčku expeced) measures viz Přednáška 11 Jak o funguje: Chi-sq Závislos dvou alernaivních znaků esujeme pomocí zv. chí-kvadrá esu. Teno es dává kvaliní výsledky pouze ehdy, jesliže rozsah výběru je věší než 20. Pokud se pohybuje mezi 20-40, může se eno es používa jen ehdy, jesliže žádná očekávaná čenos není menší než pě. Obecně by se chí-kvadrá es neměl používa ehdy, jesli více než 20% očekávaných čenosí je menší než 5, nebo když alespoň v jednom políčku abulky je očekávaná čenos menší než 1. vyhodnocení esu na vypočenou hladinu významnosi pokud je menší než 5% - nulovou hypoézu zamíáme (o nezávislos) můžeme v našem případe konsaova, že veličiny jsou závislé Cramerova V zv. Cramerův koeficien charakerisika síly závislosi (obdobný jako korelační koeficien), hodnoí se úplně sejně zv. chí-kvadráová míra v současnosi již rochu překonané, právě díky přepínači measures Chi-kvadrá es: esuje závislos znaků nulová hypoéza dva znaky jsou na sobě nezávislé Fisherův přesný es: pokud by nebylo splněno z vrzení v odsavci výše, pak se pro posuzování používá Fischerův es až jeho konec j. dvousranná P-hodnoa (mám-li nulovou hypoézu zamínou nebo nikoliv) Přednáška 11 chí-kvadráové míry asociační závislos všechny míry jsou odvozeny z esového kriéria chí-kvadrá - 19-7. kvěna 2007 pro nás nejdůležiější a nejkvalinější mírou je zv. Cramerův koeficien Cramer V je o považováno za nejkvalinější, obdoba korelačního koeficienu, pohybuje se mezi 1,1 korelačního koeficienu a síly závislosí, vyhodnocení sejně jako u

Fisherův přesný es: pokud by očekávané hodnoy nesplnily podmínky, keré jsou uvedeny výše nezávislý blok pod Chí-kvadrá esem Measures přepínač predikční míry, míry ypu PRE (proporciální redukce chyby) Seminář z výpočení saisiky mají saisický obsah, říkají, z kolika procen závisle proměnná je ovlivňována nezávisle proměnnou, neboli jakou procenickou redukci chyby naší předpovědi o závisle proměnné nám odsraňuje nezávisle proměnná jsou lepší, než chí-kvadráy, dávají nám více informaci jsou speciální zkonsruovány pro predikční míry, někeré z nich jsou určeny pouze pro nominální znaky, a někeré pouze pro ordinální znaky (chí-kvadráové míry nic z oho schopny nejsou) někeré z nich mají symerickou i asymerickou verzi j. kerá z nich je závisle proměnnou a kerá je nezávisle proměnnou není sejná závislos znaku A na B a B na A možné míry síly závislos: gama, kendallovo au-b, suarovno au-c, somersovo, pearsonova korelace, spearmanova korelace všechny yo jsou doporučovány pro ordinální znaky j. jeho jednolivé znaky lze podle určié supnice uspořáda nejčasěji se používá koeficien gama hodnoy mezi 0 1, inerpreace je podobná jako u korelačního koeficienu, v % (j. * 100) udává z kolika procen am znak udává hodnou příčiny lambdaasymerické, koeficieny nejisoy - pro znaky nominální je možno je pojmenova, rozliši, ale není možné uspořáda znaky lambda : lambdasymerické C R pokud je důležié, kdo je na čem závislý a nezávislý, závisle proměnná je a, kerá je uvedené ve sloupcích výchozí asociační abulky lambdaaysmerické R C pokud je důležié, kdo je na čem závislý a nezávislý, závisle proměnná je a, kerá je uvedena v řádce výchozí asociační abulky (např. 0,2857 dává důvod, že a o vysvěluje a ovlivňuje o z cca 28,57 %) lambdasymerické pokud neurčujeme, kerý znak je závisle a nezávisle proměnnou (může se o prohazova) C collumn sloupec; R row řádek jiný příklad onemocnění a očkování kde se ve výsledcích objeví, že 50% buněk má očekávané čenosi menší než 5; pokud se oo varování objeví použije se Fisherův es všímáme si pouze posledního řádku, kerý je označen jako dvousranných Pr <= P es reprezenuje p-hodnou, pokud je menší než alfa, nulová hypoézu zamíáme konsaujeme, že očkování saisicky významně ovlivňuje poče onemocnění u jedinců pak se o vyhodnocuje pomocí např. pomocí Cramerovo V (-0,580) sřední závislos, znaménko mínus pacieni, keří jsou očkování jsou v menší míře náchylní než i pacieni, keří očkování nebyly; můžou se použí i chí-kvadráová predikční míry PRE závěr: pokud není varování, použijeme chí-kvadrá es, jinak použijeme Fisherův es pokud je abulka rozsáhlejší než 2x2, neiskne se Fisherův es j. jen chí-kvadrá es a případně se zobrazí varování proo je nuné si jej vyžáda v proceduře ods rf; proc freq daa = svs; ables uspech * účas / norow nocol nopercen expeced chisq measures exac; weigh poce; ods rf close; doplňkový požadavek exac pak se zobrazí Fisherův es, kerý se použije pro vyhodnocení pozor Fisherův es je numericky velmi náročný značné nároky na kapaciu paměi počíače může dojí i ke savu, že mu na o nemusí sači paměť - 20 -