1. Přednáška. Základní etapy statistické analýzy. SVS přednášky - 1 -

Rozměr: px
Začít zobrazení ze stránky:

Download "1. Přednáška. Základní etapy statistické analýzy. SVS přednášky - 1 -"

Transkript

1 SVS přednášky Přednáška Základní etapy statistické analýzy SAS INSIGHT základní char. SAS LAB quided data analysis - široká nabídka opravných prostředků.

2 SVS přednášky Prostředky průzkumové analýzy Jde o kombinace různých grafických a číselných postupů, které mají podat základní informace o vlastnostech souboru. Základním prostředkem jsou grafy s různou orientací. Zobrazení datového souboru pomocí grafu Sloupcový diagram. (Bar Chart). četnosti (relativní četnost) procedury v SAS: proc jmeno_procedury data = jméno datového souboru var (proměnná)..; analyzované veličiny hodnoty (integrály) zobrazení datového souboru v grafu. proc chart data = jméno souboru vbar vyska; výsledkem je sloupcový diagram v proceduře Chart. hbar (horizontální orientace) vbar (vertikální orientace)

3 SVS přednášky Procedury gchart mají lepší grafické výstupy proc gchart data=a; hbar vyska; procedura automaticky data setřídí do intervalů podle Sturgesova pravidla automaticky vypočítá počet těch intervalů (tříd K). pozn.: Při velkém rozsahu n náhodného výběru rozdělujeme hodnoty do tzv. tříd (třídních intervalů). Celý obor hodnot je pak rozdělen na třídní intervaly, přičemž daná pozorovaná hodnota spadá vždy do jedné třídy. Počet tříd k lze volit podle potřeby. Obvykle se k pohybuje mezi 5 a 20, nebo se volí je., popř. použijeme tzv. Sturgesovo pravidlo, podle kterého Histogram Zdokonalení sloupcového diagramu. - zobrazení četností ve formě sloupců četnosti - histogram nám určuje homogenitu souboru, určí zda je homogenní nebo zda se rozpadá do dílčích menších podsouborů. (homogení soubor má jen jednu nejčetnější hodnotu) X intervaly Y četnosti or relativní četnosti. Z grafu lze odhadnout, jestli údaje datového souboru jsou soustředěny symetricky nebo nesymetricky.

4 SVS přednášky Grafický výstup v proceduře univariate pokud chci v proceduře jen grafický výstup (histogram), musím potlačit numerické výstupy. proc univariable data = jméno souboru histogram_jméno proměnné pro kterou kreslím Je třeba posoudit, jestli data mají normální rozdělení do histogramu proto dáme křivku normal, případně exponencial. proc univariable data = jméno souboru histogram <jm>/ normal exponencial; box plot grafické zobrazení tvz. pětičíselného souhrnu

5 SVS přednášky Přednáška 2.1. Stem and leaf display ~ STEMPLOT Technika kombinující jednoduché grafické a numerické vyjádření - semigrafická technika: soubor: připomíná histogram, ale zde všechny jednotlivé hodnoty jsou zobrazeny a současně při otočení o 90stupnů je vidět případná asymetrie sloupců. př.: měření výšky tuku zaměstnanců. 2 proměnné - výška tuku FAT - pohlaví gender BOX PLOT v SAS insight: analyze box plot (Y) (závislá proměnný fat)

6 SVS přednášky Zobrazení četností proc freq data=dd; tables fat; The SAS System 15:20 Tuesday, January 2, Procedura FREQ Kumulativní Kumulativní fat Četnost Procenta četnost procenta Základní charakteristiky souboru proc univariate data=dd; Procedura UNIVARIATE Proměnná: fat a. Momenty N 23 Součet vah 23 Průměr Součet pozorování. 459 Std odchylka Rozptyl Šikmost Špičatost Nekorigovaný SS 9951 Korigovaný SS Variační koeficient Std chyba průměru b. Základní statistické míry Poloha Variabilita Průměr Std odchylka Medián Rozptyl Modus Rozpětí Mezikvartilové rozpětí NOTE: Zobrazený režim je nejmenší z 2 režimů s počtem 3.

7 SVS přednášky c. Testy polohy: Mu0=0 Test -Statistika- ----p hodnota----- Studentovo t t Pr > t <.0001 Znaménko M 11.5 Pr >= M <.0001 Znam. pořadí S 138 Pr >= S <.0001 Kvantily (Definice 5) Kvantil Odhad 100% max % 31 95% 30 90% 28 75% Q % Medián 21 25% Q % 12 5% 12 1% 8 0% Min. 8 d. Procedura UNIVARIATE Proměnná: fat Extrémní pozorování ----Nejnižší Nejvyšší---- Hodnota Poz Hodnota Poz

8 SVS přednášky Sten and leaf display + box plot přidáním příkazu plot do procedury univariate vyvolá zobrazení dat. var proměnná (upřesnění). proc univariate data=dd plot; var fat; Kmen List # Krb.graf násobit listy větve číslem 10**+1 Třídění podle pohlaví Funkcí class roztřídíme výstupy podle pohlaví. proc univariate data=dd plot; class gender; var fat; Graf pravděpodobnosti norm. rozdělení * ++* *+*++++ ***+*+*+*+* +**+**+++ +*++*+*+* * Procedura UNIVARIATE Proměnná: fat gender = f Momenty N 10 Součet vah 10 Průměr 22.3 Součet pozorování. 223 Std odchylka Rozptyl Šikmost Špičatost Nekorigovaný SS 5227 Korigovaný SS Variační koeficient Std chyba průměru Základní statistické míry Poloha Variabilita Průměr Std odchylka Medián Rozptyl Modus Rozpětí Mezikvartilové rozpětí NOTE: Zobrazený režim je nejmenší z 2 režimů s počtem 2.

9 SVS přednášky Testy polohy: Mu0=0 Test -Statistika- ----p hodnota----- Studentovo t t Pr > t <.0001 Znaménko M 5 Pr >= M Znam. pořadí S 27.5 Pr >= S Kvantily (Definice 5) Kvantil Odhad 100% max % % % % Q % Medián % Q % % % % Min The SAS System 15:20 Tuesday, January 2, Procedura UNIVARIATE Proměnná: fat gender = f Extrémní pozorování ----Nejnižší Nejvyšší---- Hodnota Poz Hodnota Poz Kmen List # Krb.graf *--+--* Graf pravděpodobnosti norm. rozdělení 31+ *+++ *++++ * * *+*++ * * *

10 SVS přednášky zvolení stonků: STEM ženy stem Muži u mužů je vyšší variabilita, hodnoty jsou více rozptýleny okolo středu, ale muži mají delší stone. Technika je výhodná u malých souborů.

11 SVS přednášky Kvalitativní znaky - procedura gchart Zde budeme provádět vizualizace údajů o kvalitativních znacích v proceduře gchart lze použít sloupcový diagram (bart chart) Př.: Základní skript pro grafický výstup. proc gchart data=jnémo souboru; hbar jm.kvalitativní zobrazované proměnné /sumvar=hodnota podle které se třídí; hbar_jméno kvalitativního znaku strana / sumvar(sečte hodnoty proměnné podíl) a rovná se podíl orientace grafu vodovorně příkaz hbar (vertikálně bbar) subgroup doplňkový příkaz pro barevné odlišení a dole se objeví barevné zastoupení stran. descending- pokud chceme sloupečky uspořádat sestupným způsobem, tak do syntaxe procedury přidáme (ascending) rozšířený skript pro zobrazený výstup: proc gchart data=b; hbar strana/sumvar=podil subgroup=strana descending; 2 možnost je pomocí výsečového grafu koláčový graf (procedura stejná) proc gchart data=svs; pie strana/sumvar=podíl; pie_ jméno kvalitativní zobrazované proměnné

12 SVS přednášky Koblihový graf - DONUT zobrazí podíly a indentifikuje zkratkou jednotlivé kvalitativní proměnné. proc gchart data=b; donut strana/sumvar=podil; trojrozměrné výsečové grafy proc gchart data=svs; pie3d strana/sumvar=podíl; další grafické metody V sasu lze jednotlivé výseče vyříznout ze zobrazení proc gchart data=ms; pie3d strana/sumvar=podil sice=arrow explode="a" "B"; slice= arrow/inside/none/outside ovlivňuje popis zvoleného segmentu. explode =<seznam> -uvádí seznam oddělených segmentů. A B chci specielně odtrhnout úseky vztahující se ke stanám A a B. *komentář poznámka musí být ukončena středníkem; arrow šipky k výsekům

13 SVS přednášky Př.: proc gchart data=ms; pie3d strana/sumvar=podil slice=arrow explode="a" "B"; pozn: úseky které jsou zastoupené méně než 5% SAS sloučí do jednoho - OTHER. 2 proměnné i. kvalitativní akcie ii. kvantitativní počet Př.: podniky počet akcií absolutní zastoupení proměnné počtu, nikoli procentické. sumvar=<variable> - počítá součet hodnot danné proměnné noheading potlačuje tisk hlavičky (nadpisu) percent=arrow/.. value=arrow/inside/none/outside - připisuje jednotlivým segmentům jejich absolutní hodnoty. percent pokud chceme absolutní vyjádření přepočítat na % u jednotlivých akcií. slice=arrow/inside/none/outside ovlivňuje popis zvoleného segmentu zobrazované proměnné. explode seznam oddělených segmentů- proc gchart data=a; pie3d akcie/sumvar=pocet noheading percent=arrow value=inside alice=arrow explode="c"; V soudobé statistické metodologii se moc nepoužívají zkreslující dojem.

14 SVS přednášky Vyjádření pomocí STEM PLOTU procedura univariate 3. přednáška proc univariate data=sasuser.fitness mu=50 cibasic normal plot trimmed=2 winsorized=2; var oxygen; 3.1. průzkumová analýza rozdělení četností klíčovou roli zde hraje procedura univariate. Doplňkové příkazy: mu0=50 tímto příkazem je požadováno provedení testu hypotézy, že průměr základního souboru stat. znaku OXYGEN je roven 50. CIBASIC výpočet intervalů spolehlivosti pro základní statistické char.(požadují normalitu rozdělení) NORMAL výpočet testu normality rozdělení, otestování zdali je rozdělení normální. (důležité pro test MU=50 a pro výpočet intervalu spolehlivosti). PLOT konstrukce visuelních prostředků TRIMMED výpočet useknutého průměru spolu s výpočtem intervalu spolehlivosti. WINSOR výpočet winsorizovaného průměru spolu s příslušným intervalem spolehlivosti pro průměr a jednovýběrovým testem hypotézy o hodnotě průměru prostřednictvím hypotézy nás zajímal výpočet intervalů spolehlivosti.

15 SVS přednášky výstupy procedury univariate testy polohy : test polohy MU0=50 studentovo t (jednovýběrový ttest) parametrický test, který požaduje normální rozdělení. znaménko M známenkový test neparametrický test nepožaduje normalitu rozdělení Znam pořadí S jednovýběrový Wilcoksonův test neparametrický test nepožaduje normalitu rozdělení ani symetrii Pr (0,0102) < 0,05 => H0 se zamítá (MU0=50) testy normality (záleží na výběru statistika který vybere a použije) Shapiro-wilk pro malé soubory (obvykle použijeme) n<2000, kvalitní neparametrický test, ale požaduje symetrické rozdělení četností symetrický histogram (v souboru nesmí být odlehlé hodnoty) soubory s n>2000: Kolmagorov-Smirnov Cramer von Mises Anderson darling Tyto testy testují hypotézu: H 0 : soubor má normální rozdělení P value > 0,05 => Soubor má normální rozdělení H A : soubor nemá normální rozdělení P value < 0,05 => Soubor nemá normální rozdělení Pr (P value) je menší než 5% tak zamítáme H0. U malých souborů (n<30) uvedené testy mají snahu přijímat HO, uvedené testy jsou slabé a odchylku od normálního rozdělení mohou potvrdit až u velkých souborů a proto se testu doplňují vhodným grafickým prostředkem příkaz PLOT. PLOT semigrafická podoba. ~ zobrazí STEM PLOT : kmen listopad Problematické hodnoty jsou maximální 60,1 a 58,6.

16 SVS přednášky Dále se zobrazí graf. pravděpodobnostního rozdělení graf normálního rozdělení pokud jsou hodnoty ideální tak body splývají s přímkou, ta je znázorněna křížky a naše data *. závěr: U testů normality kombinujeme výstup z Shapirova testu s grafikou, zvláště u malých souborů (do 30). Pokud nám nevyjde normalita rozdělení (ttest), tak užijeme neparametrické testy. Neparametrické testy nepožadují, aby analyzovaná data měla normální rozdělení. Wilkoksonův test je považován za velice kvalitní, ale chce aby soubor měl symetrické rozdělení četností symetrický histogram. U nás je v BOX PLOTU problém s odlehlými hodnotami a v tomto případě dáme přednost znaménkovému testu (nepožaduje ani notmalitu ani symetrii). Pokud máme v souboru nějaké nesrovnalosti tak soubor modifikujeme. Provedeme úpravu: trimmet=2 ~ systém odsekne 2 maximální hodnoty v souboru,ale systém automaticky odsekne i 2 minimální hodnoty = 27 hodnot. Operace cenzorování, která u souborů s malým rozsahem není vždy žádoucí. winsorized=2 - winzorizace je alternativa k odseknutí - 2 maximální hodnoty byly nahrazeny třetí maximální hodnotou který byla hned před nimi a na konci se mi objeví 3 stejné hodnoty, které již nejsou považovány zas odlehlé, totéž se provede i u nejmenších hodnot. Došlo k potlačení extrémů. výstup pro useknutý průměr Upravené průměry (useknutý nebo cenzorovaný průměr) vzniklo useknutím dvou hodnot. meze interval spolehlivosti 45,2 49,03 t pro H0 Pr> t 0,0047 (opět H0 zamítáme) výstup pro winzorizovaný průměr Průměry se neliší a tudíž obě hodnoty tam nehrají roli a lze je ponechat v souboru. pozn.: V SAS je zkratka ODS dovoluje nám z výstupů v systému sas vybrat pouze důležité výstupy (charakteristiky) a také v lepších formátech.

17 SVS přednášky procedura MEANS Další procedura v průzkumové analýze proc means data=sasuser.fitness; var oxigen; výstup: - oxigen je proměnná. Chceme nasadit proceduru na pouze jednu proměnnou oxigen, jinak by to provedl u všech proměnných. N průměr Std odch (směrodatná odchylka) min. max 31 47,36 5, poskytuje pouze základná informace o souboru variabilitu a typickou hodnbotu (průměr). výstup lze rozšířit: proc means data=sasuser.fitnes n mean median min max g1 q2 range grange std cv skewness kurtosis maxdec=3; var oxygen age weight runtime runpulse runpulse; (u kterých proměnných má počítat) doplňkové příkazy na vyžádání: n počet pozorování mean průměr medián Q1 dolní kvartil Q3 - horní kvartil cd var. koeficient relativnéí char. variability směr odch/ průměr* 100 při porovnání variability u proměnných vyjádřených v různých jednotkách std posílá směrodatnou odchylku range variační rozpětí grange kvartilové rozpětí robusní char. variability skewness koeficient šikmosti kurtosis koeficient špičatosti signalizuje lehké a těžké konce. šikmost a špičatost by měla být v případě normálního rozdělení přibližně rovny 0! maxdec = 3 počet desetinných míst.

18 SVS přednášky proměnná FAT - hodnota tuku proměnná GENDER Př.: 13 pozorování a měříme vrstvu podkožního tuku. prohlížení datového souboru procedura PRINT proc print data=svs; var fat gender; zvlášť spočítat pro muže a ženy: proc means data=svs; class (třídení) = gender; var (pro kterou proměnnou má procedura rpoběhnout) fat; statistickou významnost mezi ženou a mužem provedeme ttestem: proc ttest data=svs; class gender; var fat; (testujeme z hlediska hodnoty tuku) title porovnání skupin ; výstup: T testy equal pokud máme stejné rozptyly souborů, koukáme na tento řádek unegual pokud rovnost variancí určí různou variabilitu souborů dvou výběrový ttest požaduje aby oba soubory měli stejnou variabilitu při porovnání. doplňkový test pro Ttesty - rovnost variancí test variability souboru můžu a žen oba soubory mají stejný rozptyl.

19 SVS přednášky Přednáška - Analýza 2 a více souborů výběrový ttest 2 nezávislé náhodné výběry a testujeme hypozézu: Ho: w1 = w2 => průměry základních souborů w1,w2 (mí) předpoklady použitelnosti: 1.) nezávislost pozorování 2.) oba výběry mají normální rozdělení 3.) shodná variabilita obou porovnávaných souborů př.: Je třeba posoudit zda zavedení nové výrobní technologie má statisticky významný vliv na zvýšení rychlosti pracovní operace. Bylo provedeno měření doby trvání této operace při staré i nové technologii a zjištěny tyto výsledky: Chceme posoudit výsledky z hlediska doby trvání stat.významnost. test hypotézy: Ho: průměry základních souborů se neliší. w1 = w2 1. otestujeme nejprve nezávislost předpoklad je splněn 2. otestování normality rozdělení: Každá analýza začíná průzkumovou etapou průzkumovou analýzou grafická technika: analyze BOX PLOT starat/novat jako Y. Roletka zobrazí další charakteristiky.

20 SVS přednášky schématické box ploty Př.: skript: proc boxplot data=ms; plot doba*technologie/boxstyle=schematic; nejsou zde problematické údaje. 1 soubor má zvláštní rozdělení. Horní kvartil splívá s max. hodnotou. Průměr, medián splynul buď s horním nebo dolním kvartilem. Medián a průměr se zde odlišují = asymetrie rozdělení a to stěžuje předpoklad normality rozdělení. Pro starou technologii je náročné splnit normalitu rozdělení

21 SVS přednášky Zářezové boxploty do jaké míry se tyto soubory odlišují, poskytují důkazy na rozdíl od normálních. proc boxplot data=b; plot doba*technologie/notched; Zářezy představují grafické vyjádření intervalu spolehlivosti pro medián. Začátek zářezů u druhého souboru a konec pokud se v promítnutí na sebe zářezy nepřekrývají tak to znamená že soubory se statisticky významně liší a zamítnutí hypotézy Ho. Při překrytí není statisticky významný rozdíl.

22 SVS přednášky Průzkumová analýza pomocí means Další ověření normality rozdělení: proc means data=b maxdec=2; class technologie; pouze základní charakteristiky: směrodatná odchylka nové technologie je menší (1,65) hodnoty jsou vyrovnanější. maxdec= zaokrouhlení na libovolný počet desetinných míst class = rozdělení přístupu do 2 souboru dle technologie. c)ověření normality v obou souborech - užitím testů normality implementovaných v proceduře univariete ods select TestsForNormality; proc univariate data=ms normal; class technologie; var doba; nechceme všechny výstupy, ale jen testy normality a proto je omezíme zkratkou ODS output delivery systém: ods select TestsForNormality;

23 SVS přednášky vybereme Shapiro wilka u nové technologie: P (0,35) > alfa (0,05) => H0 platí a soubor má normální rozdělení u staré technologie P(0,0195) < 0,05 => Ha zamítáme H0 a není splněna normalita. d) Další ověřování normality Přes výsledky testů normality bychom měli dále ověřit, protože síla zvoleného testu vynikne až u velkých souborů a proto konfrontujeme s dalšími grafickými výstupy: proc univariate data=b noprint; class technologie; histogram doba/normal (color=red) kernel (color=green); probplot doba/normal (mu=est sigma=est); příkaz noprint potlačuje nadbytečné numerické výstupy chceme histogramem proložit gausovu křivku a proto je za doba/normal kernel přibalí jádrovou hustotu představuje empirické vyrovnání hystogramu, chceme zelenou barvu hustoty. probplot chceme doplnit analýzu pravděpodobnostními grafy mu=est (estimate ~ odhad) do pravděpodobnostních grafů zobrazí ideální přímku, jak by měla data vypadat, bez toho se zobrazí pouze křížky a hvězdičky. sigma (směrodatná odchylka) odhadnutá z našich dat.

24 SVS přednášky soubor má normální rozdělení, jádrová hustota a gausova křivka se tolik neliší jde o malý soubor. u staré je diference mezi gausovkou a jádrovou křivkou velká.

25 SVS přednášky e) Vlastní provedení 2 výběrovéího ttestu není ale splněn předpoklad normality! proc ttest data=b; class technologie; var doba; (jméno proměnné kterou chci analyzovat) Průměr je doplněn horní a dolní mezí intervalu spolehlivosti. Diff je rozdíl souborů

26 SVS přednášky rovnost variancí kontroluje předpoklad stejné variability (stability nebo vyrovnanosti výsledků) souborů. pomocná hypotéza: H0 oba soubory byli pořízeny ve stejné kvalitě a hodnoty jsou stejně rozházené. H0: sigma1.2 = sigma2.2 P (0,1165) > 0,05 => H0 platí a předpoklad je splněn a lze se podívat na ttesty: rozptyl podle výsledku testu shodnosti rozptylů si vyberu test. equal stejné rozptyly P(0,0158) <0,05 => H0 zamítáme. unequal nestejné rozptyly Ha průměrné doby nejsou stejné a nová technologie vede k významnému zrychlení té operace. f) neparametrický dvouvýběrový ttest. Řešení problému s nesplněním požadavku na normální rozdělení a ttest byl doplněn neparametrickým dvouvýběrovým Wilcoxonovým (univerzálnějším) testem - neparametrické testy (npar1way) proc npar1way data=b wilcoxon; class technologie; var doba;

27 SVS přednášky Poskytuje základní informace - wilkoksonovo score nahrazení hodnot pořadovými čísli, čísla se sečtou zvlášť pro oba soubory. Pokud se soubory neliší, čísla se sobě dost podobají. Zajímá nás pouze jeden výstup. Normální aproximace: Jednostranná hodnota Dvoustranná hodnota - 0,02 => potvrzujeme Ha. souvisí s zadáním testovali jsme H0 : doba S = doba N (průměr) proti jednostrané alternativě w1<w2. vyberu jednostranou alternatiuvu. pokud testuji Ha: w1 nerovná se w2 vyberu oboustranou. A soubor, respektive nová technologie vede ke kratší době. Potvrdíme ttest parametrický. Narušení normality nemá až zase zásadní roli, mnohem více ovlivňuje narušení variability. U obou nesplnění předpokladů se dá použít wilkokson, ale je méně silný než ttest.

28 SVS přednášky Přednáška Porovnání více než 2 souborů z hlediska jejich středních hodnot 5.1. Analýza rozptylu předpoklady: rozšíření ttestu pro více souborů. 1. analyzované výběry pocházejí ze základních souborů s normálním rozdělením 2. - analyzované soubory mají stejnou variabilitu někdy nazýván předpoklad homoskedasticity. Opakem (neplatí stejná variabilita) je heterostedasticita. Př.: výrobce zkouší 4 různá barevná a grafická provedení obalů svých výrobků. Následující údaje představují počty výrobků balených v různých obalech které byly prodány během jednoho měsíce ve 4 různých hypermarketech. Posuďte zda počet prodaných výrobků je statisticky významně ovlivňován druhem zvolených obalů H0: δ 1 = δ 2... δ K, K>2 HA: alespoň jeden obal vede k jiným výsledkům. 2 proměnné: prodej kvantitativní obal - kvalitativní výběry nemají stejné počty pozorování nevyvážený model. H0: m1=m2=m3=m4 SAS: 2 možnosti analýzy a) proc anova (analysis of Variance) - lze použít pouze pro vyvážený model. b) pro nevyvážený i vyvážený lze použít univerzální proc. proc glm (general linear model) Začneme opět průzkumovou analýzou a naše výběrové soubory si zobrazíme pozn: u malých souborů není analýza rozptylu zkreslována robusnost. A.R je odolná na narušení normality!!! 1.) zářezové box ploty pro posouzení odlehlostí atd. Porovnáváme soubory mezi sebou, pokud soubory dáme přes sebe a vruby se nepřekrývají, tak se soubory pravděpodobně od sebe odlišují, jde pouze o orientační pomůcku. proc boxplot data=dm; plot prodej*obal/boxstyle=schematic notches;

29 SVS přednášky /boxstyle schematic notches zářezy na krabičce horní kvartyl dolní kvartil medián křížek průměr hranice souboru interval spolehlivosti pro medián netypická hodnota (extrémní) 2.) Nejlépe se prodává z hlediska průměrného počtu 2, nejméně atraktivní je obal č.4. proc glm data=dm; class obal; model prodej=obal; means obal/hovtest t tukey lines cldiff; class třídící proměnná jak prodej závisý na obalu (analyzovaná = klasifikační) means chceme průměry pro obal- hovtest ověření předpokladu stejné variability. t (lsd) nejmenší významný rozdíl (pokud zamítneme H0, umožní interpretovat odlišný soubor) jak jeden soubor dopadne v porovnání s ostatními. tukey srovnání všech diferencí každý s každým

30 SVS přednášky lines cldiff pozn.: metody mnohonásobného porovnávání pro rozlišení souborů a idenfifikace odlišností od ostatních souborů. V sasu asi 15, např.: t metoda tukey metoda (T) Výstup lze mít ve dvojí formě vyžádáme požadavkem lines nebo cldiff. pozn.: Je třeba rozlišit mezi plánovaním porovnávání porov.souborů nebo následné porovnávání. plánované se týká situace, kdy před analýzou si vytipuji jeden (je zajímavý) a ten chci porovnat s ostatními. V tomto případě metoda lst. Pokud chceme porovnat soubory všechny mezi sebou ~ následné srovnávání (posthok) vyberu metodutukey. The SAS System 10:46 Wednesday, January 31, The GLM Procedure Class Level Information Třída Úrovně Hodnoty obal Number of Observations Read 20 Number of Observations Used Závislá proměnná: prodej The SAS System 10:46 Wednesday, January 31, The GLM Procedure Součet Průměrný F Zdroj DF čtverců kvadrát hodnota Pr > F Model Chyba Korigovaný součet H0 se zamítá (0,0042< 0,005) Platí Ha existuje statisticky významný rozdíl Odmocnina

31 SVS přednášky R-kvadrát Koef prom MSE prodej Průměr Průměrný F Zdroj DF Type I SS kvadrát hodnota Pr > F obal Průměrný F Zdroj DF Type III SS kvadrát hodnota Pr > F obal koeficient determinace z kolika % je závisle proměnná (závisí) je ovlivňována tou nezávislou proměnnou (obalem) ~ 55%. - Obal z 55% ovlivňuje množství prodaných výrobků. doplňková syntaxe za / : hovtest: testuje pomocnou hypotézu na shodu rozptylů. The GLM Procedure Levene's Test for Homogeneity of prodej Variance ANOVA of Squared Deviations from Group Means Součet Průměrný F Zdroj DF čtverců kvadrát hodnota Pr > F obal E E Chyba E E8 Přijímáme H0 neexistuje stat. významný rozdíl mezi variabilitou.

32 SVS přednášky nyní je třeba ujasnit, které obaly vyčnívají: LSD: The GLM Procedure t Testy (LSD) pro prodej NOTE: Tento test určuje četnost srovnávací chyby typu I, nikoli četnost experimentální chyby. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota t Least Significant Difference Harmonic Mean of Cell Sizes NOTE: Cell sizes are not equal. Průměry se stejným písmenem nejsou významně odlišné. t Seskupování Průměr N obal A A B A B B C C C Least Significant Difference - nejmenší významný rozdíl. Pokud průměr překročí hodnotu, je statistycky významný. Průměry se stejným číslem se neliší. B jsou označeny obaly 2 a 1 a od sebe se významně neodlišují. 1 a 4 obal se od sebe také neliší, mají stejné písmeno C. 3 a 4 obal se odlišily statisticky významně. tukey: The SAS System 10:46 Wednesday, January 31, The GLM Procedure Tukeyho test studentizovaného rozsahu (HSD) pro prodej NOTE: Tento test určuje četnost experimentální chyby typu I, obecně však má vyšší četnost chyby typu II než REGWQ. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota studentizovaného rozsahu Minimální rozdíl významnosti opatrnější významný průměr je vyšší. Harmonic Mean of Cell Sizes NOTE: Cell sizes are not equal. Průměry se stejným písmenem nejsou významně odlišné.

33 SVS přednášky Tukey Seskupování Průměr N obal A A A A B A B B Cldiff ekvivalence k předchozím 2 výstupům: The GLM Procedure t Testy (LSD) pro prodej NOTE: Tento test určuje četnost srovnávací chyby typu I, nikoli četnost experimentální chyby. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota t Srovnání významnosti při úrovni 0.05 jsou indikovány ***. Rozdíl obal mezi 95% Confidence Srovnání průměry Limits *** *** *** *** *** *** The SAS System 10:46 Wednesday, January 31, The GLM Procedure Tukeyho test studentizovaného rozsahu (HSD) pro prodej NOTE: Tento test určuje četnost experimentální chyby typu I. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota studentizovaného rozsahu

34 SVS přednášky Srovnání významnosti při úrovni 0.05 jsou indikovány ***. Rozdíl obal mezi Souběžné 95% Srovnání průměry Confidence Limits *** *** *** *** Závěr: pokud test homogenity nevyjde stejně nebo máme pochybnosti, proceduru nahradím neparametrickým testem kruskal walis. Kruskal Wallisův nezávislý na 1 a 2 předpokladu a ale nemá takovou sílu. proc nparlway data=dm wilcoxon; class obal; var prodej; H0: se zamítá a platí Ha a výsledky z glm lze považovat za platné. 6p. 1. Analýza vícerozměrných statistických souborů - na souboru zkoumáme větší počet znaků

35 SVS přednášky Jednoduchá regresní a korelační analýza Zkoumáme statistickou závislost a její sílu. Y závisle proměnná (vysvětlovaná proměnná) X nezávislá proměnná (vysvětlující proměnná ~ regresní) Regrese průběh (tvar) závislosti. Korelace určení těsnosti závislosti. Předpoklady použitelnosti regresní a korelační analýzy: 1.) Normalita rozdělení analyzovaných veličin (alespoň přibližně splnit) 2.) požadavky na rezidua nezávislé náhodné veličiny které mají normální rozdělení s nulovou střední hodnotou a konstantní rozptyl. proměnné Y;X - regres.f : Y = a + bx korelační pole - body na přímce porovnáme se skutečnými. rozdíl: Yi - Y i = rezidua. R _ C O korelační pole P_CO

36 SVS přednášky Ex= 0 - kladná a záporná rezidua se vyruší, protože korelační funkce je proložena nejlepším možným způsobem, ani blíž ani dál od jedné strany. Př.: CO = auta proc reg proc corr proc univariate A) průzkumová analýza proc gplot data=ms; plot co*cars; symbol v=dot c=blue; /*specifikace grafu*/ quit; plot závisle proměnná (osa Y) * nezávisle proměnná. symbol doplňkový příkaz: V = dot (tečky), star atd. C = barva bodů quit výstup z jednotlivých procedůr. Zvýšení auto -> zvýšení CO. Odhad ukazuje přímou a střední závislost až silnou závislost, odlehlé pozorování může skreslit analýzu.

37 SVS přednášky B) Posouzení normality ods exclude Moments BasicMeasures TestsForLocation Quantiles ExtremeObs; proc univariate data=ms normal plot; quit; ods exlude vyloučení nežádoucích výstupů. V procedůře testujeme normalitu NORMAL. The SAS System 10:59 Sunday, January 7, Procedura UNIVARIATE Proměnná: co Testy normality Test --Statistika p hodnota----- Shapiro-Wilk W Pr < W Kolmogorov-Smirnov D Pr > D > Cramer-von Mises W-Kv Pr > W-Kv > Anderson-Darling A-Kv Pr > A-Kv > Kmen List # Krb.graf *--+--* Graf pravděpodobnosti norm. rozdělení 23+ +*++ *+++ * *+*++ *++ ++* *+* ++*+ ++* 5+ +* U malých souborů předpoklad normality je splněn. Medián přibližně by se měl nacházet uprostřed krabice s vousy. Graf pravděpodobnosti norm. rozdělení opět ukazuje na rozdělení N. U obou proměnných je předpoklad normality splněn.

38 SVS přednášky The SAS System 10:59 Sunday, January 7, Procedura UNIVARIATE Proměnná: cars Testy normality Test --Statistika p hodnota----- Shapiro-Wilk W Pr < W Kolmogorov-Smirnov D Pr > D > Cramer-von Mises W-Kv Pr > W-Kv > Anderson-Darling A-Kv Pr > A-Kv > Kmen List # Krb.graf *--+--* C) corelační analýza Graf pravděpodobnosti norm. rozdělení *++++ * *+++++* *+*+*+++ *++*++* * proc corr data=ms; /*výpočet korelace mezi analyzovanými proměnnými s proc CORR*/ quit; Spočtou se korelace mezi všemi proměnnými, mezi dvojicemi. V souboru jsou jen 2 proměnné a zde je to tudíž žádoucí. U př. s více proměnnými je takový výstup nežádoucí a je třeba upřesnit příkazem VAR. The SAS System 10:59 Sunday, January 7,

39 SVS přednášky Procedura CORR 2 Proměnné: co cars Jednoduché statistiky Proměnná N Průměr Std odch Součet Minimum Maximum co cars Pearsonovy korelační koeficienty, N = 12 Prob > r pro H0: Rho=0 co cars logická kontrola hodnot MIN/MAX co cars korelační matice - diagonála - maximální korelace mezi proměnnou CO a Cars. síla závislosti mezi 2 proměnnými korelace <-1; 1> ~ nepřímá závislost/přímá: středně silná P hodnota H0: Rho = 0-0,05 > 0,0071 -> HA. model je statisticky významný. - určí statistickou významnost nejen pro náš výběr, ale pro celý základní soubor. Pokud není stat. významný (platí H0), tak výsleek platí pouze pro našich 12 měření a výsledky nejsou zobecnitelné. pozn.: výbrová korelace r korelace v ZS - RO Pokud není splněna normalita, tak použijeme Spearmanův koeficient koeralce neparametrický koeficient. proc corr data=ms spearman; quit; Máme tedy významný model a středně silnou závislost D) nalezení regresní přímky proc reg data=ms; model co=cars; quit; model vysvětlovaný=vysvětlující. The SAS System 10:59 Sunday, January 7, Procedura REG Model: MODEL1 Závislá proměnná: co Number of Observations Read 12 Number of Observations Used 12

40 SVS přednášky Analýza rozptylu Součet Průměr F Zdroj DF čtverců Kvadrát hodnota Pr > F Model Chyba Korigovaný součet Odmocnina MSE R-kvadrát Závislý průměr Přizp R-kv Koef prom analýza rozptylu Ověření zobecnění pro ZS. informuje o tom, zda regresní přímka je platná i pro základní soubor a ne pouze pro náš výběr. Hodnotí model jako celek. H0: pouze výběrový charakter není zobecnitelné HA: model je statisticky významný a model je zobecnitelný. koef. determinace R 2 = 53,1% Z kolika procent jsou změny závisle proměnné vysvětlitelné nezávislou proměnnou. Emise jsou z 53% vyvolány frekvencí projíždějících aut. Odhady parametrů Odhad Standardní Proměnná DF parametru chyba t hodnota Pr > t Regresní carstanta intercept (regresní) a absolutní člen regresní koeficient b (stejné znaménko jako korelační) hodnota říká, o kolik se v průměru změní závisle proměnná když se nezávisle proměnná změní o jednotku. o 1000 vozů více -> CO naroste o 6,46 individuální p hodnoty hodnotí jednotlivé složky absolutní člen není stat. významný regresní člen je statisticky významný. jako celek je to stat. významné. U ideálního je všechno významné. Současný model je použitelný, ale ne 100% E) Zkooumání vlastností reziduí proc reg data=ms; model co=cars/r influence spec; /*r - studentizovaná rezidua a cookova vzdálenost,*/ plot co*cars/cframe=pink; /*pozadí grafu - cframe*/ plot r.*p.; /*reziduální graf*/ plot cookd.*p./cframe=ligr;

41 SVS přednášky symbol v=dot c=green h=1; output out=diag r=rezid; /*vytvoření nového souboru Diag */ quit; 8.p 2. Vícenásobná regrese a korelace Př: studenti do jaké míry je ovlivňována proměnná body (Y) proměnnou hodiny a IQ. Zajímá nás společné kombinované působení obou veličin na absolutní člen. pozn.: pouze 2 proměnné Y.(X) ~ JEDNODUCHÁ REGRESE A KOR. r <-1, 0> Y (X1,X2..Xk) ~ vícenásobná reg a korelace. 1.) změření těsnosti závislosti korelace koef.mnohonásobné korelace R (v jed. r) <0, 1> koeficient mnoh. determinace R 2 - z kolika % je y vysvětlováno veličinami X1 až Xk. 2.) průběh těsnosti regrese hledáme rovnici která popíše závislost Y a ostatních proměnných. Regresní přímka: Y = b 0 +b 1 X 1 +. b K X K b 0 = absolutní člen b 1 = parciální regresní koeficient, charakterizují část vlivů působící na příslušnou proměnnou X Předpoklady použitelnosti mnohonásobné regrese a korelace: a. normalita rozdělení analyzovaných proměnných b. nezávislost vysvětlujících proměnných každá proměnná přispěje novou informací k vysvětlení veličiny Y. Y = b 0 +b 1 X 1 + b 2 X 2

42 SVS přednášky Ověření multikolinearity: i. spočtu korelační matici vysvětlujících proměnných: X1 X2. Xk X1 1 r x1x2 r x1 xk X Xk 1 r xj xk < 0,75 r xj xk > 0,75 ~ multikolinearita - hodnota korelačního koef. ii. v SASU VIF Variance Inflation Factor VIF > 10 ~ multikolinearita. c. Rezidua, tvz rozdíly Yi Yi`, i = 1,2,3 n by měla mít normální rozdělení s nulovou stření hodnotou a konstantním rozptylem a konstantním rozptylem. - konstantní rozptyl čím je variabilita větší, tím jsou hodnoty kolísavější a méně přesná - normální rozdělení říká, že odhadnutá regresní přímka leží zhruba ve středu hodnot (naměřených) testování: začneme posouzením normality vstupních dat univariate (test lze vynechat v případě malých souborů, uvedené testy Shapiro-wilk atd jsou kvalitní až od n>30.) v tomto případě zbytečné málo dat! Lépe přes box plot atd. The SAS System 10:42 Sunday, January 14, Procedura UNIVARIATE Proměnná: R_hodiny (hodiny residuals) Testy normality Test --Statistika p hodnota----- Shapiro-Wilk W Pr < W Kolmogorov-Smirnov D Pr > D > Cramer-von Mises W-Kv Pr > W-Kv > Anderson-Darling A-Kv Pr > A-Kv > Kmen List # Krb.graf *--+--* násobit listy větve číslem 10**-1

43 SVS přednášky Graf pravděpodobnosti norm. rozdělení * *+ * *+*++* * * * * veličina IQ nemá normální rozdělení a proto není ideální použití pearsonova koef. a proto do skriptu zahrneme ještě spearmana. spočte difoltně spearmena: proc corr var_ proměnné pro které chci provést výpočet. quit; bez příkazu Var spočte všechny korelace proměnných. spočtění korelační matice: proc corr data=ms pearson spearman; quit; rozšířený model mnohonásobné regrese influence zjistí, jestli v množině vysvětlujících proměnných není nějaká odlehlá hodnota. - Leverage( vliv) hii - DFFITS Welschova kulova vzdálenost opět posouzení vlivnost r vlivnost a odlehlost spec spočte tvz Whiteův test umožňuje posoudit konstantní rozptyl reziruí. plot r. *p. konstrukce reziduálního grafu, orientační posouzení vlastností plot cookd. *p. graf hodnot cookovi vzdálenosti symbol - provedení grafů : v=dot (tečky) c=green; output - vytvoříme pomocný soubor: out=diag (název souboru) r=rezid; a s jeho pomocí chceme kontrolovat vlastnosti reziduí, obsahuje jedinou proměnnou nazvanou rezid rezidua.

44 SVS přednášky Proc reg data=ms corr; model body=hodiny iq/r influence vif spec; plot r. *p.; plot cookd. *p.; symbol v=dot c=green; output out=diag r=rezid; quit; Proc reg data=ms corr; model body=hodiny iq/r influence vif spec; plot r. *p.; plot cookd. *p.; symbol v=dot c=green; output out=diag r=rezid; quit; cokova vzdálenost je obecnější do jaké míry to pozorování ovlivňuje celý model DFFITS - do jaké míry to nalezené pozorovaní ovlivňuje tu jednu konkrétní hodnotu veličiny Y, kde byla vlivná hodnota nalezrna.

45 SVS přednášky P Vícenásobná regrese Y = a + bx + cx 2 Y = b 0 + b 1 X1 + b 2 X2 Př.: proc gplot data=a; plot spotreba*rychlost; symbol v=dot c=blue; 2 vysvětlující proměnné X1 původní rychlost vozu X2 rychlost 2 1. průzkumová analýza

46 SVS přednášky mod insight: pro lineární model. pozn.: vyžádání souboru procedura PRINT zobrazí soubor na který se chci podivat. proc print data=svs; var spotreba rychlost synraxe: proc svs1; set svs; rychlost2=rychlost*rychlost; proc reg data=svs1; LINEAR: model spotreba=rychlost; plot spotreba*rychlost; plot r.*p.; symbol v=dot c=red h=1; QUADRATIC: model spotreba=rychlost rychlost2/r influence spec; plot r.*p.; plot cookd.*p.; - nakreslí graf cook.vzdáklenosti. Osa X(predikované hodnoty, osa Y (cook.vz) ~ pro kterou vyrovnanou hodnotu se objevil problém. plot cookd.*obs.; - pro které pozorování se problém objevil.

47 SVS přednášky plot r.*p.; / konstrukce reziduálního grafu. plot cookd chark kooovy vzdalenosti výstupy: model: LINEAR statisticky významný. R 2 = 0,6273 plot r.*p.; - reziduální graf modelu. Podle reziduí se dá usuzovat, že model lineární není, ideální průběh reziduí u lin.modelu zobrazuje obdélník. model: Quadratic statisticky významný. R 2 = 0,98 ~ 98% - variabilita proměné spotřeba je z 98% vysvětlená proměnnou spotřeba. odhady parametrů individuální P-hodnoty jsou sta.významné. Výstupové statistiky/ Výstupy regresní diagnostiky posouzení kvality modelu QUADRATIC: model spotreba=rychlost rychlost2/r influence spec;

48 SVS přednášky studentizovaná rezidua podává informaci, zda ve vysvětlované proměnné nebyla nějaká hodnota, která by narušila model (extrém nebo odlehlost) - hodnoty ve sloupci porovnáme s /SR/ >2, nebo z hvězdičkovým výstupem ****, v modelu nebyla nalezena Y hodnota která by model zkreslila. Případný údaj je třeba ještě otestovat na vlivnost. cookovo D - cookova vzdálenost určí že pozorování je nejen odlehlé, ale i vlivné. Hodnotí kombinace veličiny Y, X a X 2 Jak vlivné pozorování ovlivňuje všechny hodnoty Y. ukazuje vlivnost v globále, je ovlivněna počtem pozorování 4 D > n D > 0,5 = vlivné pozorování - pozorování č.8, DFFITS (lepší test než cookova vzdálenost) Welschova-kuova vzdálenost Říká jakým způsobem vlivné pozorování ovlivnilo pouze pozorování Y8. p DFFITS > 2 = 0,80 n p=3 n=8 DFFITS > = vlivné pozorování p počet parametrů regresního modelu. (b0, b2, b3) opět identifikovala pozorování č.8 jako vlivné. Hat Diag H klobouková matice H ii p 3 6 > 2 = 2 = = 0,75 n 8 8 n počet měření p počet regresních parametrů (a, b = 2) Ve sloupci žádný takový údaj není. Provedeme kontrolu údajú a. test první a druhé specifikace momentu výstup Whiteůva testu kontroluje předpoklad použitelnosti modelu zda rezidua (rozdíl závislé proměnné a predikované) mají konstantní rozptyl. P-hodnota: 0,15 P.hot > 0,05 => H0. H0: rezidua mají konstantní variabilitu.

49 SVS přednášky p Kromě zkoumání kvantitativních proměnných je možné se zabývat zkoumáním kvatitativních proměnných. Jejich obměny nejsou vyjádřeni číselně. Kategoriální proměnné (Kvalitativní) např.: vzdělání ZS, SS, VS národnost kvalifikace barva očí základní pojmy: (různé členění) 1) typy kvalitativních znaků: a. alternativni znaky (pouze 2 obměny pohlaví) b. množné (vzdělání atd.) 2) nominální znaky jednotlivé varianty znaku můžeme pouze pojmenovat, ale nedají se utřídit např od nejmenší k největší. (národnost) 3) ordinální znaky znaky lze pojmenovat a zároveň jdou setřídit na stupně. (vzdělání, kvalifikace) Analýza kvalitativních znaků: znak A, B A A1, A2.Ak B- B1,B2,..Bm zkoumání je založeno na sestavení kontingenční tabulky kx m B N 2 k B N1 n n M M n k1 n n n KKK n k 2 KKK n n ij m 1m KKKn 2m M M km M M nij empirické (experimentální četnosti) - kolikrát se společně vyskytla varianta A1, B1 společně. 2 základní úkoly: I. posouzení závislosti kategoriálních znaků II. určení síly závislosti (těsnosti) III.

50 SVS přednášky použití 2 testů: chí kvadrát vyžaduje spočítat očekávané četnosti, na základě velikosti těch očekávaných četností se rozhodneme o užití testu. Tečkový způsob zápisu. ( n = ij o 2 ij ) χ k m oij počet stupňů volnosti f = ( k 1 )( m 1 ) f = 1 1 = 1 tabulková hodnota 2 χ 3,841 0,05;1 = porovnání vypočtené a tabulkové hodnoty 2 2 χ < χ 2 dif H 0 nazamítáme 2 χ > χ 2 dif H 0 zamítáme existuje závislost a můžeme prokázat její těsnost v SASU porovnáváme vypočtenou hladinu významnosti (P value). SAS se řídí heslem všechno se může hodit a vyhodí vše co umí, je třeba si vybrat vhodnou charakteristiku. p < α H 0 zamítáme H0: kvalitativní znaky A a B jsou nezávislé. očekávané četnosti počítají se z marginálních četností ni n j oij = n chí kvadrát pro kontingenční tabulku k X m se nedá použít, jestli že více než 20% očekávaných četností je < 5, případně když alespoň v jednom políčku kontingenční tabulky je očekávaná četnost < 1. V těchto případech je nutno některé sousedící skupiny spojit (řádky nebo sloupce). Výstupy ~ 2 typy: o chí kvadrátové míry těsnosti závislosti odvozeny od tesu chí kvadrát Cramerovo V V = 2 χ n ( k 1;) pokud H 0 nezamítáme nemá smysl počítat těsnost závislosti

51 SVS přednášky K = menší hodnota z počtu řádků a sloupců. 0 V < 0,3 velmi slabá závislost 0,3 V < 0,8 (0,75) střední závislost 0,8 V < 1 velmi silná závislost U tabulky 2X2 je třeba rozhodovat vždy v absolutní hodnotě. zásadní nevýhodou chí kvadrát testů závislosti je to, že nemají statistický obsah. Příklad: V = 0,56 střední závislost, ale samo o sobě to číslo neznamená nic. Na rozdíl od r 2 který vysvětluje variabilitu závislé proměnné. Nerozlišuje jestli zkoumané znaky jsou nominální nebo ordinální, dále nerozlišuje jestli znak je závisle nebo nezávisle proměnná. o Predikční míry míry typu PRE (proportionale reduction error) mají překonat zmiňované nevýhody. Testy pouze pro znaky nominální/ordinální.charakteristiky rozlišují mezi závislou a nezávislou (asimetrické). pozn.: vstupní tabulka 2x2 Asociační tabulka pohlaví / souhlas ANO NE M B B Ž C D zvláštnosti chí kvadrát test dává spolehlivé výsledky pouze pro dostatečně velké rozsahy výběru. Pro n<20 jsou výsledky obvykle velmi nepřesné a tento test by se neměl používat. pro 20<n<40 se test chí doporučuje používat pouze tehdy, jestliže žádná očekávaná četnost není menší než 5. n>40 pokud nepoužijeme test Chí kvadrát, použijeme Fisherův test. Fisherův přesný test Buňka (1,1) Četnost (F) 10 Levostranný Pr <= F Pravostranný Pr <= F Tabulková pravděpodobnost (P) Dvoustranný Pr <= P Velikost výběru = 20

52 SVS přednášky Př.: Bylo sledováno zda pravidelná účast studentů na přednáškách má vliv na úspěch v prvním termínu u ZK. Ověřte zda existuje závislost mezi znaky. účast/ uspěch ANO NE Ano ne Tři proměnné: proměnná počet je kvantitativní.úspěch a účast jsou kvalitativní. Příslušná procedura: proc freq data=ms; tables uspech*ucast/expected norow nocol nopercent chisq measures; weight pocet; tables jméno_řádkové proměnné(úspěch)* sloupcová proměnná weight jméno kvantitativní proměnné. Bez ní by byli všechny četnosti nahrazeny 1. /: expected vyžádání očekávaných četností, kůli zvolení testu. norow,nocol,nopercent vyjadřují procentické zastoupení v řádcích, sloupcích a celkové. Tímto je potlačujeme. chisq vytištění testového kritéria chí.kvadrát measures predikční míry The SAS System 11:33 Sunday, January 28, Procedura FREQ Tabulka pro uspech podle ucast uspech ucast Četnost Očekávaná ano ne Součet ano ne Součet Splňuje podmínky pro užití chí kvadrát testu, 80>20

53 SVS přednášky Statistiky pro tabulku uspech na ucast Statistika DF Hodnota Pr Chí-kvadrát Chí-kvadrát poměru věrohodností Spojitě přizp. Chí-kvadrát Mantel-Haenszelův Chí-kvadrát Koeficient Fí Kontingenční koeficient Cramerovo V p( 0,0007) < α H 0 zamítáme Prokázali jsme závislost mezi účastí na přednáškách a ZK. 0,3 V < 0,8 (0,75) střední závislost Fisherův přesný test Buňka (1,1) Četnost (F) 30 Levostranný Pr <= F Pravostranný Pr <= F 7.164E-04 Tabulková pravděpodobnost (P) 5.889E-04 Dvoustranný Pr <= P The SAS System 11:33 Sunday, January 28, Procedura FREQ Statistiky pro tabulku uspech na ucast Statistika Hodnota ASE Gama Kendallovo Tau-b Stuartovo Tau-c Somersovo D C R Somersovo D R C Pearsonova korelace Spearmanova korelace Lambdaasymetrické C R Lambdaasymetrické R C Lambdasymetrické Koeficient nejistoty C R Koeficient nejistoty R C Symetrický koeficient nejistoty Pro znaky nomiální Pro znaky ordinální Zde se jedná o znaky nominální a zhodnotíme pomocí koef. lambda Lambda asymetrické C R (závisle proměnná sloupcová/ řádková nezávislá) Lambda asymetrická R/C (obráceně úspěch/účast. Lamba symetrické nediferencuje. Lambdaasymetrická R/C = 0,2857 proměnná účast na přednáškách ovlivňuej úspěch z 29%.

54 SVS přednášky Typ studie Hodnota 95% Meze interv. spolehlivosti Případové řízení (Poměr šancí) Skupina (Riziko slp1) Skupina (Riziko slp2) Velikost výběru = p Př.: Bylo zkoumáno, zda použití určitého očkovacího sera může snížit počet onemocnění nakažlivou chorobou. Pokus byl proveden u 23 pokusných zvířat stejného stáří (12 jich bylo očkováno) a 11 neočkováno. A byla vystevena stejné nákaze. Výsledky šetření jsou uvedeny v tabulce: počet nakažených nenakažených celkem očkovaných neočkovaných celkem teoretická četnost: (12*8) / 3 = 4,17 < 5 => nelze použít chíkvadrát test pro ověření nulové hypotézy H0: výskyt nákazy není závislý na očkování. použijeme: Fisherův test celkem tři proměnné: 1. ockování ano/ ne 2. nákaza ano/ne vysvětlovaná proměnná je ve sloupci i. tyto proměnné nelze třídit podle nějaké stupnice a jde o znaky nominální. 3. počet skript: ods rtf; proc freg data=ms; tables ockovani*nakaza/norow nocol nopercent chisq measures; weight pocet; ods rtf close;

55 SVS přednášky použitý: proc freg data=mss; tables ockovani*nakaza/norow nocol nopercent chisq measures; weight pocet; P (0,0094) < 0,05 => HA. Procedura FREQ Tabulka pro ockovani podle nakaza ockovani nakaza Četnost ano ne Součet ano ne Součet Statistiky pro tabulku ockovani na nakaza Statistika DF Hodnota Pr Chí-kvadrát Chí-kvadrát poměru věrohodností Spojitě přizp. Chí-kvadrát Mantel-Haenszelův Chí-kvadrát Koeficient Fí Kontingenční koeficient Cramerovo V VAROVÁNÍ: 50% buněk má očekávané počty menší než 5. Chí-kvadrát může být neplatný test. Fisherův přesný test Buňka (1,1) Četnost (F) 1 Levostranný Pr <= F Pravostranný Pr <= F Tabulková pravděpodobnost (P) Dvoustranný Pr <= P doplňkové charakteristiky příkaz measure: koef. mají statistický obsah Procedura FREQ Statistiky pro tabulku ockovani na nakaza Statistika Hodnota ASE Gama Kendallovo Tau-b Stuartovo Tau-c Somersovo D C R Somersovo D R C Pearsonova korelace Spearmanova korelace Lambdaasymetrické C R Lambdaasymetrické R C Lambdasymetrické

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné

Více

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer ANOVA Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz ANOVA ANOVA je nástroj pro zkoumání vztahu mezi vysvětlovanými a vysvětlujícími

Více

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob. ANOVA Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz ANOVA ANOVA je nástroj pro zkoumání vztahu mezi vysvětlovanými a vysvětlujícími proměnnými.

Více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více 9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme

Více

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily Testování hypotéz Testování hypotéz jsou klasické statistické úsudky založené na nějakém apriorním předpokladu. Vyslovíme-li předpoklad o hodnotě neznámého parametru nebo o zákonu rozdělení sledované náhodné

Více

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR KORELACE A REGRESE 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/..00/8.001)

Více

ÚKOL 2 1886 22 5,77 5,00 5 2,531,003,056 -,869,113

ÚKOL 2 1886 22 5,77 5,00 5 2,531,003,056 -,869,113 ÚKOL 2 Jméno a příjmení: UČO: Imatrik. ročník: Úkol 2.1: V souboru EVS99_cvicny.sav zjistěte, zdali rozložení názoru na to, kdo by měl být odpovědný za zajištění bydlení (proměnná q54h), je normální. Řešte

Více

Regresní a korelační analýza

Regresní a korelační analýza Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu)

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel Analýza rozptylu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO Brno) Analýza rozptylu 1 / 30 Analýza

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 10. Mgr. David Fiedor 27. dubna 2015 Nelineární závislost - korelační poměr užití v případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí

Více

Poznámky k předmětu Aplikovaná statistika, 9.téma

Poznámky k předmětu Aplikovaná statistika, 9.téma Poznámky k předmětu Aplikovaná statistika, 9téma Princip testování hypotéz, jednovýběrové testy V minulé hodině jsme si ukázali, jak sestavit intervalové odhady pro některé číselné charakteristiky normálního

Více

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu

Více

Testy nezávislosti kardinálních veličin

Testy nezávislosti kardinálních veličin Testy nezávislosti kardinálních veličin Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Načtení vstupních dat Vstupní data

Více

Dynamické metody pro predikci rizika

Dynamické metody pro predikci rizika Dynamické metody pro predikci rizika 1 Úvod do analýzy časových řad Časová řada konečná posloupnost reálných hodnot určitého sledovaného ukazatele měřeného v určitých časových intervalech okamžikové např

Více

6. T e s t o v á n í h y p o t é z

6. T e s t o v á n í h y p o t é z 6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně

Více

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry

Více

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato

Více

Analýza rozptylu dvojného třídění

Analýza rozptylu dvojného třídění StatSoft Analýza rozptylu dvojného třídění V tomto příspěvku si ukážeme konkrétní práci v softwaru STATISTICA a to sice při detekci vlivu jednotlivých faktorů na chování laboratorních krys v bludišti.

Více

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání 1. Analýzu variance (ANOVu) používáme při studiu problémů, kdy máme závislou proměnou spojitého typu a nezávislé proměnné

Více

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ FIGALA V. a), KAFKA V. b) a) VŠB-TU Ostrava, FMMI, katedra slévárenství, 17. listopadu 15, 708 33 b) RACIO&RACIO, Vnitřní

Více

Národníinformačnístředisko pro podporu jakosti

Národníinformačnístředisko pro podporu jakosti Národníinformačnístředisko pro podporu jakosti OVĚŘOVÁNÍ PŘEDPOKLADU NORMALITY Doc. Ing. Eva Jarošová, CSc. Ing. Jan Král Používané metody statistické testy: Chí-kvadrát test dobré shody Kolmogorov -Smirnov

Více

Přednáška 5. Výběrová šetření, Exploratorní analýza

Přednáška 5. Výběrová šetření, Exploratorní analýza Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika aneb jak popsat výběrový soubor Typy proměnných

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

VŠB Technická univerzita Ostrava BIOSTATISTIKA

VŠB Technická univerzita Ostrava BIOSTATISTIKA VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: BIOSTATISTIKA Zadání 11 DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL 1: DOMÁCÍ ÚKOL

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Pořízení licencí statistického SW

Pořízení licencí statistického SW Pořízení licencí statistického SW Zadavatel: Česká školní inspekce, Fráni Šrámka 37, 150 21 Praha 5 IČO: 00638994 Jednající: Mgr. Tomáš Zatloukal Předpokládaná (a maximální cena): 1.200.000 vč. DPH Typ

Více

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Popis vstupních dat Vstupní data pro úlohu (A) se nacházejí v souboru "glukoza.csv".

Více

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Pokud data zadáme přes Commands okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18. Regresní analýza; transformace dat Pro řešení vztahů mezi proměnnými kontinuálního typu používáme korelační a regresní analýzy. Korelace se používá pokud nelze určit "kauzalitu". Regresní analýza je určena

Více

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika? Organizační pokyny k přednášce Matematická statistika 2012 2013 Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta UK hudecova@karlin.mff.cuni.cz http://www.karlin.mff.cuni.cz/

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 2.1 Tvorba lineárních regresních modelů při analýze dat Autor práce: Přednášející:

Více

4ST201 STATISTIKA CVIČENÍ Č. 8

4ST201 STATISTIKA CVIČENÍ Č. 8 4ST201 STATISTIKA CVIČENÍ Č. 8 analýza závislostí kontingenční tabulky test závislosti v kontingenční tabulce analýza rozptylu regresní analýza lineární regrese Analýza závislostí Budeme ověřovat existenci

Více

VŠB Technická univerzita Ostrava

VŠB Technická univerzita Ostrava VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: PRAVDĚPODOBNOST A STATISTIKA Domácí úkoly Zadání 21 DATUM ODEVZDÁNÍ

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Inovace bakalářského studijního oboru Aplikovaná chemie

Inovace bakalářského studijního oboru Aplikovaná chemie http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství 1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí

Více

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem Pracovní adresář getwd() # výpis pracovního adresáře setwd("c:/moje/pracovni") # nastavení pracovního adresáře setwd("c:\\moje\\pracovni") # nastavení pracovního adresáře Nápověda?funkce # nápověda pro

Více

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese - základní ukazatele Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze - základní ukazatele Načtení vstupních dat Vstupní data

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Příloha č. 1 Grafy a protokoly výstupy z adstatu 1 Příklad 3. Stanovení Si metodou OES Byly porovnávány naměřené hodnoty Si na automatickém analyzátoru OES s atestovanými hodnotami. Na základě testování statistické významnosti regresních parametrů (úseku

Více

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK. ANALÝZA DAT V R 2. POPISNÉ STATISTIKY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz CO SE SKRÝVÁ V DATECH data sbíráme proto, abychom porozuměli

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a

Více

Uni- and multi-dimensional parametric tests for comparison of sample results

Uni- and multi-dimensional parametric tests for comparison of sample results Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita

Více

Aplikovaná statistika v R - cvičení 2

Aplikovaná statistika v R - cvičení 2 Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 4 Jak a kdy použít parametrické a

Více

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální práce 1 3.3 Tvorba nelineárních regresních modelů v analýze dat Ing. Ján Lengyel, CSc. Centrální analytická laboratoř Ústav jaderného výzkumu Řež, a. s. Husinec Řež 130 250 68 Řež V Řeži, únor

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Zpracování a vyhodnocování analytických dat

Zpracování a vyhodnocování analytických dat Zpracování a vyhodnocování analytických dat naměřená data Zpracování a statistická analýza dat analytické výsledky Naměř ěřená data jedna hodnota 5,00 mg (bod 1D) navážka, odměřený objem řada dat 15,8;

Více

Literatura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější)

Literatura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější) 1. přednáška Literatura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější) 1. Testování hypotéz H0 testovaná (nulová) hypotéza H1 alternativní hypotéza (dvoustranná,

Více

Metodologie pro ISK II

Metodologie pro ISK II Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech

Více

Regresní analýza. Eva Jarošová

Regresní analýza. Eva Jarošová Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost

Více

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá 1) Lineární i nelineární regrese prostá, korelace Naeditujeme data viz obr. 1. Obr. 1 V menu Statistika zvolíme submenu Pokročilé lineární/nelineární

Více

Úkol 12. Přemysl Bejda. 22. března SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury.

Úkol 12. Přemysl Bejda. 22. března SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury. Úkol 12 Přemysl Bejda 22. března 2008 1 Něco málo k SAS SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury. Komentáře v programu píšeme pomocí symbolu

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6 1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6

Více

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního

Více

STP097 STATISTIKA CVIČENÍ 12.12.2007 EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

STP097 STATISTIKA CVIČENÍ 12.12.2007 EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY STP097 STATISTIKA CVIČENÍ 12.12.2007 EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY Postupujte podle zadání. Vše potřebné k dnešnímu cvičení natáhnete z webu do R příkazy: adr="http://artax.karlin.mff.cuni.cz/~kraud8am/stp097/stp097_cvic_2007-12-12.rdata"

Více

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti

Více

M cvičení : GLM04b (Vztah mezi Poissonovým a

M cvičení : GLM04b (Vztah mezi Poissonovým a RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04b (Vztah mezi Poissonovým a binomických rozdělením) Připomeňme, že pomocí Poissonova rozdělení P o(λ) lze dobře aproximovat binomické rozdělení Bi(n,

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice

Více

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet

Více

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistika, Biostatistika pro kombinované studium. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování

Více

MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test

MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test c 2007 Kompost 1 MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test Jestliže při testování výsledek (hodnota testového kritéria) padne do kritického oboru: a) musíme nově formulovat nulovou hypotézu,

Více

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271 1 Příklad 1. Porovnání dvou regresních přímek Při výrobě automatových ocelí dané jakosti byla porovnávána závislost obsahu uhlíku v posledním zkušebním vzorku (odebraném z mezipánve na ZPO a analyzovaném

Více

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE Testy dobré shody Vedoucí diplomové práce: RNDr. PhDr. Ivo

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

ADDS cviceni. Pavlina Kuranova

ADDS cviceni. Pavlina Kuranova ADDS cviceni Pavlina Kuranova Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých pozorování (oba výběry spojeny do jednoho celku)

Více

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA Semestrální práce Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Vypracoval: Bonaconzová, Bryknarová, Milkovičová, Škrdlová

Více

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.

Více

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Popisná statistika úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Úvod užívá se k popisu základních vlastností dat poskytuje jednoduché shrnutí hodnot proměnných

Více

Vybrané partie z biostatistiky

Vybrané partie z biostatistiky 1 Úvod Vybrané partie z biostatistiky 10.7.2017, Běstvina Marie Turčičová (turcic@karlin.mff.cuni.cz), MFF UK Pracovat budeme v programu R a jeho nástavbě RStudio, které si můžete bezplatně stáhnout zde:

Více

Semestrální práce. 2. semestr

Semestrální práce. 2. semestr Licenční studium č. 89002 Semestrální práce 2. semestr Tvorba lineárních regresních modelů při analýze dat Příklad 1 Porovnání dvou regresních přímek u jednoduchého lineárního regresního modelu. Počet

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu. PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT Všichni žijeme v matrixu. V minulých dílech jsme viděli/y: Frekvence = četnosti Procenta =

Více

Pomůcka pro cvičení: 3. semestr Bc studia

Pomůcka pro cvičení: 3. semestr Bc studia Pomůcka pro cvičení: 3. semestr Bc studia Statistika Základní pojmy balíček: Statistics Pro veškeré výpočty je třeba načíst balíček Statistic. Při řešení můžeme použít proceduru infolevel[statistics]:=1,

Více

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.) Operační program Vzdělávání pro konkurenceschopnost Masarykova univerzita Brno Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.) doc. RNDr. PhMr. Karel

Více

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou

Více

Seminář 6 statistické testy

Seminář 6 statistické testy Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se Ježkovy a Širůčkovy seminární skupiny liší ve výsledcích v. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná

Více

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření 1.4 ANOVA Úloha 1 Jednofaktorová ANOVA Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření Bylo měřeno množství DNA hub Fusarium culmorum

Více

Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech.

Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech. Statistics ToolBox Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech. [manual ST] 1. PROBABILITY DISTRIBUTIONS Statistics

Více

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Zadání: Deponie nadložních jílových sedimentů SHP byla testována za účelem využití v cihlářské výrobě. Z deponie bylo odebráno

Více

(Auto)korelační funkce. 2. 11. 2015 Statistické vyhodnocování exp. dat M. Čada www.fzu.cz/ ~ cada

(Auto)korelační funkce. 2. 11. 2015 Statistické vyhodnocování exp. dat M. Čada www.fzu.cz/ ~ cada (Auto)korelační funkce 1 Náhodné procesy Korelace mezi náhodnými proměnnými má široké uplatnění v elektrotechnické praxi, kde se snažíme o porovnávání dvou signálů, které by měly být stejné. Příkladem

Více

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika Statistika Cvičení z matematické statistiky na PřF Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy léto 2012 Základní dělení popisná (deskriptivní)

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Biostatistika a matematické metody epidemiologie- stručné studijní texty Biostatistika a matematické metody epidemiologie- stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev.

Více

Design Experimentu a Statistika - AGA46E

Design Experimentu a Statistika - AGA46E Design Experimentu a Statistika - AGA46E Czech University of Life Sciences in Prague Department of Genetics and Breeding Summer Term 2015 Matúš Maciak (@ A 211) Office Hours: T 9:00 10:30 or by appointment

Více

SRG Přírodní škola, o.p.s. Orientace v Přírodě. Bez kompasu

SRG Přírodní škola, o.p.s. Orientace v Přírodě. Bez kompasu SRG Přírodní škola, o.p.s. Orientace v Přírodě Bez kompasu Záměr práce Autor: André Langer Vedoucí práce: Štěpán Macháček Datum odevzdání: 8. 3 2010 Záměr práce není, protože jsem tuto práci dostal přidělenou.

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Přednáška IX. Analýza rozptylu (ANOVA)

Přednáška IX. Analýza rozptylu (ANOVA) Přednáška IX. Analýza rozptylu (ANOVA) Princip a metodika výpočtu Předpoklady analýzy rozptylu a jejich ověření Rozbor rozdílů jednotlivých skupin násobné testování hypotéz Analýza rozptylu jako lineární

Více