1. Přednáška. Základní etapy statistické analýzy. SVS přednášky - 1 -
|
|
- Tomáš Vladislav Musil
- před 8 lety
- Počet zobrazení:
Transkript
1 SVS přednášky Přednáška Základní etapy statistické analýzy SAS INSIGHT základní char. SAS LAB quided data analysis - široká nabídka opravných prostředků.
2 SVS přednášky Prostředky průzkumové analýzy Jde o kombinace různých grafických a číselných postupů, které mají podat základní informace o vlastnostech souboru. Základním prostředkem jsou grafy s různou orientací. Zobrazení datového souboru pomocí grafu Sloupcový diagram. (Bar Chart). četnosti (relativní četnost) procedury v SAS: proc jmeno_procedury data = jméno datového souboru var (proměnná)..; analyzované veličiny hodnoty (integrály) zobrazení datového souboru v grafu. proc chart data = jméno souboru vbar vyska; výsledkem je sloupcový diagram v proceduře Chart. hbar (horizontální orientace) vbar (vertikální orientace)
3 SVS přednášky Procedury gchart mají lepší grafické výstupy proc gchart data=a; hbar vyska; procedura automaticky data setřídí do intervalů podle Sturgesova pravidla automaticky vypočítá počet těch intervalů (tříd K). pozn.: Při velkém rozsahu n náhodného výběru rozdělujeme hodnoty do tzv. tříd (třídních intervalů). Celý obor hodnot je pak rozdělen na třídní intervaly, přičemž daná pozorovaná hodnota spadá vždy do jedné třídy. Počet tříd k lze volit podle potřeby. Obvykle se k pohybuje mezi 5 a 20, nebo se volí je., popř. použijeme tzv. Sturgesovo pravidlo, podle kterého Histogram Zdokonalení sloupcového diagramu. - zobrazení četností ve formě sloupců četnosti - histogram nám určuje homogenitu souboru, určí zda je homogenní nebo zda se rozpadá do dílčích menších podsouborů. (homogení soubor má jen jednu nejčetnější hodnotu) X intervaly Y četnosti or relativní četnosti. Z grafu lze odhadnout, jestli údaje datového souboru jsou soustředěny symetricky nebo nesymetricky.
4 SVS přednášky Grafický výstup v proceduře univariate pokud chci v proceduře jen grafický výstup (histogram), musím potlačit numerické výstupy. proc univariable data = jméno souboru histogram_jméno proměnné pro kterou kreslím Je třeba posoudit, jestli data mají normální rozdělení do histogramu proto dáme křivku normal, případně exponencial. proc univariable data = jméno souboru histogram <jm>/ normal exponencial; box plot grafické zobrazení tvz. pětičíselného souhrnu
5 SVS přednášky Přednáška 2.1. Stem and leaf display ~ STEMPLOT Technika kombinující jednoduché grafické a numerické vyjádření - semigrafická technika: soubor: připomíná histogram, ale zde všechny jednotlivé hodnoty jsou zobrazeny a současně při otočení o 90stupnů je vidět případná asymetrie sloupců. př.: měření výšky tuku zaměstnanců. 2 proměnné - výška tuku FAT - pohlaví gender BOX PLOT v SAS insight: analyze box plot (Y) (závislá proměnný fat)
6 SVS přednášky Zobrazení četností proc freq data=dd; tables fat; The SAS System 15:20 Tuesday, January 2, Procedura FREQ Kumulativní Kumulativní fat Četnost Procenta četnost procenta Základní charakteristiky souboru proc univariate data=dd; Procedura UNIVARIATE Proměnná: fat a. Momenty N 23 Součet vah 23 Průměr Součet pozorování. 459 Std odchylka Rozptyl Šikmost Špičatost Nekorigovaný SS 9951 Korigovaný SS Variační koeficient Std chyba průměru b. Základní statistické míry Poloha Variabilita Průměr Std odchylka Medián Rozptyl Modus Rozpětí Mezikvartilové rozpětí NOTE: Zobrazený režim je nejmenší z 2 režimů s počtem 3.
7 SVS přednášky c. Testy polohy: Mu0=0 Test -Statistika- ----p hodnota----- Studentovo t t Pr > t <.0001 Znaménko M 11.5 Pr >= M <.0001 Znam. pořadí S 138 Pr >= S <.0001 Kvantily (Definice 5) Kvantil Odhad 100% max % 31 95% 30 90% 28 75% Q % Medián 21 25% Q % 12 5% 12 1% 8 0% Min. 8 d. Procedura UNIVARIATE Proměnná: fat Extrémní pozorování ----Nejnižší Nejvyšší---- Hodnota Poz Hodnota Poz
8 SVS přednášky Sten and leaf display + box plot přidáním příkazu plot do procedury univariate vyvolá zobrazení dat. var proměnná (upřesnění). proc univariate data=dd plot; var fat; Kmen List # Krb.graf násobit listy větve číslem 10**+1 Třídění podle pohlaví Funkcí class roztřídíme výstupy podle pohlaví. proc univariate data=dd plot; class gender; var fat; Graf pravděpodobnosti norm. rozdělení * ++* *+*++++ ***+*+*+*+* +**+**+++ +*++*+*+* * Procedura UNIVARIATE Proměnná: fat gender = f Momenty N 10 Součet vah 10 Průměr 22.3 Součet pozorování. 223 Std odchylka Rozptyl Šikmost Špičatost Nekorigovaný SS 5227 Korigovaný SS Variační koeficient Std chyba průměru Základní statistické míry Poloha Variabilita Průměr Std odchylka Medián Rozptyl Modus Rozpětí Mezikvartilové rozpětí NOTE: Zobrazený režim je nejmenší z 2 režimů s počtem 2.
9 SVS přednášky Testy polohy: Mu0=0 Test -Statistika- ----p hodnota----- Studentovo t t Pr > t <.0001 Znaménko M 5 Pr >= M Znam. pořadí S 27.5 Pr >= S Kvantily (Definice 5) Kvantil Odhad 100% max % % % % Q % Medián % Q % % % % Min The SAS System 15:20 Tuesday, January 2, Procedura UNIVARIATE Proměnná: fat gender = f Extrémní pozorování ----Nejnižší Nejvyšší---- Hodnota Poz Hodnota Poz Kmen List # Krb.graf *--+--* Graf pravděpodobnosti norm. rozdělení 31+ *+++ *++++ * * *+*++ * * *
10 SVS přednášky zvolení stonků: STEM ženy stem Muži u mužů je vyšší variabilita, hodnoty jsou více rozptýleny okolo středu, ale muži mají delší stone. Technika je výhodná u malých souborů.
11 SVS přednášky Kvalitativní znaky - procedura gchart Zde budeme provádět vizualizace údajů o kvalitativních znacích v proceduře gchart lze použít sloupcový diagram (bart chart) Př.: Základní skript pro grafický výstup. proc gchart data=jnémo souboru; hbar jm.kvalitativní zobrazované proměnné /sumvar=hodnota podle které se třídí; hbar_jméno kvalitativního znaku strana / sumvar(sečte hodnoty proměnné podíl) a rovná se podíl orientace grafu vodovorně příkaz hbar (vertikálně bbar) subgroup doplňkový příkaz pro barevné odlišení a dole se objeví barevné zastoupení stran. descending- pokud chceme sloupečky uspořádat sestupným způsobem, tak do syntaxe procedury přidáme (ascending) rozšířený skript pro zobrazený výstup: proc gchart data=b; hbar strana/sumvar=podil subgroup=strana descending; 2 možnost je pomocí výsečového grafu koláčový graf (procedura stejná) proc gchart data=svs; pie strana/sumvar=podíl; pie_ jméno kvalitativní zobrazované proměnné
12 SVS přednášky Koblihový graf - DONUT zobrazí podíly a indentifikuje zkratkou jednotlivé kvalitativní proměnné. proc gchart data=b; donut strana/sumvar=podil; trojrozměrné výsečové grafy proc gchart data=svs; pie3d strana/sumvar=podíl; další grafické metody V sasu lze jednotlivé výseče vyříznout ze zobrazení proc gchart data=ms; pie3d strana/sumvar=podil sice=arrow explode="a" "B"; slice= arrow/inside/none/outside ovlivňuje popis zvoleného segmentu. explode =<seznam> -uvádí seznam oddělených segmentů. A B chci specielně odtrhnout úseky vztahující se ke stanám A a B. *komentář poznámka musí být ukončena středníkem; arrow šipky k výsekům
13 SVS přednášky Př.: proc gchart data=ms; pie3d strana/sumvar=podil slice=arrow explode="a" "B"; pozn: úseky které jsou zastoupené méně než 5% SAS sloučí do jednoho - OTHER. 2 proměnné i. kvalitativní akcie ii. kvantitativní počet Př.: podniky počet akcií absolutní zastoupení proměnné počtu, nikoli procentické. sumvar=<variable> - počítá součet hodnot danné proměnné noheading potlačuje tisk hlavičky (nadpisu) percent=arrow/.. value=arrow/inside/none/outside - připisuje jednotlivým segmentům jejich absolutní hodnoty. percent pokud chceme absolutní vyjádření přepočítat na % u jednotlivých akcií. slice=arrow/inside/none/outside ovlivňuje popis zvoleného segmentu zobrazované proměnné. explode seznam oddělených segmentů- proc gchart data=a; pie3d akcie/sumvar=pocet noheading percent=arrow value=inside alice=arrow explode="c"; V soudobé statistické metodologii se moc nepoužívají zkreslující dojem.
14 SVS přednášky Vyjádření pomocí STEM PLOTU procedura univariate 3. přednáška proc univariate data=sasuser.fitness mu=50 cibasic normal plot trimmed=2 winsorized=2; var oxygen; 3.1. průzkumová analýza rozdělení četností klíčovou roli zde hraje procedura univariate. Doplňkové příkazy: mu0=50 tímto příkazem je požadováno provedení testu hypotézy, že průměr základního souboru stat. znaku OXYGEN je roven 50. CIBASIC výpočet intervalů spolehlivosti pro základní statistické char.(požadují normalitu rozdělení) NORMAL výpočet testu normality rozdělení, otestování zdali je rozdělení normální. (důležité pro test MU=50 a pro výpočet intervalu spolehlivosti). PLOT konstrukce visuelních prostředků TRIMMED výpočet useknutého průměru spolu s výpočtem intervalu spolehlivosti. WINSOR výpočet winsorizovaného průměru spolu s příslušným intervalem spolehlivosti pro průměr a jednovýběrovým testem hypotézy o hodnotě průměru prostřednictvím hypotézy nás zajímal výpočet intervalů spolehlivosti.
15 SVS přednášky výstupy procedury univariate testy polohy : test polohy MU0=50 studentovo t (jednovýběrový ttest) parametrický test, který požaduje normální rozdělení. znaménko M známenkový test neparametrický test nepožaduje normalitu rozdělení Znam pořadí S jednovýběrový Wilcoksonův test neparametrický test nepožaduje normalitu rozdělení ani symetrii Pr (0,0102) < 0,05 => H0 se zamítá (MU0=50) testy normality (záleží na výběru statistika který vybere a použije) Shapiro-wilk pro malé soubory (obvykle použijeme) n<2000, kvalitní neparametrický test, ale požaduje symetrické rozdělení četností symetrický histogram (v souboru nesmí být odlehlé hodnoty) soubory s n>2000: Kolmagorov-Smirnov Cramer von Mises Anderson darling Tyto testy testují hypotézu: H 0 : soubor má normální rozdělení P value > 0,05 => Soubor má normální rozdělení H A : soubor nemá normální rozdělení P value < 0,05 => Soubor nemá normální rozdělení Pr (P value) je menší než 5% tak zamítáme H0. U malých souborů (n<30) uvedené testy mají snahu přijímat HO, uvedené testy jsou slabé a odchylku od normálního rozdělení mohou potvrdit až u velkých souborů a proto se testu doplňují vhodným grafickým prostředkem příkaz PLOT. PLOT semigrafická podoba. ~ zobrazí STEM PLOT : kmen listopad Problematické hodnoty jsou maximální 60,1 a 58,6.
16 SVS přednášky Dále se zobrazí graf. pravděpodobnostního rozdělení graf normálního rozdělení pokud jsou hodnoty ideální tak body splývají s přímkou, ta je znázorněna křížky a naše data *. závěr: U testů normality kombinujeme výstup z Shapirova testu s grafikou, zvláště u malých souborů (do 30). Pokud nám nevyjde normalita rozdělení (ttest), tak užijeme neparametrické testy. Neparametrické testy nepožadují, aby analyzovaná data měla normální rozdělení. Wilkoksonův test je považován za velice kvalitní, ale chce aby soubor měl symetrické rozdělení četností symetrický histogram. U nás je v BOX PLOTU problém s odlehlými hodnotami a v tomto případě dáme přednost znaménkovému testu (nepožaduje ani notmalitu ani symetrii). Pokud máme v souboru nějaké nesrovnalosti tak soubor modifikujeme. Provedeme úpravu: trimmet=2 ~ systém odsekne 2 maximální hodnoty v souboru,ale systém automaticky odsekne i 2 minimální hodnoty = 27 hodnot. Operace cenzorování, která u souborů s malým rozsahem není vždy žádoucí. winsorized=2 - winzorizace je alternativa k odseknutí - 2 maximální hodnoty byly nahrazeny třetí maximální hodnotou který byla hned před nimi a na konci se mi objeví 3 stejné hodnoty, které již nejsou považovány zas odlehlé, totéž se provede i u nejmenších hodnot. Došlo k potlačení extrémů. výstup pro useknutý průměr Upravené průměry (useknutý nebo cenzorovaný průměr) vzniklo useknutím dvou hodnot. meze interval spolehlivosti 45,2 49,03 t pro H0 Pr> t 0,0047 (opět H0 zamítáme) výstup pro winzorizovaný průměr Průměry se neliší a tudíž obě hodnoty tam nehrají roli a lze je ponechat v souboru. pozn.: V SAS je zkratka ODS dovoluje nám z výstupů v systému sas vybrat pouze důležité výstupy (charakteristiky) a také v lepších formátech.
17 SVS přednášky procedura MEANS Další procedura v průzkumové analýze proc means data=sasuser.fitness; var oxigen; výstup: - oxigen je proměnná. Chceme nasadit proceduru na pouze jednu proměnnou oxigen, jinak by to provedl u všech proměnných. N průměr Std odch (směrodatná odchylka) min. max 31 47,36 5, poskytuje pouze základná informace o souboru variabilitu a typickou hodnbotu (průměr). výstup lze rozšířit: proc means data=sasuser.fitnes n mean median min max g1 q2 range grange std cv skewness kurtosis maxdec=3; var oxygen age weight runtime runpulse runpulse; (u kterých proměnných má počítat) doplňkové příkazy na vyžádání: n počet pozorování mean průměr medián Q1 dolní kvartil Q3 - horní kvartil cd var. koeficient relativnéí char. variability směr odch/ průměr* 100 při porovnání variability u proměnných vyjádřených v různých jednotkách std posílá směrodatnou odchylku range variační rozpětí grange kvartilové rozpětí robusní char. variability skewness koeficient šikmosti kurtosis koeficient špičatosti signalizuje lehké a těžké konce. šikmost a špičatost by měla být v případě normálního rozdělení přibližně rovny 0! maxdec = 3 počet desetinných míst.
18 SVS přednášky proměnná FAT - hodnota tuku proměnná GENDER Př.: 13 pozorování a měříme vrstvu podkožního tuku. prohlížení datového souboru procedura PRINT proc print data=svs; var fat gender; zvlášť spočítat pro muže a ženy: proc means data=svs; class (třídení) = gender; var (pro kterou proměnnou má procedura rpoběhnout) fat; statistickou významnost mezi ženou a mužem provedeme ttestem: proc ttest data=svs; class gender; var fat; (testujeme z hlediska hodnoty tuku) title porovnání skupin ; výstup: T testy equal pokud máme stejné rozptyly souborů, koukáme na tento řádek unegual pokud rovnost variancí určí různou variabilitu souborů dvou výběrový ttest požaduje aby oba soubory měli stejnou variabilitu při porovnání. doplňkový test pro Ttesty - rovnost variancí test variability souboru můžu a žen oba soubory mají stejný rozptyl.
19 SVS přednášky Přednáška - Analýza 2 a více souborů výběrový ttest 2 nezávislé náhodné výběry a testujeme hypozézu: Ho: w1 = w2 => průměry základních souborů w1,w2 (mí) předpoklady použitelnosti: 1.) nezávislost pozorování 2.) oba výběry mají normální rozdělení 3.) shodná variabilita obou porovnávaných souborů př.: Je třeba posoudit zda zavedení nové výrobní technologie má statisticky významný vliv na zvýšení rychlosti pracovní operace. Bylo provedeno měření doby trvání této operace při staré i nové technologii a zjištěny tyto výsledky: Chceme posoudit výsledky z hlediska doby trvání stat.významnost. test hypotézy: Ho: průměry základních souborů se neliší. w1 = w2 1. otestujeme nejprve nezávislost předpoklad je splněn 2. otestování normality rozdělení: Každá analýza začíná průzkumovou etapou průzkumovou analýzou grafická technika: analyze BOX PLOT starat/novat jako Y. Roletka zobrazí další charakteristiky.
20 SVS přednášky schématické box ploty Př.: skript: proc boxplot data=ms; plot doba*technologie/boxstyle=schematic; nejsou zde problematické údaje. 1 soubor má zvláštní rozdělení. Horní kvartil splívá s max. hodnotou. Průměr, medián splynul buď s horním nebo dolním kvartilem. Medián a průměr se zde odlišují = asymetrie rozdělení a to stěžuje předpoklad normality rozdělení. Pro starou technologii je náročné splnit normalitu rozdělení
21 SVS přednášky Zářezové boxploty do jaké míry se tyto soubory odlišují, poskytují důkazy na rozdíl od normálních. proc boxplot data=b; plot doba*technologie/notched; Zářezy představují grafické vyjádření intervalu spolehlivosti pro medián. Začátek zářezů u druhého souboru a konec pokud se v promítnutí na sebe zářezy nepřekrývají tak to znamená že soubory se statisticky významně liší a zamítnutí hypotézy Ho. Při překrytí není statisticky významný rozdíl.
22 SVS přednášky Průzkumová analýza pomocí means Další ověření normality rozdělení: proc means data=b maxdec=2; class technologie; pouze základní charakteristiky: směrodatná odchylka nové technologie je menší (1,65) hodnoty jsou vyrovnanější. maxdec= zaokrouhlení na libovolný počet desetinných míst class = rozdělení přístupu do 2 souboru dle technologie. c)ověření normality v obou souborech - užitím testů normality implementovaných v proceduře univariete ods select TestsForNormality; proc univariate data=ms normal; class technologie; var doba; nechceme všechny výstupy, ale jen testy normality a proto je omezíme zkratkou ODS output delivery systém: ods select TestsForNormality;
23 SVS přednášky vybereme Shapiro wilka u nové technologie: P (0,35) > alfa (0,05) => H0 platí a soubor má normální rozdělení u staré technologie P(0,0195) < 0,05 => Ha zamítáme H0 a není splněna normalita. d) Další ověřování normality Přes výsledky testů normality bychom měli dále ověřit, protože síla zvoleného testu vynikne až u velkých souborů a proto konfrontujeme s dalšími grafickými výstupy: proc univariate data=b noprint; class technologie; histogram doba/normal (color=red) kernel (color=green); probplot doba/normal (mu=est sigma=est); příkaz noprint potlačuje nadbytečné numerické výstupy chceme histogramem proložit gausovu křivku a proto je za doba/normal kernel přibalí jádrovou hustotu představuje empirické vyrovnání hystogramu, chceme zelenou barvu hustoty. probplot chceme doplnit analýzu pravděpodobnostními grafy mu=est (estimate ~ odhad) do pravděpodobnostních grafů zobrazí ideální přímku, jak by měla data vypadat, bez toho se zobrazí pouze křížky a hvězdičky. sigma (směrodatná odchylka) odhadnutá z našich dat.
24 SVS přednášky soubor má normální rozdělení, jádrová hustota a gausova křivka se tolik neliší jde o malý soubor. u staré je diference mezi gausovkou a jádrovou křivkou velká.
25 SVS přednášky e) Vlastní provedení 2 výběrovéího ttestu není ale splněn předpoklad normality! proc ttest data=b; class technologie; var doba; (jméno proměnné kterou chci analyzovat) Průměr je doplněn horní a dolní mezí intervalu spolehlivosti. Diff je rozdíl souborů
26 SVS přednášky rovnost variancí kontroluje předpoklad stejné variability (stability nebo vyrovnanosti výsledků) souborů. pomocná hypotéza: H0 oba soubory byli pořízeny ve stejné kvalitě a hodnoty jsou stejně rozházené. H0: sigma1.2 = sigma2.2 P (0,1165) > 0,05 => H0 platí a předpoklad je splněn a lze se podívat na ttesty: rozptyl podle výsledku testu shodnosti rozptylů si vyberu test. equal stejné rozptyly P(0,0158) <0,05 => H0 zamítáme. unequal nestejné rozptyly Ha průměrné doby nejsou stejné a nová technologie vede k významnému zrychlení té operace. f) neparametrický dvouvýběrový ttest. Řešení problému s nesplněním požadavku na normální rozdělení a ttest byl doplněn neparametrickým dvouvýběrovým Wilcoxonovým (univerzálnějším) testem - neparametrické testy (npar1way) proc npar1way data=b wilcoxon; class technologie; var doba;
27 SVS přednášky Poskytuje základní informace - wilkoksonovo score nahrazení hodnot pořadovými čísli, čísla se sečtou zvlášť pro oba soubory. Pokud se soubory neliší, čísla se sobě dost podobají. Zajímá nás pouze jeden výstup. Normální aproximace: Jednostranná hodnota Dvoustranná hodnota - 0,02 => potvrzujeme Ha. souvisí s zadáním testovali jsme H0 : doba S = doba N (průměr) proti jednostrané alternativě w1<w2. vyberu jednostranou alternatiuvu. pokud testuji Ha: w1 nerovná se w2 vyberu oboustranou. A soubor, respektive nová technologie vede ke kratší době. Potvrdíme ttest parametrický. Narušení normality nemá až zase zásadní roli, mnohem více ovlivňuje narušení variability. U obou nesplnění předpokladů se dá použít wilkokson, ale je méně silný než ttest.
28 SVS přednášky Přednáška Porovnání více než 2 souborů z hlediska jejich středních hodnot 5.1. Analýza rozptylu předpoklady: rozšíření ttestu pro více souborů. 1. analyzované výběry pocházejí ze základních souborů s normálním rozdělením 2. - analyzované soubory mají stejnou variabilitu někdy nazýván předpoklad homoskedasticity. Opakem (neplatí stejná variabilita) je heterostedasticita. Př.: výrobce zkouší 4 různá barevná a grafická provedení obalů svých výrobků. Následující údaje představují počty výrobků balených v různých obalech které byly prodány během jednoho měsíce ve 4 různých hypermarketech. Posuďte zda počet prodaných výrobků je statisticky významně ovlivňován druhem zvolených obalů H0: δ 1 = δ 2... δ K, K>2 HA: alespoň jeden obal vede k jiným výsledkům. 2 proměnné: prodej kvantitativní obal - kvalitativní výběry nemají stejné počty pozorování nevyvážený model. H0: m1=m2=m3=m4 SAS: 2 možnosti analýzy a) proc anova (analysis of Variance) - lze použít pouze pro vyvážený model. b) pro nevyvážený i vyvážený lze použít univerzální proc. proc glm (general linear model) Začneme opět průzkumovou analýzou a naše výběrové soubory si zobrazíme pozn: u malých souborů není analýza rozptylu zkreslována robusnost. A.R je odolná na narušení normality!!! 1.) zářezové box ploty pro posouzení odlehlostí atd. Porovnáváme soubory mezi sebou, pokud soubory dáme přes sebe a vruby se nepřekrývají, tak se soubory pravděpodobně od sebe odlišují, jde pouze o orientační pomůcku. proc boxplot data=dm; plot prodej*obal/boxstyle=schematic notches;
29 SVS přednášky /boxstyle schematic notches zářezy na krabičce horní kvartyl dolní kvartil medián křížek průměr hranice souboru interval spolehlivosti pro medián netypická hodnota (extrémní) 2.) Nejlépe se prodává z hlediska průměrného počtu 2, nejméně atraktivní je obal č.4. proc glm data=dm; class obal; model prodej=obal; means obal/hovtest t tukey lines cldiff; class třídící proměnná jak prodej závisý na obalu (analyzovaná = klasifikační) means chceme průměry pro obal- hovtest ověření předpokladu stejné variability. t (lsd) nejmenší významný rozdíl (pokud zamítneme H0, umožní interpretovat odlišný soubor) jak jeden soubor dopadne v porovnání s ostatními. tukey srovnání všech diferencí každý s každým
30 SVS přednášky lines cldiff pozn.: metody mnohonásobného porovnávání pro rozlišení souborů a idenfifikace odlišností od ostatních souborů. V sasu asi 15, např.: t metoda tukey metoda (T) Výstup lze mít ve dvojí formě vyžádáme požadavkem lines nebo cldiff. pozn.: Je třeba rozlišit mezi plánovaním porovnávání porov.souborů nebo následné porovnávání. plánované se týká situace, kdy před analýzou si vytipuji jeden (je zajímavý) a ten chci porovnat s ostatními. V tomto případě metoda lst. Pokud chceme porovnat soubory všechny mezi sebou ~ následné srovnávání (posthok) vyberu metodutukey. The SAS System 10:46 Wednesday, January 31, The GLM Procedure Class Level Information Třída Úrovně Hodnoty obal Number of Observations Read 20 Number of Observations Used Závislá proměnná: prodej The SAS System 10:46 Wednesday, January 31, The GLM Procedure Součet Průměrný F Zdroj DF čtverců kvadrát hodnota Pr > F Model Chyba Korigovaný součet H0 se zamítá (0,0042< 0,005) Platí Ha existuje statisticky významný rozdíl Odmocnina
31 SVS přednášky R-kvadrát Koef prom MSE prodej Průměr Průměrný F Zdroj DF Type I SS kvadrát hodnota Pr > F obal Průměrný F Zdroj DF Type III SS kvadrát hodnota Pr > F obal koeficient determinace z kolika % je závisle proměnná (závisí) je ovlivňována tou nezávislou proměnnou (obalem) ~ 55%. - Obal z 55% ovlivňuje množství prodaných výrobků. doplňková syntaxe za / : hovtest: testuje pomocnou hypotézu na shodu rozptylů. The GLM Procedure Levene's Test for Homogeneity of prodej Variance ANOVA of Squared Deviations from Group Means Součet Průměrný F Zdroj DF čtverců kvadrát hodnota Pr > F obal E E Chyba E E8 Přijímáme H0 neexistuje stat. významný rozdíl mezi variabilitou.
32 SVS přednášky nyní je třeba ujasnit, které obaly vyčnívají: LSD: The GLM Procedure t Testy (LSD) pro prodej NOTE: Tento test určuje četnost srovnávací chyby typu I, nikoli četnost experimentální chyby. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota t Least Significant Difference Harmonic Mean of Cell Sizes NOTE: Cell sizes are not equal. Průměry se stejným písmenem nejsou významně odlišné. t Seskupování Průměr N obal A A B A B B C C C Least Significant Difference - nejmenší významný rozdíl. Pokud průměr překročí hodnotu, je statistycky významný. Průměry se stejným číslem se neliší. B jsou označeny obaly 2 a 1 a od sebe se významně neodlišují. 1 a 4 obal se od sebe také neliší, mají stejné písmeno C. 3 a 4 obal se odlišily statisticky významně. tukey: The SAS System 10:46 Wednesday, January 31, The GLM Procedure Tukeyho test studentizovaného rozsahu (HSD) pro prodej NOTE: Tento test určuje četnost experimentální chyby typu I, obecně však má vyšší četnost chyby typu II než REGWQ. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota studentizovaného rozsahu Minimální rozdíl významnosti opatrnější významný průměr je vyšší. Harmonic Mean of Cell Sizes NOTE: Cell sizes are not equal. Průměry se stejným písmenem nejsou významně odlišné.
33 SVS přednášky Tukey Seskupování Průměr N obal A A A A B A B B Cldiff ekvivalence k předchozím 2 výstupům: The GLM Procedure t Testy (LSD) pro prodej NOTE: Tento test určuje četnost srovnávací chyby typu I, nikoli četnost experimentální chyby. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota t Srovnání významnosti při úrovni 0.05 jsou indikovány ***. Rozdíl obal mezi 95% Confidence Srovnání průměry Limits *** *** *** *** *** *** The SAS System 10:46 Wednesday, January 31, The GLM Procedure Tukeyho test studentizovaného rozsahu (HSD) pro prodej NOTE: Tento test určuje četnost experimentální chyby typu I. Alfa 0.05 Error degrees of freedom 16 Střední kvadrát chyby Kritická hodnota studentizovaného rozsahu
34 SVS přednášky Srovnání významnosti při úrovni 0.05 jsou indikovány ***. Rozdíl obal mezi Souběžné 95% Srovnání průměry Confidence Limits *** *** *** *** Závěr: pokud test homogenity nevyjde stejně nebo máme pochybnosti, proceduru nahradím neparametrickým testem kruskal walis. Kruskal Wallisův nezávislý na 1 a 2 předpokladu a ale nemá takovou sílu. proc nparlway data=dm wilcoxon; class obal; var prodej; H0: se zamítá a platí Ha a výsledky z glm lze považovat za platné. 6p. 1. Analýza vícerozměrných statistických souborů - na souboru zkoumáme větší počet znaků
35 SVS přednášky Jednoduchá regresní a korelační analýza Zkoumáme statistickou závislost a její sílu. Y závisle proměnná (vysvětlovaná proměnná) X nezávislá proměnná (vysvětlující proměnná ~ regresní) Regrese průběh (tvar) závislosti. Korelace určení těsnosti závislosti. Předpoklady použitelnosti regresní a korelační analýzy: 1.) Normalita rozdělení analyzovaných veličin (alespoň přibližně splnit) 2.) požadavky na rezidua nezávislé náhodné veličiny které mají normální rozdělení s nulovou střední hodnotou a konstantní rozptyl. proměnné Y;X - regres.f : Y = a + bx korelační pole - body na přímce porovnáme se skutečnými. rozdíl: Yi - Y i = rezidua. R _ C O korelační pole P_CO
36 SVS přednášky Ex= 0 - kladná a záporná rezidua se vyruší, protože korelační funkce je proložena nejlepším možným způsobem, ani blíž ani dál od jedné strany. Př.: CO = auta proc reg proc corr proc univariate A) průzkumová analýza proc gplot data=ms; plot co*cars; symbol v=dot c=blue; /*specifikace grafu*/ quit; plot závisle proměnná (osa Y) * nezávisle proměnná. symbol doplňkový příkaz: V = dot (tečky), star atd. C = barva bodů quit výstup z jednotlivých procedůr. Zvýšení auto -> zvýšení CO. Odhad ukazuje přímou a střední závislost až silnou závislost, odlehlé pozorování může skreslit analýzu.
37 SVS přednášky B) Posouzení normality ods exclude Moments BasicMeasures TestsForLocation Quantiles ExtremeObs; proc univariate data=ms normal plot; quit; ods exlude vyloučení nežádoucích výstupů. V procedůře testujeme normalitu NORMAL. The SAS System 10:59 Sunday, January 7, Procedura UNIVARIATE Proměnná: co Testy normality Test --Statistika p hodnota----- Shapiro-Wilk W Pr < W Kolmogorov-Smirnov D Pr > D > Cramer-von Mises W-Kv Pr > W-Kv > Anderson-Darling A-Kv Pr > A-Kv > Kmen List # Krb.graf *--+--* Graf pravděpodobnosti norm. rozdělení 23+ +*++ *+++ * *+*++ *++ ++* *+* ++*+ ++* 5+ +* U malých souborů předpoklad normality je splněn. Medián přibližně by se měl nacházet uprostřed krabice s vousy. Graf pravděpodobnosti norm. rozdělení opět ukazuje na rozdělení N. U obou proměnných je předpoklad normality splněn.
38 SVS přednášky The SAS System 10:59 Sunday, January 7, Procedura UNIVARIATE Proměnná: cars Testy normality Test --Statistika p hodnota----- Shapiro-Wilk W Pr < W Kolmogorov-Smirnov D Pr > D > Cramer-von Mises W-Kv Pr > W-Kv > Anderson-Darling A-Kv Pr > A-Kv > Kmen List # Krb.graf *--+--* C) corelační analýza Graf pravděpodobnosti norm. rozdělení *++++ * *+++++* *+*+*+++ *++*++* * proc corr data=ms; /*výpočet korelace mezi analyzovanými proměnnými s proc CORR*/ quit; Spočtou se korelace mezi všemi proměnnými, mezi dvojicemi. V souboru jsou jen 2 proměnné a zde je to tudíž žádoucí. U př. s více proměnnými je takový výstup nežádoucí a je třeba upřesnit příkazem VAR. The SAS System 10:59 Sunday, January 7,
39 SVS přednášky Procedura CORR 2 Proměnné: co cars Jednoduché statistiky Proměnná N Průměr Std odch Součet Minimum Maximum co cars Pearsonovy korelační koeficienty, N = 12 Prob > r pro H0: Rho=0 co cars logická kontrola hodnot MIN/MAX co cars korelační matice - diagonála - maximální korelace mezi proměnnou CO a Cars. síla závislosti mezi 2 proměnnými korelace <-1; 1> ~ nepřímá závislost/přímá: středně silná P hodnota H0: Rho = 0-0,05 > 0,0071 -> HA. model je statisticky významný. - určí statistickou významnost nejen pro náš výběr, ale pro celý základní soubor. Pokud není stat. významný (platí H0), tak výsleek platí pouze pro našich 12 měření a výsledky nejsou zobecnitelné. pozn.: výbrová korelace r korelace v ZS - RO Pokud není splněna normalita, tak použijeme Spearmanův koeficient koeralce neparametrický koeficient. proc corr data=ms spearman; quit; Máme tedy významný model a středně silnou závislost D) nalezení regresní přímky proc reg data=ms; model co=cars; quit; model vysvětlovaný=vysvětlující. The SAS System 10:59 Sunday, January 7, Procedura REG Model: MODEL1 Závislá proměnná: co Number of Observations Read 12 Number of Observations Used 12
40 SVS přednášky Analýza rozptylu Součet Průměr F Zdroj DF čtverců Kvadrát hodnota Pr > F Model Chyba Korigovaný součet Odmocnina MSE R-kvadrát Závislý průměr Přizp R-kv Koef prom analýza rozptylu Ověření zobecnění pro ZS. informuje o tom, zda regresní přímka je platná i pro základní soubor a ne pouze pro náš výběr. Hodnotí model jako celek. H0: pouze výběrový charakter není zobecnitelné HA: model je statisticky významný a model je zobecnitelný. koef. determinace R 2 = 53,1% Z kolika procent jsou změny závisle proměnné vysvětlitelné nezávislou proměnnou. Emise jsou z 53% vyvolány frekvencí projíždějících aut. Odhady parametrů Odhad Standardní Proměnná DF parametru chyba t hodnota Pr > t Regresní carstanta intercept (regresní) a absolutní člen regresní koeficient b (stejné znaménko jako korelační) hodnota říká, o kolik se v průměru změní závisle proměnná když se nezávisle proměnná změní o jednotku. o 1000 vozů více -> CO naroste o 6,46 individuální p hodnoty hodnotí jednotlivé složky absolutní člen není stat. významný regresní člen je statisticky významný. jako celek je to stat. významné. U ideálního je všechno významné. Současný model je použitelný, ale ne 100% E) Zkooumání vlastností reziduí proc reg data=ms; model co=cars/r influence spec; /*r - studentizovaná rezidua a cookova vzdálenost,*/ plot co*cars/cframe=pink; /*pozadí grafu - cframe*/ plot r.*p.; /*reziduální graf*/ plot cookd.*p./cframe=ligr;
41 SVS přednášky symbol v=dot c=green h=1; output out=diag r=rezid; /*vytvoření nového souboru Diag */ quit; 8.p 2. Vícenásobná regrese a korelace Př: studenti do jaké míry je ovlivňována proměnná body (Y) proměnnou hodiny a IQ. Zajímá nás společné kombinované působení obou veličin na absolutní člen. pozn.: pouze 2 proměnné Y.(X) ~ JEDNODUCHÁ REGRESE A KOR. r <-1, 0> Y (X1,X2..Xk) ~ vícenásobná reg a korelace. 1.) změření těsnosti závislosti korelace koef.mnohonásobné korelace R (v jed. r) <0, 1> koeficient mnoh. determinace R 2 - z kolika % je y vysvětlováno veličinami X1 až Xk. 2.) průběh těsnosti regrese hledáme rovnici která popíše závislost Y a ostatních proměnných. Regresní přímka: Y = b 0 +b 1 X 1 +. b K X K b 0 = absolutní člen b 1 = parciální regresní koeficient, charakterizují část vlivů působící na příslušnou proměnnou X Předpoklady použitelnosti mnohonásobné regrese a korelace: a. normalita rozdělení analyzovaných proměnných b. nezávislost vysvětlujících proměnných každá proměnná přispěje novou informací k vysvětlení veličiny Y. Y = b 0 +b 1 X 1 + b 2 X 2
42 SVS přednášky Ověření multikolinearity: i. spočtu korelační matici vysvětlujících proměnných: X1 X2. Xk X1 1 r x1x2 r x1 xk X Xk 1 r xj xk < 0,75 r xj xk > 0,75 ~ multikolinearita - hodnota korelačního koef. ii. v SASU VIF Variance Inflation Factor VIF > 10 ~ multikolinearita. c. Rezidua, tvz rozdíly Yi Yi`, i = 1,2,3 n by měla mít normální rozdělení s nulovou stření hodnotou a konstantním rozptylem a konstantním rozptylem. - konstantní rozptyl čím je variabilita větší, tím jsou hodnoty kolísavější a méně přesná - normální rozdělení říká, že odhadnutá regresní přímka leží zhruba ve středu hodnot (naměřených) testování: začneme posouzením normality vstupních dat univariate (test lze vynechat v případě malých souborů, uvedené testy Shapiro-wilk atd jsou kvalitní až od n>30.) v tomto případě zbytečné málo dat! Lépe přes box plot atd. The SAS System 10:42 Sunday, January 14, Procedura UNIVARIATE Proměnná: R_hodiny (hodiny residuals) Testy normality Test --Statistika p hodnota----- Shapiro-Wilk W Pr < W Kolmogorov-Smirnov D Pr > D > Cramer-von Mises W-Kv Pr > W-Kv > Anderson-Darling A-Kv Pr > A-Kv > Kmen List # Krb.graf *--+--* násobit listy větve číslem 10**-1
43 SVS přednášky Graf pravděpodobnosti norm. rozdělení * *+ * *+*++* * * * * veličina IQ nemá normální rozdělení a proto není ideální použití pearsonova koef. a proto do skriptu zahrneme ještě spearmana. spočte difoltně spearmena: proc corr var_ proměnné pro které chci provést výpočet. quit; bez příkazu Var spočte všechny korelace proměnných. spočtění korelační matice: proc corr data=ms pearson spearman; quit; rozšířený model mnohonásobné regrese influence zjistí, jestli v množině vysvětlujících proměnných není nějaká odlehlá hodnota. - Leverage( vliv) hii - DFFITS Welschova kulova vzdálenost opět posouzení vlivnost r vlivnost a odlehlost spec spočte tvz Whiteův test umožňuje posoudit konstantní rozptyl reziruí. plot r. *p. konstrukce reziduálního grafu, orientační posouzení vlastností plot cookd. *p. graf hodnot cookovi vzdálenosti symbol - provedení grafů : v=dot (tečky) c=green; output - vytvoříme pomocný soubor: out=diag (název souboru) r=rezid; a s jeho pomocí chceme kontrolovat vlastnosti reziduí, obsahuje jedinou proměnnou nazvanou rezid rezidua.
44 SVS přednášky Proc reg data=ms corr; model body=hodiny iq/r influence vif spec; plot r. *p.; plot cookd. *p.; symbol v=dot c=green; output out=diag r=rezid; quit; Proc reg data=ms corr; model body=hodiny iq/r influence vif spec; plot r. *p.; plot cookd. *p.; symbol v=dot c=green; output out=diag r=rezid; quit; cokova vzdálenost je obecnější do jaké míry to pozorování ovlivňuje celý model DFFITS - do jaké míry to nalezené pozorovaní ovlivňuje tu jednu konkrétní hodnotu veličiny Y, kde byla vlivná hodnota nalezrna.
45 SVS přednášky P Vícenásobná regrese Y = a + bx + cx 2 Y = b 0 + b 1 X1 + b 2 X2 Př.: proc gplot data=a; plot spotreba*rychlost; symbol v=dot c=blue; 2 vysvětlující proměnné X1 původní rychlost vozu X2 rychlost 2 1. průzkumová analýza
46 SVS přednášky mod insight: pro lineární model. pozn.: vyžádání souboru procedura PRINT zobrazí soubor na který se chci podivat. proc print data=svs; var spotreba rychlost synraxe: proc svs1; set svs; rychlost2=rychlost*rychlost; proc reg data=svs1; LINEAR: model spotreba=rychlost; plot spotreba*rychlost; plot r.*p.; symbol v=dot c=red h=1; QUADRATIC: model spotreba=rychlost rychlost2/r influence spec; plot r.*p.; plot cookd.*p.; - nakreslí graf cook.vzdáklenosti. Osa X(predikované hodnoty, osa Y (cook.vz) ~ pro kterou vyrovnanou hodnotu se objevil problém. plot cookd.*obs.; - pro které pozorování se problém objevil.
47 SVS přednášky plot r.*p.; / konstrukce reziduálního grafu. plot cookd chark kooovy vzdalenosti výstupy: model: LINEAR statisticky významný. R 2 = 0,6273 plot r.*p.; - reziduální graf modelu. Podle reziduí se dá usuzovat, že model lineární není, ideální průběh reziduí u lin.modelu zobrazuje obdélník. model: Quadratic statisticky významný. R 2 = 0,98 ~ 98% - variabilita proměné spotřeba je z 98% vysvětlená proměnnou spotřeba. odhady parametrů individuální P-hodnoty jsou sta.významné. Výstupové statistiky/ Výstupy regresní diagnostiky posouzení kvality modelu QUADRATIC: model spotreba=rychlost rychlost2/r influence spec;
48 SVS přednášky studentizovaná rezidua podává informaci, zda ve vysvětlované proměnné nebyla nějaká hodnota, která by narušila model (extrém nebo odlehlost) - hodnoty ve sloupci porovnáme s /SR/ >2, nebo z hvězdičkovým výstupem ****, v modelu nebyla nalezena Y hodnota která by model zkreslila. Případný údaj je třeba ještě otestovat na vlivnost. cookovo D - cookova vzdálenost určí že pozorování je nejen odlehlé, ale i vlivné. Hodnotí kombinace veličiny Y, X a X 2 Jak vlivné pozorování ovlivňuje všechny hodnoty Y. ukazuje vlivnost v globále, je ovlivněna počtem pozorování 4 D > n D > 0,5 = vlivné pozorování - pozorování č.8, DFFITS (lepší test než cookova vzdálenost) Welschova-kuova vzdálenost Říká jakým způsobem vlivné pozorování ovlivnilo pouze pozorování Y8. p DFFITS > 2 = 0,80 n p=3 n=8 DFFITS > = vlivné pozorování p počet parametrů regresního modelu. (b0, b2, b3) opět identifikovala pozorování č.8 jako vlivné. Hat Diag H klobouková matice H ii p 3 6 > 2 = 2 = = 0,75 n 8 8 n počet měření p počet regresních parametrů (a, b = 2) Ve sloupci žádný takový údaj není. Provedeme kontrolu údajú a. test první a druhé specifikace momentu výstup Whiteůva testu kontroluje předpoklad použitelnosti modelu zda rezidua (rozdíl závislé proměnné a predikované) mají konstantní rozptyl. P-hodnota: 0,15 P.hot > 0,05 => H0. H0: rezidua mají konstantní variabilitu.
49 SVS přednášky p Kromě zkoumání kvantitativních proměnných je možné se zabývat zkoumáním kvatitativních proměnných. Jejich obměny nejsou vyjádřeni číselně. Kategoriální proměnné (Kvalitativní) např.: vzdělání ZS, SS, VS národnost kvalifikace barva očí základní pojmy: (různé členění) 1) typy kvalitativních znaků: a. alternativni znaky (pouze 2 obměny pohlaví) b. množné (vzdělání atd.) 2) nominální znaky jednotlivé varianty znaku můžeme pouze pojmenovat, ale nedají se utřídit např od nejmenší k největší. (národnost) 3) ordinální znaky znaky lze pojmenovat a zároveň jdou setřídit na stupně. (vzdělání, kvalifikace) Analýza kvalitativních znaků: znak A, B A A1, A2.Ak B- B1,B2,..Bm zkoumání je založeno na sestavení kontingenční tabulky kx m B N 2 k B N1 n n M M n k1 n n n KKK n k 2 KKK n n ij m 1m KKKn 2m M M km M M nij empirické (experimentální četnosti) - kolikrát se společně vyskytla varianta A1, B1 společně. 2 základní úkoly: I. posouzení závislosti kategoriálních znaků II. určení síly závislosti (těsnosti) III.
50 SVS přednášky použití 2 testů: chí kvadrát vyžaduje spočítat očekávané četnosti, na základě velikosti těch očekávaných četností se rozhodneme o užití testu. Tečkový způsob zápisu. ( n = ij o 2 ij ) χ k m oij počet stupňů volnosti f = ( k 1 )( m 1 ) f = 1 1 = 1 tabulková hodnota 2 χ 3,841 0,05;1 = porovnání vypočtené a tabulkové hodnoty 2 2 χ < χ 2 dif H 0 nazamítáme 2 χ > χ 2 dif H 0 zamítáme existuje závislost a můžeme prokázat její těsnost v SASU porovnáváme vypočtenou hladinu významnosti (P value). SAS se řídí heslem všechno se může hodit a vyhodí vše co umí, je třeba si vybrat vhodnou charakteristiku. p < α H 0 zamítáme H0: kvalitativní znaky A a B jsou nezávislé. očekávané četnosti počítají se z marginálních četností ni n j oij = n chí kvadrát pro kontingenční tabulku k X m se nedá použít, jestli že více než 20% očekávaných četností je < 5, případně když alespoň v jednom políčku kontingenční tabulky je očekávaná četnost < 1. V těchto případech je nutno některé sousedící skupiny spojit (řádky nebo sloupce). Výstupy ~ 2 typy: o chí kvadrátové míry těsnosti závislosti odvozeny od tesu chí kvadrát Cramerovo V V = 2 χ n ( k 1;) pokud H 0 nezamítáme nemá smysl počítat těsnost závislosti
51 SVS přednášky K = menší hodnota z počtu řádků a sloupců. 0 V < 0,3 velmi slabá závislost 0,3 V < 0,8 (0,75) střední závislost 0,8 V < 1 velmi silná závislost U tabulky 2X2 je třeba rozhodovat vždy v absolutní hodnotě. zásadní nevýhodou chí kvadrát testů závislosti je to, že nemají statistický obsah. Příklad: V = 0,56 střední závislost, ale samo o sobě to číslo neznamená nic. Na rozdíl od r 2 který vysvětluje variabilitu závislé proměnné. Nerozlišuje jestli zkoumané znaky jsou nominální nebo ordinální, dále nerozlišuje jestli znak je závisle nebo nezávisle proměnná. o Predikční míry míry typu PRE (proportionale reduction error) mají překonat zmiňované nevýhody. Testy pouze pro znaky nominální/ordinální.charakteristiky rozlišují mezi závislou a nezávislou (asimetrické). pozn.: vstupní tabulka 2x2 Asociační tabulka pohlaví / souhlas ANO NE M B B Ž C D zvláštnosti chí kvadrát test dává spolehlivé výsledky pouze pro dostatečně velké rozsahy výběru. Pro n<20 jsou výsledky obvykle velmi nepřesné a tento test by se neměl používat. pro 20<n<40 se test chí doporučuje používat pouze tehdy, jestliže žádná očekávaná četnost není menší než 5. n>40 pokud nepoužijeme test Chí kvadrát, použijeme Fisherův test. Fisherův přesný test Buňka (1,1) Četnost (F) 10 Levostranný Pr <= F Pravostranný Pr <= F Tabulková pravděpodobnost (P) Dvoustranný Pr <= P Velikost výběru = 20
52 SVS přednášky Př.: Bylo sledováno zda pravidelná účast studentů na přednáškách má vliv na úspěch v prvním termínu u ZK. Ověřte zda existuje závislost mezi znaky. účast/ uspěch ANO NE Ano ne Tři proměnné: proměnná počet je kvantitativní.úspěch a účast jsou kvalitativní. Příslušná procedura: proc freq data=ms; tables uspech*ucast/expected norow nocol nopercent chisq measures; weight pocet; tables jméno_řádkové proměnné(úspěch)* sloupcová proměnná weight jméno kvantitativní proměnné. Bez ní by byli všechny četnosti nahrazeny 1. /: expected vyžádání očekávaných četností, kůli zvolení testu. norow,nocol,nopercent vyjadřují procentické zastoupení v řádcích, sloupcích a celkové. Tímto je potlačujeme. chisq vytištění testového kritéria chí.kvadrát measures predikční míry The SAS System 11:33 Sunday, January 28, Procedura FREQ Tabulka pro uspech podle ucast uspech ucast Četnost Očekávaná ano ne Součet ano ne Součet Splňuje podmínky pro užití chí kvadrát testu, 80>20
53 SVS přednášky Statistiky pro tabulku uspech na ucast Statistika DF Hodnota Pr Chí-kvadrát Chí-kvadrát poměru věrohodností Spojitě přizp. Chí-kvadrát Mantel-Haenszelův Chí-kvadrát Koeficient Fí Kontingenční koeficient Cramerovo V p( 0,0007) < α H 0 zamítáme Prokázali jsme závislost mezi účastí na přednáškách a ZK. 0,3 V < 0,8 (0,75) střední závislost Fisherův přesný test Buňka (1,1) Četnost (F) 30 Levostranný Pr <= F Pravostranný Pr <= F 7.164E-04 Tabulková pravděpodobnost (P) 5.889E-04 Dvoustranný Pr <= P The SAS System 11:33 Sunday, January 28, Procedura FREQ Statistiky pro tabulku uspech na ucast Statistika Hodnota ASE Gama Kendallovo Tau-b Stuartovo Tau-c Somersovo D C R Somersovo D R C Pearsonova korelace Spearmanova korelace Lambdaasymetrické C R Lambdaasymetrické R C Lambdasymetrické Koeficient nejistoty C R Koeficient nejistoty R C Symetrický koeficient nejistoty Pro znaky nomiální Pro znaky ordinální Zde se jedná o znaky nominální a zhodnotíme pomocí koef. lambda Lambda asymetrické C R (závisle proměnná sloupcová/ řádková nezávislá) Lambda asymetrická R/C (obráceně úspěch/účast. Lamba symetrické nediferencuje. Lambdaasymetrická R/C = 0,2857 proměnná účast na přednáškách ovlivňuej úspěch z 29%.
54 SVS přednášky Typ studie Hodnota 95% Meze interv. spolehlivosti Případové řízení (Poměr šancí) Skupina (Riziko slp1) Skupina (Riziko slp2) Velikost výběru = p Př.: Bylo zkoumáno, zda použití určitého očkovacího sera může snížit počet onemocnění nakažlivou chorobou. Pokus byl proveden u 23 pokusných zvířat stejného stáří (12 jich bylo očkováno) a 11 neočkováno. A byla vystevena stejné nákaze. Výsledky šetření jsou uvedeny v tabulce: počet nakažených nenakažených celkem očkovaných neočkovaných celkem teoretická četnost: (12*8) / 3 = 4,17 < 5 => nelze použít chíkvadrát test pro ověření nulové hypotézy H0: výskyt nákazy není závislý na očkování. použijeme: Fisherův test celkem tři proměnné: 1. ockování ano/ ne 2. nákaza ano/ne vysvětlovaná proměnná je ve sloupci i. tyto proměnné nelze třídit podle nějaké stupnice a jde o znaky nominální. 3. počet skript: ods rtf; proc freg data=ms; tables ockovani*nakaza/norow nocol nopercent chisq measures; weight pocet; ods rtf close;
55 SVS přednášky použitý: proc freg data=mss; tables ockovani*nakaza/norow nocol nopercent chisq measures; weight pocet; P (0,0094) < 0,05 => HA. Procedura FREQ Tabulka pro ockovani podle nakaza ockovani nakaza Četnost ano ne Součet ano ne Součet Statistiky pro tabulku ockovani na nakaza Statistika DF Hodnota Pr Chí-kvadrát Chí-kvadrát poměru věrohodností Spojitě přizp. Chí-kvadrát Mantel-Haenszelův Chí-kvadrát Koeficient Fí Kontingenční koeficient Cramerovo V VAROVÁNÍ: 50% buněk má očekávané počty menší než 5. Chí-kvadrát může být neplatný test. Fisherův přesný test Buňka (1,1) Četnost (F) 1 Levostranný Pr <= F Pravostranný Pr <= F Tabulková pravděpodobnost (P) Dvoustranný Pr <= P doplňkové charakteristiky příkaz measure: koef. mají statistický obsah Procedura FREQ Statistiky pro tabulku ockovani na nakaza Statistika Hodnota ASE Gama Kendallovo Tau-b Stuartovo Tau-c Somersovo D C R Somersovo D R C Pearsonova korelace Spearmanova korelace Lambdaasymetrické C R Lambdaasymetrické R C Lambdasymetrické
Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné
VíceAnalýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer
ANOVA Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz ANOVA ANOVA je nástroj pro zkoumání vztahu mezi vysvětlovanými a vysvětlujícími
VíceAnalýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.
ANOVA Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz ANOVA ANOVA je nástroj pro zkoumání vztahu mezi vysvětlovanými a vysvětlujícími proměnnými.
VíceV praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více
9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme
Vícea) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily
Testování hypotéz Testování hypotéz jsou klasické statistické úsudky založené na nějakém apriorním předpokladu. Vyslovíme-li předpoklad o hodnotě neznámého parametru nebo o zákonu rozdělení sledované náhodné
VíceVÍCEROZMĚRNÝ STATISTICKÝ SOUBOR
KORELACE A REGRESE 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/..00/8.001)
VíceÚKOL 2 1886 22 5,77 5,00 5 2,531,003,056 -,869,113
ÚKOL 2 Jméno a příjmení: UČO: Imatrik. ročník: Úkol 2.1: V souboru EVS99_cvicny.sav zjistěte, zdali rozložení názoru na to, kdo by měl být odpovědný za zajištění bydlení (proměnná q54h), je normální. Řešte
VíceRegresní a korelační analýza
Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu)
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceAnalýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel
Analýza rozptylu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO Brno) Analýza rozptylu 1 / 30 Analýza
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 10. Mgr. David Fiedor 27. dubna 2015 Nelineární závislost - korelační poměr užití v případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí
VícePoznámky k předmětu Aplikovaná statistika, 9.téma
Poznámky k předmětu Aplikovaná statistika, 9téma Princip testování hypotéz, jednovýběrové testy V minulé hodině jsme si ukázali, jak sestavit intervalové odhady pro některé číselné charakteristiky normálního
VíceStatgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy
Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu
VíceTesty nezávislosti kardinálních veličin
Testy nezávislosti kardinálních veličin Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Načtení vstupních dat Vstupní data
VíceDynamické metody pro predikci rizika
Dynamické metody pro predikci rizika 1 Úvod do analýzy časových řad Časová řada konečná posloupnost reálných hodnot určitého sledovaného ukazatele měřeného v určitých časových intervalech okamžikové např
Více6. T e s t o v á n í h y p o t é z
6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně
VíceStatistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability
I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry
VíceMann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.
VíceJednofaktorová analýza rozptylu
Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato
VíceAnalýza rozptylu dvojného třídění
StatSoft Analýza rozptylu dvojného třídění V tomto příspěvku si ukážeme konkrétní práci v softwaru STATISTICA a to sice při detekci vlivu jednotlivých faktorů na chování laboratorních krys v bludišti.
VíceAnalýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání
Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání 1. Analýzu variance (ANOVu) používáme při studiu problémů, kdy máme závislou proměnou spojitého typu a nezávislé proměnné
VíceSYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ
SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ FIGALA V. a), KAFKA V. b) a) VŠB-TU Ostrava, FMMI, katedra slévárenství, 17. listopadu 15, 708 33 b) RACIO&RACIO, Vnitřní
VíceNárodníinformačnístředisko pro podporu jakosti
Národníinformačnístředisko pro podporu jakosti OVĚŘOVÁNÍ PŘEDPOKLADU NORMALITY Doc. Ing. Eva Jarošová, CSc. Ing. Jan Král Používané metody statistické testy: Chí-kvadrát test dobré shody Kolmogorov -Smirnov
VícePřednáška 5. Výběrová šetření, Exploratorní analýza
Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika aneb jak popsat výběrový soubor Typy proměnných
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceVŠB Technická univerzita Ostrava BIOSTATISTIKA
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: BIOSTATISTIKA Zadání 11 DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL 1: DOMÁCÍ ÚKOL
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VícePořízení licencí statistického SW
Pořízení licencí statistického SW Zadavatel: Česká školní inspekce, Fráni Šrámka 37, 150 21 Praha 5 IČO: 00638994 Jednající: Mgr. Tomáš Zatloukal Předpokládaná (a maximální cena): 1.200.000 vč. DPH Typ
VíceII. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal
Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,
VíceTestování hypotéz a měření asociace mezi proměnnými
Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,
VíceÚstav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze
Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Popis vstupních dat Vstupní data pro úlohu (A) se nacházejí v souboru "glukoza.csv".
VícePokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.
Regresní analýza; transformace dat Pro řešení vztahů mezi proměnnými kontinuálního typu používáme korelační a regresní analýzy. Korelace se používá pokud nelze určit "kauzalitu". Regresní analýza je určena
VíceOrganizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?
Organizační pokyny k přednášce Matematická statistika 2012 2013 Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta UK hudecova@karlin.mff.cuni.cz http://www.karlin.mff.cuni.cz/
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceUniverzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 2.1 Tvorba lineárních regresních modelů při analýze dat Autor práce: Přednášející:
Více4ST201 STATISTIKA CVIČENÍ Č. 8
4ST201 STATISTIKA CVIČENÍ Č. 8 analýza závislostí kontingenční tabulky test závislosti v kontingenční tabulce analýza rozptylu regresní analýza lineární regrese Analýza závislostí Budeme ověřovat existenci
VíceVŠB Technická univerzita Ostrava
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: PRAVDĚPODOBNOST A STATISTIKA Domácí úkoly Zadání 21 DATUM ODEVZDÁNÍ
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
VíceInovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)
VíceVYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství
1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí
VícePracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem
Pracovní adresář getwd() # výpis pracovního adresáře setwd("c:/moje/pracovni") # nastavení pracovního adresáře setwd("c:\\moje\\pracovni") # nastavení pracovního adresáře Nápověda?funkce # nápověda pro
Víceletní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika
Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování
VíceKORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
VíceOpravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese
- základní ukazatele Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze - základní ukazatele Načtení vstupních dat Vstupní data
VíceIlustrační příklad odhadu LRM v SW Gretl
Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná
VícePříloha č. 1 Grafy a protokoly výstupy z adstatu
1 Příklad 3. Stanovení Si metodou OES Byly porovnávány naměřené hodnoty Si na automatickém analyzátoru OES s atestovanými hodnotami. Na základě testování statistické významnosti regresních parametrů (úseku
VíceANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 2. POPISNÉ STATISTIKY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz CO SE SKRÝVÁ V DATECH data sbíráme proto, abychom porozuměli
VíceUNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
Více{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků
Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a
VíceUni- and multi-dimensional parametric tests for comparison of sample results
Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita
VíceAplikovaná statistika v R - cvičení 2
Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 4 Jak a kdy použít parametrické a
VíceSemestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat
Semestrální práce 1 3.3 Tvorba nelineárních regresních modelů v analýze dat Ing. Ján Lengyel, CSc. Centrální analytická laboratoř Ústav jaderného výzkumu Řež, a. s. Husinec Řež 130 250 68 Řež V Řeži, únor
VíceKontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu
VíceZpracování a vyhodnocování analytických dat
Zpracování a vyhodnocování analytických dat naměřená data Zpracování a statistická analýza dat analytické výsledky Naměř ěřená data jedna hodnota 5,00 mg (bod 1D) navážka, odměřený objem řada dat 15,8;
VíceLiteratura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější)
1. přednáška Literatura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější) 1. Testování hypotéz H0 testovaná (nulová) hypotéza H1 alternativní hypotéza (dvoustranná,
VíceMetodologie pro ISK II
Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech
VíceRegresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
VíceSTATISTICA Téma 8. Regresní a korelační analýza, regrese prostá
STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá 1) Lineární i nelineární regrese prostá, korelace Naeditujeme data viz obr. 1. Obr. 1 V menu Statistika zvolíme submenu Pokročilé lineární/nelineární
VíceÚkol 12. Přemysl Bejda. 22. března SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury.
Úkol 12 Přemysl Bejda 22. března 2008 1 Něco málo k SAS SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury. Komentáře v programu píšeme pomocí symbolu
VícePorovnání dvou výběrů
Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů
VíceStav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6
1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6
VíceZávislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )
Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního
VíceSTP097 STATISTIKA CVIČENÍ 12.12.2007 EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY
STP097 STATISTIKA CVIČENÍ 12.12.2007 EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY Postupujte podle zadání. Vše potřebné k dnešnímu cvičení natáhnete z webu do R příkazy: adr="http://artax.karlin.mff.cuni.cz/~kraud8am/stp097/stp097_cvic_2007-12-12.rdata"
VíceTestování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času
Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
VíceM cvičení : GLM04b (Vztah mezi Poissonovým a
RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04b (Vztah mezi Poissonovým a binomických rozdělením) Připomeňme, že pomocí Poissonova rozdělení P o(λ) lze dobře aproximovat binomické rozdělení Bi(n,
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
VíceTestování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry
Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet
VíceStatistika, Biostatistika pro kombinované studium. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování
VíceMSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test
c 2007 Kompost 1 MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test Jestliže při testování výsledek (hodnota testového kritéria) padne do kritického oboru: a) musíme nově formulovat nulovou hypotézu,
VíceTabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271
1 Příklad 1. Porovnání dvou regresních přímek Při výrobě automatových ocelí dané jakosti byla porovnávána závislost obsahu uhlíku v posledním zkušebním vzorku (odebraném z mezipánve na ZPO a analyzovaném
VíceUNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE
UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE Testy dobré shody Vedoucí diplomové práce: RNDr. PhDr. Ivo
VíceTomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
VíceADDS cviceni. Pavlina Kuranova
ADDS cviceni Pavlina Kuranova Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých pozorování (oba výběry spojeny do jednoho celku)
VíceTECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA
TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA Semestrální práce Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Vypracoval: Bonaconzová, Bryknarová, Milkovičová, Škrdlová
VícePOPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
VícePopisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy
Popisná statistika úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Úvod užívá se k popisu základních vlastností dat poskytuje jednoduché shrnutí hodnot proměnných
VíceVybrané partie z biostatistiky
1 Úvod Vybrané partie z biostatistiky 10.7.2017, Běstvina Marie Turčičová (turcic@karlin.mff.cuni.cz), MFF UK Pracovat budeme v programu R a jeho nástavbě RStudio, které si můžete bezplatně stáhnout zde:
VíceSemestrální práce. 2. semestr
Licenční studium č. 89002 Semestrální práce 2. semestr Tvorba lineárních regresních modelů při analýze dat Příklad 1 Porovnání dvou regresních přímek u jednoduchého lineárního regresního modelu. Počet
Více6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
VícePSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.
PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT Všichni žijeme v matrixu. V minulých dílech jsme viděli/y: Frekvence = četnosti Procenta =
VícePomůcka pro cvičení: 3. semestr Bc studia
Pomůcka pro cvičení: 3. semestr Bc studia Statistika Základní pojmy balíček: Statistics Pro veškeré výpočty je třeba načíst balíček Statistic. Při řešení můžeme použít proceduru infolevel[statistics]:=1,
VíceVyužití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)
Operační program Vzdělávání pro konkurenceschopnost Masarykova univerzita Brno Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.) doc. RNDr. PhMr. Karel
Více(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.
Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou
VíceSeminář 6 statistické testy
Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se Ježkovy a Širůčkovy seminární skupiny liší ve výsledcích v. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná
Více1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření
1.4 ANOVA Úloha 1 Jednofaktorová ANOVA Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření Bylo měřeno množství DNA hub Fusarium culmorum
VíceNadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech.
Statistics ToolBox Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech. [manual ST] 1. PROBABILITY DISTRIBUTIONS Statistics
VícePříklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy
Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Zadání: Deponie nadložních jílových sedimentů SHP byla testována za účelem využití v cihlářské výrobě. Z deponie bylo odebráno
Více(Auto)korelační funkce. 2. 11. 2015 Statistické vyhodnocování exp. dat M. Čada www.fzu.cz/ ~ cada
(Auto)korelační funkce 1 Náhodné procesy Korelace mezi náhodnými proměnnými má široké uplatnění v elektrotechnické praxi, kde se snažíme o porovnávání dvou signálů, které by měly být stejné. Příkladem
VíceStatistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika
Statistika Cvičení z matematické statistiky na PřF Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy léto 2012 Základní dělení popisná (deskriptivní)
VíceKorelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
VíceBiostatistika a matematické metody epidemiologie- stručné studijní texty
Biostatistika a matematické metody epidemiologie- stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev.
VíceDesign Experimentu a Statistika - AGA46E
Design Experimentu a Statistika - AGA46E Czech University of Life Sciences in Prague Department of Genetics and Breeding Summer Term 2015 Matúš Maciak (@ A 211) Office Hours: T 9:00 10:30 or by appointment
VíceSRG Přírodní škola, o.p.s. Orientace v Přírodě. Bez kompasu
SRG Přírodní škola, o.p.s. Orientace v Přírodě Bez kompasu Záměr práce Autor: André Langer Vedoucí práce: Štěpán Macháček Datum odevzdání: 8. 3 2010 Záměr práce není, protože jsem tuto práci dostal přidělenou.
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VícePřednáška IX. Analýza rozptylu (ANOVA)
Přednáška IX. Analýza rozptylu (ANOVA) Princip a metodika výpočtu Předpoklady analýzy rozptylu a jejich ověření Rozbor rozdílů jednotlivých skupin násobné testování hypotéz Analýza rozptylu jako lineární
Více