Tomáš Karel LS 2012/2013
Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není v nich obsaženo zdaleka všechno, co byste měli umět. Dalším studijním materiálem je učebnice, cvičebnice a také poznámky z přednášek a cvičení! Tomáš Karel - 4ST201 5.12.2013 2
cv. Program cvičení 1. Úvod, popisná statistika 2. Popisná statistika 3. Míry variability, pravděpodobnost 4. Pravděpodobnost, náhodné veličiny a jejich charakteristiky 5. Pravděpodobnostní rozdělení 6. TEST, odhady parametrů 7. Testování hypotéz 8. Chí kvadrát test dobré shody, kontingenční tabulky, ANOVA 9. Regrese, ANOVA 10. Regrese, 11. korelace, časové řady (bazické a řetězové indexy) 12. TEST, Časové řady 13. Indexní analýza
U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti. Údaje jsou uvedeny v následující tabulce: Rychlost 40 50 60 70 80 90 100 110 Spotřeba 5,7 5,4 5,2 5,2 5,8 6,0 7,5 8,1 a) vyrovnejte data regresní parabolou b) charakterizujte těsnost závislosti c) ověřte význam kvadratického členu v modelu d) proveďte bodový odhad spotřeby při rychlosti 80 km/h
Y = b o + b 1 x + b 2 x 2 = = 9,752 0,151x + 0,001x 2
Pro těsnost závislosti charakterizovanou indexem determinace a upraveným indexem determinace platí, že modelem bylo vysvětleno 96, 83 % veškeré variability
Y b b x b x 9, 752 0,151x 0, 001x 2 2 0 1 2 2 9,752 0,151 80 0,001 80 4,072
Tabulka obsahuje údaje o stáří, počtu najetých km a ceně 20 ojetých aut značky Octavia Combi. 1) zkonstruujte regresní model závislosti ceny auta na jeho stáří a počtu najetých km 2) posuďte jeho kvalitu 3) a použijte jej k odhadu ceny auta starého 6 let, které má najeto 60 tis.km
Hodnota testového kritéria F Hladina významnosti
Na obrázku je uveden výstup z vícenásobné regresní analýzy v Excelu, odpovídající modelu vícenásobné lineární regrese se dvěma vysvětlujícími proměnnými. Model má popisovat závislost pracovní neschopnosti (%) na průměrném věku pracovníků a na podílu žen na celkovém počtu pracovníků (%). Co všechno je možné z výstupu vyčíst? Vypočtěte hodnotu koeficientu determinace a upraveného koeficientu determinace.
jeden z možných způsobů, jak vybrat vhodný počet parametrů a vhodné proměnné regresního modelu může pomoci rozhodnout, zda má do modelu smysl přidat ještě další parametr nebo nikoliv apod. (např.: má smysl přejít od lineárního ke kvadratickému modelu; od modelu se třemi vysvětlujícími proměnnými k modelu se čtyřmi apod.) Upravený index determinace je tedy možné použít např. i proto, abychom rozhodli, zda je lepším modelem regresní přímka nebo regresní parabola! Pro tyto účely nelze použít klasický index determinace.
Rozhodněte, zda-li vhodnějším modelem pro popis závislosti proměnné y na proměnné x je přímka nebo parabola
předmětem je zkoumání vzájemných lineárních vztahů mezi dvěma nebo více číselnými proměnnými chceme-li posoudit sílu závislosti mezi dvěma proměnnými, můžeme použít korelační koeficient (odmocnina z koeficientu determinace)
r xy = 1 přímá funkční závislost r xy = -1 nepřímá funkční závislost r xy = 0 lineární nezávislost
Korelační koeficient podává informaci o intenzitě lineární závislosti a jejím směru (přímá, nepřímá) (horní řádek) nezachycuje však hodnotu sklonu této závislost, neboli nezachycuje, jakou změnu střední hodnoty jedné proměnné očekáváme, pokud se druhá proměnná změní o jednotku (prostřední řádek) a ani nezachycuje nelineární závislost mezi proměnnými (dolní řádek)
k výběrovému korelačnímu koeficientu r xy existuje jeho teoretický protějšek: tj. korelační koeficient ρ xy základního souboru test hypotézy o nulové hodnotě korelačního koeficientu základního souboru je vzhledem k významu korelačního koeficientu testem o tom, zda mezi dvěma proměnnými existuje statisticky významná lineární závislost. Ekvivalentní test již umíme provést i nástroji jednoduché lineární regrese (např. dílcím t-testem o nulové hodnote regresního parametru β 1 nebo testem o modelu)
Korelační koeficient nemusí mít u všech možných dat, která chceme analyzovat vždy dobrý smysl počítat a interpretovat jeho velikost (záleží totiž na tom, z jakého rozdělení provádíme výběr korelační koeficient je šitý na míru tzv. dvourozměrnému normálnímu rozdělení). V případe, že jsme jednu z proměnných pevně volili (např. v nějakém experimentu), je vhodnější použít regresní analýzu. Navíc regresní analýza nám podává i informaci o hodnotě sklonu lineární závislosti, neboli informaci o tom, jakou změnu závisle proměnné odhadujeme, pokud se nezávisle proměnná změní o jednotku.
Máme k dispozici měření hmotnosti dětí a počtu jejich bodů za diktát. Student 1 2 3 4 5 6 7 8 9 10 Hmotnost 20 24 31 35 39 43 45 48 52 53 Počet bodů 34 36 38 42 45 48 51 55 58 62 a) změřte těsnost lineární závislosti mezi počtem bodů za diktát a hmotností dětí b) otestujte na 5% hladině významnosti, zde je tato závislost statisticky významná c) uvažujte nad tím, zda-li můžeme určit směr závislosti a použít případně regresní funkci
a) r xy = 0,975 b) t = 12,41 proti t 0,975 [8] = 2,306 spadá do kritického oboru, tudíž zamítáme nulovou hypotézu, která tvrdí, že korelační koeficient je roven nule prokázali jsme, že je statisticky významně odlišný od nuly c) je logicky nesmyslné, aby počet bodů z diktátu závisel na hmotnosti. Jedná se ve skutečnosti o tzv. falešnou korelaci, kdy obě proměnné závisí na proměnné třetí, zde neuvažované, a tou je věk testovaných dětí. Ne každá korelace je tudíž důkazem závislosti (!) a už vůbec nic neříká o směru této závislosti
U 15 chlapců jsme spočítali počet udělaných kliků a počet shybů. Spočítejte, jestli existuje vzájemná lineární závislost mezi počtem shybů a počtem kliků a vyčíslete intenzitu této závislosti.
MS Excel -> Data -> Analýza dat -> Korelace (popř. kovariance) kovarianční matice = na diagonále rozptyly, mimo diagonálu kovariance (obojí výběrové) korelační matice = na diagonále jedničky, mimo diagonálu korelační koeficient obě matice jsou vždy symetrické
30 minut (na konci hodiny) 3-4 početní příklady (žádná teorie) možno používat: kalkulačku, Excel, vzorce, tabulky, absence na testu musí být předem omluvena na test je 1 pokus (žádné opravy)
Rozsah 6.-11. cvičení Normální rozdělení bodový a intervalový odhad testování hypotéz jednovýběrový test (test o jednom parametru) dvouvýběrový test (rovnost dvou parametrů) chí-kvadrát test dobré shody kontingenční tabulky konstrukce, test nezávislosti, kontingenční koeficienty analýza rozptylu regresní analýza odhad parametrů MNČ, součty čtverců, index determinace, upravený index determinace, regresní přímka, parabola, vícenásobná regrese, celkový F-test, jednotlivé t-testy korelační analýza, test o korelačním koeficientu