Lineární regresní model (VJ REGMOD-2)

Podobné dokumenty
PRAVDĚPODOBNOST A STATISTIKA

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Metody zkoumání závislosti numerických proměnných

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Generování dvojrozměrných rozdělení pomocí copulí

Úvod do korelační a regresní analýzy

Odhady parametrů 1. Odhady parametrů

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Praktické otázky vícenásobné lineární regrese (VJ REGMOD-3)

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

9. Měření závislostí ve statistice Pevná a volná závislost

8 NELINEÁRNÍ REGRESNÍ MODELY

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

, jsou naměřené a vypočtené hodnoty závisle

PRAVDĚPODOBNOST A STATISTIKA

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

11. Časové řady Pojem a klasifikace časových řad

4.2 Elementární statistické zpracování Rozdělení četností

PRAVDĚPODOBNOST A STATISTIKA

Úvod do teorie měření

11. Regresní analýza. Čas ke studiu kapitoly: 60 minut. Cíl VÝKLAD Úvod

Testování statistických hypotéz

P1: Úvod do experimentálních metod

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

a další charakteristikou je četnost výběrového souboru n.

12. N á h o d n ý v ý b ě r

Spolehlivost a diagnostika

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

8. Analýza rozptylu.

Přednáška V. Úvod do teorie odhadu. Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs.

FUNKCÍ JEDNÉ REÁLNÉ PROMĚNNÉ PRVNÍ DIFERENCIÁL

SP2 Korelační analýza. Korelační analýza. Libor Žák

Náhodný výběr 1. Náhodný výběr

P2: Statistické zpracování dat

Mendelova univerzita v Brně Statistika projekt

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

1. Základy měření neelektrických veličin

Pravděpodobnost a aplikovaná statistika

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

} kvantitativní znaky

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

[ jednotky ] Chyby měření

8. Zákony velkých čísel

Chyby přímých měření. Úvod

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

Pravděpodobnost a aplikovaná statistika

Metody statistické analýzy. doc. Ing. Dagmar Blatná, CSc.

PRAVDĚPODOBNOST A STATISTIKA

APLIKOVANÁ STATISTIKA

12. Neparametrické hypotézy

Lineární regrese ( ) 2

Regresní a korelační analýza

14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

ANALÝZA A KLASIFIKACE DAT

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY. Přírodovědecká fakulta ANALÝZA DAT. 2. upravené vydání. Josef Tvrdík

2. Vícekriteriální a cílové programování

KVALITA REGRESNÍHO MODELU Radek Fajfr

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

Doc. Ing. Dagmar Blatná, CSc.

Univerzita Karlova v Praze Pedagogická fakulta

PRAVDĚPODOBNOST A STATISTIKA

Deskriptivní statistika 1

Pravděpodobnost a aplikovaná statistika

S1P Popisná statistika. Popisná statistika. Libor Žák

2.4. INVERZNÍ MATICE

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Komplexní čísla. Definice komplexních čísel

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. Josef Tvrdík

Statistika - vícerozměrné metody

Spojitost a limita funkcí jedné reálné proměnné

14. B o d o v é o d h a d y p a r a m e t r ů

Intervalové odhady parametrů některých rozdělení.

MATICOVÉ HRY MATICOVÝCH HER

Optimalizace portfolia

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

Úloha II.S... odhadnutelná

VY_52_INOVACE_J 05 01

Statistická analýza dat

NEPARAMETRICKÉ METODY

LABORATORNÍ CVIČENÍ Z FYZIKY. Měření objemu tuhých těles přímou metodou

7 LIMITNÍ VĚTY. Čas ke studiu kapitoly: 70 minut. Cíl:

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

3. Lineární diferenciální rovnice úvod do teorie

PRAVDĚPODOBNOST A STATISTIKA

Přednáška č. 2 náhodné veličiny

Transkript:

eárí regresí model (VJ REGOD-) Základí formace V rámc této výukové jedotky s adefujeme leárí regresí model a sezámíme se s typy proměých využtelých jako predktory (vysvětlující proměé) v takovém modelu. Ukázaé prcpy budou užtečé v průběhu celého předmětu Regresí modelováí, eboť prcpy leárího regresího modelováí se uplatí v modelovacích přístupech, které budou ukázáy v ásledujících výukových jedotkách. U studetů se předpokládá zalost základích pojmů bostatstky, které byly rekaptulováy v předcházející výukové jedotce. K pochopeí výpočetích prcpů je ezbytá základí zalost počítáí s matcem a vektory. Výstupy z výuky kokrétí výukové jedotky Po prostudováí učebího tetu této výukové jedotky studet defují leárí regresí model, vysvětlí předpoklady leárího regresího modelu, použjí růzé typy proměých (spojté kategorálí) př kostrukc modelu, uvedou příklady běžě užívaých regresích modelů.. otvace eárí regresí modely využíváme pro modelováí (vysvětleí pozorovaých hodot) spojté výsledkové proměé (výsledku, závsle proměé). Výsledek se sažíme vysvětlt prostředctvím jedoho ebo více predktorů (ezávsle proměých, vysvětlujících proměých). Predktory mohou být buď rověž spojté, ebo kategorálí. Uvažujme ejprve ejjedodušší stuac, kdy se sažíme určt vztah mez dvěma spojtým proměým Příklad: Našm úkolem je vysvětlt u pacetů sérovou kocetrací 5-hydroyvtamu D (pro jedoduchost dále začíme jako vtam D) prostředctvím deu tělesé hmotost (body mass de, BI). Údaje pacetů pocházejí z datového souboru [vtamd]. Stuace je zázorěa a obrázku.. Pro každého paceta máme změřey obě zmíěé velčy, které poté zázoríme a -y grafu. Takovou sadou bodů můžeme proložt (v tomto jedoduchém případě tutvě) přímku, která co ejlépe reprezetuje vztah kocetrace vtamu D a BI. Je přrozeé volt přímku tak, aby byla vzdáleost jedotlvých bodů od přímky co ejmeší. V pra se jako výpočetí metoda pro určeí koefcetů takové přímky uplatňuje takzvaá metoda ejmeších čtverců, která mmalzuje součet druhých moc vzdáleostí mez jedotlvým body (aměřeým pozorováím) a hledaou přímkou. Běžý statstcký software ám tedy umožňuje ajít deálí polohu přímky, kterou lze popsat ásledově: kocetrace vtamu D,,4 BI Regresí koefcet odhadutý jako, se azývá absolutí čle (posu, aglcky tercept) regresí přímky. Druhý koefcet této jedoduché rovce se azývá směrce (sklo, aglcky slope). V této výukové jedotce se sezámíme se základím defcí leárího regresího modelu a s jeho předpoklady. Ukážeme s prcpy odhadů koefcetů tohoto modelu a testováí hypotéz založeých a parametrech tohoto modelu.

Vtam D 4 6 8 5 3 35 BI Obr.. Zázorěí vztahu mez deem tělesé hmotost (BI) a sérovou kocetrací vtamu D.. Jak defujeme leárí regresí model?.. eárí regresí model Předpokládejme a chvlku, že estuje pro všecha pozorováí přesý vztah mez dvěma (eáhodým) velčam y (výsledek) a (predktor): y Takto defovaý vztah mez velčam však a reálých datech (zejméa z bologe ebo medcíy) v pra pozorujeme stěží. Pro regresí modelováí se proto využívá ásledujícího vztahu, který v sobě jž zahruje áhodou velču ε (rezduum) reprezetující odchylku od uvedeého deálího vztahu. ozačuje výsledek (áhodou velču), ozačuje predktor (eáhodou, přesě změřeou velču). Předpokládejme tedy, že pro jedotlvá pozorováí (apř. pacety, lokalty, apod.) číslovaé prostředctvím deu od do (celkový počet pozorováí) platí: O rezduích budeme předpokládat, že jsou ε (.) esystematcké středí hodota rezduí je rova : Eε pro,..., homogeí v rozptylu rozptyl rezduí je pro všecha pozorováí stejý: ε D σ > pro,..., jsou vzájemě ekorelovaé: C( ε, ε ) pro j;, j,..., j

Pro jede predktor se regresí koefcety začí a, jedá se o zmíěý absolutí čle a směrc regresí přímky. Uvedeý vztah lze jedoduše rozšířt a větší počet (p) predktorů (pak máme celkem k p parametrů včetě, absolutího čleu). Dostáváme defc víceásobého regresího modelu (multple regresso):... ε p p (.) Rozepsáo do vztahů pro očekávaé hodoty (predkce) jedotlvých pozorováí,...,:... p p... p p... p p Tuto soustavu vztahů můžeme zapsat jako ásledující vztah využívající ásobeí matc: výsledek systematcká složka áhodá složka p matce pláu p ε p ε regresí koefcety Vektor výsledků, matc pláu, vektor regresích koefcetů a vektor rezduí ozačíme po řadě, X, a ε. atcový záps regresích rovc ám umoží zjedodušt defce potřebých statstk. X ε (.3).. Normálě rozděleý výsledek Defce leárího regresího modelu doposud eobsahovala specfkac kokrétí áhodé velčy. Doplěí rozděleí rezduí do defce regresího modelu ám umoží předvídat rozděleí výsledků, kostruovat tervaly spolehlvost a testovat statstcké hypotézy. Uvažujme tedy, že rezdua mají ormálí rozděleí s ulovou středí hodotou a rozptylem σ. Dále budeme předpokládat, že rozděleí rezduí pro jedotlvá pozorováí jsou vzájemě ezávslá. p j X j ε,,..., j ε ~ N(, σ ) (.4).3. Odhady parametrů regresího modelu Pro odhad parametrů leárího regresího modelu zpravdla využíváme metodu ejmeších čtverců. Pro takový odhad musí platt, že mmalzuje druhé mocy rozdílů mez jedotlvým pozorováím výsledku a regresí přímkou (ebo obecě regresí adrovou přímka ve dvourozměrém prostoru,

rova ve třírozměrém prostoru, atd.). Následující vztah umožňuje odhadout parametry regresího modelu metodou ejmeších čtverců (třeba ručě, spíše však s pomocí matcového kalkulátoru). Budeme jej začt jako ˆ OS (stříška ozačuje, že se jedá o odhad příslušého parametru, de OS pochází z aglckého ordary least squares, tedy metoda (obyčejých) ejmeších čtverců). ˆ (.5) OS ( X X) X Důkaz tohoto tvrzeí vz Statstcké modelováí eárí regresí model, věta 3.3. ze dále dokázat, že odhad metodou ejmeších čtverců je ejlepší (ve smyslu ejmešího rozptylu odhadu) estraý (středí hodota odhadu je rova hledaému parametru) leárí odhad. Rozptyl odhadu regresích koefcetů je: ˆ D OS σ ( X X) (.6) a tedy záme rozděleí odhadu parametrů modelu metodou ejmeších čtverců: ˆ OS k ~ N (, σ ( X X) ) (.7) Velča, kterou jsme mmalzoval prostředctvím metody ejmeších čtverců, se azývá rezduálí součet čtverců a je defováa ásledově. S e OS X (.8) Rezduálí součet čtverců ám umoží odhadout rozptyl regresího modelu (rezduí) σ : s Se k (.9).4. Základí statstcké testy v regresím modelu Klíčovou úlohou v bostatstce představuje testováí statstckých hypotéz. V této kaptole se sezámíme se dvěma základím třídam hypotéz, které můžeme v regresích modelech testovat. Příklad: Nejjedodušší (a zřejmě ejčastěj testovaou) ulovou hypotézou je rovost ěkterého z regresích koefcetů. Tak můžeme apříklad testovat klckou hypotézu, že se kocetrace vtamu D v krevím séru měí s rostoucím deem tělesé hmotost. Nulová (H ) a alteratví (H ) hypotézy tedy vypadají ásledově: H : H : Teto jedoduchý příklad reprezetuje prví třídu hypotéz, kdy testujeme rovost leárí kombace regresích koefcetů a lbovolé kostaty. To lze v případě modelu s jedím predktorem (dvěma parametry včetě absolutího čleu) zapsat jako vektorový souč c ˆ, kde OS c ( ) ˆ OS ˆ ˆ OS, OS, c ˆ OS ˆ OS,

Obecě můžeme zkostruovat testovou statstku T pro regresí model s k parametry, v tomto případě mají oba vektory c, ˆ OS velkost k. Statstka vypadá ásledově: c ˆ OS c T ~ t( k) s c (X X) (.) c a má studetovo rozděleí s k stup volost. Pokud testujeme hypotézu H : c ˆ H : c ˆ, pak ulovou hypotézu zamítáme a hladě výzamost α, pokud s c ˆ OS c (X X) c t α / ( k) kde t ) je - α/ kvatl studetova rozděleí s k stup volost. α / ( k Uvedeý test ám však epomůže, pokud chceme otestovat rovost celého vektoru parametrů ulovému vektoru. Takovýto test ám pomůže s rozhodutím, zda model jako celek dokáže vysvětlt výzamou část varablty výsledkové velčy, případě zda umí výzamou míru varablty vysvětlt kategorálí výsledková proměá, která je v matc pláu reprezetováa ěkolka sloupc (vz dále) a tedy je popsáa ěkolka parametry ve vektoru. Zavedeme ejprve blokové začeí pro ásledující vektory a matce: ůžeme testovat ásledující hypotézu (,..., m, m,..., k )' ˆ ˆ OS, OS ˆ OS, V V ( X X) V V kde je vektor reálých čísel. H : H : Testovou statstkou je ˆ F (ˆ )' (ˆ ˆ ) ~ F( k m, k) OS, V OS, (.) s ( k m).5 Koefcet determace Jako velča užtečá pro prví áhled a příosost modelu se zavádí tzv. koefcet determace. Tato velča odpovídá a otázku, jakou část z celkové varablty přítomé ve výsledkové proměé

jsme dokázal prostředctvím vytvořeého regresího modelu vysvětlt. Nejprve s tedy zavedeme velču udávající celkovou varabltu výsledkové proměé: S T ( ) (.) S velčou udávající evysvětleou varabltu výsledkové proměé jsme se jž setkal jedá se o rezduálí součet čtverců: S e ( ˆ ) (.3) ůžeme s všmout, že celkovou varabltu výsledkové proměé lze považovat za rezduálí součet čtverců ejjedoduššího modelu, kde jedým parametrem je středí hodota proměé, kterou můžeme odhadout pomocí výběrového průměru (vz kaptola 4.). Koefcet determace jž pak jedoduše získáme výpočtem z předchozích dvou velč: R S S e T (.4) 3. Předpoklady regresích modelů Ze samoté defce leárího regresího modelu vyplývá ěkolk předpokladů. Tyto předpoklady, které mohou být v pra často omezující, se v dalších výukových jedotkách tohoto kurzu aučíme překoávat. Následující přehled je tak zároveň rekaptulací klíčových předpokladů leárích regresích modelů motvací ke studu dalších výukových jedotek, ve kterých budou představey pokročlejší modelovací postupy.. earta modelu U popsaého regresího modelu předpokládáme, že očekávaá hodota výsledku je dáa leárí kombací popsaých parametrů. V ásledující kaptole (VJ kaptola 4.3) s cméě ukážeme, že eí bezpodmíečě utá learta s ohledem a hodoty predktorů hodoty predktoru můžeme vložt jako trasformovaé druhou ebo vyšší mocou a dosáhout tak polyomálí závslost výsledku a predktoru.. Adtvta účků jedotlvých predktorů Prozatím jsme předpokládal, že úček ějakého predktoru je ezávslý a hodotách ostatích predktorů. To však v pra emusí platt a teto předpoklad může být omezující. Ve výukové jedotce VJ3 Praktcké otázky víceásobé leárí regrese s ukážeme, jak lze toto omezeí překleout prostředctvím tzv. terakčích čleů. 3. Rezdua mají ormálí rozděleí s ulovou středí hodotou a kostatím rozptylem Ve třídě leárích modelů předpokládáme ormálí rozděleí rezduí (a z toho vyplývající rozděleí výsledku podmíěé hodotam predktorů). To opět emusí být vždy vyhovující, zejméa pro výsledkové proměé kategorálího typu. Ve výukové jedotce VJ5 ogstcký regresí model a jé zobecěé leárí modely se setkáme s třídou zobecěých leárích modelů, které ám dávají mohem větší flebltu s ohledem a rozděleí výsledkové proměé.

4. Pozorováí jsou vzájemě ezávslá Základí bostatstcké metody včetě leárích regresích modelů předpokládají, že rezdua jsou vzájemě ezávslé proměé. To opět v pra emusí být pravda. Například př dlouhodobém sledováí pacetů jsou hodoty ějakého zaku (apř. krevího tlaku, bochemckého ukazatele) získaé od jedoho paceta v růzých časech zřejmě vzájemě podobější ež hodoty získaé od růzých pacetů. To obáší jstou korelac mez růzým pozorováím u stejého paceta a tedy porušeí tohoto předpokladu. Řešeím je v takovém případě použít třídu tzv. smíšeých modelů, které umožňují modelovat korelac v rámc shluků podobějších pozorováí (eje pacetů, ale apříklad jedoho lékaře, zdravotckého zařízeí apod.). S těm se sezámíme ve výukové jedotce VJ6 Smíšeé modely.

4. Predktory růzých datových typů 4.. Kostata Ve většě praktcky využívaých leárích regresích modelů je přítome absolutí čle. Absolutímu čleu odpovídá sloupec jedček v matc pláu X. Nejjedodušší model je pak samozřejmě takový, který v matc pláu obsahuje právě je sloupec jedček a jehož regresím koefcetem je právě je absolutí čle. Parametr tohoto modelu můžeme odhadout a teto odhad je rove výběrovému průměru hodot výsledkové proměé. Regresí model a očekávaé hodoty výsledku jsou dáy ásledujícím vztahy: ε ε Ukázku regresí přímky pro takový jedoduchý model alezete a obrázku. (využtá data ve čtvrté kaptole pochází z datového souboru [heartdsease]). Všměte s, že a ose eí uvede žádý predktor (což by edávalo v tomto případě smysl), ale pouze pořadové číslo příslušého pozorováí. BI 5 5 3 35 4 45 3 4 Pořadové číslo Obr.. odelováí deu tělesé hmotost: odhad absolutího čleu.

4.. Spojtý predktor V kaptole jsme s a příkladu jž ukázal modelováí jedoduché závslost výsledku a spojté proměé. Závslost je v takovém případě vyjádřea regresí přímkou s každou jedotkou predktoru arůstá (ebo klesá) očekávaá hodota výsledkové proměé o hodotu regresího koefcetu sklou regresí přímky. V ásledujícím zápsu regresího modelu je tímto koefcetem. ε ε Obrázek.3 ukazuje závslost hodoty deu tělesé hmotost (BI) a procetuálím vyjádřeí podílu tukové tkáě. Závslost je v souladu s defovaým modelem vyjádřea přímkou. Obr..3 Závslost deu tělesé hmotost (BI) a podílu tukové tkáě: leárí model. 5 5 3 35 4 5 5 3 35 4 45 Podíl tukové tkáě BI

V pra se setkáme se stuací, kdy chceme modelovat závslost výsledku a spojté proměé, leárí model reprezetovaý přímkou však emusí být adekvátí. Regresí modelováí umožňuje sado modelovat regresí křvku polyomem vyššího stupě. Ukážeme s modelováí kvadratcké závslost. V takovém případě zahreme do matce pláu další sloupec s hodotam druhé mocy původí proměé. Na obrázku.4 je zázorěa obdobá závslost jako a předchozím obrázku, yí však jž s eleárím kvadratckým modelem. ε ε Obr..4 Závslost deu tělesé hmotost (BI) a podílu tukové tkáě: kvadratcký model. 4.3. Kategorálí predktor Neméě užtečý model zahruje predktor kategorálí. Ukažme s takový model a příkladu, ve kterém se sažíme modelovat podíl tukové tkáě v procetech v závslost a kategor dle deu tělesé hmotost (podváha, ormálí váha, adváha, obezta). Příslušá data jsou zázorěa a obrázku.5. Do matce pláu samozřejmě eí možé vložt přímo kategorálí proměou. Proto musíme tuto kategorálí proměou před použtím v regresím modelu převést a sadu dkátorových (dummy) proměých. Pro jedotlvé kategore původí proměé (s výjmkou prví) zavedeme dkátorové proměé, které abývají hodoty, pokud původí proměá abývá příslušé hodoty, a jak. Prví kategore původí proměé je pak reprezetováa ulovou hodotou všech dkátorových proměých zároveň. Stuace je a příkladu ukázáa v tabulce.. 5 5 3 35 4 5 5 3 35 4 45 Podíl tukové tkáě BI

Tabulka. Příklad převodu kategorálí proměé a sadu ových dkátorových proměých. V posledím sloupc je uvede vztah pro očekávaou hodotu výsledku pro příslušé pozorováí. Původí proměá kategore BI Idkátor: Normálí váha Nové proměé Idkátor: Nadváha Idkátor: Obezta Podváha Normálí váha Nadváha Obezta 3 Příslušý řádek matce pláu pak pro jedotlvá pozorováí obsahuje jedčku ve druhém, třetím, ebo čtvrtém sloupc pro pacety s ormálí váhou, adváhou a obeztou. Pacet s podváhou mají tedy očekávaou hodotu výsledku rovu koefcetu, u pacetů s ormálí váhou, adváhou ebo obeztou se přdává ještě regresí koefcet, ebo 3. 3 ε 3 ε 3 Podváha Normálí Nadváha Obezta 3 Podíl tukové tkáě [%] 3 4 5 3 Podváha Normálí Nadváha Obezta Obr..5 Závslost podílu tukové tkáě a kategor tělesé hmotost: zázorěí odhadutých koefcetů v modelu s kategorálím predktorem.

5. Příklady základích bostatstckých modelů 5. T-test Prostředctvím t-testu se sažíme testovat klckou hypotézu o rozdílost středí hodoty mez dvěma skupam. Představme s apříklad radomzovaou klckou stud ového léku, který má za cíl sížeí krevího tlaku. Pacety áhodě rozdělíme do dvou skup, prví skupě podáváme placebo (eaktví látku), druhé skupě studovaý lék. Po ějaké době aměříme v obou skupách pacetů hodoty krevího tlaku. Tyto hodoty tedy představují hodoty výsledkové proměé () v pomyslém regresím modelu. Co jsou predktory? Jako obvykle budou v prvím sloupc matce pláu X jedčky. Pokud by to byl jedý sloupec matce pláu, jedý regresí koefcet by odpovídal výběrovému průměru krevího tlaku všech pacetů. y přdáme do matce pláu ještě druhý sloupec, který bude vlastě dkátorovou proměou příslušost ke druhé skupě. Pokud s prvky vektoru (regresí koefcety) ozačíme jako µ (středí hodota krevího tlaku ve skupě, které bylo podáváo placebo) a α (změa krevího tlaku po podáí léku), dostáváme ásledující vztahy pro očekávaé hodoty krevího tlaku v obou skupách: X µ µ α Nulovou hypotézou je pak samozřejmě ulová změa v souvslost s podáváím léku: H : α H : α Tuto hypotézu lze otestovat prostředctvím testové statstky uvedeé v kaptole.4. 5. Aalýza rozptylu Klcká hypotéza pro aalýzu rozptylu je velm podobá sažíme se ukázat rozdíl mez zkoumaým skupam, v rámc aalýzy rozptylu však zkoumáme více ež dvě skupy. ísto jedého parametru α tedy zavádíme pro m skup m parametrů α,..., α m- :

Nulovou hypotézou je ulový rozdíl ve středích hodotách prví a kterékolv ásledující skupy: H : α m α H : α m α Tuto hypotézu lze otestovat prostředctvím testové statstky uvedeé v kaptole kaptole.4. Řešeý praktcký příklad: závslost kocetrace vtamu D a BI Vraťme se k příkladu, kterým jsme tuto výukovou jedotku začíal: modelujeme závslost sérové kocetrace vtamu D (proměá vtd) a deu tělesé hmotost (proměá bm). K dspozc máme ásledující datovou tabulku se vzorkem 4 rských že z datového souboru [vtamd]. vtd bm 37,6 6,39 53,,54 66,7 3,5...... 43,7 5,73 35,,7 7, 3,978 Proměá vtd představuje výsledkovou proměou, proměá bm predktor: Takto tedy vypadá vektor výsledků () 7, 37,6 X µ µ α m α µ

A takto matce pláu X 6,39 3,978 Nyí odhademe parametry tohoto jedoduchého modelu prostředctvím programu R. Nejprve s ukážeme zdlouhavější postup kopírující výpočty popsaé v kaptole, poté okometujeme syta a výsledky voláí fukce lm(), která se v programu R používá pro odhad parametrů leárího regresího modelu. Následující rámečky uvádějí v levém sloupc kód v programu R a jeho sloví pops, v pravém sloupc pak symbolcká reprezetace uvedeého postupu. XX <- t(x) %*% X souč traspoovaé matce X a původí matce X 4, X X & 8,46 8,46 946,6 XX_v <- solve(xx) verze matcového souču ( X X) &,56,39,39, Beta_hat <- XX_v %*% ( t(x) %*% ) výpočet odhadu regresích koefcetů ˆ ( X X),53 ( X ) &,39 _hat <- X %*% Beta_hat predkovaé hodoty výsledku ˆ Xˆ s <- t(_hat - ) %*% (_hat - ) / (4-) rezduálí součet čtverců s S ( ˆ ) ( ˆ e ) 3,63 k k & s 7,96 c <- matr(c(,),col) sloupcový vektor T <- abs(t(c) %*% beta_hat) / (sqrt(s) * sqrt( t(c) %*% XX_v %*% c)) testové krtérum pro t-test T s c ˆ OS c (X X) c 3,466 qt(.975,4-) 97,5% kvatl studetova rozděleí s 39 stup volost,3

*(-pt(t,4-)) p-hodota,3 Praktcky je samozřejmě odhad parametrů v programu R výrazě jedodušší využjeme přpraveé fukce lm(). Základí výsledky získáme odesláím ásledujících fukcí: model <- lm(vtd ~ bm, data rlwome) summary(model) Dostáváme ásledující výsledek: Nejprve je zopakováa formulace regresího modelu ve fukc lm(): Call: lm(formula vtd ~ bm, data rlwome) Následuje základí popsá statstka vektoru rezduí: Resduals: Q eda 3Q a -5.36 -.96 -.4.9 5.83 Zde je uvede samotý odhad modelových parametrů, spolu s potřebým testovým statstkam (postupě jsou uvedey bodové odhady, směrodaté chyby těchto odhadů, hodoty t-statstky a příslušé p-hodoty pro ulovou hypotézu rovost koefcetu ): Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept).535 8.44 6.35 4.63e-7 *** bm -.394.69-3.466.3 ** --- Sgf. codes: ***. **. *.5.. Rezduálí součet čtverců a počet stupňů volost: Resdual stadard error: 7.9 o 39 degrees of freedom Koefcet determace a jeho adjustovaá varata (její hodota se sžuje s rostoucím počtem predktorů, může tedy být vhodější pro srováváí predkčí síly modelů): ultple R-squared:.355, Adjusted R-squared:.59 A koečě F-statstka pro výzamost všech predktorů zároveň. Všměte s, že v tomto případě (pouze jedý spojtý predktor) je p-hodota totožá s p-hodotou t-testu výzamost predktoru bm. F-statstc:. o ad 39 DF, p-value:.99

Problémy k řešeí Praktcká práce s regresím modely:. Stáhěte z Iteretu datový soubor [vtam D] a odhaděte parametry modelu závslost kocetrace vtamu D a deu tělesé hmotost (BI). [,; -.4]. Odhaděte parametry takového modelu v případě, že de tělesé hmotost bude zadá v rámc kategorí (BI < : podváha, BI -4: ormálí hmotost, BI 5-9: adváha, BI 3: obezta). [ 63,; -7,5; -7,4; 3-5,8] Pochopeí matematckých vztahů defujících regresí model: 3. Ukažte, že odhad parametru pro regresí model bez predktorů (je s absolutím čleem) je rove výběrovému průměru hodot výsledku. 4. Ukažte ekvvalec vztahů pro rezduálí součet čtverců.8 a.3. 5. Odvoďte testové statstky pro regresí modely reprezetující klascký t-test a aalýzu rozptylu. Srovejte se vztahy, které záte z klascké bostatstky. teratura Použtá lteratura [] Forbelská,.: Studjí materály k předmětu eárí statstcké modely. Přírodovědecká fakulta asarykovy uverzty, Bro (9). [] Aderse, P.K., Skovgaard,.T.: Regresso wth ear Predctors. Sprger, New ork () Použté datové soubory [heartdsease] dostupý z http://statweb.staford.edu/~tbs/elemstatear/ [vtamd] dostupý z http://staff.pubhealth.ku.dk/~learpredctors/