Výsledky této ásti regresní analýzy jsou asto na výstupu z poítae prezentovány ve form tabulky analýzy rozptylu.

Ig. Marta Ltschmaová Statstka I., cveí 4 JEDNODUCHÁ LINEÁRNÍ REGRESE asto chceme prozkoumat vztah mez dvma velam, kde jeda z ch, tzv. ezávsle promá x, má ovlvovat druhou, tzv. závsle promou Y. edpokládá se, že ob vely jsou spojté. rvím krokem ve zkoumáí by mlo být zakresleí dat do bodového grafu, tzv. korelaího pole a oveí toho, zda mez velam skute exstuje pedpokládaá závslost, tzv. regrese. Výsledky této ást regresí aalýzy jsou asto a výstupu z poítae prezetováy ve form tabulky aalýzy rozptylu. Nejjedodušší formou regrese je jedoduchá leárí regrese, která pedpokládá leárí závslost mez dvm velam. Rovc regresí pímky zapsujeme ve tvaru: Y x e = β β Odhad regresí pímky azýváme vyrovávací pímka a zapsujeme jej v jedom z tchto tvar: Yˆ = b b x Yˆ * = b b ( x x) (tzv. odchylková forma zápsu) Y ˆ = b b x e (kde e ozaujeme jako chyby predkce (odhadu), resp. rezdua) okud jsou sply podmíky leárího regresího modelu, mžeme koefcety regresí pímky odhadovat metodou ejmeších tverc. odmíky leárího regresího modelu jsou tyto: kde Y β x e, = β. E ( e ) = pro každé =,,, Stedí hodota áhodé složky je ulová.. D( e ) = σ pro každé =,,, Rozptyl áhodé složky je kostatí. 3. Cov ( e, e j ) = pro každé j, kde, j =,,, Kovarace áhodé složky je ulová. 4. Normalta: Náhodé složky e mají pro =,,, ormálí rozdleí. 5. Regresí parametry mohou abývat lbovolých hodot. 6. Regresí model je leárí v parametrech. odmíky leáríhu regresího modelu je uto v rámc regresí aalýzy ovt. Exstec leárího vztahu mez dvma velam zjšujeme tak, že se formál ptáme, zda je smrce rova ule. okud je odpov a tuto otázku kladá, zameá to, že smrce vyrovávací pímky se lší od uly pouze áhod, tz., že vztah mez sledovaým velam eí leárí. (Jde o obdobu testu, který je vyhodoce v tabulce ANOVA.) - 83 -

Ig. Marta Ltschmaová Statstka I., cveí Obdob mžeme testovat výzamost absolutího leu vyrovávací pímky (b ). Testm výzamost koefcet vyrovávací pímky íkáme dílí t-testy. Itervalový odhad mžeme p regres hledat jedak pro stedí hodotu Y p daé úrov x (E(Y X=x )), jedak pro jedotlvé pozorováí (Y ). Itervalu spolehlvost pro jedotlvé pozorováí íkáme terval predkce. Tyto tervalové odhady pro spojt se mící hodoty x tvoí tzv. pás spolehlvost kolem regresí pímky, resp. pás predkce kolem regresí pímky. Kvaltu regresího modelu udává dex determace R. esj eeo udává kolk procet rozptylu vysvtlovaé promé je vysvtleo modelem a kolk zstalo evysvtleo. Regresí model ám umožuje provádt rovž extrapolac, tj. odhad závsle promé pro hodoty ezávsle promé ležící mmo terval ameých hodot. Extrapolace je vždy spojea s rzkem, že regresí model mmo terval ameých hodot pozbývá platost. Lépe je zát kolk užteých pravdel, ež astudovat moho eužteých vcí. (Seeca, vol dle Ig avla Blažíka, IV. zjazd Sloveskej spooost klckej bochéme, Stará ubova, kvte ) Závry plyoucí z ašch výsledk platí pouze pro rozsah hodot, pro které byl model avrže. Jakákolv extrapolace je pejmeším ošdá. Na data se vždy ejprve "podíváme" pomocí korelaího pole. Z korelaího pole usuzujeme, zda ejsou pítomy tzv. vlvé resp. vychýleé body. Bod, který je sl vychýleý ve smru pouze jedé ze souadc, asto azýváme odlehlý (outler). Bod, který je vychýleý ve smru obou souadc, ozaujeme asto jako extrém. Termologe eí ustáleá. Vlvé body mohou mít slý vlv a odhadovaou regresí fukc. roblém odlehlých bod bývá asto eše tím, že jsou z výbrového souboru vylouey a to a základ odhadu (jsou patré už a výše zmíém korelaím pol). Jý vhodý zpsob jejch odhaleí je zkostruováí a posouzeí tzv. dagostckých graf (ap. z- souadce, x,5 -souadce) ebo provedeí umerckých test (Dxov, Grubbsv). okud je dostateé možství dat, je kdy úelé odlehlý bod (body) vylout z dalšího zpracováí. Nkdy bychom však eml vlvý bod vylout, až bychom vysvtll píu jeho vzku ebo se pesvdl, že se jedá o artefakt (ap. hrubá chyba). okud používáme korelaí koefcet, je teba mít a pamt, že teto koefcet je pouze mírou leárí závslost výsledk. "ký" korelaí koefcet (hodota blízká jedé ebo mus jedé) ješt vbec ezameá, že srovávaé metody dávají "pk" shodé - 84 -

Ig. Marta Ltschmaová Statstka I., cveí výsledky. Zameá to pouze slou leárí závslost mez výsledky obma metodam. "Špatý" (malý v absolutí hodot) korelaí koefcet vbec ezameá, že závslost je málo slá. Mže (ale emusí!) jít ap. o slou eleárí závslost, ap. kvadratckou. oužtí leárí regrese je vhodé pouze v kterých pípadech. ekme, že chceme provést leárí regres vysvtlovaé promé Y a vysvtlující promé x. Tato regrese má svoje opráví pouze tehdy, jestlže: rozptyl (eurtost) p získáváí (meí) hodot vysvtlující promé je alespo o ád meší ež rozptyl (eurtost) p meí hodot vysvtlovaé promé. Dvod je docela prozacký. Uvdomme s, že p výpotu koefcet optmálí vyrovávací kvky metodou ejmeších tverc se vlast hledá taková vyrovávací kvka, aby souet tverc odchylek jedotlvých (ameých) bod od této kvky byl ejmeší možý. Matematcky eeo hledáme globálí mmum. Drtvá vtša algortm (poítaových program) provádí meí vzdáleost bod od vyrovávací kvky ve smru vysvtlovaé promé. Jak eeo, postup výpotu pedpokládá, že ve smru vysvtlující promé jsou eurtost jedotlvých bod zaedbatelé oprot smru vysvtlovaé promé. Dále je teba, aby každá promá mla v deálím pípad ormálí (Gaussovo) aebo v prax alespo symetrcké rozdleí dat. troše zkušeost to pozáme už z korelaího pole evetuel z emprcké hustoty (hstogramu) píslušé promé. Jestlže jsou které hodoty p testováí statstcky výzamé, emusí to zameat, že jsou výzamé praktcky. Obdob, jestlže jsou které hodoty p testováí statstcky evýzamé, emusí to zameat, že jsou evýzamé praktcky. odle L. Dohala (posbíráo a Iteretu) 4.. Byl vyvut ový druh sulu a zkoumá se závslost sížeí hlady cukru v krv paceta a možství podaého sulu urtou dobu ped meím. Náhod vybraým 8 pacetm byla aokováa rzá možství sulu a po urté dob bylo tmto pacetm zmeo sížeí cukru v krv. Výsledky meí: Možství sulu [ µ l] 5 5 3 35 4 45 5 Sížeí hlady cukru [%] 8 3 55 58 44 65 a) Zázorte korelaí pole a zvolte vhodý typ leárího regresího modelu pro pops závslost sížeí hlady cukru a možství podaého zulíu. b) Ovte oprávost použtí vybraého modelu. c) rovete dílí t-testy. d) Ovte kvaltu modelu resp. vyberte ejvhodjší l. regresí model pro pops daé závslost (zvoll-l jste regr. model jý ež pvodí, vrate se k bodu a)). e) Ovte, zda byly sply pedpoklady pro použtí vybraého l. regr. modelu. f) Zapšte rovc vyrovávací fukce. E Y O X = 35 sížeí hlady cukru p možství podaého g) Urete stedí hodotu ( ) sulu 35 l, vet 95%-ího tervalu spolehlvost. Vyjádete slov, co zameá 95%-í terval spolehlvost E( Y O X = x ) pro x = 35µ l. h) Odhadte, o kolk se síží hlada cukru paceta, jemuž se podá 35 l sulu (vet 95%-ího tervalu predkce). - 85 -

Ig. Marta Ltschmaová Statstka I., cveí ) Odhadte a základ zvoleého regresího modelu o kolk se síží hlada cukru paceta, jemuž se podá 7 l sulu (vet 95%-ího tervalu predkce). ojedejte o oprávost této predkce. ešeí ve Statgraphcsu: Nejdíve data zadáme do Statgraphcsu, pop. použjeme soubor Isul.sf3. ro jedoduchou regres volíme meu Relate/Smple Regresso... Vysvtlovaou promou (Sížeí hlady cukru) zadáme jako Y, vysvtlující promou (Možství sulu) zadáme jako X. ada) Následující obrázek je lustrací toho, co mohou zpsobt vlvé body obsažeé v datech (p použtí metody ejmeších tverc). Z obrázku je zejmé, že jedý vlvý bod dokáže odhad regresí fukce zehodott. Nkdy bychom však eml vlvý bod vylout, až bychom vysvtll píu jeho vzku ebo se pesvdl, že jde o hrubou chybu. (Tyto body mohou apíklad sgalzovat, zvlášt p malém potu pozorovaých bod, datovou oblast, kterou jsme meím epokryl.) Vlvý bod roto s ejdíve prohlédeme korelaí pole (scatter plot, bodový graf) a zjstíme zda data vlvé body eobsahují. - 86 -

Ig. Marta Ltschmaová Statstka I., cveí Je zejmé, že tato data vlvé body eobsahují. Zárove se pokusíme a základ této vzualzace odhadout vhodý typ leárího regresího modelu. Bývá zvykem volt regresí fukc s co ejmeším potem regresích koefcet, avšak dostate flexblí a s požadovaým vlastostm (mootóe, asymptoty, ). Vtšou se vychází ze zkušeost, pop. v deší dob, kdy je bžé pro regresí aalýzu využívat statstcký software, využíváme vhodou databáz regresích fukcí. Statgraphcs má jako výchozí l. regresí model pedastaveou leárí regresí fukc, která by (a základ vzuálí kotroly) mohla být v tomto pípad použta. Na základ kozultace se zadavatelem úlohy bychom mohl rovž zvolt fukc kvadratckou, resp. fukc logartmckou. adb) adf) Nyí s všmeme textového výstupu. Typ modelu, rovce vyrovávací fukce Závsle a ezávsle promá Bodové odhady koefcet regresí pímky Bodové odhady smrodatých odchylek koefcet regresí pímky Výsledky dílích t-test Souty tverc pro model, rezduálí a celkový Rezduálí výbrový rozptyl Výsledek F-testu pro regres Korelaí koefcet Koefcet determace Výbrová rezduálí smrodatá odchylka Rovce vyrovávací pímky Jak jsme s jž uvedl, Statgraphcs zahajuje regresí aalýzu použtím leárí regresí fukce (je to ejjedodušší leárí regresí model). Hed vedle ázvu modelu je obecá rovce vyrovávací kvky (my zaíme koefcety b, b, Statgraphcs a, b). Odhady regresích koefcet alezeme pod zápsem o vysvtlovaé a vysvtlující promé. V této tabulce jsou uvedey jak bodové odhady regresích koefcet (tercept... absolutí le, b ; slope - 87 -

Ig. Marta Ltschmaová Statstka I., cveí... smrce, b ), odhady jejch smrodatých odchylek, tak vyhodoceí dílích t-test o výzamost regresích koefcet. Následuje tabulka ANOVA (výstup pro F-test v regres), která vypovídá o vhodost vybraého regresího modelu. V tabulce ANOVA ajdeme, mmo píslušého p-value, souty tverc pro model, rezduálí a celkový souet tverc (jde o hodoty pomocí chž se uruje koefcet determace) a výbrový rezduálí rozptyl. od tabulkou ANOVA acházíme hodoty korelaího koefcetu (míra leárí závslost mez promým), koefcetu determace R (vypovídá o vhodost použtého modelu) a výbrové rezduálí smrodaté odchylky (odmoca z výbrového rezduálího rozptylu uvedeého v tabulce ANOVA). Ve spodí ást textového výstupu pak alezeme odhadutou rovc vyrovávací kvky. adb) Vhodost použtí zvoleého leárího regresího modelu ovíme pomocí aalýzy rozptylu (F-test) v regres. Tato aalýza vychází ze vztahu: kde a Y = (Y Y ) = = Yˆ Y Yˆ ) = R = = =, Y Ŷ je celkový souet tverc odchylek od prmru, R ( je souet tverc modelu (tzv. regresí (vysvtleý) souet tverc) ( eˆ ) = ( Y Yˆ ) je rezduálí (evysvtleý) souet tverc. = Vhodý regresí model musí mít vysvtleý souet tverc vtší ež rezduálí souet tverc. ro testováí tohoto pedpokladu se ukazuje jako vhodý F-test zámý z ANOVY (H : Zvoleá fukí závslost mez závsle a ezávsle promou eexstuje.). Výstupem tohoto testu je tabulka ANOVA. Zdroj promlvost Souet tverc Stup volost Model Rezdua Celkový R = = Yˆ Y Yˆ ) = = ( ( eˆ ) = ( Y Yˆ ) = Y = (Y Y ) = rmrý tverec MS MS Yˆ = Y ˆ R R = Testová stat. F-pomr MS F rato = MS Yˆ R -value ( F rato) F - 88 -

Ig. Marta Ltschmaová Statstka I., cveí V ašem pípad lze íc, že leárí závslost mez sížeím hlady cukru a možstvím podaého sulu exstuje. adc.) Nyí se zamíme a zjští toho, zda alezeý model elze zjedodušt zda které regresí koefcety elze z modelu vypustt (otestujeme, zda eí možé které regresí koefcety považovat za ulové). Teto proces azýváme dílím t-testy (jejch kostrukce je popsáa ve skrptech). Výsledky dílích t-test jsou v ašem pípad tyto: H : β = H A : β p-value =,34 ezamítáme H, tz. koefcet bychom mohl z modelu vypustt. H : β = H A : β p-value =,5 zamítáme H, tz. koefcet z modelu vypustt emžeme. Vyrovávací pímku bychom tedy mohl zapsovat ve tvaru: Sížeí hlady cukru =,6. Možství sulu add.) Kvaltu regresího modelu mžeme hodott pomoc dexu determace R. Idex determace udává, kolk procet rozptylu vysvtlovaé promé je vysvtleo modelem. Hodotu dexu determace ajdeme v textovém výstupu procedury Smple Regresso. V ašem pípad model vysvtluje cca 8% celkového rozptylu, což svdí o pomr vhodé volb modelu. Nyí s ješt ukážeme, jak ajít ejvhodjší model leárí regrese pro daá data. ozor!!! leárí zameá leárí vzhledem ke koefcetm regresí fukce, kolv regrese leárí fukcí (pímkou). Mez další modely leárí regrese patí apíklad model kvadratcký, expoecálí, recproí, apod. - 89 -

Ig. Marta Ltschmaová Statstka I., cveí Chceme-l zjstt, zda pro aše data eí vhodjší já fukce ež leárí, provedeme porováí jedotlvých fukcí pomocí dexu determace. Nacházíme-l se ve výstupím ok procedury jedoduchá regrese (smple regresso), klkeme a kou Tabular Optos a zvolíme položku Comparsso of Alteratve Models (porováí dalších model). Z model s ejvyšším dexy determace vybereme te, který ejlépe odpovídá pedpokládaému vztahu (v prax je p výbru uté spolupracovat s odboríkem a studovaou problematku). Vzhledem k povaze ašch dat (edá se oekávat, že s rostoucím možstvím sulu bude docházet k prudkému sížeí hlady cukru (model Double recprocal) evolíme v tomto pípad model s ejvyšším dexem determace, radj se pkloíme k modelu S-curve. V tuto chvíl by však pro výbr modelu byla opravdu ejvhodjší kozultace se zadavatelem úlohy. Volbu modelu provedeme RC a textový výstup a v meu Aalyss Optos zvolíme vybraý model. okud bychom se skute rozhodl pro užtí jého ež pvod vybraého modelu, musel bychom zovu posoudt korelaí pole, vyhodott aovu pro regres a dílí t-testy. - 9 -

Ig. Marta Ltschmaová Statstka I., cveí ade.) Vyhodoceí pedpoklad pro použtí leárího regresího modelu provádíme pomocí posouzeí rezduí. Ovíme:. ormaltu rezduí. ulovou stedí hodotu rezduí 3. ulovou kovarací rezduí Nejdíve s rezdua zapíšeme do datové tabulky. Nemusíme používat zadáí promé pomocí vzorce, mžeme použít peddefovaé vztahy Statgraphcsu. Nacházíme-l se ve výstupím ok procedury jedoduchá regrese (smple regresso), klkeme a kou Save Results a zvolíme, kterou z peddefovaých hodot chceme (a pod jakým ázvem) zapsat do tabulky. Ikoa Save Results oz.: Z abízeých hodot by ás mohly ješt zajímat oekávaé hodoty ( Ŷ, redcted Values), dolí, resp. horí mez tervalu predkce (Lower, resp. Upper Lmts for redctos), dolí, resp. horí mez tervalu spolehlvost pro E( Y O X = x ) (Lower, resp. Upper Lmts for Forecast Meas). ad.) Testováí ormalty (jak Q-Q grafem, tak statstckým testy) provedeme ap. zámým zpsobem v meu Descrbe/Dstrbutos/Dstrbutos Fttg (Ucesored Data)... Z výsledk Kolmogorovova Smrovova testu je zejmé, že ormalta rezduí ebyla zamítuta. - 9 -

Ig. Marta Ltschmaová Statstka I., cveí ad.) Rovž testováí ulové stedí hodoty, by pro ás jž mlo být jedoduché meu: Descrbe/Numerc Data/Oe-Varable, jako promou zadáme Resduals, koa Tabular Optos Hypothess Tests. pomeme s, že ormaltu rezduí jsme jž potvrdl v pedcházejícím kroku (pedpoklad testu tedy byl ove). Nulová stedí hodota rezduí ebyla zamítuta. ad3.) Nulovou kovarací rezduí ovíme pouze pomocí exploraích graf. Zobrazíme s korelaí pole rezduí v odhadovaým hodotám a pokud v m ebude patrá žádá fukí závslost, odlehlá pozorováí a stídáí zaméek (stídáí kladých a záporých rezduí), budeme považovat kovarac za ulovou. Jsme-l ve výstupím ok procedury jedoduchá regrese, korelaí pole rezduí vs. oekávaé hodoty získáme klkutím a kou Graphcal Optos a volbou položky Resduals versus redcted. Ješt musíme a osu y dostat skuteá rezdua a to provedeme RC a píslušý graf a astaveím položky Resduals v meu ae Optos. Rezdua jsou áhod rozmísta kolem uly a emají žádý zejmý vztah k pedpovídaým hodotám: a se systematcky ezvyšují a se systematcky esžují spolu s rostoucím pedpovídaým hodotam a eí zde a ázak eleárího vztahu, edochází ke stídáí zaméek a zde evdíme odlehlá pozorováí, lze tedy pedpokládat, že kovarace rezduí je ulová. - 9 -

Ig. Marta Ltschmaová Statstka I., cveí Nyí mžeme kostatovat, že pedpoklady leárího regresího modelu byly sply. adf.) Za regresí rovc tedy budeme považovat: Sížeí hlady cukru =,6. Možství sulu Na závr regresí aalýzy s pedvedeme využtí získaých výsledk. Tím je predkce oekávaých hodot závslé promé p zvoleé hodot promé ezávsle. Regresí aalýza ám umožuje odhad podmíé stedí hodoty ( Y X ) E O = x a odhad dvduálí hodoty Y. V obou pípadech mžeme získat jak bodový tak tervalový E Y O X = ám v ašem pípad íká jaká je stedí odhad. odmíá stedí hodota ( ) hodota sížeí hlady cukru pro pacety, kterým bylo podáo možství sulu x. Oprot tomu dvduálí hodota Y udává jaké je sížeí hlady cukru u jedého paceta, kterému bylo podáo možství sulu x. Bodové odhady podmíé stedí hodoty a dvduálí hodoty jsou totožé. Dále je zejmé, že tervalový odhad podmíé stedí hodoty bude užší ež tervalový odhad dvduálí hodoty (p stej zvoleé hlad výzamost). Aby bylo jedoduše rozpozatelé, který terval spolehlvost máme a mysl, mluvíme o tervalu spolehlvost (pro podmíou stedí hodotu) a tervalu predkce (pro dvduálí hodotu). Tyto tervalové odhady pro spojt se mící hodoty x tvoí tzv. pás spolehlvost kolem regresí pímky, resp. pás predkce kolem regresí pímky. x odhadech v regres je uté ješt sledovat, zda se jedá o terpolac (odhad uvt tervalu ameých dat) ebo o extrapolac (odhad mmo terval ameých dat). Extrapolac mžeme považovat za dvryhodou pouze v pípad, že jsme pesvde o platost používaého modelu v oblast extrapolace. adg.) Odhad podmíé stedí hodoty: Bodový odhad ( Y X ) ˆ E O = x : ( x ) = ( 5,96),6 x 95%í terval spolehlvost ( Y X ) ˆ = Y Y ( 35µ l) 36,4% E O = : x s x s - 93 -

Ig. Marta Ltschmaová Statstka I., cveí E Y ( ) ( ) ˆ( ) x x X = x Y x s E Y ( X = x ) E Y ( X = x ) ( 5,96),6 x ( 5,96),6 x ( ) s x t,63,63,975, 8 8 =,95 ( x 35) 7 5 ( x 35) 7 5 t,975,8 =,95,45 =,95 ro x = 35µ l : E Y ( X = 35) ( 5,96),6 35 ( E( Y X = 35) ( 36,4 9,) ) =,95 ( E( Y X = 35) ( 8,94;45,5 )) =, 95,63 8 ( 35 35) 7 5,45 =,95 Statgraphcs: Klkeme a kou Tabular Optos a zvolíme položku Forecasts, v ok Forecasts Optos zadáme hodotu x, v íž chceme alézt odhad: Míré odchylky oprot ru vypoteému tervalu jsou zpsobey zaokrouhlováím. Lze tedy tvrdt, že prmré sížeí hlady cukru p dávce sulu 35 l bude 36,%. S 95%-í spolehlvost bude prmré sížeí hlady cukru p dávce sulu 35 l v rozmezí cca (8,9%; 45,%). - 94 -

Ig. Marta Ltschmaová Statstka I., cveí adh.) Odhad dvduálí hodoty: Bodový odhad Y ˆ( x ) : Y ˆ ( x ) = ( 5,96),6 x Y ˆ ( 35µ l) = 36,4% 95%-í terval predkce: Y Y Y Yˆ( x ) s ( 5,96),6 x ( 5,96),6 x ( x x) ( ) s x t,63,63,975, 8 8 =,95 ( x 35) 7 5 ( x 35) 7 5 t,975,8 =,95,45 =,95 ro x = 35 µ l : Y Y ( x = 35) ( 5,96),6 35,95 ( ( x = 35) ( 36,4 7,33) ) = ( ( x = 35) ( 8,7;63,37 )) =, 95 Y,63 8 ( 35 35) 7 5,45 =,95 Statgraphcs: oužjeme výstup, který jsme získal p hledáí odhadu podmíé stedí hodoty: Míré odchylky oprot ru vypoteému tervalu jsou opt zpsobey zaokrouhlováím. Lze íc, že sížeí hlady cukru u paceta jemuž bylo podáo 35 l sulu bude 36,%. S 95%-í spolehlvost se sížeí hlady cukru u tohoto paceta bude pohybovat v rozmezí cca (8,7%; 63,4%). ad.) Vzhledem k tomu, že meí byla prováda pro možství sulu v rozsahu 5 l 5 l, odhad sížeí hlady cukru pro 7 l sulu je extrapolací. V tomto pípad emáme žádé formace o možé platost modelu pro x = 7 l a proto teto odhad urovat ebudeme (emohl bychom jej považovat za dvryhodý). - 95 -