6. Lineární regresní modely



Podobné dokumenty
6. Lineární regresní modely

6. Lineární regresní modely

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

6. Lineární regresní modely

Inovace bakalářského studijního oboru Aplikovaná chemie

Statistická analýza jednorozměrných dat

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Kalibrace a limity její přesnosti

6. Lineární regresní modely

Korelační a regresní analýza

LINEÁRNÍ REGRESE. Lineární regresní model

Kalibrace a limity její přesnosti

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Semestrální práce. 2. semestr

Tvorba lineárních regresních modelů při analýze dat

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

6. Lineární regresní modely

Úloha 1: Lineární kalibrace

Tvorba lineárních regresních modelů při analýze dat

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

Tvorba nelineárních regresních modelů v analýze dat

Semestrální práce. 2. semestr

Tvorba lineárních regresních modelů

Kalibrace a limity její přesnosti

PRAVDĚPODOBNOST A STATISTIKA

Tvorba nelineárních regresních

Licenční studium Galileo: Statistické zpracování dat. Tvorba lineárních regresních modelů při analýze dat. Semestrální práce

http: //meloun.upce.cz,

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Tvorba nelineárních regresních modelů v analýze dat

otec syn

UNIVERZITA PARDUBICE

2.2 Kalibrace a limity její p esnosti

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Fakulta chemicko technologická Katedra analytické chemie

Tomáš Karel LS 2012/2013

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Univerzita Pardubice

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Statistická analýza jednorozměrných dat

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Kalibrace a limity její přesnosti

Bodové a intervalové odhady parametrů v regresním modelu

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Statistika (KMI/PSTAT)

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Regresní analýza 1. Regresní analýza

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

UNIVERZITA PARDUBICE

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Semestrální práce. 2. semestr

S E M E S T R Á L N Í

Tomáš Karel LS 2012/2013

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

Semestrální práce str. 1. Semestrální práce. 2.1 Tvorba lineárních regresních modelů při analýze dat. 2.3 Kalibrace a limity její přesnosti

Regresní analýza. Eva Jarošová

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regresní a korelační analýza

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

UNIVERZITA PARDUBICE

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

INDUKTIVNÍ STATISTIKA

Regresní a korelační analýza

III. Semestrální práce

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

12. licenční studium Statistické zpracování dat při managementu jakosti. Lenka Hromádková

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

vzorek vzorek

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistická analýza jednorozměrných dat

Kontingenční tabulky, korelační koeficienty

Bodové a intervalové odhady parametrů v regresním modelu

Plánování experimentu

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE. Semestrální práce z CHEMOMETRE. TOMÁŠ SYROVÝ 4.ročník

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Reologie tavenin polystyrenových plastů. Závěrečná práce LS Pythagoras

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Zobecněná analýza rozptylu, více faktorů a proměnných

4ST201 STATISTIKA CVIČENÍ Č. 10

odpovídá jedna a jen jedna hodnota jiných

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Transkript:

6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu 6.6 Kritika metody v regresním tripletu 6.7 Lineární a nelineární kalibrace 7. Korelační modely 1

PODSTATNÉ TESTY VÝZNAMNOSTI V KORELAČNÍ A REGRESNÍ ANALÝZE test významnosti korelačního koeficientu test významnosti modelu jako celku test významnosti jednotlivých regresních parametrů test shody lineárních regresních modelů a mnoho dalších testů..

TEST VÝZNAMNOSTI R Test významnosti odpovídá, zda je korelace R mezi výběrovými proměnnými ě natolik silná, abychom ji mohli považovat za prokázanou i pro základní soubor ρ. t R = R n 1 R 2 2 Pro párový R: t α,n-2 n je počet hodnot výběru Pro násobný R: F R 2 R ( n m ) ( 2 1 R )( m 1) = t α,n-m t m je počet č proměnnýchě ýh Pro parciální R: t R = R n k 1 R 2 2 t α,n-k-2 k je počet vyloučených proměnných

TEST VÝZNAMNOSTI REGRESNÍHO MODELU Co vlastně testujeme? Y = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + +b b m x m Testujeme významnost odhadů jednotlivých parametrů: když je testovaný odhad parametru statisticky nevýznamný, pak jeho příslušná proměnná x j nepřispívá ke zpřesnění odhadu závisle proměnné y a tato proměnná x j je pak v modelu zbytečná. Testujeme model jako celek: tj. zda příslušná kombinace všech nezávisle proměnných statisticky významně zpřesní odhad závisle proměnné y oproti použití pouhého průměru hodnot y.

TEST VÝZNAMNOSTI REGRESNÍCH PARAMETRŮ H 0 : β j = 0, tj. j-tý regresní parametr je nevýznamný t b β j j = pro β s j = 0 b t = b s j b Pokud platí, že t > t α2;n-m, potom je j-tý regresní parametr statisticky významný a příslušná proměnná musí zůstat v modelu.

Úloha J6.24 Závislost tělesného tuku atletů-běžců na obsahu tuku ve stravě Zadání: Cílem je nalézt závislost mezi tělesným tukem lehkých atletů, kteří týdně trénují asi 12 hodin a zkonzumovaným tukem v jejich stravě x. Unáhodného hd h vzorku 18 běžcůů bl byl měřen tělesný podkožní tuk y [%] a sledován v závislosti na zkonzumovaném tuku ve stravě x [%]. Úkoly: Lze tuto závislost popsat pp jednoduchým lineárním regresním modelem y = β 0 + β 1 x a testujte, zda jsou oba parametry statisticky významné. Data: Spotřebovanýř tuk ve stravěě x [%], tělesný podkožní tuk y [%]: x y 22 9.8...... 14 7.9 6

Software QC-EXPERT 3.1 (TriloByte) Odhady parametrů Proměnná Odhad Směr.Odch. Závěr Pravděpodobnost Spodní mez Horní mez Abs 7.314069 1.005954 Významný 0.000002 5.181541 9.446597 J624x 0.11623 0.037399 Významný 0.006768 0.036947 0.195512 Statistické charakteristiky regrese Vícenásobný korelační koeficient R : 0.6135 Koeficient determinace R^2 : 0.3764 Predikovaný korelační koeficient Rp : 0.0629 Střední kvdratická chyba predikce MEP : 1.5092 Akaikeho informační kritérium : 8.1074 7 Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : 9.658629 Kvantil F (1-alfa, m-1, n-m) : 4.493998493998 Pravděpodobnost : 0.006768 Závěr : Model je významný

Úloha J6.25 Závislost celkového cholesterolu v krvi na denní spotřebě tuku Zadání: Uvzorku20Američanů byla v analýze krve sledována denní spotřebatukuvestravě x v gramech a obsah celkového cholesterolu y v mg na 100 ml krve. Byl navržen jd jednoduchýd lineární regresní model dly= β 0 + β 1 x. Úkoly: Ukažte (1) platnost navrženého regresního modelu a existenci vlivných bodů. (2) Testujte statistickou významnost obou parametrů, úseku β 0 a směrnice β 1. (3) Sestrojte 95%ní interval spolehlivosti i úseku β 0 a vysvětlete ě fakt, že β 0 = 0. (4) Sestrojte 95 % oboustranný interval spolehlivosti směrnice β 1. (5) Nalezněte 95 % interval spolehlivosti celkového cholesterolu u lidí, kteří denně spotřebují 50 g tuku. (6) Jaký je Pearsonův korelační koeficient mezi celkovým cholesterolem v krvi y a denní spotřebou tuku x u sledovaných jedinců? Data: Denní spotřeba tuku x [g], obsah celkového cholesterolu v krvi y [mg/100 ml]: x y 21 130...... 134 8 271

Software QC-EXPERT 3.1 (TriloByte) Odhady yparametrů Proměnná Odhad Směr.odch. Závěr Pravděpodobnost Spodní mez Horní mez Abs 90.705314 17.420915 Významný 0.000059 54.10533 127.305298 J625x 1.427174 0.177707 Významný 0.0 1.053825 1.800523 Statistické charakteristiky regrese Vícenásobný korelační koeficient R : 0.884201 Koeficient determinace R^2 : 0.781812 Predikovaný korelační koeficient Rp : 0.555095 Střední kvdratická chyba predikce MEP : 919.087734 Akaikeho informační kritérium : 137.35316 9 Testování regresního tripletu Fisher-Snedecorův test významnosti modelu Hodnota kritéria F : 64.497725 Kvantil F (1-alfa, m-1, n-m) : 4.413873 Pravděpodobnost : 0.0 Závěr : Model je významný

Software QC-EXPERT 3.1 (TriloByte) Odhady parametrů Proměnná Odhad Směr.Odch. Závěr Pravděpodobnost Spodní mez Horní mez Abs 0.000146000146 0.003986003986 Nevýznamný ý 0.972517-0.010921 010921 0.011214011214 P610x 0.145923 0.000908 Významný 0.0 0.143401 0.148445 Statistické charakteristiky regrese Vícenásobný korelační č íkoeficient i R : 0.999923 Testování regresního tripletu t Koeficient determinace R^2 : 0.999845 Fisher-Snedecorův test významnosti modelu Predikovaný korelační koeficient Rp : 0.999175 Hodnota kritéria F : 25808.841262 Střední kvdratická chyba predikce MEP : 0.000023 Kvantil F (1-alfa, m-1, n-m) : 7.708647 Akaikeho informační č íkiéi kritérium : -66.0296 Pravděpodobnost d : 00 0.0 Závěr : Model je významný 15

TEST SHODY REGRESNÍCH MODELŮ Porovnává se: empirický model (modely) s teoretickým dva nebo více empirických modelů mezi sebou H 0 : Porovnávané modely jsou shodné (tj. shodují se ve směrnici i v úseku).

TEST SHODY DVOU EMPIRICKÝCH MODELŮ H 0 : β j,1 = β j,2, tj. regresní koeficienty obou modelů jsou v základním 0 j, j, souboru shodné Vycházíme z testování shody regresních parametrů dvou lineárních modelů y 1 =Xβ 1 β 1 + ε 1 a y 2 =Xβ 2 β 2 + ε 2 Při tomto testu využijeme tzv. složeného lž modelu, dl tj. oba porovnávané výběry sloučíme do jednoho a také pro něj stanovíme parametry stejného modelu jako pro oba dílčí výběry

Porovnání regresních přímek A B C D

20.09

HODNOCENÍ KVALITY LINEÁRNÍHO REGRESNÍHO MODELU Střední kvadratická chyba predikce (MEP) 2 e 2 i čtverec reziduí modelu 1 n e i MEP = H ii i-tý diagonální prvek 2 n ( projekční matice H i= 1 1 H ) ii Akaikovo informační kritérium (AIC) RSC AIC = n ln + n 2m RSC reziduální součet čtverců m počet parametrů Čím je AIC (MEP) menší, tím je model vhodnější.

6.2 Úlohy na testy v lineární regresi Úloha J6.03 Vyšetření závislosti obsahu křemíku v surovém železe na teplotě strusky ZdáíP Zadání: Procentuální obsah křemíku v surovém žl železe y závisí na teplotě tě strusky x. Úkoly: (1) Regresní diagnostikou navrhněte lineární regresní model. (2)Vyšetřete regresní triplet a odstraňte vybočující hodnoty. (3) Komentujte velikost korelačního r a koeficientu determinace D mezi proměnnými x a y a proveďte test celkové regrese F R. (4) Odhadněte predikci procentuální obsah křemíku v surovém železe pro teplotu strusky 1350 C a 1450 C. Data: Teplota strusky x [ C], obsah křemíku y [%]: x y 1300 0.300...... 1340 0.350 59

Úloha J6.04 Užití titrační a spektrofotometrické metody pro dva typy vázaného dusíku Zadání: U dusíkatých hnojiv se množství čpavkového dusíku a amidického dusíku stanoví titrační a spektrofotometrickou metodou. Úkoly: (1) Určete regresní přímku závislosti naměřeného dusíku metodou kolorimetrickou na metodě titrační a popište test vhodnosti lineárního modelu dle Uttsové. (2) Rozhodněte, ě zda regresní přímky, stanovené pro nízké íkéhodnoty obsahu dusíku čpavkového a vyšší hodnoty dusíku amidického, jsou totožné. (3) Na oba druhy dusíku aplikujte Chowův test shody dvou lineárních modelů za předešlého vyšetření homoskedasticity. Data: Čpavkový dusík [%] metodou titrační x a kolorimetrickou y: 60 x y 6.24 6.36...... 7.70 7.71 Amidický dusík [%] metodou titrační x a kolorimetrickou y. x y 15.49 15.55...... 14.42 14.41

Úloha J6.24 Závislost tělesného tuku atletů na obsahu tuku ve stravě Zadání: Cílem je nalézt závislost mezi tělesným tukem lehkých atletůběžců y, kteří týdně trénují asi 12 hodin, a zkonzumovaným tukem v jejich každodenní stravě x. U náhodného vzorku 18 běžců byl měřen jejich tělesný podkožní tuk y [%] a sledován v závislosti na zkonzumovaném tuku ve stravě x [%]. Ověřte, zda lze uvedenou závislost popsat jednoduchým lineárním regresním modelem y = β 0 + β 1 x. Úkoly: (1) Predikujte, jaký lze očekávat tělesnýtukuběžce, který spotřeboval ve stravě 25 % tuku? (2) Analýzou regresního tripletu potvrďte navržený regresní model a odhalte také vlivné body. (3) Komentujte rankitové grafy rozličných druhů reziduí. (4) K čemu v regresním tripletu využíváme regresní diagnostiku založenou na statistické analýze různých druhů reziduí? (5) Co je cílem posouzení kvality dat hledání vlivných bodů, t.zv. kritiky dat? (6) Vysvětlete pětgrafů vlivných bodů a uveďte k čemu slouží indexové a rankitové grafy? Data: Spotřebovaný tuk ve stravě x [%], tělesný podkožní tuk y [%]: 61 x y 22 9.8...... 14 7.9

Úloha J6.25 Závislost celk. cholesterolu v krvi na denní spotřebě tuku Zadání: Uvzorku20Američanů byla provedena analýza krve a sledována denní spotřeba tuku ve stravě x v gramech a hodnota celkového cholesterolu y v mg na 100 ml krve. Pro závislost byl navržen lineární regresní model y = β 0 + β 1 x. Úkoly: (1) Dokažte platnost navrženého regresního modelu a existenci vlivných bodů. (2) Testujte statistickou významnost parametrů úseku β 0 asměrnice β 1. (3) Sestrojte 95%ní jednostranný interval spolehlivosti úseku β 0 včetně testu β 0 =0a také oboustranný interval spolehlivosti směrnice β 1. (4) Nalezněte 95 % interval spolehlivosti celkového cholesterolu u lidí, kteří denně spotřebují 50 g tuku. (5) Komentujte Pearsonův korelační koeficient mezi celkovým cholesterolem v krvi y a denní spotřebou tuku x u sledovaných jedinců? (6) Testujte nulovou hypotézu H 0 : β 1 2 vs. H A : β 1 > 2 a komentujte výsledek testování. Data: Denní spotřeba tuku x [g], obsah celkového cholesterolu v krvi y [mg/100 ml]: 62 x y 21 130...... 134 271

Úloha J6.26 Regresní model vztahu mezi koncentrací TSH a odezvou přístroje Zadání: Mezinárodní standard TSH byl postupně ředěn nulovaným lidským sérem (komerčně dostupné směsné sérum s cíleně sníženým obsahem antigenu). Vzorky byly zpracovány pomocí soupravy pro immunoradiometrické stanovení TSH. Pomocí gama-čítače Berthold súčinností 74.6 % byly yynaměřeny odezvy (v cpm) jednotlivých vzorků. Ředění bylo provedeno v oblasti, kde se očekává lineární vztah mezi koncentrací a odezvou. Úkoly: Ověřte předpoklad lineárního vztahu a nalezněte vhodný lineární regresní model. Data: Koncentrace TSH x [miu/l], odezva y [cpm]: x y 0.334 0.466...... 17134 23039 63

64