Kubický spline Menu: QCExpert Regrese Kubický spline Modul Kubický spline slouží proložení prakticky libovolnýc regresníc křivek naměřenými daty s jednorozměrnou nezávisle proměnnou x a jednorozměrnou náodnou závisle proměnnou y. Regresní model y = f(x) + ε se zde skládá z p kubickýc křivek definovanýc na p navazujícíc úsecíc osy x,, xu,1 xu,1, xu,2... xu, p 1,. Hodnoty x u,i se nazývají uzly a moou být definovány uživatelem. Analytické vlastnosti (ladkost, spojitost, křivost, apod.) a statistické vlastnosti (reziduální rozptyl, rozptyly a významnosti parametrů, rozptyl predikce apod.) těcto křivek jsou předmětem modelování. Model polynomickéo spline lze zapsat ve tvaru y x S x a, 2 S x 1, x, x,..., x ; 0 kde je stupeň polynomu, pro =3 se tedy jedná o kubický spline, kterým se zde budeme zabývat. S (x) je vektor prediktorů, a a k je vektor regresníc koeficientů pro k-tý úsek. Pokud se naměřená dvojice (x i, y i ) nacází v k-tém úseku (tedy v intervalu (x u,k-1 ; x u,k )), je odnota predikovaná modelem daná f(x i ) = a k,1 + a k,2 x i + a k,3 x i 2 + a k,4 x i 3 Parametry a k,i se získají pomocí lineární regrese metodou nejmenšíc čtverců. Pokud bycom netrvali na spojitosti v uzlovýc bodec, vedl by tento model na p nezávislýc regresníc modelů, viz Obrázek 1. Je zřejmé, že tvar průběu výsledné křivky velmi závisí na zvoleném počtu úseků a poloze uzlovýc bodů, jak ilustruje Obrázek 2. k Obrázek 1 Proložení dat nezávislými kubickými polynomy bez požadavku spojitosti
Obrázek 2 a, b Vliv počtu úseků na tvar průběu, počet úseku p = 3 a p = 6 yto modely jsou ovšem nespojité a mají jen omezené použití. Požadujeme-li spojitost křivky, zařadíme do modelu podmínku spojitosti ve funkční odnotě S x k 1 S x a a k. Podobně lze pokračovat dále a požadovat spojitost prvníc a druýc derivací (zde = 3). S x k 1 S x přičemž první a druá derivace polynomu a a, S x a S x k k 1 x 2 1 S S x 0,1,2 x,3 x,..., x x 2 S x 2 S x 0,0,2,6 x,..., 1 x 2 x. a k
ak získáme křivku ladkou do první derivace a spojitou do drué derivace. aková křivka spolu s možností volby počtu a poloy uzlovýc bodů x u,i bude vyovovat prakticky všem požadavkům na proložení dat neparametrickou regresní křivkou. Výodou regresnío kubickéo spline proti jádrovému vylazení nebo klouzavému průměru je nevycýlenost v oblasti maxima nebo na okrajíc závislosti. Navíc je možné získat statistické vlastnosti proložení (odnoty a směrodatné odcylky (resp. kovarianční matici) odadu regresníc koeficientů, intervaly spolelivosti predikce, atd.). Příklad vždy stejnýc dat se stejnými uzly proloženýc splinem spojitým pouze v odnotác f(x) uvádí Obrázek 3, v odnotác f(x) a prvníc derivacíc f '(x) Obrázek 4 a spline spojitý v odnotác f(x), prvníc derivacíc f '(x) a druýc derivacíc f ' '(x) uvádí Obrázek 5. Okrajové podmínky na f(x), f '(x) a f ' '(x) nejsou kladeny. Obrázek 3 Proložení dat s požadavkem spojitosti funkčníc odnot Obrázek 4 Proložení dat s požadavkem spojitosti funkčníc odnot a prvníc derivací
Obrázek 5 Proložení dat s požadavkem spojitosti funkčníc odnot, prvníc a druýc derivací Vliv počtu uzlů ilustruje Obrázek 6. Je-li počet bodů v jednotlivýc úsecíc příliš malý (například 1), je možné získat interpolační spline, který procází všemi body. Pro takovou funkci ovšem není možné získat statistické vlastnosti (interval spolelivosti) a často nelze ani jednoznačně vypočítat regresní koeficienty, neboť model je přeurčený, počet neznámýc koeficientů je větší, než počet dat. Zde lze však využít tecniku obecné inverze (např. Moore- Penroseovy pseudoinverze), pomocí níž lze řešit i singulární lineární systémy. Obrázek 6 Příklad vlivu počtu uzlů na tvar průběu spline (data jsou vždy stejná) Analytický tvar kubickéo spline dovoluje snadno konstruovat průběy prvníc a druýc derivací a integrálu. Jejic využití ilustruje Obrázek 7 a Obrázek 8.
Obrázek 7 Příklad využití spline pro nalezení inflexníc bodů, maxim a integrálu Obrázek 8 Příklad využití spline pro analýzu kumulativníc dat (např. titrace, apod.) Data a parametry Standardní data pro kubický spline jsou ve dvou sloupcíc, jeden sloupec obsauje odnoty nezávisle proměnné, druý odnoty závisle proměnné (na jejic fyzickém pořadí v datové tabulce samozřejmě nezáleží). Navíc je možné použít další sloupce, v nicž budou uživatelem definované poloy uzlů, body pro výpočet predikce a váy jednotlivýc měření. Strukturu dat ilustruje Obrázek 9 a Obrázek 10. Pokud volíme polou uzlů ručně a ovlivnit tak průbě křivky, je užitečné si uvědomit, že každý úsek spline může obsaovat nejvýše jedno maximum, jedno minimum a jeden inflexní bod. Váy se používají nejčasěji při
opakovaném měření se stejným výsledkem. Například dva řádky s odnotami x=3, y=10; x=3, y=10 lze naradit jedním řádkem s váou 2: x=3, y=10; w=2. Jsou-li zadány odnoty X pro predikci, vypočítá se v těcto bodec predikovaná odnota y, její interval spolelivosti a odnota první a drué derivace v tomto bodě. Upozornění: Šířka m carakteristické matice regrese je v případě kubickéo spline m=4p. Při příliš velkém počtu úseků nelze proto zajistit numerickou stabilitu, doporučuje se proto volit malý počet úseků, typicky p = 2 až 10, ne však více než 50. Příklad nevodné volby p ilustruje Obrázek 11. Obrázek 9 Základní data pro kubický spline Obrázek 10 Úplná data pro kubický spline A: p=5 B: p=30 C: p=50 Obrázek 11 Vodná (A, B) a nevodná (B, C) volba počtu úseků p při počtu dat n=150
Obrázek 12 Dialogový panel pro kubický spline V dialogovém panelu se zvolí sloupec odnot nezávisle a závisle proměnné, sloupec va a odnot pro predikci. Zadáme ladinu významnosti pro intervaly spolelivosti a testy významnosti, obvykle 0.05. Sloupec Popis je použit k označení bodů v grafec, je-li vybrán. Polou uzlů lze zadat buď v tabulce a příslušný sloupec se vybere v poli Uzly z tabulky. Pokud se vybere možnost Počet úseků a zadá číselná odnota p, vypočítají se poloy uzlů pro n dat automaticky tak, aby byl v každém úseku stejný počet bodů n/p. Pokud není tento podíl celé číslo, je počet bodů v prvníc (p 1) úsecíc roven int(n/p) a v posledním úseku jsou zbývající body. Je tedy vodné volit pokud možno počet úseků tak, aby byl zbytek po dělení n/p co nejmenší, Zvolíme-li například pro 12 bodů 7 úseků, získáme 6 úseků s jedním bodem a jeden úsek se šesti body. Ve skupině Spojitost vybereme typy požadované spojitosti ve funkčníc odnotác, prvníc a druýc derivacíc. Nemáme-li zvláštní důvody, obvykle označíme všecny spojitosti, čímž získáme ladší průbě funkce a jejíc intervalů spolelivosti. Podmínky spojitosti navíc zvyšují počet statistickýc stupňů volnosti, zvyšují stabilitu řešení a obvykle zpřesňují predikci. Ve skupině Data vybereme případnou podmnožinu dat. Je-li označena položka Data a rezidua, vypíší se do protokolu tabulka predikovanýc odnot a reziduí. Po kliknutí na tlačítko OK nebo Použít se spustí výpočet. Protokol Název úloy Data Nezávisle proměnná Závisle proměnná Zadaný název úloy Podmnožina vybranýc dat (Všecna, označená, neoznačená, případně zadaný filtr) Sloupec nezávisle proměnné Sloupec závisle proměnné Počet dat Počet řádků n Počet uzlů Počet uzlů (p 1) Počet úseků Zadaný počet úseků p
Spojitost ve funkční Požadovaná podmínka spojitosti ve funkčníc odnotác (ANO / odnotě NE) Spojitost v první derivaci Požadovaná podmínka spojitosti v prvníc derivacíc (ANO / NE) Spojitost ve drué Požadovaná podmínka spojitosti v druýc derivacíc (ANO / derivaci NE) Poloy uzlů Číslo uzlu, Poloa uzlu Parametry modelu abulka predikovanýc odnot V této tabulce jsou uvedeny počty dat v jednotlivýc úsecíc a vypočítané odnoty koeficientů regresnío polynomu y = a 0 + a 1 x + a 2 x 2 + a 3 x 3, s označením A(0)=absolutní člen, A(1)=lineární člen, A(2)=kvadratický člen, A(3)=kubický člen Byl-li vybrán sloupec pro predikci, uvádí tato tabulka pro každou zadanou odnotu X: predikovanou odnotu Y(Y-před), spodní a orní mez spolelivosti této predikce(spodní mez, Horní mez) a odnotu první a drué derivace (1.derivace, 2.derivace) Res. součet čtverců Res. směr. odcylka Reziduální rozptyl Prům. abs. odcylka Stupňů volnosti eff. abulka extrémů a inflexů abulka extrémů abulka inflexů abulka dat a reziduí Reziduální součet čtverců odcylek Reziduální směrodatná odcylka Reziduální rozptyl Průměrná absolutní odcylka Počet skutečnýc stupňů volnosti, ν eff = n + 3*(p 1) 4p Je-li počet stupňů volnosti menší než 1, není možné vypočítat intervaly spolelivosti. Hodnoty zadanýc va se neberou v úvau. Obsauje dvě tabulky: tabulku extrémů a tabulku inflexů v intervalu (x min, x max ). Pokud extrémy nebo inflexy nejsou přítomny, tabulka se nevytvoří. abulka uvádí analytické odnoty extrémů (tedy minim a maxim) regresní křivky: počet extrémů, pořadí extrému, typ extrému (minimum nebo maximum), odnota X, odnota Y, a 2.derivace v extrému (první derivace v extrému je vždy nula). abulka uvádí analytické odnoty inflexů (tedy bodů přecodu z konkávnío na konvexní tvar, nebo opačně) regresní křivky: počet inflexů, pořadí inflexu, odnota X, odnota Y, a 1.derivace v inflexu (druá derivace v inflexu je vždy nula). Byla-li v dialogovém panelu označena položka Data a rezidua, jsouv tabulce odnoty X a Y, predikovaná odota Y-před a odcylka odnoty Y od regresní křivky (reziduum). Grafy Spline funkce Graf regresní funkce, je-li počet stupňů volnosti větší než 0, kolem regresní funkce vyznačen červeně (1 ) pás spolelivosti na
(A) zadané ladině významnosti (graf A). Pokud zadáme počet úseků sodný s počtem dat, získáme při všec podmínkác spojitosti interpolační spline, který procází všemi body (graf B). Při snížení nároků na spojitost, např. požadujeme-li pouze spojitost v f(x) a f (1) (x), můžeme získat interpolační spline i při p = n/2 (graf C). Graf (D) ilustruje proložení nespojitým splinem s p=4 a n=12. Ve většině reálnýc případů bude však smysluplný spline se všemi podmínkami spojitosti a vodně volenými uzly p<<n. (B) (C) (D) Spline funkce s uzly Graf regresní funkce sodný s předcozím grafem s vyznačenými poloami uzlů.
Graf první derivace spline-funkce f (1) (x). Nulové body (průsečíky s osou x) odpovídají maximu nebo minimu funkce f(x). Průbě této křivky a její nulové body jsou rovněž v protokolu v tabulce abulka predikovanýc odnot a abulka extrémů a inflexů. Graf drué derivace spline-funkce f (2) (x). Nulové body (průsečíky s osou x) odpovídají inflexním bodům funkce f(x). Protože f(x) je polynom 3. stupně, má druá derivace tvar p lineárníc úseků se zlomy v uzlovýc bodec. Průbě této křivky a její nulové body jsou rovněž v protokolu v tabulce abulka predikovanýc odnot a abulka extrémů a inflexů. Graf integrálu regresní funkce x xmin f z dz. Graf reziduí y i f(x i ), je-li v reziduíc patrný zřetelný trend, je možné, že je regresní spline cybně zvolený a je třeba přidat uzly, nebo změnit jejic polou. QQ-graf reziduí, tento graf slouží k posouzení normality reziduí. Jsou-li body rozptýleny kolem přímky, mají rezidua přibližně normální rozdělení. Graf Y-Predikce, posouzení kvality proložení dat. Čím těsněji leží data na přímce, tím těsnější je proložení. Cílem regrese však obecně není co nejlepší proložení (jako je interpolační spline), ale co nejrozumnější proložení přiměřeně komplikovaným modelem.