Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Podobné dokumenty
Čebyševovy aproximace

AVDAT Mnohorozměrné metody, metody klasifikace

11 Analýza hlavních komponet

Interpolace, ortogonální polynomy, Gaussova kvadratura

(n, m) (n, p) (p, m) (n, m)

AVDAT Klasický lineární model, metoda nejmenších

Interpolace pomocí splajnu

Asociační i jiná. Pravidla. (Ch )

Odhady Parametrů Lineární Regrese

Zpracování a vyhodnocování analytických dat

Aproximace funkcí. x je systém m 1 jednoduchých, LN a dostatečně hladkých funkcí. x c m. g 1. g m. a 1. x a 2. x 2 a k. x k b 1. x b 2.

Úvod do optimalizace, metody hladké optimalizace

Úvodem Dříve les než stromy 3 Operace s maticemi

Klasifikace a rozpoznávání. Extrakce příznaků

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Věta 12.3 : Věta 12.4 (princip superpozice) : [MA1-18:P12.7] rovnice typu y (n) + p n 1 (x)y (n 1) p 1 (x)y + p 0 (x)y = q(x) (6)

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

AVDAT Nelineární regresní model

Aplikovaná numerická matematika

Jednorozměrná lineární regrese

AVDAT Náhodný vektor, mnohorozměrné rozdělení

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Strojové učení Marta Vomlelová

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Numerické metody a programování

Klasická a robustní ortogonální regrese mezi složkami kompozice

Učební texty k státní bakalářské zkoušce Matematika Diferenciální rovnice. študenti MFF 15. augusta 2008

Odhady - Sdružené rozdělení pravděpodobnosti

oddělení Inteligentní Datové Analýzy (IDA)

Diferenciál a Taylorův polynom

Numerické metody a programování. Lekce 4

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

EUKLIDOVSKÉ PROSTORY

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

Pozn. 1. Při návrhu aproximace bychom měli aproximační funkci vybírat tak, aby vektory ϕ (i) byly lineárně

4EK211 Základy ekonometrie

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

19 Hilbertovy prostory

Instance based learning

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Program SMP pro kombinované studium

Pokročilé neparametrické metody. Klára Kubošová

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Pokročilé neparametrické metody. Klára Kubošová

Základní spádové metody

8 Coxův model proporcionálních rizik I

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Extrakce a selekce příznaků

Náhodné vektory a matice

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

III. Diferenciál funkce a tečná rovina 8. Diferenciál funkce. Přírůstek funkce. a = (x 0, y 0 ), h = (h 1, h 2 ).

Přednáška 13 Redukce dimenzionality

Aproximace a interpolace

Apriorní rozdělení. Jan Kracík.

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR

Bodové a intervalové odhady parametrů v regresním modelu

Pro bodový odhad při základním krigování by soustava rovnic v maticovém tvaru vypadala následovně:

Aproximace funkcí. Numerické metody 6. května FJFI ČVUT v Praze

Interpolace, aproximace

F A,B = Vektory baze vyjádřete jako aritmetické vektory souřadnic vzhledem

You created this PDF from an application that is not licensed to print to novapdf printer (

Numerické metody a programování. Lekce 8

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek


Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Jana Dannhoferová Ústav informatiky, PEF MZLU

Stavový model a Kalmanův filtr

Literatura: Kapitola 2 d) ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

Globální matice konstrukce

PRAVDĚPODOBNOST A STATISTIKA

Numerické metody a programování. Lekce 7

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

em do konce semestru. Obsah Vetknutý nosník, str. 8 Problém č.8: Průhyb nosníku - Ritzova metoda

Kubický spline. Obrázek 1 Proložení dat nezávislými kubickými polynomy bez požadavku spojitosti. T h T 2

na magisterský studijní obor Učitelství matematiky pro střední školy

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Diferenciální rovnice 3

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Polynomy a interpolace text neobsahuje přesné matematické definice, pouze jejich vysvětlení

Teoretická rozdělení

LINEÁRNÍ REGRESE. Lineární regresní model

[1] samoopravné kódy: terminologie, princip

Modely diskrétní náhodné veličiny. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Vektorový prostor. Př.1. R 2 ; R 3 ; R n Dvě operace v R n : u + v = (u 1 + v 1,...u n + v n ), V (E 3 )...množina vektorů v E 3,

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

1 Báze a dimenze vektorového prostoru 1

Klasifikace a rozpoznávání. Lineární klasifikátory

Intervalová data a výpočet některých statistik

POŽADAVKY K SOUBORNÉ ZKOUŠCE Z MATEMATIKY

Arnoldiho a Lanczosova metoda

Matematika I 12a Euklidovská geometrie

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Statistika (KMI/PSTAT)

Transkript:

Strukturální regresní modely určitý nadhled nad rozličnými typy modelů

Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci lineární regrese předpokládá při odhadu modelu nepodmiňujeme x-em. Srovnání: lin. reg. aproximuje f(x) globálně lineární funkcí k-nn aproximuje f(x) lokálně konstantní funkcí.

Aproximace funkcí (úvod) Aproximujeme Nejčastěji přidáváme předpoklady o f(x), první: tj. existují vnější vlivy mimo X, které vytvářejí chybu predikce nezávislou na X. ALE: pro klasifikaci můžeme modelovat pro binární G, 0-1 kódování kde rozptyl závisí na x! LZE: aproximovat logaritmus podílu P().. logistická regrese

Expanze lineární báze Hledáme parametry modelu minimalizující kde náš model je tvaru kde h k je zvolená množina funkcí vstupu, např. pro neuronové sítě ale třeba i logaritmy či. Pokud volíme h k např. rozhodovací stromy, mluvíme o kombinaci modelů.

Strukturální regresní modely penalizace za složitost, bayesovské metody Lasso, Ridge reg., i např. kubický splajn jádrové (kernal) metody a lokální regrese slovníkové metody, báze funkcí

Lineární metody pro regresi Ridge, Lasso penalizace PCR, PLS změna souřadného systému + selekce

Vybereme nejlepší podmnožinu do p=30,40 lze upočítat, jinak postupně přidávat, postupně ubírat, apod.

Jak velkou podmožinu vybrat? např. krosvalidace 1 std. err. interval u chyby nejsložitějšího, nejmenší model, co se do intevalu vejde.

Ridge Lambda parametr, penalizujeme součet. se záměrně neobjevilo v penaltě. můžeme centrovat příznaky a fixovat β 2 Pro centrované vstupy pro ortonormální vstupy

Ridge coef. - Cancer example

Lasso regression tj. penalta je nutí některé koeficienty být nulové ekvivalentí formulace

Ridge x Lasso

Best subset, Ridge, Lasso Pro ortonormální vstupy se koeficienty změní:

Srovnání koef. metod, korelov. X

Penalta ~ apriorní pravděp. modelů Ridge je-li apriorní pravděpodobnost parametrů nezávislé, pak je Ridge maximálně pravděpodobný odhad. Bayesův vzorec P (β / X )= P( X / β ) P (β ) P ( X ) P(X) konstanta, P (β ) apriorní pravděpodobnost, P ( X / β ) věrohodnost, P (β / X ) aposteriorní pravd.

Strukturální regresní modely penalizace za složitost, jádrové (kernal) metody a lokální regrese slovníkové metody, báze funkcí

Jádrové metody - příklad Jádrová funkce určuje váhu bodu dle vzdálenosti od x 0 Nadaraya-Watson vážený průměr

Jádrové metody a lokální regrese Hledáme odhad jakožto, kde minimalizuje je parametrizovaná funkce, např. polynom nízkého řádu:

Strukturální regresní modely penalizace za složitost, bayesovské metody Lasso, Ridge reg., i např. kubický splajn jádrové (kernal) metody a lokální regrese slovníkové metody, báze funkcí

MARS

Pro splajny máme jednorozměrný vstup X (pak teprve zobecníme na MARS).

Splajny 1. stupně: po částech lineární funkce uzly pevně dané nebo v datových bodech v uzlech spojité napojení lze popsat jako součet: lineání funkce plus pro každý uzel bazická funkce *β i

Kubický splajn Po částech polynomy 3. stupně v uzlech spojitá druhá derivace. Lze zapsat jako součet: kubická funkce plus pro každý uzel bazická funkce*β i

Přirozený kubický splajn Na koncích lineární, mezi uzly kubický (resp. podle stupně ve jménu). U krajů se těžko predikuje, velký rozptyl odhadů proto raději volíme jednodušší model.

Do více dimenzí Součiny jednorozměrných. Ale je jich moc, proto přidávat jen potřebné prvky báze.

Počet stupňů volnosti složitost f Potřebujeme vyjádřit, že model s menším je jednodušší efektivní počet stupňů volnosti u jiných modelů např. počet parametrů, Vapnik- Chervonenkis dimenze,... k-nn složité zhruba N/k.

singulární rozklad Singular Value Decomposition SVD (centered) d i jsou singulární čísla matice X (singular values) je-li nějaké nulové, je X singulární.

PCA - Analýza hlavních komponent vlastní čísla, vlastní vektory

PCR, PLS PCR Principal component regression volí směry odpovídající největším vlastním číslům pro tyto směry spočte regresní koeficienty. Při size=p odpovídá lineární regresi. Partial least squares navíc bere v potaz Y spočte regresní koeficienty tím váží vstupy a spočte první vlastní číslo a vektor odtud první směr PLS, další obdobně, kolmé na 1.