Regresní lineární model symboly

Podobné dokumenty
Přednáška č. 11 Analýza rozptylu při dvojném třídění

2. Najděte funkce, které vedou s těmto soustavám normálních rovnic

Numerická integrace konstitučních vztahů

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ

Národní informační středisko pro podporu jakosti

3.2 Metody s latentními proměnnými a klasifikační metody

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Regresní a korelační analýza

Úloha syntézy čtyřčlenného rovinného mechanismu

můžeme toto číslo považovat za pravděpodobnost jevu A.

VYHODNOCENÍ MĚŘENÍ (varianta "soulodí")

Náhodným (stochastickým) procesem nazveme zobrazení, které každé hodnotě náhodnou veličinu X ( t)

NÁVRH A OVĚŘENÍ BETONOVÉ OPŘENÉ PILOTY ZATÍŽENÉ V HLAVĚ KOMBINACÍ SIL

Obsah přednášky 1. Bayesův teorém 6. Naivní Bayesovský klasifikátor (NBK)

Umělé neuronové sítě a Support Vector Machines. Petr Schwraz

Úvěr a úvěrové výpočty 1

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA. Metoda momentů Metoda maximální věrohodnosti

Aproximativní analytické řešení jednorozměrného proudění newtonské kapaliny

4EK211 Základy ekonometrie

Výpočet svislé únosnosti osamělé piloty

Matematika I A ukázkový test 1 pro 2018/2019

Metody s latentními proměnnými a klasifikační metody

4EK211 Základy ekonometrie

Slezská univerzita v Opavě Obchodně podnikatelská fakulta v Karviné

Výpočet svislé únosnosti osamělé piloty

Třídění a významné hodnoty

Markovovy řetězce se spojitým časem CTMC (Continuous time Markov Chain)

7. VÝROBNÍ ČINNOST PODNIKU

Využití logistické regrese pro hodnocení omaku

zadání: Je dán stejnosměrný motor s konstantním magnetickým tokem, napájen do kotvy, indukčnost zanedbáme.

Obr. V1.1: Schéma přenosu výkonu hnacího vozidla.

Předpjatý beton Přednáška 12

1.5.2 Mechanická práce II

4EK211 Základy ekonometrie

REGRESNÍ ANALÝZA. 13. cvičení

PRAVDĚPODOBNOST A STATISTIKA

Spojitá náhodná veličina

ADC (ADS) AIR DATA COMPUTER ( AIR DATA SYSTEM ) Aerometrický počítač, Aerometrický systém. V současné době se používá DADC Digital Air data computer

Pokud světlo prochází prostředím, pak v důsledku elektromagnetické interakce s částicemi obsaženými

TECHNICKÁ UNIVERZITA V LIBERCI

2.5. MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC

Téma 6: Indexy a diference

Příklady z přednášek Statistické srovnávání

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

6 LINEÁRNÍ REGRESNÍ MODELY

Úvod Terminologie Dělení Princip ID3 C4.5 CART Shrnutí. Obsah přednášky

Předpjatý beton Přednáška 6

Fakulta stavební ČVUT v Praze, katedra fyziky

1.3.3 Přímky a polopřímky

2.3.6 Práce plynu. Předpoklady: 2305

PARALELNÍ PROCESY A PROGRAMOVÁNÍ

Dynamické programování

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství Ústav automatizace a informatiky

Vztah mezi počtem květů a celkovou biomasou rostliny CELKE EM. slá pro KVETU = závi

Analytická metoda aneb Využití vektorů v geometrii

Rozhodovací stromy Marta Žambochová

1 FEKT Vysokého učení technického v Brně. Strojové učení. Garant předmětu: Ing. Petr Honzík, Ph.D. Autoři textu: Ing. Petr Honzík, Ph.D.

Systémové struktury - základní formy spojování systémů

Analýza závislosti veličin sledovaných v rámci TBD

Obslužné sítě. Jacksonova síť systémů hromadné obsluhy. Sériové propojení dvou front

AVDAT Klasický lineární model, metoda nejmenších

Vícekriteriální rozhodování. Typy kritérií

Porovnání GUM a metody Monte Carlo

E = E red,pravý E red,levý + E D = E red,pravý + E ox,levý + E D

Extrémy funkce dvou proměnných

L8 Asimilace dat II. Oddělení numerické předpovědi počasí ČHMÚ 2007

Rovnice paraboly

Modelování proudění na rozhraní tří fází vznikajícím při částečném smáčení povrchu tekutinou

ANALÝZA A KLASIFIKACE DAT

5 Teorie selekce a složky genetické změny

PRAVDĚPODOBNOST A STATISTIKA

Cvičení 1 (Opakování základních znalostí z pružnosti a pevnosti)

1. Spektrální rozklad samoadjungovaných operátorů 1.1. Motivace Vlastní čísla a vlastní vektory symetrické matice 1 1 A = 1 2.

Stabilita prutu, desky a válce vzpěr (osová síla)

CVIČENÍ Z ELEKTRONIKY

V následující tabulce jsou uvedeny jednotky pro objemový a hmotnostní průtok.

Oddělení technické elektrochemie, A037. LABORATORNÍ PRÁCE č.9 CYKLICKÁ VOLTAMETRIE

METODA HLAVNÍCH KOMPONENT A EXPLORATORNÍ ANALÝZA VÍCEROZMĚRNÝCH DAT

Entropie (opičí tým) M možných výsledků (x 1, x 2, x M ) jak přiřadit pravděpodobnosti jednotlivým výsledkům?

Úvod do lineární algebry

Cvičení z termomechaniky Cvičení 5.

PZP (2011/2012) 3/1 Stanislav Beroun

1. Ukazatele primární: - jsou přímo zjišťované, neodvozené - např. stav zásob, počet pracovníků k , atd.

Numerické výpočty proudění v kanále stálého průřezu při ucpání kanálu válcovou sondou

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc.

Klasifikace a predikce. Roman LUKÁŠ

Model tenisového utkání

Řešený příklad: Přípoj nosníku na sloup deskou na stojině

MODELOVÁNÍ POPTÁVKY, NABÍDKY A TRŽNÍ ROVNOVÁHY

27 Systémy s více vstupy a výstupy

MODELOVÁNÍ A SIMULACE

TERMIKA VIII. Joule uv a Thompson uv pokus pro reálné plyny

V mnoha pípadech, kdy známe rozdlení náhodné veliiny X, potebujeme urit rozdlení náhodné veliiny Y, která je funkcí X, tzn. Y = h(x).

Laplaceova transformace.

PRAVDĚPODOBNOST A STATISTIKA

Jiří Militký KTM, Technická universita v Liberci, LIBEREC, Česká Republika Milan Meloun, KACH, Universita Pardubice, Česká Republika

KLUZNÁ LOŽISKA. p s. Maximální měrný tlak p Max (MPa) Střední měrný tlak p s (Mpa) Obvodová rychlost v (m/s) Součin p s a v. v 60

Transkript:

Lneární model, Dskrmnační analýza, Podůrné vektory Regresní lneární model symboly Použté značení b arametry modelu (vektor ) očet atrbutů (skalár) N očet říkladů (skalár) x jeden říklad (vektor ) x -tá hodnota říkladu x (skalár) X matce všech říkladů (matce N ) X -tý říklad (vektor ) y výstuní hodnota (skalár) Y vektor výstuů ( ) Y -tý výstu (skalár) b = x = X = X = Y = N N

Regresní lneární model úvod znalost uložena v koefcentech lneárního modelu odvození koefcentů metodou nejmenších čtverců (MNČ) exstují modely lnearzovatelné (nař. logtový model) Lneární model: Lneární model, Dskrmnační analýza, Podůrné vektory y b 0 j x j b j Predkce: yˆ x x b ˆ alaeomath.alass.org

Lneární model, Dskrmnační analýza, Podůrné vektory Regresní lneární model vlastnost často svou řesností řekonají nelneární modely, zejména v stuac, když je málo trénovacích dat slný bas (ředojatost), menší odíl chyby varance vstuní velčna x může být různě transformována: x, sn(x), x x, log(x), jsou tyto modely lneární? y=b 0 +b x y=b 0 sn(x ) y=b 0 +b x + b 0 b x y=b 0 sn(b x ) y=b 0 +b x+ b e x y=x + x b zajímá nás jak určt arametry b nterval solehlvost těchto arametrů jak regresní model oužít ke klasfkac

Lneární model, Dskrmnační analýza, Podůrné vektory Regresní lneární model b Odvození hodnot arametrů modelu tak, aby chyba ve výstuní velčně byla co nejmenší. Výočet chyby: metoda nejmenších čtverců RSS b y X b Y Xb Y Xb Po dervac odle b získáme tvar: N RSS b RSS X Y Xb X X bb

Lneární model, Dskrmnační analýza, Podůrné vektory Regresní lneární model b Postavím. dervac rovnu 0 X Y Xb 0 bˆ X X X Y Pro konečný model tedy latí: Yˆ X bˆ X X X X Y Pokud X X je matce sngulární (není nvertblní), arametry b nejsou jednoznačně určeny. Lze ubrat atrbuty (zůsobují atrbuty lneárně závslé korelace = ±). Co zůsobuje sngulartu matce X X? Jak j lze odstrant?

Lneární model, Dskrmnační analýza, Podůrné vektory Regresní lneární model nterval solehlvost b Y Xb Předoklad je, že, kde ε N(0,σ ) Kovaranční matc arametru b vyočteme jako: Cov b X X, kde ˆ Y Yˆ Y N Odhadu arametru b odléhá normálnímu rozložení Yˆ b Hyotézu H 0 : b =0 osoudíme odle Z-skóre. Čím je absolutní hodnota z větší, s tím větší ravděodobností lze H 0 zamítnout z b v N b, X X kde v je -tý rvek na hlavní dagonále matce (X X) -

Lneární model, Dskrmnační analýza, Podůrné vektory Lneární model klasfkace bnární o klasfkac rozhoduje vzdálenost od rovny třídy nahrazeny čísly 0 a nebo - a je defnována rozhodovací hrance (= krtcká hodnota, rahová hodnota) kódování 0/ krtcká hodnota = 0,5 kódování -/ krtcká hodnota = 0 Klasfkace: Gˆ x : : fˆ fˆ x x 0 0 neuron.felk.cvut.cz

Lneární model, Dskrmnační analýza, Podůrné vektory Lneární model klasfkace vícerozměrná mějme třídy g,,g K vytvoření K modelů, řčemž ro každý: vytvořena nová data, resektve nová výstuní velčna G matce G (ndcator matrx) má rozměr NK hodnoty matce tvořeny a 0 (odle říslušnost do třídy) naučeno K modelů f Klasfkace: Gˆ x arg max.. K fˆ x Jak se vytváří tzv. ndcator matrx?

Lneární model, Dskrmnační analýza, Podůrné vektory Lneární model klasfkace vícerozměrná rotože G je obdélníková matce, matce arametrů B je obdélníková aralelně se během výočtu vytvoří K lneárních modelů G XB G X X X X G B X X X G G N K B K

Lneární model, Dskrmnační analýza, Podůrné vektory Lneární model klasfkace vícerozměrná roblém s maskováním třídy (když rostřední shluk = 0, ostatní = ; funkce této substtuce vede středem třídy a bude maskována jednou z krajních tříd) he elements of statstcal learnng by. Haste and col. Co je to maskování tříd, čím je zůsobeno?

Lneární model, Dskrmnační analýza, Podůrné vektory Dskrmnační analýza o klasfkac rozhoduje hustota ravděodobnost dané třídy (nebo vzdálenost od růměru třídy v rostoru transformovaném kovaranční matcí a arorní ravděodobností) kovaranční matce v LDA (lneární dskrmnační analýze) je jedna solečná kovaranční matce ro všechny třídy v QDA (kvadratcké dskrmnační analýze) má každá třída svoj kovaranční matc dskrmnační skór = funkce vyjadřující vzdálenost vztahy rozšřovány o arorní ravděodobnost (vyočtená z četnost v trénovacích datech)

Lneární model, Dskrmnační analýza, Podůrné vektory Lneární dskrmnační analýza vs. PCA PCA mění souřadný systém tak, aby v co nejmenším očtu souřadnc vysvětlla celkový roztyl v datech LDA ředokládá stejný roztyl, maxmalzuje rozdíl v růměrech jednotlvých tříd

Lneární dskrmnační analýza (LDA) ro bnární roblém stejná jako lneární model ř vícerozměrné klasfkac zamezuje maskování tříd ředokládá vícerozměrné gausovské rozdělení tříd solečná kovaranční matce ro všechny třídy je možné rozšířt rostor vstuních atrbutů o jejch transformace (mocnna, ) Klasfkace: x arg max x arg max x ln ˆ k.. k.. k G Lneární model, Dskrmnační analýza, Podůrné vektory kde je arorní ravděodobnost -té třídy

LDA odvození odvození vycházející z Bayesova vzorce Dále se ředokládá normální rozložení dat (D h) Lneární model, Dskrmnační analýza, Podůrné vektory D D h h h D 0 0 ln h h D h D h h h D h D h x x x e N e N ; ;

LDA odvození arorní ravděodobnost odvozena z četností π=n k /N kovaranční matce se vyočte řes všechna data ro klasfkac mez dvěma třídam lze odvodt: Lneární model, Dskrmnační analýza, Podůrné vektory ln ln ln ln ln x x x x x x x x x e e D h h D h h D h D h

Lneární model, Dskrmnační analýza, Podůrné vektory LDA rozdělení rostoru he elements of statstcal learnng by. Haste and col.

Kvadratcká dskrmnační analýza (QDA) okud odlšné rozložení v jednotlvých třídách kovaranční matce ro každou třídu Klasfkace: Gˆ x arg max.. k Lneární model, Dskrmnační analýza, Podůrné vektory arg max.. k ln k x x x ln kde je arorní ravděodobnost -té třídy

Lneární model, Dskrmnační analýza, Podůrné vektory Příklad V evdenc je 400 acentů s vážnou nemocí. U každého je zaznamenána anamnéza a rovedeno vyšetření. Pacent jsou rozdělen do tří skun. V rvní skuně jsou t, kteří zemřel do 0 dnů o říchodu. Pacent z druhé skuny zemřel o delší době než 0 dnů nebo měl trvalé následky. řetí skuna je komletně vyléčená. Následující tabulka ukazuje konkrétní nformace získané z těchto údajů. Nový acent má hodnoty vstuních testů x=(5;7). Do které ze skun atří? (dle QDA). třída 3 N 50 50 300 (5;5) (4;8) (6;9) Σ 3 x arg max ln x x ln ˆ.. k G

Lneární model, Dskrmnační analýza, Podůrné vektory Řešení =N /N (x) = -4,08 (x) = -4,58 3 (x) = -3,7 ln5 0 x 5 0 3 ln 50 400 Největší dskrmnační skór má oslední (třetí) skuna, acent má značnou šanc na vyléčení.

Lneární model, Dskrmnační analýza, Podůrné vektory Suort Vector Machnes Podůrné vektory Jak oddělt následující třídy omocí lneární rovnce f(x)=0? maování do nového říznakového rostoru Kam umístt hranc? otmální searující nadrovna

Lneární model, Dskrmnační analýza, Podůrné vektory SVM otmální searující nadrovna

Výočet otmální searující nadrovny model má N arametrů α, řešením je vektor nenulových arametrů α ty získáme maxmalzací účelové funkce: za odmínek: Lneární model, Dskrmnační analýza, Podůrné vektory 0; y 0 α,j α α j y y j x x j k nalezení otma se oužívá kvadratcké rogramování (obdoba lneárního rogramování, účelová funkce je však kvadratcká v neznámém arametru α)

Lneární model, Dskrmnační analýza, Podůrné vektory SVM nastavený model f N x sgn y x x N je očet trénovacích rvků, váha, nenulová u SV (odůrné vektory, ty jedné ak má smysl uložt)

Lneární model, Dskrmnační analýza, Podůrné vektory SVM kde je roblém v účelové funkc a fnálním modelu oužt skalární součn v ůvodním rostoru atrbutů (x.x ) aby bylo možné využít síly SVM, je žádoucí vytvoření celé řady nových atrbutů (z 5 nař. 5.000) ř transformac nař.(x,x ) na (x,x,x,x,x x,x 3,...) je třeba nejdříve každou nstanc řeočítat (rozšířt), až oté lze mez rvky v novém vícerozměrném rostoru očítat skalární součn a to stojí soustu času a takových transformací je třeba vyzkoušet více a hledat tu nejleší Lze to zjednodušt?

Lneární model, Dskrmnační analýza, Podůrné vektory SVM jádrová funkce k k(x,x ) x x h(x) h(x),h(x ) h(x ) h(x), h(x ) = k(x,x )

Lneární model, Dskrmnační analýza, Podůrné vektory SVM jádrový trk ve vzorc Původní vztah ro výočet otmální searující nadrovny: A jeho úrava skalární součn v novém říznakovém rostoru f N x sgn y kx, x b

Lneární model, Dskrmnační analýza, Podůrné vektory SVM jádrové funkce d dmenzí 3 6 3 0 4 5 5 6 8 7 36 8 45 9 55 Vyočt skalární součn bodů x=(;) a x =(3;4) A) v ůvodním rostoru a v olynomálním rozšíření vstuního rostoru ř d= B) bez C) s kernelovým trkem A) Skalární součn x,x =.3+.4 = B) Skalární součn v 6-rozměrném rostoru (olynomální jádrová funkce. stuně): ( +..3 +..4 + (.3) + (.4) +..3..4 ) = +6+6+9+64+48= 44 C) oto lze však vyočíst římo z jádrové funkce a ůvodního -rozměrného rostoru: K(x,x ) = (+ x,x ) = ( + ) = 44

Lneární model, Dskrmnační analýza, Podůrné vektory SVM říklad Kolk bodů (SV = suort vectors = odůrných vektorů) je třeba uložt, aby bylo možno klasfkovat následující rvky?