Kapitola 1. Logistická regrese. 1.1 Model

Podobné dokumenty
Odhady - Sdružené rozdělení pravděpodobnosti

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

3 Bodové odhady a jejich vlastnosti

Odhad parametrů N(µ, σ 2 )

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Jednoduchá exponenciální rovnice

Pravděpodobnost a statistika

oddělení Inteligentní Datové Analýzy (IDA)

Diferenciální rovnice 1

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

V exponenciální rovnici se proměnná vyskytuje v exponentu. Obecně bychom mohli exponenciální rovnici zapsat takto:

Nejdřív spočítáme jeden příklad na variaci konstant pro lineární diferenciální rovnici 2. řádu s kostantními koeficienty. y + y = 4 sin t.

AVDAT Mnohorozměrné metody, metody klasifikace

Vlastnosti odhadů ukazatelů způsobilosti

Diferenciální rovnice 3

Nyní využijeme slovník Laplaceovy transformace pro derivaci a přímé hodnoty a dostaneme běžnou algebraickou rovnici. ! 2 "

Klasifikace a rozpoznávání. Lineární klasifikátory

Odhad parametrů N(µ, σ 2 )

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

1 Integrální počet. 1.1 Neurčitý integrál. 1.2 Metody výpočtů neurčitých integrálů

Nalezněte obecné řešení diferenciální rovnice (pomocí separace proměnných) a řešení Cauchyho úlohy: =, 0 = 1 = 1. ln = +,

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Lingebraické kapitolky - Analytická geometrie

řešeny numericky 6 Obyčejné diferenciální rovnice řešeny numericky

IB112 Základy matematiky

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Přednáška 3: Limita a spojitost

Výroková logika II. Negace. Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0).

AVDAT Klasický lineární model, metoda nejmenších

Statistická teorie učení

Derivace funkcí více proměnných

f(c) = 0. cn pro f(c n ) > 0 b n pro f(c n ) < 0

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

( ) ( ) Nezávislé jevy I. Předpoklady: 9204

8 Coxův model proporcionálních rizik I

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Cvičení ze statistiky - 5. Filip Děchtěrenko

Markovské metody pro modelování pravděpodobnosti

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

ŘEŠENÍ KVADRATICKÝCH A ZLOMKOVÝCH NEROVNIC V ŠESTI BODECH

Náhodný jev a definice pravděpodobnosti

M - Příprava na 1. zápočtový test - třída 3SA

Implementace Bayesova kasifikátoru

Stavový model a Kalmanův filtr

13. cvičení z PSI ledna 2017

Řešení 1b Máme najít body, v nichž má funkce (, ) vázané extrémy, případně vázané lokální extrémy s podmínkou (, )=0, je-li: (, )= +,

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Příklad 1. Řešení 1a Máme vyšetřit lichost či sudost funkce ŘEŠENÉ PŘÍKLADY Z M1A ČÁST 3

7. Aplikace derivace

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Odhad - Problémy se sdruženým rozdělením pravděpodobnosti

Vytěžování znalostí z dat

Drsná matematika IV 7. přednáška Jak na statistiku?

V této kapitole si zobecníme dříve probraný pojem limita posloupnosti pro libovolné funkce.

Příklad 1. Řešení 1a Máme řešit rovnici ŘEŠENÉ PŘÍKLADY Z M1A ČÁST 1. Řešte v R rovnice: = = + c) = f) +6 +8=4 g) h)

5. Lokální, vázané a globální extrémy

Nerovnice, grafy, monotonie a spojitost

3. Podmíněná pravděpodobnost a Bayesův vzorec

5.1. Klasická pravděpodobnst

Praha & EU: investujeme do vaší budoucnosti. Daniel Turzík, Miroslava Dubcová,

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Teorie. kunck6am/ (a) lim. x x) lim x ln ) = lim. vnitřní funkce: lim x. = lim. lim. ln(1 + y) lim = 1,

Úloha - rozpoznávání číslic

Věta 12.3 : Věta 12.4 (princip superpozice) : [MA1-18:P12.7] rovnice typu y (n) + p n 1 (x)y (n 1) p 1 (x)y + p 0 (x)y = q(x) (6)

7B. Výpočet limit L Hospitalovo pravidlo

5.3. Implicitní funkce a její derivace

1 Mnohočleny a algebraické rovnice

9 Kolmost vektorových podprostorů

Příklad 1. Řešení 1a. Řešení 1b ŘEŠENÉ PŘÍKLADY Z M1B ČÁST 5

Informační a znalostní systémy

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

2. Definice pravděpodobnosti

M - Příprava na pololetní písemku č. 1

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

Metody výpočtu limit funkcí a posloupností

Matematika I 2a Konečná pravděpodobnost

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Úvod do řešení lineárních rovnic a jejich soustav

Diagnostika regrese pomocí grafu 7krát jinak

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Asymptoty funkce. 5,8 5,98 5,998 5,9998 nelze 6,0002 6,002 6,02 6, nelze

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

1. Několik základních pojmů ze středoškolské matematiky. Na začátku si připomeneme následující pojmy:

Matematika IV 9. týden Vytvořující funkce

Zavedení a vlastnosti reálných čísel

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

Matematická analýza pro informatiky I. Limita posloupnosti (I)

Výběr báze. u n. a 1 u 1

1 Extrémy funkcí - slovní úlohy

6 Algebra blokových schémat

MATEMATIKA II V PŘÍKLADECH

Obsah. Aplikovaná matematika I. Gottfried Wilhelm Leibniz. Základní vlastnosti a vzorce

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Příklady pro předmět Aplikovaná matematika (AMA) část 1

7 Ortogonální a ortonormální vektory

Příklad 1 ŘEŠENÉ PŘÍKLADY Z M1B ČÁST 2. Určete a načrtněte definiční obory funkcí více proměnných: a) (, ) = b) (, ) = 3. c) (, ) = d) (, ) =

Transkript:

Kapitola Logistická regrese Předpokládám, že už jsme zavedli základní pojmy jako rysy a že už máme nějaké značení Velkost trenovacich dat a pocet parametru Motivační povídání... jeden z nejpoužívanějších modelů... v jistém smyslu lze logistickou regresi považovat za základ neuronových sítí, ke kterým se dostaneme později. Logistická regrese, přestože se jmenuje z historických důvodů regrese, je klasifikační model, který ve své základní podobě klasifikuje objekt popsaný vektorem rysů do tříd (ano) a 0 (ne).. Model Stejně jako v případě perceptronu (viz. kapitola??, využijeme vážený součet rysů. Váhy pro jednotlivé rysy nám říkají, jak moc je který rys přispívá tomu, abychom objekt klasifikovali kladně. Váhy tedy mohou být i záporné, v takovém případě, čím silnější rys je, tím spíše bude objekt klasifikován záporně. Jmenuje se podle logistické funkce, která se používá pro rozhodování, do jaké třídy objekt patří. Logistickou funkci můžeme popsat vzorcem: f(z) =. (.) + e z RR: Přidat čáru x = 0, y = 0.5 Obrázek.: Průběh logistické funkce na intervalu [ 30; 30]

Jak vidíme z průběhu funkce (viz Obrázek??), chová se jako jako jakási prahová funkce. Pokud dostane dostatečně velké číslo, vrací číslo, které se blíží jedničce, naopak při dostatečně nízkém vstupu vrací číslo, které se velice blíží nule. Všimněte si také, že pro z = 0 je její hodnota 2. Za z do logistické funkce dosadíme vážený součet rysů. Rovnicí zapíšeme takto: z = w 0 + n w i x i (.2) i= To znamená, že čím větší vážený součet rysů je, tím je logistická funkce bližší jedničce a naopak. V hodnotě jedna polovina se tedy láme, zda více věříme nebo 0. Z toho už je krůček k formálnímu popisu modelu: t = { pokud +e w 0 n w i= i x i 2 0 jinak (.3) Bystrý čtenář si možná všiml, že takto zadaný model se příliš neliší od perceptronu. Model jako takový je skutečně ekvivalentní ptáme se na to, jestli je vážený součet rysů větší nebo menší, než nějaká pevně stanovená mez. Co se v tomto případě liší, je způsob učení modelu, který se v případě logistické regrese odvozuje pomocí teorie pravděpodobnosti. JL: Teď popsat, jak se to učí JL: Napsat, že existuje SGD JL: Regularizace... nejprve natrenovat model bez regularizace a ukazat learning curves a overfitting JL: Pak pridat regularizaci jako penaltu za vysoke vahy a ukazat rozdil JL: Plot: velikost regularizacniho parametru a trenovaci a testovaci chyba Následující dvě části obsahují více matematiky..2 Pravděpodobnostní odvození JL: Z tohodle textu smazat většinu Logistickou regresi lze odvodit také jako odhad podmíněné pravděpodobnosti klasifikace hodnotou, je-li dán vektor rysů. Dřív, než se dostaneme k náznaku tohoto odvození, je potřeba varovat, že pravděpodobnostní interpretace logistické regrese, může být v mnohém zavádějící. Výstup logistické funkce je sice z čistě formálního matematického hlediska pravděpodobností, v praxi ale zdaleka nemusí odpovídat tomu, co si pod pravděpodobností intuitivně představujeme. Lepší odhad toho, s jakou jistotou model funguje, nám dává jeho úspěšnost na testovacích datech, byť i zde musíme být opatrní, pokud chceme toto číslo používat jako pravděpodobnost. Předpokládáme totiž, že když už máme nějaký vektor rysů (to je ta podmínka, proto podmíněná pravděpodobnost), je rozhodnutí, jaká bude klasifikace, náhodné tzv. Bernoulliho 2

proces. Ten si můžeme představit jako hod neférovou mincí, kde padá orel (kladná klasifikace) s pravděpodobností p. V případě logistické regrese se pokusíme to, jak by takový proces mohl vypadat, popsat následující (autoři vědí, že bizarní) alegorií. Představujeme si, že někde existuje nějaký stroj, ve kterém je naprogramovaný náš model. Když dostane na vstupu vektor rysů pro nějaký objekt, spočítá pravděpodobnost, že bude klasifikován kladně. Potom vyrobí minci, na které s touto pravděpodobností padá orel a mincí si hodí. Pokud padne orel, řekne, v opačném případě 0. Je jistě zřejmé, že jen málokterý jev ve světě se dá popsat, takovýmto pravděpodobnostním mechanizmem. Tento předpoklad nám umožňuje, aby byl model stále relativně jednoduchý a v praxi se ukazuje, že takové učení dává dobré výsledky. Výstupu logistické funkce se obvykle říká míra jistoty nebo konfidence modelu (anglicky confidence). Nyní už slibovaný náznak pravděpodobnostního odvození. Pravděpodobnost nějakého jevu (třeba že na minci padne orel) běžně odhadujeme jako poměr počtu případů, kdy jev nastal, a počtu všech pokusů. Pokud hodím tisíckrát mincí a jenom 420 krát padne orel, mohu pravděpodobnost toho, že padl orel, odhadnout na 420/000 = 0, 42. Jak ale odhadneme pravděpodobnost v případě že máme k dispozici pouze vážené součty rysů? Pomůžeme si tím, že si zavedeme skóre, kterému se někdy také říká energie podle fyzikálních souvislostí. Budeme mít zvlášť váhy pro situaci, kdy bychom objekt klasifikovali kladně (w 0,..., w n) a záporně (w 0 0,... w n). Energii pro kladnou klasifikaci zavedu jako E( x) = e w 0 + n i= w i x i (.4) a analogicky pro zápornou. Na rozdíl od prostého váženého součtu, máme záruku, že toto skóre bude mít vždy kladnou hodnotu. Pravděpodobnost potom můžu odhadnout nikoli jako poměr počtů, ale jako poměr těchto skóre: P(y = x) = e w 0 + n i= w i x i i= w0 i x i + e w 0 + n i= w i x i ; P(y = 0 x) = P (y = x). (.5) Jedničku v pravděpodobnosti záporné klasifikace můžeme vyjádříme jako y v takovém případě vychází pro kladnou klasifikaci nula a mínus před pravděpodobností vyjádříme jako násobení hodnotou ( + 2y) pro kladnou klasifikace dává +. Nyní už můžeme vyjádřit model obecně pro obě možné hodnoty y jedním vzorcem: P(y x) = ( y) + (2y ) e w 0 + n i= w i x i i= w0 i x i + e w 0 + n i= w i x i (.6) Podívejme se nyní detailněji na zlomek v rovnicích.5 a.6. Zlomek nejprve rozšíříme hodnotou v čitateli a dostáváme: e w 0 + n i= w i x i i= w0 i x i + e w 0 + n i= w i x i e w 0 + n i= w i x i e w 0 + n i= w i x i = + ew0 0 + ni= w i 0x i e w 0 + n w i= i x i (.7) Zlomek ve jmenovateli upravíme pomocí pravidel pro počítaní s exponenciálními funkcemi, zjednodušíme a dostaneme výraz + e (w0 0 w 0 )+ n. (.8) i= (w0 i w i )x i 3

To už je vlastně logistická funkce. Vidíme také, že nepotřebuje zvlášť znát váhy pro kladnou a zápornou klasifikace, jediné co potřebujeme je jejich rozdíl. Právě tento rozdíl jsou váhy, které využívá logistická regrese pokládáme w i = w 0 i w i. Funkce, kterou používáme v logistické regresi, jistým způsobem odhaduje pravděpodobnost, že bude objekt bude klasifikován kladně. Toho se využívá při učení model, jak ukážeme v další část, ovšem za nerealistického předpokladu, že klasifikace se ve skutečném světě Bernoulliho proces..3 Odvození učení Učení modelu využívá jeho pravděpodobností interpretaci. Z té odvodíme takzvanou věrohodnost parametrů vah rysů (anglicky likelihood). Ukážeme si algoritmus, kterým se dá postupně zvyšovat věrohodnost modelu, až dosáhne svého maxima. Mějme tedy trénovací data D, která tvoří N dvojic vektorů a správných klasifikací (x, t ),..., (x N, t N ) a model s vahami součtu, které budeme pro jednoduchost zápisu označovat jako w. Když definujeme věrohodnost modelu, díváme se pravděpodobnost jakoby z druhé strany, než je logické. Pro váhy rysů w se ptáme, jak pravděpodobné by bylo, že vznikla trénovací data, která používáme za předpokladu, že by model, co používáme, byl fixně daný. Pokusíme tuto krkolomnou úvahu vysvětlit trochu pomaleji. Vrátíme se k představě podivného stroje z minulé části. Když se ptáme, jak věrohodné jsou určité váhy, vyrobíme nejprve stroj pro tyto váhy a potom se zeptáme, jak pravděpodobné by bylo, že kdybychom tomu stroji dodali stejné vektory rysů, jako máme v trénovacích data, dostali bychom totožné klasifikace. Vlastně se ptáme, jak moc dobře je možné, že by model sám připravil naše trénovací data a předpokládáme, že čím lepší model, tím spíše se takto chová. Abychom toto mohli odhadnout, předpokládáme navíc, že jednotlivé trénovací příklady jsou na sobě navzájem nezávislé. Protože pravděpodobnost toho, že současně nastane několik nezávislých jevů, je rovna součinu jejich pravděpodobností, můžeme vyjádřit věrohodnost jako součin pravděpodobností pro jednotlivé trénovací příklady. Z předchozí části víme, že tuto pravděpodobnost můžeme vyjádřit právě logistickou funkcí. L (w) = P(t i x i ) = ( t i ) + (2t i ) + e w 0 n (.9) i= w ix i i= i= Některým čtenářům se může celý tento obrat zdát podezřelý. Na místě je jistě otázka, jak to věrohodnost vah počítáme jako podmíněnou pravděpodobnost dat, jsou-li dány váhy modelu. Není to nějaký nesmysl? Nemělo by to být naopak? Odpověď je, že by to klidně mohl být naopak, ale výsledek by byl stejný. Tyto dva pohledy totiž zachycují rozdíl mezi klasickým (tzv. frekvetistickým) a Bayesovským pohledem na statistiku. Pro uklidnění zvídavých čtenář ukážeme, proč jsou v tomto případě oba pohledy ekvivalentní, pro stručnost pouze ve zjednodušené notaci. Podmíněnou pravděpodobnost vah w, jsou-li dána trénovací data D rozepíšeme pomocí Bayesova pravidla: P(w D) = P(D w)p(w) (.0) P(D) 4

Protože dopředu nevíme o vahách vůbec nic, má každá sada vah stejnou pravděpodobnost. Co je pravděpodobnost dat PD, je na delší povídání, ale můžeme se spokojit s tím, že trénovací data jsou jenom jedna a proto je to vždy stejné číslo. Tyto dva členy jsou tedy konstantní bez ohledu na to, jaké váhy zvolíme. Z toho plyne, že když věrohodnost jako podmíněnou pravděpodobnost vah modelu, jsou-li dána data, stačí maximalizovat obrácenou podmíněnou pravděpodobnost, jak jsme věrohodnost zavedli v rovnici.9. Pokud bychom věrohodnost počítali v této formě na počítači, docházelo by často k numerickým chybám. Jedná se o součin mnoha čísel mezi nulou a jednou, takže výsledek byl velice malé číslo, které by bylo vzhledem k vlastnostem procesorů zaokrouhleno na nulu. Využijeme toho, že logaritmus je prostá funkce a tedy L zlogaritmujeme, nezmění to, v jakých bodech je její minimum a maximum. Můžeme tedy psát: L(w) = ln ( t i ) + (2t i ) + e w 0 n i= i=w i x i Když provedeme úpravy podle pravidel pro počítání s logaritmy, dostaneme: Ti, co se již setkali s diferenciálním počtem, vědí, že maximum funkce lze najít tak, že nejprve spočítáme derivaci funkce a potom hledáme body, kdy je derivace rovna nule. JL: Dokončit odvození derivace 5