Statistická teorie učení

Podobné dokumenty
Úloha - rozpoznávání číslic

UČENÍ BEZ UČITELE. Václav Hlaváč

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

STATISTICKÉ ODHADY Odhady populačních charakteristik

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Pravděpodobně skoro správné. PAC učení 1

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

PŘEDNÁŠKA 2 POSLOUPNOSTI

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Limita a spojitost funkce. 3.1 Úvod. Definice: [MA1-18:P3.1]

Odhad parametrů N(µ, σ 2 )

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Základy matematické analýzy

Náhodné (statistické) chyby přímých měření

oddělení Inteligentní Datové Analýzy (IDA)

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Neparametrické odhady hustoty pravděpodobnosti

Kybernetika a umělá inteligence, cvičení 10/11

Numerické řešení nelineárních rovnic

Diskrétní náhodná veličina. November 12, 2008

Náhodné chyby přímých měření

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Normální (Gaussovo) rozdělení

Náhodná veličina a rozdělení pravděpodobnosti

Jednofaktorová analýza rozptylu

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2015

= = 2368

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

13. cvičení z PSI ledna 2017

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Chyby měření 210DPSM

TECHNICKÁ UNIVERZITA V LIBERCI

Biostatistika Cvičení 7

1. Přednáška. Ing. Miroslav Šulai, MBA

Síla a významnost asociace mezi proměnnými v systému

Lineární regrese. Komentované řešení pomocí MS Excel

Tomáš Karel LS 2012/2013

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Aplikovaná numerická matematika

I. D i s k r é t n í r o z d ě l e n í

Matematická analýza pro informatiky I. Limita funkce

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Algoritmy komprese dat

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Dijkstrův algoritmus

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

p(x) = P (X = x), x R,

Úvod do problematiky měření

Lineární algebra : Báze a dimenze

Cvičení ze statistiky - 7. Filip Děchtěrenko

KGG/STG Statistika pro geografy

Pravděpodobnost a statistika

Normální (Gaussovo) rozdělení

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

Umělá inteligence II

Greenova funkce pro dvoubodové okrajové úlohy pro obyčejné diferenciální rovnice

Zpracoval: 7. Matematická indukce a rekurse. Řešení rekurentních (diferenčních) rovnic s konstantními koeficienty.

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Informační a znalostní systémy

Odhad parametrů N(µ, σ 2 )

7. Rozdělení pravděpodobnosti ve statistice

Bayesovské metody. Mnohorozměrná analýza dat

Zavedení a vlastnosti reálných čísel

Posloupnosti a jejich konvergence

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

4. Zpracování číselných dat

1.1 Existence a jednoznačnost řešení. Příklad 1.1: [M2-P1] diferenciální rovnice (DR) řádu n: speciálně nás budou zajímat rovnice typu

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

Charakteristika datového souboru

Výběrové charakteristiky a jejich rozdělení

Matematická analýza pro informatiky I. Limita posloupnosti (I)

Základy teorie pravděpodobnosti

Nekonečné číselné řady. January 21, 2015

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

To je samozřejmě základní pojem konvergence, ale v mnoha případech je příliš obecný a nestačí na dokazování některých užitečných tvrzení.

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Algoritmizace složitost rekurzivních algoritmů. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Lineární algebra : Metrická geometrie

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Lineární algebra : Lineární (ne)závislost

- funkce, které integrujete aproximujte jejich Taylorovými řadami a ty následně zintegrujte. V obou případech vyzkoušejte Taylorovy řady

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Vytěžování znalostí z dat

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Hodnocení vlastností materiálů podle ČSN EN 1990, přílohy D

Transkript:

Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální materiál, např. obrázky x 1,..., x l a k nim příslušné ohodnocení k 1,..., k l, které by měly být výstupem požadovaného algoritmu. Předpokládejme, že experimentální materiál je dost rozsáhlý, např. l = 10000. Výsledkem, který výrobce předvádí zákazníkovi, je strategie rozpoznávání. Zákazníka zajímá, jakou kvalitu rozpoznávání má vytvořená strategie. Za měřítko kvality budeme považovat pravděpodobnost chybného rozhodnutí. Jelikož se tato pravděpodobnost nedá přímo změřit, zákazník se s výrobcem dohodl, že náhradou této kvality bude počet chyb, kterých se strategie dopustí na experimentálním materiálu. Zákazník si myslí, že při dostatečně velkém experimentálním materiálu bude mít nalezená strategie velmi nízkou pravděpodobnost chybného rozhodnutí. Tento problém je však daleko složitější. Otázkou odhadu chyb strategií se budeme zabývat v následujících odstavcích. 2 Základní pojmy Zavedeme následující označení x 1,..., x l... příznaky, x i X k 1,..., k l... ohodnocení, k i K T = ((x 1, k 1 ), (x 2, k 2 ),..., (x l, k l ))... trénovací množina T... množina všech trénovacích množin, T T Q : X K... strategie (rozhodovací algoritmus) Q... množina všech strategií, Q Q V : T Q... algoritmus učení, určuje strategii Q jako funkci Q = V (T ) 1

Pro každou trénovací množinu T můžeme dostat různou strategii Q. Strategie Q je tedy náhodná veličina. R(Q)... riziko strategie Q, tj. pravděpodobnost chybného rozhodnutí strategie Q R(Q) = W (Q(x), k)p(x, k)dxdk kde W (Q(x), k) je ztrátová funkce a p(x, k) jsou sdružené pravděpodobnosti, které však neznáme, a tudíž nemůžeme R(Q) takto vypočítat. Dokážeme však určit R(T, Q)... relativní četnost chyby strategie Q na trénovací množině T R(T, V (T ))... relativní četnost chyb strategie naučené na T na datech z T Příklad (špatný algoritmus učení) Klasifikujeme do dvou tříd, K = {1, 2}. Máme k dispozici trénovací množinu T = ((x 1, k 1 ),..., (x l, k l )), x i R, k i K. Máme strategii Q B (x) = V (T ) takovou, která si zapamatuje všechny vzorky v trénovací množině T a klasifikuje následovně { ki pro x = x Q B (x) = i 1 pro x / T Pak R(T l, Q B (x)) = 0 (na trénovací množině neudělá chybu). Výsledkem klasifikace však bude stále třída k = 1, protože náhodné x R bude přesně rovno některému x i T s nulovou pravděpodobností. Skutečná chyba je apriorní pravděpodobnost druhého stavu, tedy R(Q B (x)) = P (k = 2). Q B je zřejmě hodně špatná strategie, protože například pro P (k = 2) = 0, 5 bude mít stejnou chybu jako náhodné hádání, tj. 0, 5. Lze říci, že žádný ani libovolně velký počet trénovacích dat nemůže být zárukou, že při praktickém použití algoritmu rozpoznávání bude dosaženo stejné kvality rozpoznávání, jaká byla zjištěna na trénovacích datech. 3 Odhad chyby jedné strategie Budeme uvažovat situaci, kdy se neučíme, máme jednu pevnou strategii Q a odhadujeme pravděpodobnost chyby R(Q). Platí, že R(T, Q) konverguje k 2

R(Q), když délka trénovací množiny l. 1 Postupně přikládáme vzorky z T, tj. opakujeme nezávislé pokusy s pravděpodobností chyby p = R(Q). Počet chyb má tedy binomické rozdělení B(l, p). Pro velké l konverguje B(l, p) k normálnímu rozdělení N(lp, lp(1 p)) se střední hodnotou lp a směrodatnou odchylkou menší než 1 4. Lze dokázat, že pravděpodobnost toho, že l odchylka R(T l, Q) od R(Q) bude větší než ε je kde P { R(T l, Q) R(Q) > ε} e 2ε2l = η (1) R(T l, Q)... relativní četnost chyby strategie Q na trénovací množině délky l R(Q)... skutečná pravděpodobnost chyby ε... přesnost odhadu chyby η... spolehlivost tvrzení, že skutečná chyba je v intervalu R(T l, Q) ± ε (jinými slovy pravděpodobnost, že skutečná chyba je mimo uvedený interval) Příklad 1: Známe relativní četnost chyb strategie R(T l, Q) = 0, 1. Jaká je pravděpodobnost, že pro dané l je skutečná chyba R(Q) v rozmezí 0, 09 0, 11? Ze zadání plyne ε = 0, 01. Pro hledanou pravděpodobnost potom s využitím (1) platí P e 2.0,012l = η. Je vidět, že pro fixní délku trénovací množiny l nelze mít zároveň malé η a ε. To znamená, že při krátkém experimentu (malé l) nemůže být dosaženo takového hodnocení R(Q), které by bylo zároveň přesné a spolehlivé. Lze ale naplánovat experiment s takovou délkou l, že bude dosažena jakákoliv předem určená přesnost ε > 0 a jakákoliv předem určená spolehlivost η > 0. Délka takového experimentu je pak podle (1)určena vzorcem l ln η 2ε 2 (2) 1 Připadá-li vám předchozí věta v rozporu se závěrem uvedeného příkladu, pak je třeba si uvědomit, že předchozí věta neříká nic o vztahu dvou náhodných čísel R(T, V (T )) a R(V (T )) (v příkladu označených jako R(T, Q B ) a R(Q B )). 3

Příklad 2: Jakou minimální délku trénovací množiny potřebujeme, abychom dosáhli přesnosti 2% se spolehlivostí 0,1%? Dosazením do (2) dostáváme l = ln 0, 001 2.0, 02 2 = 8635 Musíme mít k dispozici trénovací množinu alespoň o délce l = 8635. 4 Odhad chyby při učení z více strategií Při výběru strategie rozpoznávání je třeba brát zřetel na velikost množiny Q, ze které se vybírá. Náš výběr bude špatný, pokud alespoň jedna ze špatných strategií vydrží zkoušku, tedy vztah (1) není schopen tuto špatnou strategii odhalit. Při učení proto nestačí splnit ale je třeba splnit přísnější podmínku P { R(T l, Q) R(Q) > ε} η (3) P {max R(T l, Q) R(Q) > ε} η (4) Q Q Potřebujeme tedy vyřadit z učení ty algoritmy, které mají velký rozdíl R(T l, Q) R(Q). Základní rozdíl mezi (3) a (4) je v tom, že při l konverguje pravděpodobnost v (3) k nule při jakékoliv startegii Q a jakémkoliv ε > 0, kdežto konvergence (4) záleží na složitosti množiny Q. 5 Případ N strategií Pro případ, kdy se množina Q skládá z konečného počtu N strategií, musí platit { } P max R(T l, Q) R(Q) > ε Q Q Q Q P { R(T l, Q) R(Q) } Ne 2ε2l = η 4 (5)

neboli součet je zřejmě větší než maximum. Opět můžeme zaručit přesnost ε se spolehlivostí η. Pro délku trénovací množiny l pak plyne l = ln N ln η 2ε 2. (6) Z praktického hlediska definuje vztah (6) požadavky na délku učení příliš hrubě, tj. s velkou rezervou. 6 Charakterizace Q V předchozím odstavci nás zajímal pouze počet strategií. To je však nepoužitelné pro nekonečný počet strategií a nevhodné pro velké N. Lze ukázat, že existují popisy (charakterizace) množiny Q, které hrají roli N ve vztahu (5). Uvažujme strategie Q 1, Q 2 Q a vzorky v trénovací množině X = (x 1,..., x l ). Řekneme, že Q 1 a Q 2 jsou ekvivalentní vzhledem k X, pokud Q 1 (x i ) = Q 2 (x i ) pro všechna i. Každá posloupnost X vytváří na Q třídy ekvivalence, jejich počet označíme ( Q, x 1,..., x l ). Příklad : Množina všech strategií Q je prahování v R s prahem t. t.... x x x x x x 1 2 3 4 5 l Pozorování s prahem t v oblasti vlevo od x 1 patří do jedné třídy ekvivalence (rozhoduji stále stejně), podobně oblast mezi x 1 a x 2 patří do jedné třídy ekvivalence atd. Počet tříd ekvivalence (počet strategií, které se nějak liší) je l + 1. 5

6.1 Entropie množiny strategií Matematické očekávání log ( Q, x 1,..., x l ) nazveme entropií množiny strategií Q na posloupnostech délky l H l (Q) =...... l p(x i, k i ) log ( ) Q, x 1,..., x l x 1 X x 2 X x l X k 1 K k 2 K k l K i=1 (7) což vyjadřuje průměr log ( ) Q, x 1,..., x l s váhami p(xi, k i ). H l (Q) neumíme spočítat, už jen proto, že neznáme p(x i, k i ). Naším cílem je opět ukázat, jaká má být délka učení l, aby výsledek učení byl dost přesný a spolehlivý. Lze využít následujícího tvrzení Platí že, pokud H l(q) l 0 pro l, potom P { R(T l, Q) R(Q) } 0. Stále však není snadné určit H l(q), proto vytvoříme hrubější, ale konstruktivnější l podmínky. 6.2 Funkce růstu Zavedeme funkci růstu jako řadu čísel m l (Q) = max x 1,...,x l l ( Q, x1,..., x l ) pro l = 1, 2,...,. Protože maximum je zřejmě větší než průměr, bude platit log m l (Q) H l (Q) Aby bylo splněno H l (Q) lim = 0 l l jistě stačí splnit log m l (Q) lim = 0, l l což se bude počítat snadněji a nepotřebujeme znát p(x i, k i ) jako v případě (7). Dále platí P { max R(T l, Q) R(Q) > ε Q Q } 3m 2l (Q)e ε2 (l 1) 4 = η (8) 6

Příklad : Pro prahování z předcházejícího příkladu platí m 2l (Q) = 2l + 1. Po dosazení do (8) dostáváme η = 3(2l + 1)e ε2 (l 1) 4 z čehož lze opět vypočítat délku trénovací množiny l při zvolené přesnosti ε a spolehlivosti η. Uvedený výpočet je obecně poměrně složitý. V praktických situacích se využívá charakterizace Q zvané kapacita neboli Vapnik-Červoněnkisova dimenze (VC dimenze), o které je pojednáno v následnující přednášce. Reference [1] Michail I. Schlesinger and Václav Hlaváč. Deset přednášek z teorie statistického a strukturního rozpoznávání. ČVUT, Prague, Czech Republic, 1999. 7