Instance based learning

Podobné dokumenty
Metody založené na analogii

oddělení Inteligentní Datové Analýzy (IDA)

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Statistická teorie učení

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

15. T e s t o v á n í h y p o t é z

Odhady - Sdružené rozdělení pravděpodobnosti

5. T e s t o v á n í h y p o t é z

Umělá inteligence II

Kybernetika a umělá inteligence, cvičení 10/11

Úloha - rozpoznávání číslic

Strojové učení Marta Vomlelová

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Lineární klasifikátory

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

15. T e s t o v á n í h y p o t é z

AVDAT Mnohorozměrné metody, metody klasifikace

Bodové a intervalové odhady parametrů v regresním modelu

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Vybraná rozdělení náhodné veličiny

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Asociační i jiná. Pravidla. (Ch )

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

PRAVDĚPODOBNOST A STATISTIKA

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Testování modelů a jejich výsledků. tomu, co jsme se naučili?

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Testy. Pavel Provinský. 19. listopadu 2013

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Implementace Bayesova kasifikátoru

KGG/STG Statistika pro geografy

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

UČENÍ BEZ UČITELE. Václav Hlaváč

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Odhad parametrů N(µ, σ 2 )

Trénování sítě pomocí učení s učitelem

8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Učící se klasifikátory obrazu v průmyslu

Normální (Gaussovo) rozdělení

Diskrétní náhodná veličina. November 12, 2008

Náhodná veličina a rozdělení pravděpodobnosti

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Odhad parametrů N(µ, σ 2 )

STATISTICKÉ ODHADY Odhady populačních charakteristik

Bayesovské metody. Mnohorozměrná analýza dat

Moderní systémy pro získávání znalostí z informací a dat

Vytěžování znalostí z dat

Stavový model a Kalmanův filtr

odlehlých hodnot pomocí algoritmu k-means

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

PRAVDĚPODOBNOST A STATISTIKA

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Automatické vyhledávání informace a znalosti v elektronických textových datech

Přednáška 13 Redukce dimenzionality

6. T e s t o v á n í h y p o t é z

ANALÝZA A KLASIFIKACE DAT

Strojové učení Marta Vomlelová

Poznámky k předmětu Aplikovaná statistika, 11. téma

Psaní na mokrý papír. Andrew Kozlik KA MFF UK

Predikce roční spotřeby zemního plynu po ceníkových pásmech

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Informační systémy pro podporu rozhodování

7. Analýza rozptylu.

Pravděpodobně skoro správné. PAC učení 1

cv3.tex. Vzorec pro úplnou pravděpodobnost

Tomáš Karel LS 2012/2013

Apriorní rozdělení. Jan Kracík.

Získávání znalostí z dat

Charakterizace rozdělení

Markov Chain Monte Carlo. Jan Kracík.

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Fotonové mapy. Leonid Buneev

Měření dat Filtrace dat, Kalmanův filtr

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

I. D i s k r é t n í r o z d ě l e n í

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

STATISTICKÉ ZJIŠŤOVÁNÍ

MATEMATICKÁ STATISTIKA - XP01MST

Náhodné (statistické) chyby přímých měření

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

MATEMATIKA III V PŘÍKLADECH

p(x) = P (X = x), x R,

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

4EK211 Základy ekonometrie

Materiál byl vytvořen v rámci projektu Nové výzvy, nové příležitosti, nová škola

Neživotní pojištění. Brno 2012

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Algoritmy a struktury neuropočítačů ASN P3

Transkript:

Učení založené na instancích Instance based learning

Charakteristika IBL (nejbližších sousedů) Tyto metody nepředpokládají určitý model nejsou strukturované a typicky nejsou příliš užitečné pro porozumění vztahu mezi příznaky a cílovými třídami jsou užitečné a často velmi efektivní black box nástroje pro klasifikaci k NN lze použít i pro regresi, ale bias variance tradeof není tak optimistický jako u klasifikace

IBL Příprava dat: Prostor atributů či příznaků nejdříve standardizuji tak, aby každý příznak/atribut měl střední hodnotu 0 a rozptyl 1 (přes všechny cílové třídy dohromady). Trénování v IBL probíhá tak, že pouze ukládáme příchozí data do paměti. Teprve, když přijde požadavek na klasifikaci (či predikci) nového případu, začneme tvořit model, k nejbližších sousedů najde k nejbližších příkladů z trénovací databáze a klasifikuje nový příklad podle nejčastější klasifikace těchto k případů.

k nejbližších sousedů (k NN, nearest neighbours) Definuji: G je množina cílových tříd δ(g 1, g 2 ) = 1 právě když g 1 = g 2, jinak δ(g 1, g 2 ) = 0. Klasifikace probíhá ve dvou krocích. Pro novou instanci x: 1. najdi k nejbližších instancí k x v data, označ je x 1,..., x k. 2. return ĝ(x) = argmax g G i=1 k δ(g, g(x i))

Metrika pro nalezení k nejbližších sousedů můžeme volit např. následující: euklidovská d(x i, x j ) = n r=1(a r (x i ) a r (x j )) 2 ) Hammingova (Manhattan) d(x i, x j ) = n r=1 a r (x i ) a r (x j ) překrytí (overlap) pro kategorická data kosínová d(x i, x j ) = d(x i, x j ) = n r=1(1 δ(a r (x i ), a r (x j ))) r=1(a n r (x i ) a r (x j )) r=1(a n r (x j ) a r (x j )) r=1(a n r (x i ) a r (x i ))

příliš mnoho dat k ukládání 1 NN je citlivé na šum Problémy k zlepšení k NN je pomalé na velké bázi dat mají li všechny atributy stejnou váhu, pak je irelevantní atribut zmate problém velké dimenzionality

Idea komprese: ukládat jen špatně klasifikované vzhledem k předchozím to ale může vyhodit užitečné příklady ráda ukládá chybná (noisy) data, protože jsou špatně klasifikovaná ale idea je dobrá, jen potřebuje dopracovat

IB3 Idea: ukládat s každým exemplářem, kolikrát predikoval dobře a kolikrát ne. vymažu ty, co perdikují špatně nové instance predikuji na základě těch, co predikují výborně (acceptable) ty mezi držím a testuji počítám, kolikrát by predikovaly dobře a kolikrát špatně vážený průměr argmax g k i=1 δ(g(x i), g) si N i

CD {} % Concept Description pro každý příklad x data IB3 algoritmus pro každé u CD : dist(u) = distance(u, x) pokud existuje výborně predikující u CD pak u min argmin u;u acceptable dist(u) jinak u min náhodně vybraná instance z CD pokud g(x) = g(u min ) % nesprávná predikce pak CD CD {x} pro každé u CD pokud dist(u) dist(u min ) aktualizuj záznam předpovědí u pokud u predikuje špatně, vyhoď CD CD \ {u}

Interval věrohodnosti úvod Na posousení kvality predikce potřebujeme intervaly věrohodnosti, pro ně potřebujeme znát: p s N pravdivá míra úspěšnosti počet správných predikcí celkový počet predikcí Veličina s má binomické rozložení. Odtud můžeme stanovit interval s N zσ, s N + zσ, ve kterém se skutečná hodnota p na 75% nachází (75%= 1 2 α).

Interval věrohodnosti návod Pro velké N binomické rozložení konverguje k normálnímu rozložení o střední hodnotě N p a rozptylu σ 2 = N p (1 p), po normalizaci dostaneme ( f = s N ) N(0, 1). Hledáme z, aby P( z < pro dané f = s N f p p(1 p) N f p p(1 p) N a α najdu v tabulce z p = < z) = 1 2α puntičkáři přepočtou hranice pro p, tj. dosadí do ( f + z2 2N ± z f N f 2 N + z2 ( 1 + z2 N ) 4N 2 ) já odhadnu: s N z s N (1 s N ) N p s N + z s N (1 s N ) N.

IB3 proměnné pravděpodobnost jednotlivých tříd označíme ˆp j, počet dosud zpracovaných příkladů ˆN. pro každou třídu vždy spočteme l apri, u apri, l apri = ˆp j 1, 15 u apri = ˆp j + 1, 645 ˆp j (1 ˆp j ) ˆN ˆp j (1 ˆp j ) ˆN pravděpodobnost úspěšnosti instance inst označme ˆp inst, počet jejích pokusů o predikci ˆN inst. pro blízké instance spočteme l inst, u inst, l inst = ˆp inst 1, 645 u inst = ˆp inst + 1, 15 ˆpinst (1 ˆp inst ) ˆN inst ˆpinst (1 ˆp inst ) ˆN inst

IB3 hodnocení instancí Odstranit příklad jako špatný? Volíme α = 12, 5%, tj. z = 1, 15. pro apriorní pravděpodobnost třídy, tj. kdybych neshromažďovala žádné příklady, jen četnost tříd; dostanu interval l apri, u apri pro daný příklad, tj. p inst = s inst N inst l inst, u inst a N inst, dostanu interval pokud u inst < l apri, tak instance predikuje špatně, vyhodit Použít příklad pro predikci? Volíme α = 5%, tj. z = 1, 645. pro apriorní pravděpodobnost třídy dostanu interval l apri, u apri pro daný příklad, tj. p inst a N inst, dostanu interval l inst, u inst pokud u apri < l inst, tak instance predikuje výborně, používat