Asociační i jiná Pravidla (Ch. 14 +...)
Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo dimenzí p<4, efektivní nepar. metody v hodně dimenzích prokletí dimenzionality odhadujeme dost hrubé globální modely směsi gausovských distribucí jednoduché statistiky charakterizující.
Hledáme místa s velkou P(X) Snažíme se popsat místa častého výskytu datových příkladů, jazyk popisu bývá různý, dle dat a preference uživatele asociační pravidla konjunktivní pravidla popisující hustá místa X-prostoru pro opravdu hodně dim. a binární data klastrování středy klastrů, případně seznam gaussovských distrib. hlavní komponenty (principal components) významné směry = lin. kombinace souřadnic
Nepříliš jasná míra úspěchu Nemáme danou chybovou funkci. Není všemi uznávané kriterium, jak porovnat úspěšnost různých typů modelů. V rámci daného typu je měření kvality jasnější. Např. u asociačních pravidel víc ocením nalezení zajímavých souvislostí než maximálně věrohodný model klastrování, hlavní komponenty lépe umožní kompresi dimenzionality.
Asociační pravidla Cíl: najít v datech se nejčastěji vyskytující kombinace hodnot proměnných. Nejčastěji aplikované na binární data hodnota 1 je pro nás ta zajímavá nazýváno Analýza nákupního koše (market basked analysis) ukládání zboží do polic ve výdejním skladu, propagace zboží, návrh katalogu, segmentace zákazníků.
Plné zobecnění - neupočítatelné Obecně pro spojité X vlastně chceme: vybrat L souřadnic a v nich hodnoty tak, že je pro každou z těchto hodnot velká. Problém je málo dat pro odhad Proto místo hodnot hledáme oblasti spojité intervaly u spojitých veličin konkrétní hodnoty u kategoriálních dat Hledáme pouze průniky oblastí přes různé souřadnice. (viz obr.)
Omezení prostoru hypotéz
Analýza nákupního koše I předchozí úloha náročné pro velká data NN..0.9981 Další zjednodušení : podmínky na X j buď konkrétní hodnota, nebo vše, požaduji, aby četnost kombinace v datech byla vyšší než zvolená dolní hranice t. Hledám všechny kombinace splňující výše uvedené podmínky. Předem kategoriální data převedu na binární pomocná proměnná Z j pro každou hodnotu každé X j.
Apriori algoritmus Vytvoř seznam jednoprvkových množin, pro každou množinu spočti četnost. Vyřaď ze seznamu všechny s četností <t. Pro každou délku i=2, 3,.. vygeneruj seznam kandidátů délky i tj. ke každé přeživší množině z předchozího kroku připoj postupně každou dost četnou jednoprvkovou pro každého kandidáta spočti četnost vyřaď kandidáty s četností <t iteruj dokud není prázdný seznam.!
Apriori algoritmus (anal.nák.koše) Aplikovatelný i na velmi velká data (pro dost velký práh t) tím se vyhne prokletí dimenzionality tím, že: Jen málo kombinací má četnost >t (obecně 2 K ) podmnožina četné kombinace je také četná. Má-li nejdelší četná kombinace délku dd, algoritmus vyžaduje jen dd průchodů daty tj. ta nemusí být uložena v paměti naráz.
Asociační pravidla Z každé četné množiny K nalezené Apriori algoritmem můžeme vytvořit seznam asociačních pravidel, tj. implikací kde A, B jsou disjunktní a A se nazývá antecedent B se nazývá sukcedent (consekvent). Četnost (support) pravidla se definuje jako četnost konjunkce A&B, tj. četnost item-set K. Značí se.
Přesnost a lift pravidla Další dvě důležité míry pro pravidlo přesnost (confidence, predictability) tj. odhad P(B A). T(B) je odhad P(B) očekávaná přesnost, lift ( zdvih ) je poměr přesnosti a očekávané přesnosti tj. odhad
Příklad K={English, own, pref/man, income>$40000} 13.4% lidí má všechny čtyři vlastnosti, z lidí splňující první tři má 80.8% income>$40000 T(income>$40000)=37.94%, proto ten lift 2.13.
Cíl algoritmu Apriori Cílem je vydat pravidla s velkou četností a přesností (support and confidence). Zpravidla volíme zadáváme dolní práh přesnosti c, výsledkem analýzy je množina asociačních pravidel splňující Konverze itemset na pravidla není výpočetně náročná (ve srovnání s výpočtem itemset ). Takových pravidel bývá hodně, uživ. interface dovoluje dotazy nad nimi.
Příklad demografická data
Příklad pokrač. N=9409 dotazníků, autoři vybrali 14 otázek. Předzpracování: vypustit záznamy s chybějícími hodnotami, ordinální typy rozseknout mediánem na binární, kategorické předělat na indikátory každé kategorie, Vstup Apriori: matice 6876x50 (Nxp). Výsledek: 6288 asociačních pravidel každé max. 5 prvků s četností aspoň 10%.
(Další) příklad pravidla Negace literálů někdy nás zajímají, někdy ne. Kdy mohou škodit?
Málo četné hodnoty se neprosadí.
Učení bez uč. jako učení S učitelem
Bez učitele jako S učitelem Máme data těm dáme cílovou třídu 1. Přidáme stejný počet dat rovnoměrně rozložených po kartézském součinu X s cílovou třídou 0. Učíme se rozlišit cílovou třídu na základě X. (předchozí slajd: logistický regresní model na součin tensorů přirozených splajnů) my: učení pravidel, lze i rozhodovací strom atd.
Pozn. lze různými způsoby, jiný směr např. Lisp- Miner na VŠE. Zobecněná asociační pravidla Kniha: hledáme indexy sloupců j a odpovídající podmnožiny s j hodnot odpovídající X j, že je velká, větší než rovnoměrné rozložení. Tj. zajímá nás víc velký Lift než četné kombinace četných prvků. Heuristika CART, PRIM místo plného výčtu Apriori.
Volba témat Opakování + aplikace Specifické téma z knihy ESL? Bayesovské učení Nejbližší sousedé, předzpracování dat SVD ILP induktivní logické programování Genetické algoritmy Prostor verzí, PAC naučitelnost Zpětnovazebné učení.