Asociační i jiná. Pravidla. (Ch )

Podobné dokumenty
Strojové učení Marta Vomlelová

Dolování asociačních pravidel

Základy vytěžování dat

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Pokročilé neparametrické metody. Klára Kubošová

UČENÍ BEZ UČITELE. Václav Hlaváč

Katedra kybernetiky, FEL, ČVUT v Praze.

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Přednáška 13 Redukce dimenzionality

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvod do dobývání. znalostí z databází

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

AVDAT Mnohorozměrné metody, metody klasifikace

Doplňování chybějících hodnot v kategoriálních datech 2.00

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce

Kontingenční tabulky. (Analýza kategoriálních dat)

Bayesovské metody. Mnohorozměrná analýza dat

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Pravděpodobně skoro správné. PAC učení 1

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Analytické procedury v systému LISp-Miner

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Instance based learning

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

Učební texty k státní bakalářské zkoušce Matematika Základy lineárního programování. študenti MFF 15. augusta 2008

7. Rozdělení pravděpodobnosti ve statistice

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Soustavy. Terminologie. Dva pohledy na soustavu lin. rovnic. Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová.

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

Popisná statistika kvantitativní veličiny

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Soustavy linea rnı ch rovnic

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Pravděpodobnost a aplikovaná statistika

Matematika pro informatiky

You created this PDF from an application that is not licensed to print to novapdf printer (

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Numerické metody a programování. Lekce 8

Lineární regrese. Komentované řešení pomocí MS Excel

Bakalářská matematika I

Moderní systémy pro získávání znalostí z informací a dat

Tvorba asociačních pravidel a hledání. položek

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Arnoldiho a Lanczosova metoda

Jana Vránová, 3. lékařská fakulta UK

Předzpracování dat. Lenka Vysloužilová

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

ANALÝZA A KLASIFIKACE DAT

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Testování a spolehlivost. 6. Laboratoř Ostatní spolehlivostní modely

Výroková a predikátová logika - II

Matematika B101MA1, B101MA2

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Matematická analýza 1

Asociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p

Popisná statistika. Statistika pro sociology

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Výroková a predikátová logika - II

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Kontingenční tabulky, korelační koeficienty

11. Tabu prohledávání

0. ÚVOD - matematické symboly, značení,

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

STATISTICKÉ ODHADY Odhady populačních charakteristik

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Logika a logické programování

Cvičení 12: Binární logistická regrese

Vyhněte se katastrofám pomocí výpočetní matematiky

Bayesovské rozhodování - kritétium minimální střední ztráty

Vyhodnocování dotazů slajdy k přednášce NDBI001. Jaroslav Pokorný MFF UK, Praha

Matematické symboly a značky

Induktivní statistika. z-skóry pravděpodobnost

Státnice odborné č. 20

Booleova algebra. ZákonyBooleovy algebry Vyjádření logických funkcí

5. Lokální, vázané a globální extrémy

Projekt LISp-Miner. M. Šimůnek

PRAVDĚPODOBNOST A STATISTIKA

Odhady - Sdružené rozdělení pravděpodobnosti

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Chyby měření 210DPSM

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Numerická stabilita algoritmů

Vícerozměrné statistické metody

1 Úvod do celočíselné lineární optimalizace

12. Globální metody MI-PAA

PRAVDĚPODOBNOST A STATISTIKA

Analýza dat na PC I.

Transkript:

Asociační i jiná Pravidla (Ch. 14 +...)

Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo dimenzí p<4, efektivní nepar. metody v hodně dimenzích prokletí dimenzionality odhadujeme dost hrubé globální modely směsi gausovských distribucí jednoduché statistiky charakterizující.

Hledáme místa s velkou P(X) Snažíme se popsat místa častého výskytu datových příkladů, jazyk popisu bývá různý, dle dat a preference uživatele asociační pravidla konjunktivní pravidla popisující hustá místa X-prostoru pro opravdu hodně dim. a binární data klastrování středy klastrů, případně seznam gaussovských distrib. hlavní komponenty (principal components) významné směry = lin. kombinace souřadnic

Nepříliš jasná míra úspěchu Nemáme danou chybovou funkci. Není všemi uznávané kriterium, jak porovnat úspěšnost různých typů modelů. V rámci daného typu je měření kvality jasnější. Např. u asociačních pravidel víc ocením nalezení zajímavých souvislostí než maximálně věrohodný model klastrování, hlavní komponenty lépe umožní kompresi dimenzionality.

Asociační pravidla Cíl: najít v datech se nejčastěji vyskytující kombinace hodnot proměnných. Nejčastěji aplikované na binární data hodnota 1 je pro nás ta zajímavá nazýváno Analýza nákupního koše (market basked analysis) ukládání zboží do polic ve výdejním skladu, propagace zboží, návrh katalogu, segmentace zákazníků.

Plné zobecnění - neupočítatelné Obecně pro spojité X vlastně chceme: vybrat L souřadnic a v nich hodnoty tak, že je pro každou z těchto hodnot velká. Problém je málo dat pro odhad Proto místo hodnot hledáme oblasti spojité intervaly u spojitých veličin konkrétní hodnoty u kategoriálních dat Hledáme pouze průniky oblastí přes různé souřadnice. (viz obr.)

Omezení prostoru hypotéz

Analýza nákupního koše I předchozí úloha náročné pro velká data NN..0.9981 Další zjednodušení : podmínky na X j buď konkrétní hodnota, nebo vše, požaduji, aby četnost kombinace v datech byla vyšší než zvolená dolní hranice t. Hledám všechny kombinace splňující výše uvedené podmínky. Předem kategoriální data převedu na binární pomocná proměnná Z j pro každou hodnotu každé X j.

Apriori algoritmus Vytvoř seznam jednoprvkových množin, pro každou množinu spočti četnost. Vyřaď ze seznamu všechny s četností <t. Pro každou délku i=2, 3,.. vygeneruj seznam kandidátů délky i tj. ke každé přeživší množině z předchozího kroku připoj postupně každou dost četnou jednoprvkovou pro každého kandidáta spočti četnost vyřaď kandidáty s četností <t iteruj dokud není prázdný seznam.!

Apriori algoritmus (anal.nák.koše) Aplikovatelný i na velmi velká data (pro dost velký práh t) tím se vyhne prokletí dimenzionality tím, že: Jen málo kombinací má četnost >t (obecně 2 K ) podmnožina četné kombinace je také četná. Má-li nejdelší četná kombinace délku dd, algoritmus vyžaduje jen dd průchodů daty tj. ta nemusí být uložena v paměti naráz.

Asociační pravidla Z každé četné množiny K nalezené Apriori algoritmem můžeme vytvořit seznam asociačních pravidel, tj. implikací kde A, B jsou disjunktní a A se nazývá antecedent B se nazývá sukcedent (consekvent). Četnost (support) pravidla se definuje jako četnost konjunkce A&B, tj. četnost item-set K. Značí se.

Přesnost a lift pravidla Další dvě důležité míry pro pravidlo přesnost (confidence, predictability) tj. odhad P(B A). T(B) je odhad P(B) očekávaná přesnost, lift ( zdvih ) je poměr přesnosti a očekávané přesnosti tj. odhad

Příklad K={English, own, pref/man, income>$40000} 13.4% lidí má všechny čtyři vlastnosti, z lidí splňující první tři má 80.8% income>$40000 T(income>$40000)=37.94%, proto ten lift 2.13.

Cíl algoritmu Apriori Cílem je vydat pravidla s velkou četností a přesností (support and confidence). Zpravidla volíme zadáváme dolní práh přesnosti c, výsledkem analýzy je množina asociačních pravidel splňující Konverze itemset na pravidla není výpočetně náročná (ve srovnání s výpočtem itemset ). Takových pravidel bývá hodně, uživ. interface dovoluje dotazy nad nimi.

Příklad demografická data

Příklad pokrač. N=9409 dotazníků, autoři vybrali 14 otázek. Předzpracování: vypustit záznamy s chybějícími hodnotami, ordinální typy rozseknout mediánem na binární, kategorické předělat na indikátory každé kategorie, Vstup Apriori: matice 6876x50 (Nxp). Výsledek: 6288 asociačních pravidel každé max. 5 prvků s četností aspoň 10%.

(Další) příklad pravidla Negace literálů někdy nás zajímají, někdy ne. Kdy mohou škodit?

Málo četné hodnoty se neprosadí.

Učení bez uč. jako učení S učitelem

Bez učitele jako S učitelem Máme data těm dáme cílovou třídu 1. Přidáme stejný počet dat rovnoměrně rozložených po kartézském součinu X s cílovou třídou 0. Učíme se rozlišit cílovou třídu na základě X. (předchozí slajd: logistický regresní model na součin tensorů přirozených splajnů) my: učení pravidel, lze i rozhodovací strom atd.

Pozn. lze různými způsoby, jiný směr např. Lisp- Miner na VŠE. Zobecněná asociační pravidla Kniha: hledáme indexy sloupců j a odpovídající podmnožiny s j hodnot odpovídající X j, že je velká, větší než rovnoměrné rozložení. Tj. zajímá nás víc velký Lift než četné kombinace četných prvků. Heuristika CART, PRIM místo plného výčtu Apriori.

Volba témat Opakování + aplikace Specifické téma z knihy ESL? Bayesovské učení Nejbližší sousedé, předzpracování dat SVD ILP induktivní logické programování Genetické algoritmy Prostor verzí, PAC naučitelnost Zpětnovazebné učení.