Katedra kybernetiky, FEL, ČVUT v Praze.

Podobné dokumenty
Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

UČENÍ BEZ UČITELE. Václav Hlaváč

Moderní systémy pro získávání znalostí z informací a dat

Využití metod strojového učení v bioinformatice David Hoksza

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Úvodem Dříve les než stromy 3 Operace s maticemi

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Přednáška 13 Redukce dimenzionality

Využití strojového učení k identifikaci protein-ligand aktivních míst

Usuzování za neurčitosti

Asociační i jiná. Pravidla. (Ch )

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Regresní analýza 1. Regresní analýza

ANALÝZA A KLASIFIKACE DAT

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Vytěžování znalostí z dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

oddělení Inteligentní Datové Analýzy (IDA)

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Základy umělé inteligence

Odhady Parametrů Lineární Regrese

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

PRAVDĚPODOBNOST A STATISTIKA

Odhad stavu matematického modelu křižovatek

10. Techniky formální verifikace a validace

Kybernetika a umělá inteligence, cvičení 10/11

Téma 22. Ondřej Nývlt

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Dolování asociačních pravidel

AVDAT Mnohorozměrné metody, metody klasifikace

Náhodné (statistické) chyby přímých měření

1. Data mining. Strojové učení. Základní úlohy.

Apriorní rozdělení. Jan Kracík.

4EK311 Operační výzkum. 1. Úvod do operačního výzkumu

Výroková a predikátová logika - III

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Úvod do optimalizace, metody hladké optimalizace

Úvod do kvantového počítání

Míry podobnosti, základy fuzzy matematiky

Klasifikace a rozpoznávání. Lineární klasifikátory

LINEÁRNÍ MODELY. Zdeňka Veselá

7. Rozdělení pravděpodobnosti ve statistice

Strojové učení se zaměřením na vliv vstupních dat

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Elektronická podpora výuky na ÚBMI

Základy vytěžování dat

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Úvod do dobývání. znalostí z databází

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Pravděpodobnost, náhoda, kostky

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Pravděpodobnost a aplikovaná statistika

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Úvod do teorie her

Pokročilé neparametrické metody. Klára Kubošová

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Otázky ke státní závěrečné zkoušce

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Výroková a predikátová logika - V

Strojové učení Marta Vomlelová

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Vícerozměrné statistické metody

Algoritmy pro shlukování prostorových dat

Obsah. I. Objektivní pravděpodobnosti. 1. Pravděpodobnost a relativní četnosti... 23

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Úvod do zpracování signálů

Pravděpodobně skoro správné. PAC učení 1

Výroková a predikátová logika - VII

Úloha - rozpoznávání číslic

OSA. maximalizace minimalizace 1/22

Výroková a predikátová logika - II

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Výroková a predikátová logika - III

Odhad parametrů N(µ, σ 2 )

Dobývání a vizualizace znalostí

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Výroková a predikátová logika - II

Náhodné chyby přímých měření

Základy teorie pravděpodobnosti

7 Regresní modely v analýze přežití

Popis zobrazení pomocí fuzzy logiky

Bayesovská klasifikace digitálních obrazů

5. Umělé neuronové sítě. Neuronové sítě

Ontologie. Otakar Trunda

Popis objektů. Karel Horák. Rozvrh přednášky:

ROZPOZNÁVÁNÍ Úvod, vymezení hřiště

Výroková a predikátová logika - II

Náhodné vektory a matice

aneb jiný úhel pohledu na prvák

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

Vyhněte se katastrofám pomocí výpočetní matematiky

Vícerozměrná rozdělení

Transkript:

Strojové učení a dolování dat přehled Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz

posnova přednášek Přednáška Učitel Obsah 1. J. Kléma Úvod do předmětu, učení s a bez učitele. Shluková analýza, formalizace. 2. J. Kléma Shluková analýza, EM algoritmus, k-means, hierarchické shlukování. 3. J. Kléma Spektrální, konceptuální, fuzzy shlukování. Dvojshlukování. 4. J. Kléma Časté množiny položek, algoritmus Apriori, asociační pravidla. 5. J. Kléma Časté posloupnosti, epizodální pravidla, modely posloupností. 6. J. Kléma Časté podstromy/podgrafy. 7. J. Kléma Učení z textů a webu, aplikace. 8. F. Železný Výpočetní teorie učení, konceptový prostor, PAC učení. 9. F. Železný PAC učení logických forem. 10. F. Železný Nekonečné konceptové prostory. 11. F. Železný Empirické odhady rizika. 12. F. Železný Induktivní logické programování, nejmenší zobecnění, inverze důsledku. 13. F. Železný Učení z logických interpretací, relační rozhodovací stromy, relační rysy. 14. F. Železný Statistické relační učení, markovská logika. Učení bez učitele. Deskriptivní modely. Symbolické učení koncepty. Induktivní a statistické učení logických forem. A4M33SAD

pzákladní pravděpodobnostní značení P X Rozdělení pravděpodobnosti (hustota) na spočetné (resp. nespočetné) množině X. P X (x) Hodnota P X pro konkrétní prvek x X. P X,Y Rozdělení sdružené pravděpodobnosti (hustota) na X Y. P X,Y (x, y) Hodnota P X,Y pro konkrétní prvky x a y. P X Y Rozdělení podmíněné pravděpodobnosti, tj. P X Y = P X,Y /P Y. P X Y (x y) Hodnota P X Y pro konkrétní prvky x and y. Pr(expression) Pravděpodobnost události určené výrazem, například a = 1 b = 2, typicky vyčíslena z příslušných rozdělení P A (1)P B A (1 2). A4M33SAD

pučení bez učitele :: Předpoklady: Existuje instanční prostor X reálné vektory, grafy, sekvence, relační struktury,... Existuje pravděpodobnostní hustota P X na X :: Vstup: Konečný vzorek (m N) S = {x 1, x 2,..., x m } generovaný i.i.d. z P X. S je multimnožina, prvky nazýváme příklady. :: Cíle: Obecný: naučit se P X : úloha odhadu hustoty, nebo Speciální: nauč se něco o P X : učení variety (manifoldu) A4M33SAD

podhad hustoty pravděpodobnosti :: Neparametrický Nemáme k dispozici apriorní znalost o P X Obecně nezvládnutelný problém lze jen v případech, že P X je jednoduchá a/nebo m je velmi velké. :: Parametrický, např. Směs multivariátních gaussovských rozdělení X = R n počet gaussiánů je předem známý učíme se parametry: středy µ a kovarianční matice Σ bayesovské sítě obvykle X = {0, 1} n (tj., náhodné události) známy vztahy podmíněné nezávislosti mezi proměnnými (graf) učíme se parametry: tabulky podmíněných pstí v uzlech grafu (CPT s) etc. A4M33SAD

pučení variety (manifoldu) :: Varieta (manifold) topologický prostor lokálně podobný euklidovskému, globálně typicky nelineární, :: Učení Identifikace topologického prostoru nižší dimenze zanořeného v prostoru dimenze větší, s následnou možnou projekcí do prostoru dimenze manifoldu nelineární redukce dimenze, lineární analogíı je PCA nebo vícedimenzionální škálování. Cayton: Algorithms for Manifold Learning. A4M33SAD

pučení variety (manifoldu) příklady :: Redukce dimenzionality Lineární PCA, vícedimenzionální škálování Nelineární kernel PCA, locally linear embedding V čem spočívá učení? Zjednodušení problému, transformace odkrývá strukturu manifoldu. :: Shlukování Hledáme oblasti s vysokou P X Oblasti jsou vyjádřeny explicitně (přiřazením příkladů) :: Hledání vzorů Vzory definují manifoldy v X s nečekaně vysokou P X Časté množiny položek, podgrafy, podsekvence,... Jak vzory definují manifoldy? A4M33SAD

pučení s učitelem :: Předpoklady: Existuje instanční prostor X reálné vektory, grafy, sekvence, relační struktury,... Existuje stavový prostor Y také různé druhy, ale obvykle podmnožina R Existuje pravděpodobnostní hustota P XY na X Y :: Vstupy: Konečný vzorek (m N) S = {(x 1, y 1 ), (x 2, y 2 ),..., (x m, y m )} generovaný i.i.d. z P XY. S je multimnožina, prvky nazýváme příklady. :: Cíle? A4M33SAD

pučení s učitelem: cíle :: Nejobecnější cíl, chci umět odpovídat na libovolnou otázku učení P XY v zásadě shodná třída metod jako pro učení P X :: Nejčastější cíl, chci umět usuzovat na skrytý stav y na základě pozorování x učení P Y X Jde o speciálnější úlohu než učení P XY. Proč? :: Můj odhad stavu nemusí mít charakter distribuce, stačí mi odhad nejpravděpdoobnějšího stavu f : X Y such that f(x) = arg max y Y P Y X(y x) Jde o speciálnější úlohu než učení P Y X. Proč? A4M33SAD

pdolování dat Co to je? Velkým úkolem dnešního (biologického) bádání je dospět od dat ke znalostem. Znám lidi, kteří si mysĺı, že data už jsou znalosti; ti se však pro změnu pídí po tom, jak dospět od znalostí k pochopení (Sydney Brenner The Scientist, 2002). Dolování dat je aplikací algoritmů pro extrakci smysluplných vzorů. Srovnání s učením používají v zásadě podobné postupy, důraz na srozumitelnost, originalitu a praktickou využitelnost, bĺıže praxi (technologie více než věda). Jednotící teorie T = {φ L q(d, φ) je pravda} L... formální jazyk (spočetná množina formuĺı), predikát q vyhodnocuje kvalitu formule φ L vzhledem ke vstupním datům D X, T reprezentuje znalost získanou z D, formuĺım φ T říkáme vzory. A4M33SAD

pdeskriptivní modely slouží ke zhuštěnému popisu dat, zjednodušeně zachycují obecné závislosti, kategorizace popisných modelů na co se soustředí tvoří globální model dat? vyhledávání dominantních struktur detekce podskupin, segmentace, shlukování, asociace, vyhledávání nugetů, detekce odchylek podvodné operace, síťové útoky, závadné www stránky, A4M33SAD

pdeskriptivní modely kategorizace popisných modelů (pokračování) jaký typ modelů využívají? pravděpodbnostní modely popis dat pomocí pravděpodobnostního rozdělení, parametrické, neparametrické, směsi rozdělení, symbolické modely data interpretují konceptuálně na základě pojmů a jejich vztahů, grafy, pravidla, taxonomie, logické vazby, charakteristika: zřetelně a lidsky srozumitelně vyjadřují znalost, kombinované modely mj. grafické pstní modely bayesovské sítě, markovské modely, s jakými vstupními daty pracují? číselná data, symbolická data, texty, atributová reprezentace, relační databáze, časová a sekvenční data. A4M33SAD

ppoužití deskriptivních modelů privátní sektor banky, pojišťovny, obchodní firmy, snížení nákladů, zvýšení prodejů, průzkum trhu, odhalení podvodů, veřejný sektor veřejná správa, lékařství, zpravodajské služby, efektivita, zamezení ztrát a podvodům. A4M33SAD

pinterakce s jinými předměty přímá prerekvizita A4B33RPZ Rozpoznávání a strojové učení, (ne)bayesovské rozhodování, minimalizace ztráty z rozhodnutí za neurčitosti, statistické učení lineární, knn, SVM, neuronové sítě, odhady parametrů z dat věrohodnost, EM algoritmus, souvislosti A4B33ZUI Základy umělé inteligence, A0B01LGR Logika a grafy, A4B33FLP Funkcionální a logické programování, AE4M33GMM Boris Flach, Graphical Markov Models. A4M33SAD