Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Podobné dokumenty
Katedra kybernetiky, FEL, ČVUT v Praze.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Základy vytěžování dat

UČENÍ BEZ UČITELE. Václav Hlaváč

oddělení Inteligentní Datové Analýzy (IDA)

Moderní systémy pro získávání znalostí z informací a dat

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Přednáška 13 Redukce dimenzionality

Kybernetika a umělá inteligence, cvičení 10/11

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Využití metod strojového učení v bioinformatice David Hoksza

Vytěžování znalostí z dat

13. Lineární programování

Aplikovaná numerická matematika

1. Data mining. Strojové učení. Základní úlohy.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Získávání dat z databází 1 DMINA 2010

Využití strojového učení k identifikaci protein-ligand aktivních míst

Vytěžování dat přednáška I

Úvodem Dříve les než stromy 3 Operace s maticemi

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Úvod do optimalizace, metody hladké optimalizace

Strojové učení Marta Vomlelová

Dolování asociačních pravidel

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Aktivní detekce chyb

Odhad stavu matematického modelu křižovatek

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Klasifikace a rozpoznávání. Lineární klasifikátory

Neuronové sítě Ladislav Horký Karel Břinda

Lineární klasifikátory

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Datové struktury 2: Rozptylovací tabulky

3. Vícevrstvé dopředné sítě

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

x 2 = a 2 + tv 2 tedy (a 1, a 2 ) T + [(v 1, v 2 )] T A + V Příklad. U = R n neprázdná množina řešení soustavy Ax = b.

Úloha - rozpoznávání číslic

Získávání znalostí z dat

9 Kolmost vektorových podprostorů

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Markovovy modely v Bioinformatice

Dobývání a vizualizace znalostí

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Úvod Příklad Výpočty a grafické znázornění. Filip Habr. České vysoké učení technické v Praze Fakulta jaderná a fyzikálně inženýrská

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Vytěžování znalostí z dat

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Dobývání a vizualizace znalostí

5. Umělé neuronové sítě. Neuronové sítě

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

FIT ČVUT MI-LOM Lineární optimalizace a metody. Dualita. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Algoritmy a struktury neuropočítačů ASN - P11

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Měření dat Filtrace dat, Kalmanův filtr

8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

Umělé neuronové sítě

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

Bayesovské metody. Mnohorozměrná analýza dat

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

14. přednáška. Přímka

Asociační i jiná. Pravidla. (Ch )

Státnice odborné č. 20

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Pokročilé operace s obrazem

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

Úvod do kvantového počítání

ANALÝZA A KLASIFIKACE DAT

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Odhady Parametrů Lineární Regrese

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Úvod do zpracování signálů

Regresní a korelační analýza

Regresní analýza 1. Regresní analýza

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

12. cvičení z PST. 20. prosince 2017

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

Neuronové sítě (11. přednáška)

Dobývání a vizualizace znalostí

Regresní a korelační analýza

Asociativní sítě (paměti) Asociace známého vstupního vzoru s daným výstupním vzorem. Typická funkce 1 / 44

Aproximace funkcí. x je systém m 1 jednoduchých, LN a dostatečně hladkých funkcí. x c m. g 1. g m. a 1. x a 2. x 2 a k. x k b 1. x b 2.

Informace pro výběr bakalářského oboru

Statistika II. Jiří Neubauer

13. cvičení z PSI ledna 2017

Geometrické transformace

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Umělá inteligence a rozpoznávání

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Popis zobrazení pomocí fuzzy logiky

Usuzování za neurčitosti

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Transkript:

Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 1 / 28

Vytěžování dat: základní myšlenky Co následuje? Odpovídá vzoru 1, 2, 4, 8,? 16 x 1 =1 x k =2x k 1 (k 2) Vytěžování dat = hledání srozumitelných vzorů v datech Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 2 / 28

Vzor vs. Data Odvozování dat ze vzorů: x k = 2x k 1 1, 2, 4, 8,... Vytěžování dat 1, 2, 4, 8,... x k = 2x k 1 vzor předpis model hypotéza teorie... Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 3 / 28

Využití vzorů x k = 2x k 1 Predikce (x 5 = 16, x 6 = 32,...) Zlepšení rozhodování Interpretace člověkem (vzor vyjadřuje znalost) Porozumění procesům Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 4 / 28

Vytěžování dat (Data Mining) Data Mining je netriviální proces identifikace pravdivých, dosud neznámých, potenciálně využitelných a zcela srozumitelných vzorů v datech (Fayyad) Používá techniky oborů statistika strojové učení (umělá inteligence) databázové technologie vizualizace dat Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 5 / 28

Reálné příklady vytěžování: Asociace v nákupních košících pivo párky horčice pleny... + + + + + + (atd.) pleny pivo Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 6 / 28

Reálné příklady vytěžování: Predikce karcinogenity karcinogenní kontrolní v karcinogenních Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 7 / 28

Reálné příklady vytěžování: Rozpoznávání obrazu 6 Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 8 / 28

Další aplikace dataminingu Odhalování pojistných podvodů Predikce klientů, kteří odpoví na reklamní nabídku Vyhledávání klientů, kteří chtějí odejít Segmentace klientů Identifikace produktů, které klient bude chtít Doporučování obsahu Klasifikace EKG signálu Analýza sociálních vztahů Analýza textu Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 9 / 28

Struktura a parametry vzoru struktura parametry Vzory jsou rozličných druhů (rovnice, pravidla, grafy,...). x k = ax k 1 pleny pivo a (žádné) Rozlišujeme jejich diskrétní strukturu reálné parametry (žádné) váhy synapsí W Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 10 / 28

Parametrické vs. neparametrické metody Parametrické metody: Struktura je zadána předem Úkolem vytěžování je vyhledat hodnoty parametrů a R n maximalizující soulad s daty Neparametrické metody: Hledá se struktura i případné parametry Struktura se hledá v nějaké předepsané konečné množině struktur S Zaujetí algoritmu Čím menší n resp. S, tím větší zaujetí vytěžovacího algoritmu. Větší zaujetí = menší flexibilita = menší možnost adaptace na data. Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 11 / 28

Zaujetí y = a 1 x y = a 1 x + a 2 x 2 + a 3 x 3 příliš slabé zaujetí, velká flexibilita Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 12 / 28

Zaujetí y = a 1 x příliš silné zaujetí, malá flexibilita y = a 1 x + a 2 x 2 + a 3 x 3 Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 13 / 28

Vytěžování dat: definice 1 Úloha nalezení množiny vzorů φ Vstupní data {φ L platí q(d, φ)} Prohledávaná množina, tj. zaujetí algoritmu. Obsahuje všechny přípustné vzory. Vyhodnocovací predikát. Platí, pokud φ je v souladu s D Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 14 / 28

Vytěžování dat: definice 2 Úloha nalezení nejlepšího vzoru φ φ = arg max φ L Vstupní data q(d, φ) Prohledávaná množina, tj. zaujetí algoritmu Vyhodnocovací funkce. Měří kvalitu φ vzhledem k D. Může zohlednit i vlastnosti nezávislé na D, např. složitost vzoru. Pro parametrické metody: hledáme optimální parametry pro zadanou strukturu S. Zde tedy L = {(S, a) a R n } Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 15 / 28

Jak hledat vzory Konkrétní techniky: v dalších přednáškách Obecně: Parametrické metody: optimální parametry lze někdy vyjádřit a spočítat analyticky, jindy prohledávání L ( pokus-omyl ) Neparametrické metody: téměř vždy prohledávání Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 16 / 28

Volba zaujetí Konkrétní techniky: v dalších přednáškách Obecně: Voĺıme dle typu dat (grafy, vektory reálných čísel,...) toho, co se chceme dozvědět dostupnosti algoritmů (různá zaujetí - různé algoritmy) Čím více o datech předem víme, tím silnější zaujetí můžeme stanovit Např. data leží na přímce y = ax, hledáme jen a Occamova břitva: fungují-li dva vzory stejně dobře na datech, preferujeme ten jednodušší Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 17 / 28

Generativní modely x 1 =1 x k =2x k 1 (k 2) pleny pivo Generativní (též globální) model Vzor jednoznačně určující, jak generovat data Ostatní (lokální) vzory fungují jako omezující podmínky Nejsou předpisem pro generování dat Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 18 / 28

Data: statistické předpoklady Budou nalezené vzory platit i v budoucích datech? Neplatí ve vytěžených datech jen náhodou? Je třeba zavést statistické předpoklady na data: Uvažujeme množinu všech možných instancí X obsahy nákupních košíků, grafy molekul, řádky v relační tabulce,... Pravděpodobnostní rozdělení P X na X Data: D je multimnožina D = {x 1, x 2,... x m } (m N) prvky vybrány náhodně a navzájem nezávisle z P X Vzor se bude používat na tomtéž X a P X. Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 19 / 28

Data: statistické předpoklady (pokr.) Nalezené generativní vzory pak aproximují P X, např. P X (x) = N(µ, σ) Jiné typy nalezených vzorů zachycují určité vlastnosti P X, např. pivo pleny říká, že P X (x) je malá pro instance x v nichž implikace neplatí. Takto definované úloze říkáme učení (vytěžování) bez učitele (terminologie strojového učení) Cvičení Jak za právě definovaných statistických předpokladů zformulovat úlohu vytěžování z úvodu přednášky (str. 2)? Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 20 / 28

Učení s učitelem Speciální, zvláště častá úloha vytěžování: najít vzor pro předpovídání cílové veličiny (třídy) instance ze zbylého popisu instance. Příklad: karcinogenní kontrolní Vedle X uvažujeme ještě Y : množinu hodnot cílové veličiny. Zde X: struktury molekul (grafy) Y = {karcinogenní, kontrolní} Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 21 / 28

Učení s učitelem (pokr.) Předpoklady na data: Pravděpodobnostní rozdělení P XY Data: D je multimnožina na X Y D = {(x 1, y 1 ), (x 2, y 2 ),... (x m, y 2 )} (m N) prvky vybrány náhodně a navzájem nezávisle z P XY Vzor se bude používat na tomtéž X, Y a P XY Obvykle hledáme vzory aproximující podmíněnou pravděpodobnost P Y X (y x) = P XY (x, y)/p X (x) nebo nejpravděpodobnější hodnotu arg max y Y P Y X (y x) pro zadané x X. Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 22 / 28

Učení s učitelem: příklad Např. nalezený vzor v karcinogenních interpretujeme jako resp. P Y X (y, x) = y = { 1 je-li tato struktura v x 0 jinak { karcinogenní, je-li tato struktura v x jinak kontrolní Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 23 / 28

Učení s učitelem (pokr.) Proč učení s učitelem? Terminologie strojového učení. Učitel poskytuje x i y prostřednictvím dat D (trénovací data) Žák (algoritmus) se učí odvozovat y z x (trénovací fáze) Potom učitel zadává pouze x a žák odhaduje y pomocí naučených vzorů Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 24 / 28

Příznakový popis Většina známých vytěžovacích algoritmů umí pracovat pouze s daty v příznakovém popisu. Předpokládají, že X = X 1 X 2... X n (n N) kde každé X i je obor hodnot příznaku i, např. X i = R (reálná čísla) X i = {muž, žena} (kategorie) tedy pouze jednoduché datové typy, ne struktury, grafy apod. Některé algoritmy dále omezují přípustné typy příznaků, např. pouze numerické, pouze kategorické ( nominální ), pouze binární... Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 25 / 28

Příznakový popis (pokr.) Data D = {x 1, x 2,... x m } (m N), x i X (1 i m) jsou tedy n-ticemi hodnot příznaků. Příklad: x 1 : x 2 : x 3 : x 4 : věk pohlaví kuřák rakovina 56 muž + + 32 žena 48 žena + + 60 muž + + Příznaková data tedy tvoří matici odpovídající jedné tabulce relační databáze. Jednotlivé instance jsou její řádky. Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 26 / 28

Příznakový popis (pokr.) Co s daty, která nejsou v příznakovém popisu? grafy relační struktury signály (např. zvuk) obrazy číselné řady texty Použít specializovaných algoritmů graph mining, text mining, induktivní logické programování, počítačové vidění,... Převést na příznakovou reprezentaci nelehký úkol, je třeba zachovat podstatnou informaci. (mimo rozsah tohoto kursu) Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 27 / 28

Přehled přednášek 1 Úvod 2 Odhad parametrů Gaussovské směsi, EM algoritmus 3 Grafické pravděpodobností modely 4 Shluková analýza 5 Samoorganizující se mapy 6 Časté množiny a asociační pravidla 7 Klasifikační úloha, klasifikace dle podobnosti a Bayesovská 8 Rozhodovací stromy a pravidla 9 Lineární a polynomiální klasifikace 10 Perceptron a neuronové sítě s dopřednou strukturou 11 Testování modelů 12 Kombinování modelů a výběr příznaků 13 Rezerva (aplikace vytěžování dat) Bez učitele S učitelem Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 28 / 28

Přehled přednášek 1 Úvod 2 Odhad parametrů Gaussovské směsi, EM algoritmus 3 Grafické pravděpodobností modely 4 Shluková analýza 5 Samoorganizující se mapy 6 Časté množiny a asociační pravidla 7 Klasifikační úloha, klasifikace dle podobnosti a Bayesovská 8 Rozhodovací stromy a pravidla 9 Lineární a polynomiální klasifikace 10 Perceptron a neuronové sítě s dopřednou strukturou 11 Testování modelů 12 Kombinování modelů a výběr příznaků 13 Rezerva (aplikace vytěžování dat) Parametrické Neparametrické Miroslav Čepek, Filip Železný (ČVUT) Vytěžování dat 28 / 28