Vytěžování znalostí z dat



Podobné dokumenty
Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Přednáška 2: Model, hodnocení modelu, metoda K nejbližších sousedů

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Cvičení 1,2 Osnova studie strategie ICT

Vytěžování znalostí z dat

Vytěžování znalostí z dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Získávání znalostí z dat


Fakulta chemicko-technologická Faculty of Chemical Technology

Vytěžování znalostí z dat

Modelování obchodních procesů

Vytěžování znalostí z dat

Státnice odborné č. 20

ORGANIZAČNÍ ŘÁD ČVUT FD

ORGANIZAČNÍ ŘÁD ČVUT FD

PODKLADY PRO PRAKTICKÝ SEMINÁŘ PRO UČITELE VOŠ. Testování a analýza napájení po Ethernetu. Ing. Pavel Bezpalec, Ph.D.

Normal mission real time system

Ing. Jan Buriánek. Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze Jan Buriánek, 2010

4IT218 Databáze. 4IT218 Databáze

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Vytěžování znalostí z dat

NG C Implementace plně rekurentní

Zápis z 1. zasedání AS FIT ČVUT v Praze

Projekt, prezentace, rétorika

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Úloha - rozpoznávání číslic

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 9 Využití doménových znalostí

Architektura počítačů Agenda

Rozhodovací stromy a jejich konstrukce z dat

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

Soubory. Hung Hoang Dieu. Department of Mathematics Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 7

CHLAZENÍ MATHEMATICAL CALCULATIONS OF DIRECT ADIABATIC AIR- COOLING SYSTEMS

Projekt LISp-Miner. M. Šimůnek

Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn]

Informace, kódování a redundance

Moderní systémy pro získávání znalostí z informací a dat

Návrh - návrhové třídy a vzory

Mission ctitical real time system

Měření axiálních rychlostních profilů v nádobách s centrální cirkulační trubkou pomocí LDA systému

Komputerizace problémových domén

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Úvod do optimalizace, metody hladké optimalizace

Problémové domény a jejich charakteristiky

ANALÝZA A KLASIFIKACE DAT

Přednáška 12: Shlukování

Architektura počítačů Agenda

REZISTIVNÍ DOTYKOVÉ OBRAZOVKY A VYUŽITÍ V UNIVERZÁLNÍM REGULÁTORU Resistive Touch Screens and Usage in a Universal Controller

Vestavné systémy BI-VES Přednáška 1

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE FORMALISMY PRO SYNTAXÍ ŘÍZENÝ PŘEKLAD: PŘEKLADOVÉ A ATRIBUTOVÉ GRAMATIKY.

Distribuované systémy a výpočty

Modelování požadavků

Parametrizace ozařovacích míst v aktivní zóně školního reaktoru VR-1 VRABEC

Metody založené na analogii

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

Extrakce a selekce příznaků

Předzpracování dat. Lenka Vysloužilová

Přednáška 13 Redukce dimenzionality

RELATIONAL DATA ANALYSIS

JICH APLIKACE FAKULTA INFORMAČNÍCH TECHNOLOGIÍ BRNO UNIVERSITY OF TECHNOLOGY FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS

Bayesovská klasifikace digitálních obrazů

Pokyny pro autory. (Times, 14, tučně, kapitálky) (Times, 10, tučně, kurzívou) (Times, 10, normálně)

Manažerská informatika projektové řízení

Testování a spolehlivost. 6. Laboratoř Ostatní spolehlivostní modely

UČENÍ BEZ UČITELE. Václav Hlaváč

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Kybernetika a umělá inteligence, cvičení 10/11

Počítačová analýza lekařských dat

HDTV. Ing. Jan Buriánek. Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze

Rozdělování dat do trénovacích a testovacích množin

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Primární etalon pro měření vysokého a velmi vysokého vakua

pro aplikovanou a průmyslovou matematiku

Motivace - inovace - zkušenost a vzdělávání

Analytické procedury v systému LISp-Miner

Komprese a dotazování nad XML dokumenty

Facility management audit: nástroj jak udržet společnost konkurence schopnou

DYNAMICKÉ PROGRAMOVÁNÍ A PROBLÉM BATOHU

Strojové učení se zaměřením na vliv vstupních dat

Miroslav Čepek

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Algoritmy výpočetní geometrie

Předzpracování dat. Cvičení 2: Import a příprava dat v Matlabu MI-PDD, 09/2011. Pavel Kordík MI-POA

2. Konceptuální model dat, E-R konceptuální model

Histogram a jeho zpracování

Histogram a jeho zpracování

Seznam aktivit a publikační činnosti Profesní Curiculum Vitae

Transkript:

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 4: K-nejbližších sousedů BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Osnova Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 2/27 Přednáška 1) Způsoby učení 2) Metoda K-nejbližších sousedů 3) Plasticita modelu

Způsoby učení Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 3/27 Modely v data miningu Učení Klasifikace s učitelem (máme informaci, jak třídit do tříd) Shlukováni bez učitele (nemáme informaci, jak třídit do tříd)

Způsoby učení Přehled metod generujících modely Funkce Klasifikace Shlukování Metody K-nejbližších sousedů, Rozhodovací stromy, Bayesův klasifikátor, Neuronové sítě. K-means, Hierarchické shlukování. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 4/27

Způsoby učení Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 5/27 Dvě fáze Vytvoření a použití modelu 1. Fáze učení, trénování Model je vygenerován, upravuje se vnitřní struktura, parametry 2. Fáze použití, vybavování Model je použit, vypočítá se výstup, model to neovlivní

KNN 1NN nejbližší soused 1. Trénování generování modelu o Ulož trénovací data 2. Klasifikace použití modelu o Najdi nejbližšího souseda a klasifikuj stejnou třídou? třída A třída B třída ke klasifikaci o http://www.theparticle.com/applets/ml/nearest_neighbor/ Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 6/27

KNN Metrika, Euklidovská vzdálenost o Je třeba nějak určit podobnost vzorů jejich vzdálenost o Vzdálenost musí splňovat určité podmínky: 1. d(x,y) >0. 2. d(x,y) = 0 iffx = y. 3. d(x,y) = d(y,x). 4. d(x,y) < d(x,z) + d(z,y) (trojúhelníková nerovnost). Dva body v n-rozměrném prostoru: Euklidovská vzdálenost P a Q = o Odmocňování není nezbytně nutné, když vzdálenosti porovnáváme Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 7/27

KNN Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 8/27 Manhattonská vzdálenost Jak budeme počítat vzdálenostdvou cyklistů v Manhattonu? M ( P, Q) = p1 q1 + p2 q2 +... + p n qn

KNN Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 9/27 Váha atributů Problém různé rozsahy vzdáleností Při určování euklidovské vzdálenosti mají atributy různou váhu např. pje 100x důležitější než q 3,5 q 0 p 2 350

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 10/27 KNN Normalizace atributů Problém vyřešíme přeškálováním (normalizací) atributů: 1) Mini-max normalizace a i = vi min vi maxv min v i i 2) Z-score normalizace a i vi Avg( vi ) = StDev( v ) i Původní rozsahy se u obou transformují do <0,1>

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 11/27 KNN Rozhodovací hranice 1 q Kde přesně je rozhodovací hranice tříd? 0 0 1 p

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 12/27 KNN Voronoiův diagram http://www.cs.cornell.edu/info/people/chew/delaunay.html

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 13/27 knn k nejbližších sousedů Najdi k nejbližších sousedů a klasifikuj majoritní třídou KNN 3NN klasifikace:? 5NN klasifikace:? Jak zvolit optimální k?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 14/27 KNN 1NN 90 80 70 60 50 40 30 20 20 30 40 50 60 70 80

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 15/27 KNN 3NN 90 80 70 60 50 40 30 20 20 30 40 50 60 70 80

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 16/27 KNN 9NN 90 80 70 60 50 40 30 20 20 30 40 50 60 70 80

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 17/27 KNN 9NN měkké rozhodnutí (poměr mezi počtem sousedů z různých tříd) 90 80 70 60 50 40 30 20 20 30 40 50 60 70 80

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 18/27 KNN 31NN měkké rozhodnutí 90 80 70 60 50 40 30 20 20 30 40 50 60 70 80

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 19/27 KNN Závislost chybovosti na k Zdroj: University of California, Irvine

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 20/27 KNN Menší trénovací množina Zdroj: University of California, Irvine

KNN Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 21/27 Porovnání vlivu velikosti datasetu Zdroj: University of California, Irvine

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 22/27 Plasiticita Přeučení 80 70 60 50 40 30 20 20 30 40 50 60 70 80

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 23/27 Plasiticita Přeučení 80 70 60 50 40 30 20 20 30 40 50 60 70 80

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 24/27 Plasiticita Lineární klasifikátor (separátor) 80 70 60 50 40 30 20 20 30 40 50 60 70 80

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 25/27 Plasiticita Nelineární klasifikátor 80 70 60 50 40 30 20 20 30 40 50 60 70 80

Plasiticita Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 26/27 Varianty knn Příspěvek souseda je vážen vzdáleností od klasifikovaného vzoru Klasifikace pomocí etalonů vybrána vhodná podmnožina trénovací množiny

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 27/27 Diskuze Diskuze Velmi populární metoda klasifikace a často i velmi úspěšná Okamžité vytvoření modelu Ale pomalé používání o Při klasifikaci nutno projít celou trénovací množinu Model je paměťově náročný o Nutno si pamatovat celou trénovací množinu Pozor na váhy atributů o Řešením je normalizace dat Důležité je najít vhodné k o Pro minimalizaci chyb na testovacích datech