Vytěžování znalostí z dat

Podobné dokumenty
Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Přednáška 13 Redukce dimenzionality

Předzpracování dat. Lenka Vysloužilová

Vytěžování znalostí z dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Moderní systémy pro získávání znalostí z informací a dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

ANALÝZA A KLASIFIKACE DAT

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Selekce a extrakce příznaků 2

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Pokročilé neparametrické metody. Klára Kubošová

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Vytěžování znalostí z dat

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Vytěžování znalostí z dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Chybějící atributy a postupy pro jejich náhradu

Statistická teorie učení

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Úvodem Dříve les než stromy 3 Operace s maticemi

ANALÝZA A KLASIFIKACE DAT

Příprava dat a) Kontrola dat

odlehlých hodnot pomocí algoritmu k-means

Popisná statistika. Komentované řešení pomocí MS Excel

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

Analytické procedury v systému LISp-Miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Algoritmy pro shlukování prostorových dat

Lineární klasifikátory

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Příprava dat data preprocessing

Pokročilé neparametrické metody. Klára Kubošová

Vytěžování znalostí z dat

13 Barvy a úpravy rastrového

Kybernetika a umělá inteligence, cvičení 10/11

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Analýza dat na PC I.

Lineární regrese. Komentované řešení pomocí MS Excel

Matematika pro geometrickou morfometrii

DATA MINING KLASIFIKACE DMINA LS 2009/2010

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Aplikovaná numerická matematika

Základy vytěžování dat

Korelační a regresní analýza

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Úvod do optimalizace, metody hladké optimalizace

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Získávání znalostí z dat

Ing. Jan Buriánek. Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze Jan Buriánek, 2010

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Asociační i jiná. Pravidla. (Ch )

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Změkčování hranic v klasifikačních stromech

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Testování statistických hypotéz

AVDAT Mnohorozměrné metody, metody klasifikace

Učící se klasifikátory obrazu v průmyslu

Strojové učení Marta Vomlelová

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

KGG/STG Statistika pro geografy

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

O kurzu MSTU Témata probíraná v MSTU

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Stavový model a Kalmanův filtr

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

Grafové algoritmy. Programovací techniky

Dolování z textu. Martin Vítek

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Vytěžování znalostí z dat

Získávání dat z databází 1 DMINA 2010

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů

Charakteristika datového souboru

4 Kriteriální matice a hodnocení variant

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Číselné charakteristiky

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

Rozdělování dat do trénovacích a testovacích množin

Transkript:

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 3: Předzpracování dat BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 2/29 Motivace Data v podobě v jaké jsou uloženy v databázích většinou nejsou vhodná pro analýzu a modelování Mohou být nekompletní, nekonzistentní, obsahovat chybná data Data potřebná k analýze mohou být uložena na různých místech a v různých formátech. Garbagein, Garbageout pokud k modelování použijeme nekvalitní data, tak výsledek bude také nekvalitní.

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 3/29 Součásti předzpracování dat Data cleansing Data integration Data reduction -2, 32, 100, 59, 48-0.02, 0.32, 1.00, 0.59, 0.48 Data transformation

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 4/29 Předzpracování dat Vstupem předzpracování dat jsou surová data v databázích, datových skladech, souborech Výstupem data ve formě vhodné pro modelování např. trénovací množina ve tvaru matice: instance atributy ID Name address City Zip Phone 1 Alan 1800 Bon Ave. Elk Grove 95758 916-333-4444 2 Tom 600 Bender Rd. Sacramento 95412 916-112-2345 3 Sam 300 Tent St. San Jose 95112 408-345-2134 Různé metody požadují různě zpracovaná data

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 5/29 Validace dat Cílem je zjistit kvalitu dat a najít chybné hodnoty Pro validaci používáme jakoukoliv externí informaci o hodnotách atributů

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 6/29 Kontrola datových typů Kontrola rozsahu atributů Metody validace dat Porovnání hodnot s ostatním instancemi Kontrola konzistence, např. pokud těhotná = ano, tak pohlaví muž

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 7/29 Chybějící hodnoty Chybějící hodnota může znamenat, že žádná z možných hodnot není vhodná, nebo že se při sběru dat nezaznamenala Rozlišení těchto případů většinou není jednoduché ID Name Sandwitch Sauce 1 Alan Turkey Sweet Union 2 Tom Ham 3 Sam Beef Thousand Island Tom měl sendvič bez omáčky nebo ji prodavač zapomněl zapsat?

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 8/29 Nakládání s chybějícími daty Odstranění instancí s chybějícími hodnotami Nahrazení nulou Nahrazení průměrem/modem atributu Nahrazení průměrem/modem K nejbližších instancí Regresní nebo klasifikační model pro predikci hodnoty atributu

Konverze typu atributu Máme různé typy atributů, viz. minulá přednáška Binomiální Nominální Ordinální Numerické Spousta metod nepodporuje všechny typy atributů => pro konkrétní metodu musíme konvertovat atributy na správný typ Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 9/29

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 10/29 Nominální -> Binomiální Pro každou různou hodnotu nominálního atributu vytvoříme nový atribut. Kódování 1 z N Počasí Déšť Slunečno Oblačno Počasí = déšť Počasí = slunečno 1 0 0 0 1 0 0 0 1 Počasí = oblačno Nelze použít pokud atribut má mnoho různých hodnot. V tom případě můžeme rozdělit hodnoty do skupin a použít pouze skupiny.

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 11/29 Diskretizace Převod Numercké-> Nominální Jinak také binning Rozdělení spojité veličiny do několika intervalů Počet intervalů musíme zvolit Teplota -5 15 9 35 2 Teplota [-,0] [10,20] [0,10] [30, ] [0,10]

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 12/29 Equal-widthdiskretizace Rozdělení hodnot do stejně velkých intervalů Velikost intervalu je (Max-Min)/bins Do některých intervalů nemusí spadnout žádná hodnota Nejjednodušší metoda Odlehlé hodnoty mohou způsobit nerovnoměrné rozdělení Není vhodné pro šikmá rozdělení dat

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 13/29 Equal-widthdiskretizace Problémy při výskytu odlehlých hodnot: počet lidí 120 100 80 60 40 20 0 plat

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 14/29 Také binning by frequency Equal-heightdiskretizace Intervaly jsou zvoleny tak, aby v každém byl pokud možno stejný počet hodnot. Šikmá rozdělení nejsou problém Většinou lepší výsledky než Eqal-width

Superviseddiskretizace Další metody Hranice intervalů jsou zvoleny tak, aby nejlépe rozdělovaly data do tříd Diskretizace podle entropie, informačního zisku Více v přednášce o rozhodovacích stromech Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 15/29

Normalizace Některé metody pracují pouze s omezeným rozsahem hodnot ( [0,1], [-1,+1]) Například některé typy neuronových sítí Metody založené na vzdálenostech špatně zvládají rozdílné obory hodnot atributů Která instance je nejpodobnější poslední instanci? Počet dětí Roční plat 0 200000 5 205000 5 201000 Eukleidovská vzdálenost je menší pro první řádek Pokud je obor hodnot atributu řádově nižší, pak na něm euklidovská vzdálenost prakticky nezávisí Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 16/29

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 17/29 Řešením je normalizace Normalizace Počet dětí Roční plat 0 200000 5 205000 5 201000 Počet dětí Roční plat 0 0 1 1 1 0,2

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 18/29 Min-maxnormalizace Hodnoty se lineárně transformují do nového oboru hodnot, nejčastěji [0,1] nebo [-1,1] = _ _ + _ Distribuce zůstává stejná Musíme znát minimální a maximální hodnotu Problémy s odlehlými hodnotami

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 19/29 Soft-maxnormalizace Nelineární transformace pomocí sigmoidní funkce = Transformace do intervalu [0,1] (pro jiný interval lze posunout) Do vzdálenosti standardní odchylky od průměru jsou data transformována téměř lineárně Data dále od průměru jsou transformována nelineárně Nemusíme znát minimální a maximální hodnotu Odlehlé hodnoty nesnižují rozlišení pro ostatní hodnoty

Z-Score Další typy normalizace Normalizace na distribuci s nulovou střední hodnotou a standardní odchylkou 1 = Decimal scaling Posun desetinné čárky, = Logaritmování používané,když se hodnoty atributu liší o více řádů = ( ) Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 20/29

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 21/29 Tvorba nových atributů Někdy můžeme vytvořit odvozené atributy, které pomohou ke zlepšení modelu výška šířka 100 600 480 200 500 500 výška šířka poměr 100 600 0,167 480 200 2,4 500 500 1 například z atributů výška a šířka obrázku na webu můžeme vytvořit nový atribut poměr stran

Redukce počtu instancí Náhodný výběr reprezentativního vzorku Výběr s opakováním = sampling with replacement Vždy vybíráme náhodný prvek ze všech možností Jedna instance může být ve výběru vícekrát Výběr bez opakování = sampling without replacement Jednou vybraný prvek už znova vybrat nemůžeme Stratifikovaný výběr Výběr s opakováním kdy si zvolíme výsledný poměr tříd Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 22/29

Redukce počtu atributů Surová data mohou obsahovat nerelevantní, zašuměné, redundantní atributy Trénovacímatice by měla mít alespoň o řád více instancí než atributů Existují 2 přístupy řešení: Výběr nejrelevantnější podmnožiny atributů Transformace dat do prostoru s méně dimenzemi Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 23/29

Univariate/ Multivariate Výběr příznaků Univariate vždy hodnotí přínos jednoho atributu Multivariatehodnotí zvolenou podmnožinu atributů jako celek Filter/Wrapper/Embedded Filter hodnotí atributy nezávisle na použitém modelu Wrapperpoužívá jako kritérium pro výběr atributů chybu modelu s danými atributy Embedded výběr příznaků je součástí učení modelu Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 24/29

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 25/29 Filter: Filter/ wrapper All features Wrapper: Filter Feature subset Predictor All features Multiple Feature subsets Wrapper Predictor

Výběr příznaků Různé metody výběru příznaků se skládají ze tří základních kroků: Prohledávání: způsob výběru podmnožin příznaků Hodnocení: způsob hodnocení relevance příznaku nebo skupiny příznaků, statistické ukazatele pro filtermetody nebo chyba modelu pro wrapper metody Kritérium ukončeníprohledávání když se přidáním dalšího atributu výsledek nezlepší, maximální počet atributů Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 26/29

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 27/29 Výběr příznaků Cross validation Performance bounds Single feature relevance Relevance in context Feature subset relevance Performance Statistical learning tests Nested subset, machine Heuristic or forward selection/ stochastic search backward elimination Exhaustive search Single feature ranking Search

Metody prohledávání možných podmnožin n příznaků je 2 Kompletní prohledávání je časově náročné Heuristické metody: Nemusí najít optimální řešení Forward selection Začínáme s prázdnou podmnožinou atributů, v každém kroku přidáme nejvhodnější atribut dokud není splněna ukončovací podmínka Backward elimination Začínáme se všemi atributy a v každém kroku odebereme nejméně relevantní atribut Náhodný výběr, Evoluční metody Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 28/29

Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 29/29 Metody hodnocení příznaků Korelační koeficient Vzájemná informace (Mutual information) T-test Chyba klasifikátoru