Vytěžování znalostí z dat

Transkript

1 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 3: Předzpracování dat BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

2 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 2/29 Motivace Data v podobě v jaké jsou uloženy v databázích většinou nejsou vhodná pro analýzu a modelování Mohou být nekompletní, nekonzistentní, obsahovat chybná data Data potřebná k analýze mohou být uložena na různých místech a v různých formátech. Garbagein, Garbageout pokud k modelování použijeme nekvalitní data, tak výsledek bude také nekvalitní.

3 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 3/29 Součásti předzpracování dat Data cleansing Data integration Data reduction -2, 32, 100, 59, , 0.32, 1.00, 0.59, 0.48 Data transformation

4 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 4/29 Předzpracování dat Vstupem předzpracování dat jsou surová data v databázích, datových skladech, souborech Výstupem data ve formě vhodné pro modelování např. trénovací množina ve tvaru matice: instance atributy ID Name address City Zip Phone 1 Alan 1800 Bon Ave. Elk Grove Tom 600 Bender Rd. Sacramento Sam 300 Tent St. San Jose Různé metody požadují různě zpracovaná data

5 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 5/29 Validace dat Cílem je zjistit kvalitu dat a najít chybné hodnoty Pro validaci používáme jakoukoliv externí informaci o hodnotách atributů

6 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 6/29 Kontrola datových typů Kontrola rozsahu atributů Metody validace dat Porovnání hodnot s ostatním instancemi Kontrola konzistence, např. pokud těhotná = ano, tak pohlaví muž

7 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 7/29 Chybějící hodnoty Chybějící hodnota může znamenat, že žádná z možných hodnot není vhodná, nebo že se při sběru dat nezaznamenala Rozlišení těchto případů většinou není jednoduché ID Name Sandwitch Sauce 1 Alan Turkey Sweet Union 2 Tom Ham 3 Sam Beef Thousand Island Tom měl sendvič bez omáčky nebo ji prodavač zapomněl zapsat?

8 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 8/29 Nakládání s chybějícími daty Odstranění instancí s chybějícími hodnotami Nahrazení nulou Nahrazení průměrem/modem atributu Nahrazení průměrem/modem K nejbližších instancí Regresní nebo klasifikační model pro predikci hodnoty atributu

9 Konverze typu atributu Máme různé typy atributů, viz. minulá přednáška Binomiální Nominální Ordinální Numerické Spousta metod nepodporuje všechny typy atributů => pro konkrétní metodu musíme konvertovat atributy na správný typ Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 9/29

10 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 10/29 Nominální -> Binomiální Pro každou různou hodnotu nominálního atributu vytvoříme nový atribut. Kódování 1 z N Počasí Déšť Slunečno Oblačno Počasí = déšť Počasí = slunečno Počasí = oblačno Nelze použít pokud atribut má mnoho různých hodnot. V tom případě můžeme rozdělit hodnoty do skupin a použít pouze skupiny.

11 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 11/29 Diskretizace Převod Numercké-> Nominální Jinak také binning Rozdělení spojité veličiny do několika intervalů Počet intervalů musíme zvolit Teplota Teplota [-,0] [10,20] [0,10] [30, ] [0,10]

12 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 12/29 Equal-widthdiskretizace Rozdělení hodnot do stejně velkých intervalů Velikost intervalu je (Max-Min)/bins Do některých intervalů nemusí spadnout žádná hodnota Nejjednodušší metoda Odlehlé hodnoty mohou způsobit nerovnoměrné rozdělení Není vhodné pro šikmá rozdělení dat

13 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 13/29 Equal-widthdiskretizace Problémy při výskytu odlehlých hodnot: počet lidí plat

14 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 14/29 Také binning by frequency Equal-heightdiskretizace Intervaly jsou zvoleny tak, aby v každém byl pokud možno stejný počet hodnot. Šikmá rozdělení nejsou problém Většinou lepší výsledky než Eqal-width

15 Superviseddiskretizace Další metody Hranice intervalů jsou zvoleny tak, aby nejlépe rozdělovaly data do tříd Diskretizace podle entropie, informačního zisku Více v přednášce o rozhodovacích stromech Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 15/29

16 Normalizace Některé metody pracují pouze s omezeným rozsahem hodnot ( [0,1], [-1,+1]) Například některé typy neuronových sítí Metody založené na vzdálenostech špatně zvládají rozdílné obory hodnot atributů Která instance je nejpodobnější poslední instanci? Počet dětí Roční plat Eukleidovská vzdálenost je menší pro první řádek Pokud je obor hodnot atributu řádově nižší, pak na něm euklidovská vzdálenost prakticky nezávisí Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 16/29

17 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 17/29 Řešením je normalizace Normalizace Počet dětí Roční plat Počet dětí Roční plat ,2

18 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 18/29 Min-maxnormalizace Hodnoty se lineárně transformují do nového oboru hodnot, nejčastěji [0,1] nebo [-1,1] = _ _ + _ Distribuce zůstává stejná Musíme znát minimální a maximální hodnotu Problémy s odlehlými hodnotami

19 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 19/29 Soft-maxnormalizace Nelineární transformace pomocí sigmoidní funkce = Transformace do intervalu [0,1] (pro jiný interval lze posunout) Do vzdálenosti standardní odchylky od průměru jsou data transformována téměř lineárně Data dále od průměru jsou transformována nelineárně Nemusíme znát minimální a maximální hodnotu Odlehlé hodnoty nesnižují rozlišení pro ostatní hodnoty

20 Z-Score Další typy normalizace Normalizace na distribuci s nulovou střední hodnotou a standardní odchylkou 1 = Decimal scaling Posun desetinné čárky, = Logaritmování používané,když se hodnoty atributu liší o více řádů = ( ) Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 20/29

21 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 21/29 Tvorba nových atributů Někdy můžeme vytvořit odvozené atributy, které pomohou ke zlepšení modelu výška šířka výška šířka poměr , , například z atributů výška a šířka obrázku na webu můžeme vytvořit nový atribut poměr stran

22 Redukce počtu instancí Náhodný výběr reprezentativního vzorku Výběr s opakováním = sampling with replacement Vždy vybíráme náhodný prvek ze všech možností Jedna instance může být ve výběru vícekrát Výběr bez opakování = sampling without replacement Jednou vybraný prvek už znova vybrat nemůžeme Stratifikovaný výběr Výběr s opakováním kdy si zvolíme výsledný poměr tříd Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 22/29

23 Redukce počtu atributů Surová data mohou obsahovat nerelevantní, zašuměné, redundantní atributy Trénovacímatice by měla mít alespoň o řád více instancí než atributů Existují 2 přístupy řešení: Výběr nejrelevantnější podmnožiny atributů Transformace dat do prostoru s méně dimenzemi Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 23/29

24 Univariate/ Multivariate Výběr příznaků Univariate vždy hodnotí přínos jednoho atributu Multivariatehodnotí zvolenou podmnožinu atributů jako celek Filter/Wrapper/Embedded Filter hodnotí atributy nezávisle na použitém modelu Wrapperpoužívá jako kritérium pro výběr atributů chybu modelu s danými atributy Embedded výběr příznaků je součástí učení modelu Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 24/29

25 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 25/29 Filter: Filter/ wrapper All features Wrapper: Filter Feature subset Predictor All features Multiple Feature subsets Wrapper Predictor

26 Výběr příznaků Různé metody výběru příznaků se skládají ze tří základních kroků: Prohledávání: způsob výběru podmnožin příznaků Hodnocení: způsob hodnocení relevance příznaku nebo skupiny příznaků, statistické ukazatele pro filtermetody nebo chyba modelu pro wrapper metody Kritérium ukončeníprohledávání když se přidáním dalšího atributu výsledek nezlepší, maximální počet atributů Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 26/29

27 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 27/29 Výběr příznaků Cross validation Performance bounds Single feature relevance Relevance in context Feature subset relevance Performance Statistical learning tests Nested subset, machine Heuristic or forward selection/ stochastic search backward elimination Exhaustive search Single feature ranking Search

28 Metody prohledávání možných podmnožin n příznaků je 2 Kompletní prohledávání je časově náročné Heuristické metody: Nemusí najít optimální řešení Forward selection Začínáme s prázdnou podmnožinou atributů, v každém kroku přidáme nejvhodnější atribut dokud není splněna ukončovací podmínka Backward elimination Začínáme se všemi atributy a v každém kroku odebereme nejméně relevantní atribut Náhodný výběr, Evoluční metody Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 28/29

29 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 29/29 Metody hodnocení příznaků Korelační koeficient Vzájemná informace (Mutual information) T-test Chyba klasifikátoru