Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 2: Statistické metody v data miningu BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 2/32 Přednáška 1) Střední hodnota: průměr/medián 2) Extrémy 3) Principal Component Analysis (PCA)
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 3/32 Aritmetický průměr = 1 =aritmetický průměr = počet vzorků =třída/hodnota vzorku
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 4/32 Medián Vzorky seřadit vzestupně/sestupně: =počet vzorků á = +1 2
Demonstrace -původní obrázek Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 5/32
Demonstrace přidání šumu Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 6/32
Demonstrace průměr Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 7/32
Demonstrace -medián Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 8/32
Demonstrace -původní obrázek Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 9/32
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 10/32 Symetrický šum Mějmě 1000 náhodně generovaných vzorků v rozsahu 0 až 1 450 400 Histogram odhadů střední hodnoty průměr medián 350 300 Počet odhadů 250 200 150 100 50 0 0.44 0.46 0.48 0.5 0.52 0.54 0.56 Odhadovaná střední hodnota (správná je 0.5) Potom je aritmetický průměr přesnější než medián.
Medián ca. Aritmetický průměr Aritmetický průměr bere v potaz všechny vzorky, ale je náchylnýna (asymetrické) extrémy -> exceluje na symetrických distribucích Medián odolný na extrémní odchylky -> obvykle se používá u asymetrických distribucí matematický zápis je ale zdlouhavý výpočet na počítači je zdlouhavý Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 11/32
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 12/32 Co jeoutlier? Outlier je vzorek, který se liší od ostatních vzorků na tolik, že vzbuzuje podezření, že vznikl jiným mechanizmem. Ukázka outlierů (červeně)
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 13/32 Možné příčiny outlierů Chyba měření Chybné předpoklady (jiná distribuce) Neznámá datová struktura (vícero dist.) Nový fenomén
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 14/32 Outlier nám kazí výstup 18 16 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 Lineární regrese (Metoda nejmenších čtverců)
Tak ho smažem! Příběh: V roce 1985 Britská Antarktická výprava naměřila koncentraci ozónu o 10% nižší, než bylo typické. Otázkou bylo, proč podobně nižší hodnoty nenaměřil i satelit. Nakonec se zjistilo, že satelit považoval tyto hodnoty za outliery a tak je mazal. A to už od roku 1976 Ponaučení: Nemažte automaticky outliery, neb právě oni mohou být tím nejcenějším na celém datasetu. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 15/32
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 16/32 Co tedy s outliery? U normální distribuce se očekává, že se tu a tam objeví outlier. V tom případě se outlier ponecháa použije se robustní metoda, která si s outliery poradí. Pokud ale nemáme robustní metodu, outlier lze odstranit. Je ale třeba se o něm zmínit a vysvětlit,proč byl odstraněn.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 17/32 Outlieři anketa FIT 11/12 Z Zřejmě nejtypičtější předměty pro FIT jsou Java a databáze. Naopak BOZP, humanitní předměty a legendární PARy jsou zvláštnosti, ovšem nijak extrémní. Asi je tedy nelze vyškrtnout
z-score test Vz-scoretestuse spočte průměr a standartní odchylka celého datasetu, následně se pro každý vzorek spočte z-score: = Vzorky se z-score větší 3 jsou označeny za outliery. Nejedná se ale o nejspolehlivější metodu, neboť jak, tak jsou ovlivněny outliery. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 18/32
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 19/32 Local Outlier Factor Princip Local Outlier Factor(LOF) je v porovnání lokální hustoty vzorku s lokální hustotou sousedů. Tři nejbližší sousedi bodu A jsou dost vzdáleni (velká kružnice), porovnáme-li ji s kružnicemi sousedů. http://wikipedia.com/local_outlier_factor
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 20/32 Local Outlier Factor Zatímco shluk vpravo nahoře má srovnatelnou hustotu jako outlieři blízko levého dolního rohu, outlieři byli detekováni správně.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 21/32 Rozptyl = ( ) = rozptyl populace N = počet vzorků = vzorek = střední hodnota
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 22/32 Principal Component Analysis (PCA) PCA se používá pro redukcipočtu atributů PCA nevybírá atributy, ale transformuje je PCA používá rozptyl
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 23/32 PCA vzorová 2D data PCA funguje pro libovolný počet dimenzí, pro názornost ale použijeme 2 dimenze.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 24/32 PCA obepsaná elipsa Abychom viděli, jak jsou data rozprostřena, obepíšeme jim elipsu a popíšeme její osy.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 25/32 PCA Principal Components První principal component maximalizuje rozptyl. Další principal component maximalizuje zbývající rozptyl.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 26/32 PCA Principal Components Otázka: Jaký je úhel mezi P1 a P2?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 27/32 PCA Principal Components Odpověď: Proncipal Components svírají vždy pravý úhel. PCA tedy jen natáčí kartézské souřadnice, jinak je nemění.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 28/32 PCA použití Mějme Iris dataset, který má 4 atributy. A mějme klasifikátor, který přijímá jen 2 atributy, které atributy vybereme?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 29/32 PCA použití Použijeme PCA a použijeme první 2 principal components!
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 30/32 PCA -ukázka Tohle je zcela běžný dataset s 35 atributy. Prvních 10 pc vysvětluje 90% rozptylu. Dalších 10 pc vysvětluje 9% rozptylu. Posledních 15 pc vysvětluje 1% rozptylu.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 31/32 PCA -omezení PCA funguje dobře, když je v některém směru větší rozptyl, než v jiném. Otázka: Kdy PCA selže?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 32/32 PCA -omezení Odpověď:Když je ve všech směrech stejný rozptyl, PCA nic nezmění.