Základy vytěžování dat

Transkript

1 Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

2 Shluková analýza a analýza hlavních komponent Odkaz na výukové materiály: (oddíl 3) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

3 Vytěžování dat, přednáška 4: Shluková analýza Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 35 Shluková analýza

4 Co to je shluková analýza Je jednou ze základních úloh vytěžování dat. Jde o seskupení objektů do skupin podle jejich vlastností. Tak aby si objekty ve skupinách byly nějak podobné. A zároveň nebyly podobné objektů v jiných skupinách. 2 / 35 Shluková analýza

5 3 / 35 Shluková analýza

6 Co to je shluková analýza (II) V principu jde o optimalizační problém. Co se musí optimalizovat? Počet shluků (skupin) Přiřazení instancí do shluků 4 / 35 Shluková analýza

7 Jak zjistit, že jsou si dva vzory podobné? To je obecně velmi složitá otázka. Protože shlukovou analýzu budou provádět hlavně počítače, musí být výsledkem nějaké číslo. Z matematické analýzy známe pojem metrika což je jiné označení vzdálenosti. Metrika musí splňovat několik základních podmínek, aby ji bylo možné použít. d(x, y) 0 d(x, y) = d(y, x) d(x, y) = 0 x = y d(x, y) + d(y, z) d(x, y) 5 / 35 Shluková analýza

8 Metriky Jaké znáte metriky? Eukleidovská metrika Manhattanská metrika Kosinová metrika Příklady dalších metrik Editační vzdálenost (vzdálesnost dvou slov = počet změn, kterými můžu změnit jedno slovo na druhé) Grafová metrika (počet hran, které musím v grafu projít, abych se dostal do z jednoho uzlu do druhého) 6 / 35 Shluková analýza

9 Eukleidovská metrika Nejpřirozenější metrika, protože se s ní běžně setkáváme. Jak změříme vzdálenost dvou bodů na tabuli? Pravítkem :)! A když známe souřadnice, můžeme ji spočítat. Jak? 7 / 35 Shluková analýza

10 Eukleidovská metrika (II) Pythagorova věta! c = a 2 + b 2 A Pythagorovu větu můžeme zobecnit pro R n x = (x 1, x 2,..., x n ), y = (y 1, y 2,..., y n ) dist( x, y) = n (x i y i ) 2 i=1 8 / 35 Shluková analýza

11 Manhattanská metrika (City-block distance) Základní myšlenka: Kolik bloků ve městě musím obejít, abych se dostal z jednoho místa na druhé? Nebo také kolik tahů králem musím udělat abych se dostal z jednoho místa šachovnice na druhé? 9 / 35 Shluková analýza

12 Manhattanská metrika (City-block distance) (II) Pokud znám souřadnice, vzdálenost spočítam takto: dist( x, y) = x 1 y 1 + x 2 y x n y n 10 / 35 Shluková analýza

13 Kosinová vzdálenost Vzdálenost dvou vektorů je úhel, který svírají. similarity( x, y) = n i=1 (x i y i ) n i=1 (x2 i ) n i=1 (y2 i ) Výsledky této funkce jsou v rozmezí znamená úplný opak, 0 nezávyslost a +1 naprostou shodu. Aby výsledky vyhovovali definici metriky je potřeba podobnost odečíst od jedné. dist( x, y) = 1 similarity( x, y) 11 / 35 Shluková analýza

14 Shlukování pomocí KMeans Jednostlivé shluky budou zastoupeny jedním reprezentantem, který ponese vlastnosti typické pro danou skupinu/shluk. Každá instance (vzor) v datech bude reprezentována reprezentantem, který je jí nejpodobnější. Jinými slovy který ji bude nejblíž (v dané metrice). 12 / 35 Shluková analýza

15 13 / 35 Shluková analýza

16 Shlukování pomocí KMeans Jak určit, kde je správné místo pro reprezentanty? Chceme, aby vzdálenost mezi reprezentanty a instancemi byla co nejmenší. Snažíme se vlastně minimalizovat součet všech vzdáleností mezi instancemi a jejich reprezentanty jde o optimalizační problém. Taková optimalizace se dá řešit mnoha způsoby, ale jeden z nejjednodušších je iterační. 14 / 35 Shluková analýza

17 Algoritmus KMeans značení Máme množinu n vstupních vzorů/instancí (vektorů) x k. Jednotlivé složky vektoru budeme označovat x k (s). A máme množinu K reprezentantů. means t i je i-tý reprezentant v kroku t. 15 / 35 Shluková analýza

18 Algoritmus KMeans 1. Nastav reprezentanty means 0 i do náhodných počátečních bodů. 2. Najdi a přiřaď každé instanci jeho nejbližšího reprezentanta. x najdi j tak, aby dist(x, means t j ) dist(x, means t i ) i a pro každého reprezentanta means t i vytvoř množinu nearest t i instancí, ke kterým je nejblíž. 3. Přesuň reprezentanta tak aby ležel uprostřed své množiny nejbližších instancí. means t+1 1 i (s) = nearest x t i k nearest x t k (s) i 4. Pokud se změnila poloha alespoň jednoho preprezentanta, vrať se na bod 2. Jinak skonči. 16 / 35 Shluková analýza

19 Ilustrace KMeans 17 / 35 Shluková analýza

20 Ilustrace KMeans (II) 18 / 35 Shluková analýza

21 Ilustrace KMeans (III) 19 / 35 Shluková analýza

22 Ilustrace KMeans (IV) 20 / 35 Shluková analýza

23 Ilustrace KMeans (V) 21 / 35 Shluková analýza

24 Pohádka o Algoritmu KMeans :) Once there was a land with N houses. One day K kings arrived to this land. Each house was taken by the nearest king. But the community wanted their king to be at the center of the village, so the throne was moved there Then the kings realized that some houses were closer to them now, so they took those houses, but they lost some. This went on and on... (2-3-4) Until one day they couldn t move anymore, so they settled down and lived happily ever after in their village / 35 Shluková analýza

25 Problémy a stabilita shlukování pomocí KMeans Dopadne shlukování pomocí KMeans pokaždé stejně? Jak určit správný počet středů (shluků)? Jak vyhodnotit jestli shlukování dopadlo dobře a jestli jsme zvolili přiměřené K? 23 / 35 Shluková analýza

26 Vyhodnocení shluků vytvořených KMeans algoritmem Jednou z možných metod je tzv. silueta. Silueta pro každou vstupní instanci spočítá jistotu zařazení instance do daného shluku. s(x k ) = b(x k) a(x k ) max(a(x k ), b(x k )) a(x k ) je průměrná vzdálenost x k od ostatních instancí shluku, ke kterému je přiřazena. b(x k ) je průměrná vzdálenost x k od instancí v nejbližším dalším shluku. Výsledné hodnoty jsou mezi -1 (x k do shluku úplně nepatří) a +1 (úplně patří) ftp: //ftp.win.ua.ac.be/pub/preprints/87/silgra87.pdf 24 / 35 Shluková analýza

27 Vyhodnocení shluků vytvořených KMeans algoritmem (II) Pokud vypočítáte siletu pro všechny instance a vykreslíte ji do grafu, můžete si udělat představu, jak shlukování dopadlo. 25 / 35 Shluková analýza

28 Ukázka Siluety shluky Kosatců 26 / 35 Shluková analýza

29 Které shlukování dopadlo lépe? Co třeba průměrná silueta přes všechny instance (ideálně přes testovací data)? 27 / 35 Shluková analýza

30 Stabilita shluků Jak zkusit, že shluky opravdu v datech jsou a výsledné shluky nejsou náhoda? Náhodným smazáním např. 10% různých instancí vygenerovat M podmnožin dat a spustit shlukování na každé podmnožině. Existuje několik ukázkových apletů/aplikací, kde si můžete zkusit, jak algoritmus funguje. tutorial_html/appletkm.html 28 / 35 Shluková analýza

31 Hierarchické shlukování úvod KMeans, jak jsme viděli, má některé mouchy. Kolik je v datech shluků? Závislost výsledků na počátečních podmínkách. Šlo by shlukování dělat i jinak? Šlo :). Jednou z možností je Hierarchické shlukování. Základní myslenka je, že vytvoříme hierarchii shluků. Vždy spojíme dva nejpodobnější shluky do jednoho většího. A takto budeme pokračovat, dokud nevytvoříme jeden mega-shluk. 29 / 35 Shluková analýza

32 Hierarchické shlukování 1. Začne ze stavu, kdy každá instance je jedním shlukem. 2. Najdi dva nejbližší shluky. 3. Spoj je do jednoho. 4. Zůstávají nějaké shluky, které lze spojit? Pokud ano, vrať se na bod / 35 Shluková analýza

33 Nejbližší shluky Jak zjistím vzdálenost dvou shluků? Dokud shluky obsahují jen jednu instanci, je spočítání vzdálenosti jednoduché. Ale pak? Vzdálenost shluků je určena Nejbližší sousedé vzdáleností nejbližších instancí ve shluku. Nejvzdálenější sousedé vzdáleností nejvzdálenějších instancí ve shluku. Vzdálenost středů vzdáleností center (středů) shluků. Průměrná vzdálenost průměrná vzdálenost mezi všemi instancemi v obo shlucích 31 / 35 Shluková analýza

34 Vzdálenost shluků ilustrace Nejkratší vzdálenost Průměrná vzdálenost Největší vzdálenost Vzdálenost mezi reprezentanty 32 / 35 Shluková analýza

35 Dendrogram Když zkusíme vizualizovat postup shlukování tj. které shluky se spojují, získáme strom dendrogram. Jak nalezneme počet shluků? Výběrem :), podle toho, kolik shluků potřebujeme nebo kolik vyjde jako nejvhodnější. 33 / 35 Shluková analýza

36 Vyhodnocení hierarchického shlukování Můžeme opět použít siluetu, stejně jak jsme ji používali v K-Means. Druhou možností je vypočítat CPCC (Cophenetic Correlation Coeffitient). CPCC je normovaná kovariance vzdáleností v původním prostoru a v dendrogramu. Pokud je hodnota CPCC menší než cca 0.8, všechny instance patří do jediného velkého shluku. Obecně platí, že čím vyšší je kofenetický koeficient korelace, tím nižší je ztráta informací, vznikající v procesu slučování objektů do shluků. 34 / 35 Shluková analýza

37 Další informace a zdroje zapis_prednasky/zapis_02/13/shlukovani.pdf seminar0304/hlukovani2.pdf 35 / 35 Shluková analýza

38 Vytěžování dat, přednáška 5: Self Organizing Map Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 44 Self Organizing Map

39 Shlukovací algoritmy a nevýhody Jaké znáte shlukovací algoritmy? KMeans Hierarchické shlukování KMeans nedopadne pokaždé stejně, musím zkoušet počet centroidů. Hiearachické shlukování musím spočítat N 2 vzdáleností. Což pro větší N není jednoduché. 2 / 44 Self Organizing Map

40 Další shlukovací algoritmy Existuje spousta dalších algoritmů pro shlukování dat. Ukáži vám ješte jeden Self Organizing Map (SOM). 3 / 44 Self Organizing Map

41 Kompetitivní učení Jedinci (reprezentanti, centroidy, neurony, jedinci) spolu soutěží o něco :). Nepotřebuji žádného arbitra (učitele), který by říkal, kam se mají jedinci přesunout. Každý jedinec to umí zjistit sám. Jedinci se učí z příkladů. Systém (populace jedinců) se v průběhu času samoorgranizuje sám. A teď to zkusíme použít na shlukování. 4 / 44 Self Organizing Map

42 Kompetitivní učení v pohádce Vzpomínáte si na pohádku o Králích z minulé přednášky? Do země s N domy přijelo K králů a někde se usídlili. A každý král zabral domy, které mu byli nejblíž a z nich vybíral daně. A protože lidé chtěli, aby jim byl král co nejblíž, král se přestěhoval do geometrického středu domů. Tím se ale některé domy ocitly blíže jinému králi a tak z nich daně začal vybírat jiný král. Králové se opět přesunout a tak dále. Nejbližší král tedy získá všechny daně z domů, které jsem mu nejblíž. 5 / 44 Self Organizing Map

43 Kompetitivní učení v KMeans KMeans také používá kompetitivní učení. Jak? KMeans je trochu skromější. Reprezentanti (centroidy) soutěží o data. A nejbližší reprezentant vyhraje zabere celou instanci a jiného reprezentant k ní nepustí. Bere vše. 6 / 44 Self Organizing Map

44 Kvantizační chyba Minule jsem v souvislosti s KMeans mluvil o optimalizaci (minimalizaci) chyby. Této chybě se říká kvantizační chyba. A vyjadřuje průměrnou vzdálenost mezi daty a odpovídajícími reprezentanty. Průměrná vzdálenost mezi krály a jejich poddanými. kvantizační chyba = 1 počet instancí k i=0 x nearest(r i ) dist(r i, x) r i je i-tý reprezentant. A nearest(r i ) je množina instancí, které jsou mu nejblíž. x je jedna z instancí. 7 / 44 Self Organizing Map

45 Vektorová kvantizace A cílem (nejen) KMeans je minimalizovat tuto chybu. Tím že minimalizuji kvantizační chybu tlačím reprezentanty do míst, kde se nachází hodně instancí. Snažím se tím aproximovat hustotu instancí pomocí (menší hustoty) reprezentantů. Do míst, kde je vysoká hustota instancí, se snažím dostat hodně reprezentatnů a naopak do míst s málo instancemi dávám málo reprezentatnů. Cílem kvantizace vektorů je aproximace hustotu pravděpodobnosti p(x) výskytu instancí x pomocí konečného počtu reprezentantů w i. 8 / 44 Self Organizing Map

46 Vítěz NEbere vše U KMeans z domu vybírá daně jen nejbližší král. Winner takes all. Co když platí, že část daní může vybírat i jiný blízký král? Pak už neplatí, že vítěz bere vše a něco zbude i na ostatní. Zde je důležité okolí tj. jak daleko se králi ještě vyplatí jet pro svůj díl daní. Malé okolí vítěz bere vše - daně vybírá jen jeden král Velké okolí komunismus - každý král dostane z každého domu kousek. 9 / 44 Self Organizing Map

47 Neuronový plyn Jiný způsob, jakým lze minimalizovat kvantizační chybu. Na rozdíl od KMeans používám okolí a jinak počítám nové pozice středů. 1. Náhodně rozmísti reprezentanty a zvol velké okolí. 2. Vyber nějakou vstupní instanci x j. 3. Spočítej vzdálenost mezi x j a všemi reprezentanty w i i. 4. Uprav pozice všech středů v závislosti na vzdálenosti od instance a okolí. 5. Zmenši okolí. 6. Pokud ještě chceš pokračovat, pokačuj bodem / 44 Self Organizing Map

48 Ilustrace iterace Neuronového plynu 11 / 44 Self Organizing Map

52 Neuronový plyn (II) V algoritmu je několik stupňů volnosti. Vyber nějakou vstupní instanci Procházíme postupně jednotlivé instance postupně v pevném pořadí. Nevhodné protože výstup může záviset na pořadí předkládání instancí. Projde všechny instance jednou, pak v jiném pořadí podruhé, atd... Vybírá skutečně náhodně. Čili nezaručuje, že počet předložení síti bude pro všechny instance stejný. Nepoužívá se, protože není zaručeno, že nepředložím x 1 10x, pak x 2 12x, atd / 44 Self Organizing Map

53 Neuronový plyn (III) Uprav pozice všech středů v závislosti... Čím vzdálenější reprezentant, tím se posouvá méně. w t+1 i = w t i + ηt e k/λt (x w t i ) η t je adaptační krok v kroku t a určuje o kolik se maximálně může reprezentant posunout. (Typicky o dost menší než 1 a s roustoucím t klesá k 0). k pořadí ve vzdálenosti reprezentanta od instance. λ t definuje velikost okolí a s rostoucím t klesá. 16 / 44 Self Organizing Map

54 Neuronový plyn (IV) Zmenši okolí Okolí (λ t ) se typicky postupně zmenšuje o nějaký násobek. Např. λ t+1 = λ t 0.95 Při zmenšování okolí se podobným způsobem zmenšuje i adaptační krok. η t+1 = η t Pokud ješte chceš pokračovat... Dopředu určím, že chci pokračovat dokud je λ > 0.05 nebo skonči poté, co předložíš všechny instance 10x. Kontrolní otázka: Za jakých podmínek se přesune nejbližší reprezentant na pozici právě předložené instance? 17 / 44 Self Organizing Map

55 Vylepšení Neuronového plynu Jak by se dal neuronový plyn vylepšit dál? Co kdyby se neposouvali všechni reprezentanti blízko instance? Vytvoříme přátelské vztahy mezi reprezentanty. A budou se posouvat jen kamarádi vítězného reprezentanta. Když vizualizujeme přátelství mezi reprezentanty získáme pravidelnou mřížku (síť). Typicky se používá čtvercová nebo hexagonální síť. 18 / 44 Self Organizing Map

56 Inspirace pro SOM Inspirací nejsou králové, ale oblasti v lidském mozku. Řídící centra jednotlivých končetin spolu souvisí a navzájem se ovlivňují. 19 / 44 Self Organizing Map

57 SOM Neuronová síť SOM je vynálezem prof. Kohonena z Finska. Původně vznikla jako model motorického cortexu a její první aplikace byl fontetický psací stroj. A protože se prof. Kohonen zabýval umělými neuronovými sítěmi, převzal i SOM jejich terminologii. 20 / 44 Self Organizing Map

58 SOM - Pozice neuronů Každý reprezentant v terminologii SOMu neuron je opět reprezentován jeho souřadnicemi v prostoru. Souřadnice každého neuronu (reprezentanta) se označují jako váhy. Když si zkusím takovou síť vizualizovat, dostaneme například: 21 / 44 Self Organizing Map

59 SOM - Pozice neuronů (II) WTF? Ještě před chvílí byla ta síť přece pravidelná! To ano, ale to byla idealizovaná projekce, aby bylo názorně vidět vztahy! 22 / 44 Self Organizing Map

60 SOM - Algoritmus Celý SOM algoritmus vypadá pak takto: 1. Inicializuj váhy všech neuronů (souřadnice všech reprezentantů). 2. Vyber nějakou vstupní instanci x j. 3. Spočítej vzdálenost mezi x j a všemi neurony w i i. 4. Urči nejbližší neuron BMU (Best Matching Unit). 5. Uprav váhy (pozici) BMU a jeho okolí. 6. Pokud ještě chceš pokračovat, pokačuj bodem / 44 Self Organizing Map

61 Detaily algoritmu Inicializace vah: Rovnoměrné rozprostření pro prostoru. Náhodně. Výběr instancí: Opět můžeme vybírat instance úplně náhodně. Ale mnohem častější je vybrat všechny instance jednou, pak všechny podruhé (v jiném pořadí), atd... Prochází se permutace vstupní množiny. 24 / 44 Self Organizing Map

62 Detaily algoritmu (II) Výpočet vzdáleností a určení BMU je celkem jednoduchá záležitost. Určím si metriku, kterou budu využívat a tu aplikuji. Mnohem zajímavější je úprava pozice BMU a jeho okolí :). Jak vlastně určím neurony v okolí? 25 / 44 Self Organizing Map

63 Změna vah graficky 26 / 44 Self Organizing Map

64 Detaily algoritmu (III) Novou pozici neuronu w i v kroku t + 1 (po předložení vzoru x j ) určím jako: w t+1 i = w t i + µ(t)(x j w t i ) Kde µ(t) je sdružený učící koeficient, který v sobě sdružuje jak vzdálenost neuronu od BMU tak i maximální možnou změnu vah (pozice). µ(t) s postupujícím časem klesá k nule. 27 / 44 Self Organizing Map

65 Detaily algoritmu (IV) µ(t) = α(t)e dist(w i,bmu) 2σ 2 (t) α(t) představuje učící krok (tedy jak moc se maximálně mohou změnit váhy neuronu). e blabla určuje, že okolí neuron má tvar gausovky. σ 2 (t) určuje velikost okolí a postupně s časem klesá. 28 / 44 Self Organizing Map

66 Příklad Máme 3 neurony w 1 = (0, 0)w 2 = (2, 1)w 3 = (0, 3) a ty jsou na lince. w 1 je sousedem w 2, w 2 je sousedem w 3 a w 1, w 2 je sousedem w 3. A instanci x = (1, 1) Který neuron je BMU? (Použijeme eukleidovskou metriku) d(w 1, x) = (0 1) 2 + (0 1) 2 = 2 = d(w 2, x) = (2 1) 2 + (1 1) 2 = 1 = 1 d(w 3, x) = (0 1) 2 + (3 1) 2 = 5 = / 44 Self Organizing Map

67 Příklad (II) BMU je tedy w 2. Řekněme, že σ(t) = 1 a α(t) = 0.25 A zkusme vypočítat novou pozici BMU (w 2 ). µ(t) = α(t)e dist(w i,bmu) 2σ 2 (t) = 0.25 e dist(w 2,w 2 ) = 0.25 e 0 = 0.25 w t+1 2 = w t 2 + µ(t)(x w t 2) = (2, 1) ((1, 1) (2, 1)) = = (2, 1) ( 1, 0) = (1.75, 1) Pro w 1 se posune do pozice: µ(t) = α(t)e dist(w 1,w 2 ) 2σ 2 (t) = 0.25 e 1 2 = = w t+1 1 = w t 1 + µ(t)(x w t 1) = (0, 0) ((1, 1) (0, 0)) = = (0, 0) + (0.151, 0.151) = (0.151, 0.151) 30 / 44 Self Organizing Map

68 Chyba SOM Stejně jako v Hierarchickém shlukování a K-Means potřebujeme nějakou míru dobrého shluknutí. Kvantizační chyba Ale tu už známe! To je přece chyba, o které jsme mluvili na začátku přednášky! Průměrná vzdálenost mezi instancemi a nejbližšími neurony. Topografická chyba Popisuje kvalitu natažení mřížky sítě na vstupní data. Procento instancí, pro které platí, že jejich BMU a druhý nebližší neuron nejsou sousedy v mřížce sítě. err topo = 1 n n i=1 u(x i) u(x i ) = 1 BMU a druhý nejbližší neuron pro x i nejsou sousedé v mřížce. 31 / 44 Self Organizing Map

69 Vizualizace SOM Dokud máme jen 2D data, tak s vizualizací není problém. Ale co když máme více dimenzí? U-Matice Analýza hlavních komponent Sammonova projekce 32 / 44 Self Organizing Map

70 U-Matice Matice vzdáleností mezi váhovými vektory jednotlivých neuronů, typicky se vizualizuje, vzdáleností vyjádřeny barvou světlá barva = malá vzdálenost. Zobrazuje strukturu vzdáleností v prostoru dat. 33 / 44 Self Organizing Map

71 U-Matice Barva neuronu je vzdálenost je váhového vektoru od všech ostatních váhových vektorů. Tmavé váhové vektory jsou vzdáleny od ostatních datových vektorů ve vstupním prostoru. Světlé váhové vektory jsou obklopeny cizími vektory ve vstupním prostoru. 34 / 44 Self Organizing Map

72 U-Matice (III) Jak z U-Matice poznám shluky? Ze vzdáleností mezi neurony. Kopce oddělují clustery (údolí). 35 / 44 Self Organizing Map

73 Analýza hlavních komponent Jde o statistickou metodu pro redukci dimenzionality. Označuje se jako PCA z anglického Principal Component Analysis. Snaží se najít nové osy, které lépe popisují data s minimální ztrátou informace. První osa vede směrem, který má největší rozptyl hodnot, druhá osa směrem, kde je druhý největší rozptyl, atd... Vždy mi vrátí stejný počet nových os, jako mají původní data dimenzí, ale já se mohu rozhodnout některé nepoužít. 36 / 44 Self Organizing Map

74 Analýza hlavních komponent (II) Pro výpočet nových souřadnic se používá konvariance, vlastní čísla a vlastní vektory. Tím vás nebudu trápit :). tutorials/principal_components.pdf 37 / 44 Self Organizing Map

75 Využití PCA v SOM Nyní můžu provést PCA projekci SOM sítě do 2D a zobrazit si ji. 38 / 44 Self Organizing Map

76 Využití PCA mimo SOM Samozřejmě využití PCA není nutně limitováno jen na použití v SOM, ale můžu ji použít například pro průzkumu dat. Stejně tak, některé metody vytěžování dat nemají rády příliš mnoho dimenzí a PCA jim můžete pomoci k lepším výsledkům. Nevýhodou je umělost nových os, která znesnadňuje interpretaci získaných výsledků petal_length petal_width sepal_length.0346 sepal_width 39 / 44 Self Organizing Map

77 Sammonova projekce Jinou možností je Sammonova projekce. Ta netransformuje osy, ale znovu umísťuje objekty v novém (méně dimenzionálním) prostoru. Při umisťování se snaží zachovat vztahy v datech (data, která byla blízko v původním prostoru, budou blízko i v novém prostoru). 40 / 44 Self Organizing Map

78 Sammonova projekce (2) Sammonova projekce se snaží minimalizovat následující funkci: 1 (dist E = (x i, x j ) dist(x i, x j )) 2 i<j dist (x i, x j ) dist (x i, x j ) i<j dist (x i, x j ) je vzdálenost x i a x j v původním prostoru. dist(x i, x j ) je vzdálenost x i a x j v novém prostoru (v projekci). Pro minimalizaci se používají standardní optimalizační metody pro tuto úlohu typicky iterační metody. Při minimalizaci se pohybuje body v novém prostoru (v projekci). Tím ovlivníte dist(x i, x j ) a můžete dosáhnout zmenšení E. 41 / 44 Self Organizing Map

79 Sammonova projekce - ukázka Ukázka několika iterací Sammonovy projekce na Iris datech. Počáteční stav 1. iterace 10. iterace 42 / 44 Self Organizing Map

80 Další vizualizace Příznakové grafy Vychází z U-Matice, ale místo vzdálenosti jednotlivých vektorů se do šestiúhelníčků kreslí hodnoty vybrané proměnné. 43 / 44 Self Organizing Map

81 Další čtení somalgorithm.shtml / 44 Self Organizing Map

82 Vytěžování dat, cvičení 5: Shlukování Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 5 Shlukování

83 Zadání domácího úkolu 1. Doimplementujte K-Means algoritmus. Přiložená funkce v Matlabu implementuje část KMeans algoritmu (nalezení nejbližších reprezentantů (centroidů)). Vaším úkolem je doplnit přesun reprezentantů do středu nových shluků a určit, zda je možné ukončit algoritmus nebo má smysl pokračovat další iterací. 2. Centroidy (reprezentanty) inicializujte náhodně a při každém spuštění jinak. 3. Shlukněte přiložená data vaším KMeans algoritmem. Zkuste různé počty reprezentantů (2,3,...,10). Spočítejte průměrnou siluetu pro všechny počty shluků a určete pro který počet reprezentantů vyjde průměrná silueta nejlépe. Pro zajímavé počty reprezentantů zobrazte grafy siluet. 2 / 5 Shlukování

84 Zadání domácího úkolu (2) 1. Pro nejlepší počet reprezentantů, který vám vyšel v minulém bodě, (alespoň 5x) spusťte algorimus KMeans s různými náhodnými počátečními pozicemi reprezentantů. 2. Shlukněte data pomocí hierarchického shlukování. Vytvořte stejný počet shluků, který vám vyšel nejlépe v algoritmu KMeans. Do zprávy vložte dendrogram, graf siluety a průměrnou siluetu. Krátce okomentujte rozdíly mezi výsledky hierarchického shlukování a KMeans algoritmu. 3 / 5 Shlukování

85 Obsah zprávy 1. Vámi doplňený zdrojový kód.!!a jeho stručný popis!! 2. Průměrné hodnoty siluety pro počty reprezentantů: 2, 3, 4,..., Dále přiložte zajímavé grafy siluet. Volitelně, pokud vám přijde zajímavý, může zpráva také obsahovat 2D/3D bodový graf se zvýrazněnými shluky. 4. Hodnoty průměrných siluet a výsledných souřadnic reprezentantů pro různé náhodné počáteční pozice reprezentantů. Pro počet reprezentantů, který vám vyšel nejlepší, v minulém bodě. 5. Dendrogram, který vám vyšel z hierarchického shlukování. A průměrná silueta a graf siluety stejný pro počet shluků, jako vám vyšel nejlepší v algoritmu KMeans. 4 / 5 Shlukování

86 Užitečné funkce silhouette kmeans linkage pdist cluster cophenet scatter 5 / 5 Shlukování

87 Vytěžování dat 6: Self Organizing Map Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 15 Slef Organizing Map

88 SOM Toolbox V dnešním cvičení vám ukážeme SOM Toolbox. Před použitím jej musíte stáhnout a rozbalit. SOM Toolbox se nachází na 2 / 15 Slef Organizing Map

89 SOM Toolbox (II) Až SOM Toolbox stáhnete, rozbalte jej do nějaké složky (ideálně tam, kde máte ostatní vaše zdrojové soubory). Doporučuji nechat soubory SOM Toolboxu v jednom podadresáři. Tento podadresář musíte přidat do cesty, kde Matlab hledá skripty. Pravým tlačítkem klikněte na adresář se SOM Tooleboxem a vyberte Add to Path Selected Folder and Subfolders. 3 / 15 Slef Organizing Map

90 SOM Toolbox demo Společně projdeme demo skripty, které ukazují všechny možnosti SOM Toolboxu. Pokud si někdy nebudete vědět rady, projděte si tato dema znovu a většinou v nich najdete, co potřebujete. Dema spoustíte příkazy som_demo1, som_demo2, som_demo3 a som_demo4. 4 / 15 Slef Organizing Map

91 Načtení dat Načtěte data pomocí load ionosphere. This radar data was collected by a system in Goose Bay, Labrador. This system consists of a phased array of 16 high-frequency antennas with a total transmitted power on the order of 6.4 kilowatts. The targets were free electrons in the ionosphere. Good radar returns are those showing evidence of some type of structure in the ionosphere. Bad returns are those that do not; their signals pass through the ionosphere. Normalizujte data pomocí data = som_normalize(x) 5 / 15 Slef Organizing Map

92 SOM příklad učení Vytvořte náhodně inicializovanou mapu pomocí som_randinit. Pokud potřebujete vytvořit prázndou mapu, použijte som_map_struct. map = som_randinit(x, 'msize', [10 8], 'lattice','hexa') Pro trénování použijte som_batchtrain(map, data) (druhá možnost je som_seqtrain). Variantou je použití funkce som_make, která vytvoří SOM síť, inicializuje ji a naučí ji. 6 / 15 Slef Organizing Map

93 PCA vizualizace dat Zobrazení dat pomocí PCA Výpočet PCA hodnot: tmp = pcaproj(data, 2) Zobrazení scatter(tmp(:,1), tmp(:,2)) Barevné rozlišení tříd: y = cell2mat(y) scatter(tmp(y == 'k',1), tmp(y == 'k',2), 'ok') hold on scatter(tmp(y == 'g',1), tmp(y == 'g',2), '+r') 7 / 15 Slef Organizing Map

94 SOM vizualizace Zobrazte U-Matici som_show. som_show(map, 'umat', 'all'). Jak zobrazit, který neuron je reprezentantem pro která data? Musíme použít som_show_add a k U-Matici přidat informace o počtu a typu dat. Nejprve je potřeba zjistit, který neuron je BMU pro které vstupní instance. K tomu slouží som_hits. h1 = som_hits(map, data(y == 'g', :)); h2 = som_hits(map, data(y == 'k', :)); som_show_add('hit', h1, 'MarkerColor', [1 0 0]); som_show_add('hit', h2, 'MarkerColor', [0 1 0]); 8 / 15 Slef Organizing Map

95 Zadání domácího úkolu Pomocí SOM vytvořte shluky dodaných dokumentů. Dokumenty obsahují zprávy z několika diskusních fór. Každé fórum má jeden adresář a každá zpráva v něm je jeden soubor. Ze stránek předmětu (cvičení) stáhněte tato data. Z dokumentů extrahujte důležitá slova a příznakové vektory pomocí rozšíření rapidmineru pro textmining. (bude náplní dalšího cvičení). Takto extrahovaná data uložte do CSV souboru. 9 / 15 Slef Organizing Map

96 Zadání domácího úkolu (2) Tento CSV soubor načtěte do MATLABu pomocí funkce dlmread (nebo podobné). Pomocí SOM Toolboxu shlukněte načtená data a pomocí různých vizualizací zobrazte výsledky shlukování. Pro počítání vzdáleností použijte Kosínovou metriku. Učiňte závěry, zda se dokumenty v jednotlivých fórech podobají nebo ne. 10 / 15 Slef Organizing Map

97 Nastavení textminingu Tokeny (slova) jsou odděleny znaky, která nejsou písmena. Doporučuji, abyste vyfiltrovali příliš krátká slova (řekněme kratší než 5 znaků) a často se vyskytující slova (stopwords) předložky, spojky,... Pro hledání kořenů slov použijte Porterův algoritmus. Volitelně můžete zkusit zkusit zkontruovat n-gramy (tokeny sestávající se z více slov) doporučuji maximálně 3 slova. Také doporučuji odstranit slova, která se vyskytují příliš řídce (příliš málo -krát). 11 / 15 Slef Organizing Map

98 Obsah zprávy Zpráva bude obsahovat: Popis proudu v Rapidmineru, kterým jste vyextrahovali příznaky z dokumentů a jeho screenshot (alespoň důležité části). Popis postupu, jakým jste vytvořili SOM síť a její vizualizace. Vytvořené vizualizace a jejich popis. Závěr o tom, zda se příspěvky v diskusních fórech podobají nebo ne. 12 / 15 Slef Organizing Map

99 Užitečné příkazy SOM Toolboxu som_demo1, som_demo2, som_demo3, som_demo4 som_randinit som_make som_quality som_show Kompletní dokumentaci všech funkcí naleznete na package/docs2/somtoolbox.html 13 / 15 Slef Organizing Map

100 Užitečné zdroje o Textminingu Pokud se chcete podívat, jak se textmining provádí v Rapidmineru, doporučuji následující sérii videí: Video přednáška o Textminingu 14 / 15 Slef Organizing Map

101 Užitečné zdroje o Textminingu (2) /01/Tutorial_Marko.pdf TextMining.pdf 15 / 15 Slef Organizing Map

102 Vytěžování dat, cvičení 7: Textmining Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 24 Textmining

103 Základní kroky pro text mining 1. Získání dokumentů a nahrání do Rapidmineru (či jiného SW) 2. Tokenizace (rozklad textu na jednotlivá slova) 3. Odfiltrování častých a nezajímavých slov 4. Převod slov na kořeny slov (stemming) Převod na jednotná čísla Převod různých časování/způsoby/vidy na infinitivy Převod mezi různými variantami slov (příslovce, přídavná jména podstatná jména). 5. Vytvoření word vectoru. (Převod slov na čísla). 6. Tvorba modelu. 2 / 24 Textmining

104 Instalace rozšíření pro Textmining Standardní instalace Rapidmineru neobsahuje rozšíření pro Textmining. Musíte nainstalovat rozšíření, ale naštěstí je to velmi jednoduché :). Z menu Help vyberte Update RapidMiner. Zde zaklikněte Text Processing a Web Mining. A klikněte na Install. 3 / 24 Textmining

105 Získání dokumentů a nahrání do Rapidmineru Existuje několik uzlů, pro nahrávání dat do RapidMineru. Pro naše účely, kdy máme dokumenty různých typů v různých složkách, nejlépe vyhovuje uzel Text Processing > Process Documents from Files. Jedná se o super-uzel, který bude obsahovat pod-proud transformující dokumenty na číselné vektory. 4 / 24 Textmining

106 Extrakce textů z HTML První krok je extrakce textů z HTML (resp. odstranění HTML tagů). Pro to budete potřebovat uzel Extract Content > HTML Processing > Extract Content. 5 / 24 Textmining

107 Tokenizace Rozklad na jednotlivá slova. Slova se rozdělují typicky podle ne písmenek. Takto získaná slova se označují jako termy. V Rapidmineru existuje uzel Tokenize, který najdete Text Processing > Tokenization > Tokenize. Možnosti rokladu na slova jsou: non-letters, specify-characters, regular expression, linguistic tokens, linguistic token. 6 / 24 Textmining

108 Tokenizace (2) Zkuste spustit proud nyní. Výsledkem bude word objekt, který si můžete prohlédnout. Uvidíte počty slov podle typů dokumentů. A také celkový počet slov. Každé slovo nakonec bude reprezentovat vstupní proměnnou. 7 / 24 Textmining

109 Filtrování častých a nezajímavých slov Protože vstupních proměnných bude i tak moc, je vhodné některé z nich eliminovat. První způsob je filtrování obvyklých a nezajímavých slov. V Rapidmineru se to děje uzlem Text Processing > Filtering > Filter Stopwords (English). Tím z dokumentu odstraníte termy (slova), která se v angličtině vyskytují příliš často. Například spojky, běžná slovesa, předložky, apod... Uzel v Rapidmineru obsahuje seznam předdefinovaných slov. 8 / 24 Textmining

110 Filtrování častých a nezajímavých slov (3) Stejně tak může (ale nemusí) být dobrý nápad vyfiltrovat slova, která jsou příliš dlouhá nebo příliš krátká. K tomu slouží Text Processing > Filtering > Filter Tokens (by Length). 9 / 24 Textmining

111 Převod slov na kořeny slov Stemming Exituje několik způsobů, jak najít kořen slova. Například hrubou silou tj tabulka mapující každé slovo a každý jeho tvar na odpovídající kořen. Jeden z dalších používaných algoritmů (pro Angličtinu) je tzv. Porterův algoritmus. Iterativně odebírá známé koncovky anglických slov. Má seznam přípon a ty se pokouší postupně odebrat (pokud to lze). Například HOPEFULNESS HOPEFUL HOPE / 24 Textmining

112 Převod slov na kořeny slov Stemming (2) 11 / 24 Textmining

113 Kombinace slov - N-Grams Někdy se v dokumentech vyskytují zajímavé kombinace (po sobě jdoucích) slov. N-Gram je term, který obsahuje posloupnost term maximální délky N. Uzel Text Processing > Transformation > Generate n-grams (Terms) vygeneruje vsechny kombinace termů. 12 / 24 Textmining

114 Kombinace slov 13 / 24 Textmining

115 Vlastnosti uzlu Process Documents from Files Jednak umožňuje zahodit málo (nebo moc) často se vyskytující termy (slova a n-gramy). Jednotlivé možnosti vybíráte combo-boxem Prune method. Další důležitá věc je zaškrtnout Create word vector. A vybrat vhodnou metodu pro Vector creation. 14 / 24 Textmining

116 Vytvoření word vectoru Nyní máme slova (termy) a jejich počty v jednotlivých dokumentech. Před předložením shlukovací (či jakékoliv jiné) metodě je potřeba tyto počty nějak přetransformovat. V Rapidmineru jsou na výběr následující možnosti: Term Frequency normalizovaný počet výskytů termu počet výskytu termu ( celkový počet termů ) Term Occurences Binary Term Occurences TF-IDF 15 / 24 Textmining

117 Term Frequency - Inverse Document Frequency Míra ukazující, jak moc je term specifický pro daný dokument. Zahrnuje v sobě dvě části Term Frequency a Inverse Document Frequency. Term Frequency je definován takto: tf(t) = počet výskytu termu celkový počet termů 16 / 24 Textmining

118 Term Frequency - Inverse Document Frequency (2) Inverse Document Frequency ukazuje, jak často se vyskytuje term v ostatních dokumentech. idf(t) = log D Celkový počet dokumentů. D {d : t d} {d : t d} Počet dokumentů, ve kterých se term t vysktytuje. 17 / 24 Textmining

119 Term Frequency - Inverse Document Frequency (3) Term Frequency - Inverse Document Frequency nakonec získáme, když tyto dvě míry vynásobíme. td idf(t, d) = tf(t, d) idf(t) 18 / 24 Textmining

120 Export dat do CSV a import do MATLABu V RapidMineru bohužel nejsou žádné vhodné shlukovací metody. Čili použijeme Matlab a SOM toolbox. K exportu z RapidMineru lze použít uzel Export > Data > Write CSV Abychom se nemuseli trápit v Matlabu s načítáním ošklivých hodnot, můžeme využít uzlu Export > Data > Write CSV k odstranění sloupců, které obhashují nečíselná a pomocná data. V mém případě jde o sloupce: Description, Keywords, Language, Robots, Title, label, metadata_date, metadata_file, metadata_path. Pro import použijeme v MATLABu funkci importdata. 19 / 24 Textmining

121 Shlukování v SOM toolboxu Vytvoření a naučení SOM mapy: map = som_make(x.data); Zobrazení UMatice: som_show(map, 'umat','all') Jak to dopadlo? 20 / 24 Textmining

122 UMatice se zobrazenými třídami dokumentů 21 / 24 Textmining

Zobrazit více