Sem vložte zadání Vaší práce.

Transkript

1 Sem vložte zadání Vaší práce.

2

3 České vysoké učení technické v Praze Fakulta informačních technologií Katedra teoretické informatiky Diplomová práce Detekce hromadných ů Bc. Ondřej Kučera Vedoucí práce: Ing. Tomáš Siegl 6. května 2014

4

5 Poděkování Rád bych poděkoval svým rodičům za podporu při studiu a Ing. Tomáši Sieglovi za spoluprácí během vypracovávání mé práce.

6

7 Prohlášení Prohlašuji, že jsem předloženou práci vypracoval(a) samostatně a že jsem uvedl(a) veškeré použité informační zdroje v souladu s Metodickým pokynem o etické přípravě vysokoškolských závěrečných prací. Beru na vědomí, že se na moji práci vztahují práva a povinnosti vyplývající ze zákona č. 121/2000 Sb., autorského zákona, ve znění pozdějších předpisů. V souladu s ust. 46 odst. 6 tohoto zákona tímto uděluji nevýhradní oprávnění (licenci) k užití této mojí práce, a to včetně všech počítačových programů, jež jsou její součástí či přílohou a veškeré jejich dokumentace (dále souhrnně jen Dílo ), a to všem osobám, které si přejí Dílo užít. Tyto osoby jsou oprávněny Dílo užít jakýmkoli způsobem, který nesnižuje hodnotu Díla a za jakýmkoli účelem (včetně užití k výdělečným účelům). Toto oprávnění je časově, teritoriálně i množstevně neomezené. Každá osoba, která využije výše uvedenou licenci, se však zavazuje udělit ke každému dílu, které vznikne (byť jen zčásti) na základě Díla, úpravou Díla, spojením Díla s jiným dílem, zařazením Díla do díla souborného či spracováním Díla (včetně překladu), licenci alespoň ve výše uvedeném rozsahu a zároveň zpřístupnit zdrojový kód takového díla alespoň srovnatelným způsobem a ve srovnatelném rozsahu, jako je zpřístupněn zdrojový kód Díla. V Praze dne 6. května

8 České vysoké učení technické v Praze Fakulta informačních technologií c 2014 Ondřej Kučera. Všechna práva vyhrazena. Tato práce vznikla jako školní dílo na Českém vysokém učení technickém v Praze, Fakultě informačních technologií. Práce je chráněna právními předpisy a mezinárodními úmluvami o právu autorském a právech souvisejících s právem autorským. K jejímu užití, s výjimkou bezúplatných zákonných licencí, je nezbytný souhlas autora. Odkaz na tuto práci Kučera, Ondřej. Detekce hromadných ů. Diplomová práce. Praha: České vysoké učení technické v Praze, Fakulta informačních technologií, 2014.

9 Abstrakt Tato diplomová práce se zabývá shlukovacími algoritmy a jejich možnostmi analyzovat y ve free mailové službě Seznam.cz s cílem identifikovat hromadné zprávy. Práce také popisuje návrh, implementaci a výpočetní náročnost supervizovaného modelu pro následnou klasifikaci hromadných zpráv. Klíčová slova příznaky u shlukovací algoritmy, , spam, newsletter, klasifikace, Abstract The master thesis deals with clustering algorithms and their ability analyze s in fre service Seznam.cz with goal identify mass s. There is also described the design, the implementation and computational complexity of supervised model for clasification of mass s. Keywords features clustering algorithms, , spam, newsletter, clasification, ix

10

11 Obsah Úvod 1 1 Problém hromadných ů Fre ové služby Hromadné y Příznaky Příznaky ů Selekce a extrakce příznaků Selekce příznaků Extrakce příznaků z textu Shlukovací algoritmy Hierarchické shlukovací algoritmy Rozdělovací metody Hybridní postupy Metody s pravděpodobnostním modelem Metody založené na hustotě Neuronové sítě Problémy shlukování velkých dat Klasifikační algoritmy Metoda k-nejbližších sousedů (k-nn) Naivní bayes Rozhodovací lesy Hodnocení shlukovacích a klasifikačních algoritmů Externí míry Interní míry xi

12 7 Návrh řešení detekce hromadných ů Výběr vektoru příznaků Výběr shlukovacího algoritmů Výběr klasifikačních algoritmů Výběr technologií pro zpracování dat Realizace detekčního systému Určení vektoru příznaků Ověření kvality příznaků Realizace vybraného shlukovacího algoritmu Realizace klasifikačního modelu Závěr 51 Literatura 53 A Seznam použitých zkratek 57 B Obsah přiloženého CD 59 xii

13 Seznam obrázků 3.1 Porovnání filter a wrapper metod Projekce více dimenzionálních dat do prostoru s menší dimensionalitou Příklad dendogramu při hierarchickém shlukování Detekcé shluků pomocí jejich hustoty Znázorněné typy bodů a jejich závislosti v algoritmu DBSCAN Možné struktury uspořádání neuronů s definicí okolí R vítězného neuronu Příklad vizualizované projekce sítě neuronů Rozhodovací strom Množina prvků rozdělená při klasifikaci do 4 podmnožin Shluková soudržnost Shluková separace Obrysový koeficient Datový tok MapReduce Porovnání počtu vytvořených shluků při běhu algoritmu s různou velikostí vektorů příznaků Růst časové náročnosti shlukování s růstem velikostí dat Změna úplnosti (recall) a přesnosti (precision) na základě změny počtu příznaků pri testování modelu random forest Změna úplnosti (recall) a přesnosti (precision) na základě změny počtu rozhodovacích stromů při testování modelu random forest Vzrůstající časová náročnost klasifikace vzhledem k rostoucímu počtu vzorků xiii

14

15 Seznam tabulek 3.1 Kontingenční tabulka Hodnoty poměrného informačního zisku příznaků Testování vektoru příznaků o velikosti Testování vektoru příznaků o velikosti Hledání parametru ɛ pro algoritmus DBSCAN s vektorem příznaků o velikosti Hledání parametru ɛ pro algoritmus DBSCAN s vektorem příznaků o velikosti Výpočetní náročnost shlukovacího algoritmu vzhledem k rostoucímu počtu datových prvků Hledání vhodného parametru počtu stromů pro model random forest Hledání vhodného parametru počtu klasifikačních stromů pro model random forest Výpočetní náročnost vzhledem k rostoucímu počtu datových vzroků. 50 xv

16

17 Úvod je obecně používaná a velmi rozšířená služba, která je využívána nejen pro soukromé, ale i pro podnikové účely. Denně se celosvětově zpracuje obrovské množství ů. Mezi běžnou uživatelskou komunikací se nacházejí i tzv. hromadné y. Pod tímto názvem si můžeme představit ový spam, newsletter, informační y od zaměstnavatele a další y. Hromadné y lze rozdělit do dvou skupin, vyžádané a nevyžádané. Je zřejmé, že uživatel nechce být upozorňován na nevyžádané y, ale zároveň by uživatel mohl uvítat oddělení běžné pošty, kterou obdrží od hromadných ů, které si vyžádal. A právě tato funkce by mohla být jedna z možných aplikací této práce. Přijímání hromadných ů, a to především těch nevyžádaných, stojí ať už síťové a nebo lidské zdroje, které mohou, nejen firmy, stát ročně nemalé prostředky. Proto je důležité se zabývat možnostmi, jak předcházet zbytečným čerpání těchto zdrojů. Jedno z řešení jak rozpoznat tyto y je strojová analýza. V případě rozpoznávání hromadných ů, se jedná o nelehký problém, především protože dopředu neznáme počet skupin ů nebo-li shluků, které sdílejí podobnou charakteristiku. Cílem práce je vytvoření nesupervizovaného modelu, který bez znalosti počtu shluků vytvoří výslednou množinu dat pro následné vytvoření supervizovaného klasifikátoru, který bude hromadné y rozpoznávat. Práce se skládá z teoretické části, která je shrnuta v prvních šesti kapitolách. Je zde popsán problém hromadných ů a jeho definice, dále jsou zmíněny postupy pro získávání příznaků z ů, analýza shlukovacích a klasifikačních algoritmů a v neposlední řadě způsoby jejich hodnocení. Sedmá kapitola je zaměřena na návrh řešení problému. Jsou v ní diskutovány zmíněné varianty řešení a zdůvodněny rozhodnutí pro jednotlivé algoritmy. V návrhu je také obsaženo vysvětlení, proč bylo přistoupeno při realizaci k jednotlivým technologiím a také jejich popis. Osmá kapitola se věnuje samotné realizaci jednotlivých modelů, ověření kvality příznaků a nesupervizovaného shlukování 1

18 Úvod a vytvoření supervizovaného modulu. Celá práce je v závěru zhodnocena. 2

19 Kapitola 1 Problém hromadných ů Tato kapitola se zabývá úvodem do problematiky fre ových služeb, hromadných ů a jejich charakteristik. 1.1 Fre ové služby je stále jedna ze současných elektronických komunikačních služeb, pro doručování a přijímání zpráv využívá protokol SMTP. Fre je veřejně dostupná internetová služba, která obsahuje všechny potřebné komponenty pro příjem, přenos a ochranu elektronické pošty a zároveň nabízí zdarma všem uživatelům ovou schránku. Jedni z nejrozšířenějších poskytovatelů jsou služby Gmail.com, Yahoo.com, Outlook.com, v České republice to jsou zejména Seznam.cz a Centrum.cz. K této práci budou poskytnuty data právě z České fre ové služby Seznam.cz. Díky velké rozšířenosti této služby a relativně velkému počtu uživatelů může být zajištěno dostatečné množství dat pro konstrukci potřebných modelů. 1.2 Hromadné y Do schránek uživatelů fre ové služby, mohou být zasílány y od všech uživatelů, kteří znají uživatelovu adresu a jsou připojeni k internetu. To nepředstavuje větší problém, pokud se mezi uživateli realizuje pouze běžná uživatelská komunikace, ale mezi standardními zprávami jsou také přítomný hromadné y. Hromadné y jsou charakterizovány například, stejným nebo alespoň velmi podobným obsahem zpráv či předmětem zpráv, stejným odesílatelem, dobou doručení, která je v malém časovém intervalu a dalšími vlastnostmi. Jejich důsledkem může být způsobeno značné zatížení linky, přes kterou proudí 3

20 1. Problém hromadných ů data. Jako hromadný bývá většinou označen spam 1. Ovšem hromadný nemusí sloužit jen jako negativní věc. Hromadným em může být také označena skupinová zpráva všem zaměstnancům společnosti nebo informační newsletter, který si uživatel přeje odebírat. Ale pokud není tato komunikace uživatelem vyžádána, tak může zásadně znepříjemňovat práci s y. Tento jev je jeden ze základních důvodů, proč by se fre ové služby měly snažit klasifikovat hromadné y a případné nevyžádané nedoručovat přímo do schránek uživatelů. [7] 1 Spam: nevyžádaná informace, vytvořená pro velký počet příjemců, šířená internetem. 4

21 Kapitola 2 Příznaky Příznaky jsou prvky, které definují určité vlastnosti ů, popřípadě jiného objektu. Pomocí nich se snažíme o abstrakci zvolených objektů. Reprezentace pomocí příznaku se často využívá, protože je nemožné a ve většině případech i nežádoucí postihnout všechny vlastnosti, které objekt obsahuje. Je možné se setkat s různým názvoslovím příznaků, např. atributy, proměnné, features, atd. V této práci bude použito pojmenování příznaky. Příznaky se získávají zpracováním surových dat. Většinou v datech mohou být chyby, některé záznamy mohou být vynechány, data nemusí mít stejný formát apod. Proto je velmi důležité předzpracování dat, které někdy může být časově náročnější než samotné vytvoření modelu. Předzpracování dat by se měla věnovat nemalá pozornost, jelikož výsledek každé práce s daty, závisí na vstupech a pokud je vstup špatný, tak je i jeho výsledek nevyhovující. Do předzpracování dat se řadí i selekce a extrakce příznaků, které budou zmíněny v kapitole 3. Hodnoty příznaků mohou být kvantitativní nebo kvalitativní. Kvantitativní určují hodnotou určité množství a kvalitativní definují určitou vlastnost. Zde jsou čtyři základní typy reprezentací příznaků: [13] Nominální: obsahuje jména nebo kategorie pro kvalitativní hodnoty (např. národnost, pohlaví, práce,...) Ordinální: má stejné vlastnosti jako nominální s výjimkou smysluplného pořadí prvků (např. spokojenost 1-5) Numerické: jsou vyjádřena číselnou hodnotou, diskrétní x spojité Intervalové: jsou čistě číselné proměnné, které většinou mají několik ohraničených intervalů 5

22 2. Příznaky 2.1 Příznaky ů Při získávání příznaků z dat musíme být obezřetní co se týče smysluplnosti příznaků, podobnosti a dalších vlastností jako je např. jejich celkový počet. Jedním z důležitých a nesnadných kroků při vytváření příznaků je ověření jejich užitečnosti pro zpracování a následná selekce podmnožiny těch nejlepších. Některé z postupů nalezení kvalitních příznaků budou naznačeny v následující kapitole. V případě u máme na výběr z velkého množství příznaků jako jsou například: Nestrukturovaný text: text zprávy, předmět u, URL domény hyperlinků,... Nominální: příjemce zprávy, odesílatel zprávy, výskyt přílohy, formát zprávy (text, html,... ), výskyt obrázků, výskyt podezřelých slov (na základě slovníků), zpětná vazba od uživatelů (zda se jedná o hromadný ),... Numerická: délka textu zprávy, počet příloh, počet hyperlinků v textu,... Tento seznam není vyčerpávající, jistě by se dalo najít nebo vytvořit mnohem více příznaků. [13] 6

23 Kapitola 3 Selekce a extrakce příznaků Selekce a extrakce příznaků jsou důležité metody z hlediska určení či vytváření kvalitních příznaků. Díky nim lze také eliminovat tzv. prokletí dimenzionality 2. To znamená efektivně redukovat množinu příznaků s co nejmenší ztrátou informací o daném objektu, a tím přispět k snížení časové náročnosti shlukovacích algoritmů. Redukcí počtu příznaků, také eliminujeme nepodstatné a přebytečné parametry, které by mohly mít negativní vliv na výsledek. [19] 3.1 Selekce příznaků Při selekci příznaků se pokoušíme explicitně vybrat příznaky z originálních dat. Příznaky tedy neměníme ani nekombinujeme. Stavový prostor všech kombinací příznaků roste exponenciálně s jejich množstvím (tzv. růst dimenzionality). V publikaci od Edoardo Amaldi a Viggo Kann [2] bylo dokázáno, že problém hledání správné podmnožiny je pro lineární systémy NP těžký problém. Proto je vhodné zvolit ověřenou heuristiku. Metody selekce příznaků se rozdělují do tří skupin: Wrapper metody: Prohledávají prostor všech podmnožin příznaků a jejich kvalitu testuje na testovacích datech pomocí zvoleného shlukovacího algoritmu a např. cross-validace. Wrapper metody většinou dosahují lepších výsledků než filter metody, protože jsou použity se specifickým algoritmem a daty. S pomocí cross-validaci se metody mohou vyhnout přeučení. Nepříznivý efekt použití cross-validace je následný pomalý výpočet. Filter metody: Vybírají podmnožinu příznaků nezávisle na algoritmu, který s nimi bude pracovat. Výstupem většinou bývají seřazené příznaky. Tyto metody jsou mnohem rychlejší, než wrapper metody, ale 2 Jev, při kterém vzrůstající počet příznaků výsledek klasifikace spíše zhoršuje, než zlepšuje a zároveň se zvyšují nároky na výpočetní výkon. [22] 7

24 3. Selekce a extrakce příznaků Obrázek 3.1: Porovnání filter a wrapper metod [9] ne vždy naleznou nejvhodnější podmnožinu. Jednou z nevýhod je tendence označovat jako vybranou podmnožinou celou množinu příznaků, proto je dobré určit horní hranici jejich počtu. Emmbedded metody: Selekce neprobíhá ve fázi předzpracování, ale při běhu algoritmu se určuje, které příznaky se budou využívat. Příklad může být algoritmus konstrukce rozhodovacích stromů (např. ID3). Prohledávání prostoru podmnožin příznaků, se většinou realizuje, buď dopředným nebo zpětným generováním. Pro generování se může použít například tzv. metoda brute-force (postupné procházení všech kombinací podmnožin), metoda náhodného výběru, heuristiky (například hill-climbing, best-first-search, atd.) nebo evoluční algoritmy. Protože wrapperové metody závisí na zvolených shlukovacích algoritmech a některé z nich jsou popsány v kapitole 4., tak v následujících podkapitolách budou představeny pouze filter metody. [24] [14] Informační zisk Na informační zisk (information gain) lze nahlížet spíše jako na míru než metodu. Důležitou součástí výpočtu informačního zisku je entropie. Hodnota 8

25 3.1. Selekce příznaků entropie pro náhodnou proměnnou X je definována takto H(X) = i P (x i )log 2 (P (x i )). (3.1) Stejně tak lze definovat entropii proměnné Y za předpokladu pozorování hodnoty X H(Y X) = j P (x j ) i P (y i x j )log 2 (P (y i x j )). (3.2) Z vyjádřených vzorců 3.1 a 3.2 můžeme následně získat výslednou hodnotu informačního zisku (IG) redukcí cílového atributu Y za předpokladu volby X. IG(Y ; X) = H(Y ) H(Y X) (3.3) Čím vyšší je výsledná hodnota IG, tím více jsou schopny hodnoty příznaků rozdělit objekty do tříd. To znamená, že největší informační zisk budou mít příznaky s hodnotami, pro které existuje pouze jedna třída. Jednou z vlastností informačního zisku je symetričnost. Je tedy možné IG(Y ; X) zapsat jako IG(Y ; X) = IG(X; Y ) (3.4) Základní varianta má však jednu nevýhodu, protože nebere v úvahu počet hodnot v příznaku. Proto je dobré do vzorce přidat entropii zkoumaného příznaku a zavést tak poměrný informační zisk (infromation gain ratio) IGR(Y ; X) = IG(Y ; X)/H(X), (3.5) který nabývá hodnot v intervalu od 0 do 1. [24] Relief Princip metody je přičítání váhy ke každému příznaku počítané nad trénovacími daty. Příznak s finální váhou, která je větší než zvolená hranice, je vybrán do finální podmnožiny příznaků. W = W diff(x, nearhit) 2 + diff(x, nearmiss) 2 (3.6) Množina nearhit ve vzorci 3.6 představuje prvky, které jsou podle zvolené míry nejblíže náhodně zvolenému prvku X a zároveň patří do stejné třídy. Množina nearm iss obsahuje také prvky nejblíže prvku X, ale nesmějí být zařazeny ve stejné třídě. Základní myšlenka výpočtu spočívá v předpokladu, že rozdíl prvků nearhit od bodu X by měl být minimální a naopak rozdíl prvků v množině nearmiss k prvku X větší, což má za následek postupný růst váhy. Ovšem pokud jsou příznaky irelevantní, tyto vzdálenosti budou většinou totožné a váha nebude narůstat. Nevýhodou je, že pokud je většina příznaků relevantních, tak je vybírána tato většina a nedosáhne se cílené redukce dimenzionality. 9

26 3. Selekce a extrakce příznaků Tabulka 3.1: Kontingenční tabulka [24] y/x y [1]... x [s] n j x [1] n n 1s n x [r] n r1... n rs n r n k n 1... n s n Pseudokód [14]: selectedsubset = {} all featurew eight = 0 for i = 1; i < number of features; i++ do - get one instance X from the training data set D - get nearhit H = instance in D where dist(x, H) is closest AND X.class = H.class - get nearmiss M = instance in D where dist(x, M) is closest AND X.class <> M.class - update weightage for all features: featurew eight = featurew eight - diff(x, h)2 + diff(x, m)2 end for for j = 1; j < number of features; j++ do if featurew eight >= Treshold then add featurej to selectedsubset end if end for Základní verze metody je omezena na binární data, existuje však odvozená verze ReliefF pro více-třídní data. [24] X 2 test X 2 nám poskytuje informaci o míře závislosti proměnných. V tomto případě příznaku X a výsledné proměnné Y. Metoda testuje nulovou hypotézu H 0, která předpokládá vzájemnou nezávislost obou proměnných. Hodnota testu se vypočte pomocí vzorce 3.7 a jednotlivé hondoty jsou vyznačeny v kontingeční tabulce 3.1. r s X 2 (n jk n jn k n = )2 n j n k (3.7) n j=1 k=1 H 0 je zamítnuta na asymptotické hladině významnosti α, pokud X 2 X1 α 2 ((r 1)(s 1)). To znamená, že čím vyšší hodnota, tím jsou prvky navzájem vice závislé. 10

27 3.2. Extrakce příznaků z textu 3.2 Extrakce příznaků z textu Extrakce příznaků vytváří zcela nové, upravené příznaky z originálních dat. Na rozdíl od selekce příznaků, která příznaky pouze vybírá. Typicky jsou získané příznaky lineární kombinací těch originálních. V této podkapitole je diskutována extrakce příznaků zaměřená pouze na text. Textová data mají své specifické vlastnosti, proto k nim musíme zaujmout zvláštní přistup. Jedna z typických vlastností je velká dimenzionalita a řídkost dat. To je způsobeno množstvím slov ve slovnících a zároveň relativně malým počtem různých slov v dokumentu. Tento problém může být ještě větší, pokud se pracuje pouze s krátkými texty (věty apod.). Další jedinečná vlastnost se může projevit, pokud je slovník dokumentů velký. To může mít za následek vzájemnou korelaci slov, protože se ve slovníku mohou vyskytovat také synonyma. Všechny zmíněné rysy by měly být zahrnuty v návrhu algoritmu. Důležité pojmy při používání modelů je kolekce, která reprezentuje množinu všech dokumentů a každý dokument v kolekci má svou jedinečnou identifikaci. Dalším pojmem je slovník, kde jsou uloženy všechny termy v kolekci. Pod slovem term se skrývá většinou jedno slovo dokumentu (může jít také o n-gramy 3 ). Každý term má své jedinečné id a obvykle je ve slovníku 10 4 až Dokument je reprezentován množinou jedinečných termů, kterých bývá obvykle kolem 10 2 až Pro reprezentaci dokumentů lze zvolit ze dvou modelů, booleovským a vektorovým. V booleovském modelu je dokument reprezentován jako vektor, obsahující jedničky a nuly, např. d j =< 0 1, 0 1, 0 1,..., 0 1 >. A kolekce je množina těchto dokumentů. Takže booleovský model může být reprezentován jako řídká binární matice. Pro implementace tohoto modelu se volí invertovaný index. To znamená, že je matice tvořena jako seznam s identifikací dokumentů pro každý term Ohodnocení termů pomocí tf-idf Dokument je reprezentován pomocí matice termů s velkou dimenzionalitou. Vektorový model je reprezentován jako matice vah termů, které jsou obsaženy v dokumentu. Váhy jsou počítány z frekvence termů v dokumentu f ij. Pokud se v matici vyskytuje nula, znamená to, že term není v dokumentu obsažen. Počet výskytů termů v dokumentu může být velmi různý, proto je důležité normalizovat hodnoty na základě počtů výskytů v dokumentu a také v kolekci, aby některé termy nebyly zanedbány. Frekvence termů je tedy vyjádřena jako normalizovaná hodnota maximálního výskytu v kolekci. tf ij = f ij max(f ij ) (3.8) 3 posloupnost slov 11

28 3. Selekce a extrakce příznaků Dalším parametrem při výpočtu vah je inverzní frekvence dokumentů termů vyjádřena vzorcem 3.9. ( ) n idf i = log 2 (3.9) tf i Výsledná váha je tedy ( ) n w ij = tf ij idf i = tf ij log 2. (3.10) dfi Pokud má term velkou výslednou váhu znamená to, že je velmi často zastoupen v jednom z dokumentů, ale ne tak často v jiných. Pro implementaci je použit invertovaný index. Výsledek podobnosti dokumentů záleží na definované podobnostní funkci. Výhodou řešení výpočtu vah s tf idf je, že dokáže jednoduše filtrovat frekventovaná slova, která nechceme použít pro shlukování a také reagovat na případné překlepy, gramatické chyby, apod., které jsou u psaného textu běžné. [21] [3] LSI Metoda LSI (Latent semantic indexing) pracuje se singulárním rozkladem matice. Má schopnost korelovat sémanticky související termy, které jsou skryté v kolekci dokumentů. To znamená, že dokáže odhalit nové souvislosti a tak zpřesnit výsledky shlukování. Může výrazně přispět k řešení problému se synonymy a slovy s více významy. Klíčovým rysem LSI je jeho schopnost extrahovat obsah textu a vytvářet vztahy mezi termy, které se vyskytují v obdobných souvislostech. Metoda pracuje na principu používání stejných významových slov v podobných souvislostech. Pro výpočet se používá singulární rozklad matic, který je znázorněný vzorcem A = USV T (3.11) A je matice vah termů v dokumentech o velikost m x n, m je číslo unikátních termů a n číslo dokumentů. U je ortogonální matice termů velikosti m x r, S je diagonální matice velikosti r x r, na jejíž diagonále jsou vlastní čísla matice a podle velikosti jejich hodnot se vybírají vzniklé termy pro reprezentaci dokumentu. V je ortogonální matice vektorů dokumentů velikosti r x n. Parametr r se stanovuje podle toho, jak moc chceme redukovat dimenzi příznaků. Jeho velikost však musí splňovat podmínku r min(m, n). Následně můžeme sestavit nové vektory dokumentů z matice V r a také dotazovací vektor q. q = q T U r S 1 r (3.12) Z těchto hodnot můžeme následně počítat podobnosti dokumentů, podle zvolené podobnostní funkce. [3] 12

29 3.2. Extrakce příznaků z textu Obrázek 3.2: Projekce více dimenzionálních dat do prostoru s menší dimensionalitou [4] Analýza hlavních komponent (PCA) PCA (Principal component analysis) je metoda, která hledá lineární projekci více dimenzionálních dat do prostoru o menší dimenzionalitě. Vytváří se tedy lineární transformace původních příznaků na nové, které nejsou korelované a nazývají se hlavní komponenty. Jejich zásadní charakteristikou je, že rozptyl je roven příslušnému vlastnímu číslu a vychází se z předpokladu, že pokud má hlavní komponenta malý rozptyl, není schopna příliš přispívat k rozlišení mezi objekty. Při redukci původní demezionality velikosti d na velikost m transformujeme matici X s rozměry N x d, kde N je počet prvků, na matici Y s rozměry N x m. Y = XP (3.13) Ze vzorce 3.13 lze rozpoznat, že je nutné vyjádřit symetrickou kovarianční matici P s rozměry d x d, kde hodnota (i, j) reprezentuje kovarianci mezi dimenzí i a j. Nyní je nutné vyjádřit hodnotu kovarianční matice C Y z Y. C Y = E[(XP ) T (XP )] = E(P T X T XP ) = P T E(X T X)P = = P T C X P = P T P AP T P = A (3.14) A ve vzorci 3.14, značí diagonální matici. Na její diagonále jsou vlastní čísla, podle kterých lze vyberat m vlastních vektorů s nejvyšší hodnotou. [3] 13

30

31 Kapitola 4 Shlukovací algoritmy Shlukování je proces hledání prvků se společnými vlastnostmi, které splňují určitou míru podobnosti a vytvářejí tak oddělené skupiny tzv. shluky. Základní podmínkou pro všechny prvky patřící do určitého shluku je, aby si byly podobnější než objekty z jiných skupin. V dalších podkapitolách jsou uvedeny shlukovací algoritmy, které lze dělit podle několika kritérií: hierarchické, nehierarchické nebo algoritmy kombinující oba přístupy. Dále lze algoritmy rozdělit na hard (prvky patří striktně do jediného shluku) nebo soft shlukování (prvky patří s určitou pravděpodobností do různých shluků) a jistě lze najít i mnoho dalších rozdělení. Většina shlukovacích algoritmů je založena na hodnotě podobnosti a proto se musí dbát na vhodné vybrání podobnostní funkce, která měří vzdálenosti mezi objekty, jako jsou například euklidovská, manhattanská, kosinova, mahalanobisova vzdálenost a jiné. 4.1 Hierarchické shlukovací algoritmy Hierarchické shlukovací algoritmy se dělí na metody aglomerativní a divizní. Aglomerativní postupně agreguje prvky do shluků. Začíná se samotnými jedinci a postupně je spojuje do shluků podle podobnosti. Divizní metoda, naopak prvky z množiny ubírá. Na počátku jsou data kompletní a postupně jsou rozdělována do více shluků. Pro přidávání (rozdělování) prvků do shluků musí vždy existovat specifikovaná podmínka, například určení podle nejbližšího souseda, entropie, apod. Nevýhoda metod je, že musí být vždy určen počet shluků a nejsou robustní proti outlierům. Jednou z dalších nevýhod je, že pokud byly prvky jednou spojeny (rozděleny) v další fázi, nemohou být na základě jiných prvků znovu rozděleny (spojeny). Průběh shlukování i výsledné shluky můžeme reprezentovat pomocí dendogramu. Obecně je složitost O(n 3 ), ale v některých případech může byt i O(n 2 ). Existují různé principy pro hierarchické shlukování: 15

32 4. Shlukovací algoritmy Obrázek 4.1: Příklad dendogramu při hierarchickém shlukování [1] [5] [15] Single-linkage clustering (nejbližší bod): Počítá s největší podobností mezi dvěma páry. Výhodou je jednoduchost implementace. Nevýhodou je, že může dojít k problému zřetězení, kdy je pod A podobný s bodem B, bod B je podobný s bodem C, ale to neimplikuje, že je bod A podobný s bodem C. Group-Average Linkage Clustering: Podobnost mezi dvěma shluky je průměr podobnosti mezi páry prvků v obou shlucích. Je pomalejší než single-linkage clustering, ale vykazuje kvalitnější výsledky, protože nenastává jev zřetězení. Je možné algoritmus zrychlit pomocí aproximace, může se počítat jen s průměrným bodem ve shluku. Časová složitost tak může být redukována na O(n 2 ), kde n je počet jednotlivých prvků shluku. Complete-linkage clustering: Podobnost mezi dvěma shluky je definována jako nejhorší případ podobnosti mezi jakýmikoliv páry prvků ve dvou shlucích. Také má vlastnost se vyhýbat problému zřetězení, protože se vyhýbá vkládání rozdílných párů do jednoho shluku. a další 4.2 Rozdělovací metody U rozdělovacích metod (Partitioning clustering methods) jsou shluky reprezentovány jako centroidy. Centroidy nemusí být nutně body v datech. Algoritmus 16

33 4.3. Hybridní postupy tvoří všechny shluky v jedné iteraci a pak se jej snaží vylepšovat. Určení shluků může být zadáno jako optimalizační problém: Přiřaďte body k centroidům tak, aby součet všech vzdáleností bodů od příslušného centroidu umocněna na druhou byla co nejmenší. a podle této definice jde o NP těžký problém [8]. Proto hledáme raději aproximační řešení a to například pomocí Lloydovu algoritmu (k-means algoritmu), ale většinou algoritmus nalezne pouze lokální minima, proto se hledání provádí v iteracích a s různými počátečními body. Existují různé obměny k-means, které vybírají centroidy s jinými vlastnostmi jako medián, atd. Při zvolení k-medoid algoritmu, kde centroid je vždy vybrán z prvku dat. Musíme provést velký počet iterací. aby jsme nalezli požadované konvergované rozložení a také nepracují dobře s řídkými daty. K-means algoritmus definuje centroid v prostoru, to znamená, že nemusí byt v datech. Je zde zapotřebí relativně malý počet iterací, ale stále velmi záleží na počátečních zvolených centroidech. U shlukování pomocí k-means s velkými daty se často využívá předshlukování nebo-li hrubé určení počátečních centroidů namísto náhodného vybrání. Tato optimalizace dokáže urychlit vyhledávání. Velmi účinný je tzv. canopy clustering, který je výhodný použít spolu s technologií MapReduce, která bude přiblížena v kapitole 7. [15] [5] 4.3 Hybridní postupy Hierarchické přístupy jsou robustní a vyřešení úlohy může zabrat více času, na druhou stranu k-means algoritmy mohou být rychlejší, ale v některých případech méně přesné, protože mají tendenci spoléhat na náhodné inicializační prvky. Proto se snažíme o kombinaci obou metod, hierarchické i rozdělovací. Například hierarchické algoritmy lze dobře použít pro nalezení nejlepší inicializační množiny (např. buckshot, fractionation) pro k-means algoritmus. [15] [5] 4.4 Metody s pravděpodobnostním modelem Shluk je zde definován jako objekt patřící s pravděpodobností do nějaké distribuce. Složitější model většinou reprezentuje data lépe, ale používání tohoto typu metod klade na uživatele nárok vybrání správného modelu dat, což není jednoduché. Jedna z neznámějších metod je EM-shlukování, což je iterativní metoda, ve které se střídá krok E (expectation), ve kterém se vytvoří funkce pro odhad proměnných. Druhý krok se nazývá M (maximization), který vypočítá parametry maximalizující funkci nalezenou v předchozím kroku. U tohoto typu modelů může být použito jak hard shlukování, při kterém prvek patří vždy do distribuce, u niž má největší pravděpodobnost, tak soft 17

34 4. Shlukovací algoritmy Obrázek 4.2: Detekcé shluků pomocí jejich hustoty[18] shlukování. Největší nevýhodou metody je kvadratická výpočetní složitost. [15] 4.5 Metody založené na hustotě Metody jsou inspirovány přirozeným lidským rozpoznáváním shluků, kdy při pohledu na dvoudimenzionální prostor dokáže člověk rozlišit shluky podle hustoty rozmístění objektů vzhledem k hustotě rozmístění ostatních objektů. U těchto metod, jsou tedy shluky definovány jako oblasti s větší hustotou než zbytek prostoru a zároveň objekty v řídkých oblastech jsou obvykle brány jako šum. Jejich výhodou je, že nepotřebují mít určený počet shluků ani data označená třídou, do které patří. Shluky mohou zaujímat jakýkoliv tvar. Jedna z metod založená na hustotě je algoritmus DBSCAN (density-based spatial clustering of applications with noise). Pro její definici je nutno určit dva parametry a to minimální velikost shluků minp ts, pokud se hodnota určí malá, většina objektů bude tvořit shluk, naopak pokud bude velká, všechny objekty budou vyhodnoceny jako šum. Druhým parametrem je minimální hustotu shluků ɛ. V algoritmu jsou body rozděleny do tří typů: 18 Vnitřní body: Znázorněn bodem core point na obrázku 4.3 je umístěny uvnitř shluku. Všechny tyto body mají v dosahu více než jeden bod a zároveň vzájemná míra vzdálenosti s těmito body je menší nebo rovna než je stanovená hustota ɛ. Abychom body mohly označit za vnitřní, musí také platit podmínka, že počet takto vzájemně propojených bodů se alespoň rovná zadané hodnotě minp ts. Hraniční body: Bod borderpoint, který ohraničují shluk je tzv. densityreachable a sdílí s právě jedním bodem corepoint míru vzdálenosti menší nebo rovnu ɛ.

35 4.6. Neuronové sítě Obrázek 4.3: Znázorněné typy bodů a jejich závislosti v algoritmu DBSCAN [25] Body šumu: Jsou všechny ostatní body. Na obrázku 4.3 je reprezentován bodem noise point. Algoritmus vybírá náhodný objekt, který dosud nebyl označen za šum nebo objekt náležící do shluku. Objektu je následně určen počet dalších objektů v dosahu podle stanoveného ɛ. Pokud je počet objektů nulový, tak je objekt označen za šum, v opačném případě je označen za potenciální shluk a snaží se dále expandovat a hledat vnitřní body dokud nenarazí na hraniční. V momentu, kdy shluk nemá kam dále expandovat, tak se kontroluje, zda obsahuje dostatečný počet objektů, ty jsou pak označeny jako šum nebo jako součásti nového shluku. Složitost algoritmu je O(nlog(n)), pokud je použita indexační struktura, která uchovává vypočítané vzdálenosti mezi objekty. Algoritmus OPTICS pracuje na podobném principu jako DBSCAN, ale potřebuje explicitně stanovit pouze parametr minimální velikosti shluků. [16] 4.6 Neuronové sítě Jednou z neuronových sítí, kterou je možné použít pro shlukování je samoučící neuronová síť, nebo-li tzv. kohenn s self-organizing maps (SOM). Její kladnou vlastností je, že lze naučit pomocí nesupervizovaného přístupu. Data tedy nemusí být označená třídou a nemusíme znát ani počet těchto tříd, které se 19

36 4. Shlukovací algoritmy Obrázek 4.4: Možné struktury uspořádání neuronů s definicí okolí R vítězného neuronu [26] v datech objevují. Během učení si totiž síť dokáže přizpůsobit společným a odlišujícím příznakům. Základ SOM tvoří (většinou) 2D struktura neuronů. Nejčastěji struktura tvoří čtvercový nebo hexagonální tvar, jak je naznačeno na obrázku 4.4. Tvar struktury má vliv na učení a dosah R ovlivňování sousedních neuronů. Síti neuronů se předkládají vstupní vektory, které se porovnávají s jednotlivými neurony a hledá se tzv. BMU (best matching unit), který má největší shodu pomocí určené metriky. Vstupní vektory se vybírají náhodně nebo postupně a pokud již byly všechny vstupní prvky vyčerpány, využijí se ty samé, ale v jiném pořadí. Váhy BMU jsou následně upraveny, aby se co nejvíce podobaly vstupnímu vektoru. Spolu s BMU neuronem se mění i váhy neuronům v okolí R. Po proběhnutí učícího algoritmu, by měly ve struktuře vzniknout shluky neuronů s podobnými vektory vah a také vektory s nulovou hodnotou, které se následně vyloučí. [26] [23] Pseudokód [29]: 1. Inicializace vah (souřadnic) neuronů. 2. Výběr vstupní instance x j naleží X 3. Vyjádřit vzdálenost mezi x j a všemi neurony w i 4. Určit nejbližší neuron BMU 5. Upravit váhy (pozici) BMU a jeho okolí 6. Opakovat od bodu 2, pokud není splněna podmínka pro ukončení 20

37 4.7. Problémy shlukování velkých dat Obrázek 4.5: Příklad vizualizované projekce sítě neuronů [29] 4.7 Problémy shlukování velkých dat Nároky, které jsou kladeny na algoritmy zpracovávající obrovské množství dat, se oproti běžným algoritmům příliš nemění, ale klade se na ně větší důraz. Jako například parametry: přiměřená časová a paměťová náročnost, nezávislost na pořadí vstupů, zjistitelnost rozdílnosti objektů i při velkém počtu příznaků, rozpoznání překrývajících se shluků a další. Při práci s velkými daty lze jednodušeji narazit na problémy: Problém s nedostatkem vnitřní paměti: Data se buď rozdělí do p bloků a tím následně vznikne p krát k bloků, se kterými se následně pracuje, nebo se použijí metody postupného shlukování. Problém velkého množstvím dimenzí: Lze řešit pomocí klasické extrakce příznaků, rozdělení shlukování do podprostorů tzv. subspace shlukování, nebo korelační shlukování, který využívá korelaci mezi příznaky a tak některé nezahrnuje do zpracování. Problém určení počtu shluků: Grafické znázornění kvůli velké dimenzionalitě postrádá smysl a proto je obtížné navrhnout počet shluků. Jeden z přístupů řešení těchto problémů bylo vylepšení stávajících metod, jako například zvyšování jejich časové efektivity. Ale rychlost zpracovaní často roste na úkor sémantické správnosti generovaných shluků a proto se používají metody pre-clusteringu, které data zpracovávají efektivněji, ale zároveň výsledné shluky nejsou dokonalé. Vývoj algoritmů byl také zaměřen na metody, 21

38 4. Shlukovací algoritmy které se s některými zmíněnými problémy dokáží vyrovnat. Jsou založeny na principu hustoty (např. DBSCAN, OPTICS, DENCLUE), mřížky (např. STING) nebo modelu (např. Practicle filters). Jedním z dalších přístupů řešení jsou také samoučící se mapy. [15] [30] 22

39 Kapitola 5 Klasifikační algoritmy Klasifikace se snaží řešit problém přiřazení nově pozorovaného prvku do známých tříd. Přiřazení je realizováno většinou na základě trénovacích dat, které již obsahují informaci o jednotlivých třídách. Následuje představení některých vybraných klasifikačních metod. 5.1 Metoda k-nejbližších sousedů (k-nn) Metoda k-nn je jedním z nejjednodušších algoritmů pro klasifikaci. Princip závisí na počítání podobnosti zkoumaného prvku s ostatními. Po určení podobnosti je vybráno k nejbližších prvků z trénovací množiny, na kterých závisí výsledná zvolená hodnota. Po nalezení potřebného kvóra, může být rozhodnuto, do které třídy bude prvek přiřazen a to podle příslušnosti k třídám jednotlivých prvků v kvóru. Jednou z modifikací metody může být zahrnutí váženého podílu na rozhodování o finální třídě. To znamená, že by hodnota bližšího prvku byla brána z větší váhou, než hodnoty prvků vzdálenějšího. Velmi důležité u k-nn metody je určení metriky vzdálenosti. Nejčastěji je počítáno s euklidovskou. Ve vzorci 5.1 pro vyhodnocení vzdálenosti prvků n znázorňuje je počet dimenzí, a r představuje hodnotu příznaku v dimenzi r a x představují prvky v datech. [20] d(x i, x j ) = n (a r (x i ) a r (x j )) 2 (5.1) r=1 23

40 5. Klasifikační algoritmy 5.2 Naivní bayes Bayesův teorém poskytuje možnost vypočítat pravděpodobnost hypotéz h, pokud jsou k dispozice trénovací data D. Ve vzorci teorému 5.2 se vyskytuje: P (h D) = P (D h)p (h) P (D) (5.2) P (h) je apriorní pravděpodobnost hypotézy h předtím, než jsou známa trénovací data. Pokud tato hodnota známa není, musí se předpokládat, že každá z možných hypotéz je stejně pravděpodobná. P (D) je tzv. normalizační konstanta, počáteční pravděpodobnost výskytu dat D, bez znalosti jakékoli z hypotéz. P (D h) pravděpodobnost pozorování D při splnění platnosti hypotézy h. P (h D) je posteriorní pravděpodobnost. Říká s jakou pravděpodobností platí hypotéza h poté co jsou známy trénovacích dat D. U všech zkoumaných hypotéz je předpoklad vzájemné závislosti atributů, což má za následek potřeby velmi velkého množství trénovacích dat pro statisticky spolehlivé odhady. Z toho důvodu se používá naivní bayes, který předpokládá nezávislost všech příznaků. Cíl naivní bayesovské klasifikace je nalézt nejpravděpodobnější hodnotu v MAP. v MAP = arg max vj ɛv P (v j a 1, a 2,..., a n ) (5.3) Vzorec 5.3 lze pomocí bayesovského teorému vyjádřit jako 5.4, kde je ignorován jmenovatel P (a 1, a 2,..., a n ), protože je nezávislý na výsledné hodnotě v j. Jeho hodnota je vždy stejná a výsledek neovlivní. v MAP = arg max vj ɛv P (a 1, a 2,..., a n v j )P (v j ) (5.4) Pro výpočet je nutné vyjádřit pravděpodobnosti, které se vyskytují ve vzorci 5.4. Pravděpodobnost P (v j ) lze jednoduše určit z frekvence výskytu v trénovacích datech. Pro pravděpodobnost P (a 1, a 2,..., a n v j ) se v naivní baysovské metodě předpokládá, že jsou příznaky a 1, a 2,...a n nezávislé, proto se mohou vyjádřit jako ve vzorci 5.5. P (a 1, a 2,..., a n v j ) = i P (a i v j ) (5.5) Výsledný naivní bayesův klasifikátor je reprezentován rovnicí 5.6, kde v NB poskytuje výslednou hodnotu klasifikátoru. v NB = arg max vj V P (v j ) i P (a i v j ) (5.6) 24

41 5.3. Rozhodovací lesy Obrázek 5.1: Rozhodovací strom [6] Nevýhodou metody naivní bayes je předpoklad nezávislosti příznaků a normální distribuce dat. Naopak výhodou je, že k naučení klasifikátoru stačí málo dat a je jednoduchý na implementaci. Avšak pokud je k dispozici dostatečný počet dat, jiné metody mohou poskytovat lepší výsledky. [20] 5.3 Rozhodovací lesy Rozhodovací stromy Rozhodovací stromy jsou reprezentovány hierarchickou strukturou. Skládají se z právě jednoho kořene, což je speciální případ uzlu, do kterého nevedou žádné hrany. Uzly stromu jsou body, ve kterých se rozhoduje na základě příznaků, jakou hranou bude pokračovat rozhodovací proces. Hrana je přechod mezi uzly stromů. Konečným uzlem stromů jsou nazývány listy z nichž nevede žádná hrana. Další důležitou vlastností stromů je zda jsou binární nebo obecné. U binárních stromů vedou z každého uzlu maximálně dvě hrany. Obecné stromy obsahují libovolný počet hran z uzlu. Při učení rozhodovacích stromů probíhá procházení celé trénovací množiny a hledá se nejlepší příznak pro jeho rozdělení. Jedeno z kritérií pro testování a případné rozdělení může být informační zisk, který je založen na velikosti entropie, který je popsán v kapitole Po sestavení stromu, může také dojít k jeho prořezávání a to například na základě porovnání výpočtu chyby stromu, při přítomnosti hrany a bez ní. Pokud je rozdíl chyby minimální, hrana se odstraní. Tímto postupem se také předchází přeučení. Jedny ze základních algoritmů pro učení a konstrukci stromů jsou ID3, CART. 25

42 5. Klasifikační algoritmy Metoda random forest Rozhodovací lesy jsou reprezentovány množinou stromů. Každý strom z množiny stanovuje výstup na základě vstupních dat. V metodě random forest jsou použity binární stromy a algoritmus CART. Trénovací data pro každý strom jsou tvořeny pomocí boostrapové metody, která provádí náhodný výběr s opakováním o velikosti n z originálních dat. Data, která se do výběru nedostala se používají pro testování a odhad chyby stromu. Pro snížení korelace vytvořených stromů je použit výběr m příznaků ze všech možných. Po provedení klasifikace všech stromů v lese, se získá výsledná hodnota z každého stromu a podle nejčastějšího hodnoty, která se ve výsledku objevila je určena výsledná třída klasifikace. Pseudokód [12]: 1. Bootstrapový výběr trénovacích dat o velikosti n 2. Náhodný výběr příznaků pro vstup stromu o velikosti m 3. Konstrukce stromu pomocí algoritmu CART 4. Testování a odhad chyby zkonstruovaného stromu pomocí testovací množiny (body 1-4 se opakují až do zkonstruování daného počtu stromů) 5. Výpočet celkového výsledku klasifikace lesa Při konstrukci se musí dbát na správné zvolení parametrů, počtu stromů p a velikosti množiny příznaků m (pro klasifikaci je doporučené volit m = (p)). Jejich zvolení vyžaduje určité expertní znalosti. Při volbě počtu stromů v lese, je vhodné na počátku učení nastavit hodnotu n na větší číslo (např. 20 násobek hodnoty m), abychom si byli jisti optimalitou klasifikace. Minimální vhodná velikost lesa může být stanovena v momentě, kdy se s přibývajícími stromy odhad chyby již nemění. Nejdůležitější je zde však volba parametru m, protože velikost lesu nás omezuje především časovou náročností. Výhodou metody je rychlé učení. Výpočetní náročnost pro naučení lesu závisí na výpočetní náročnosti sestavení stromu, která je O(md log(d)). V tomto případě sestavení stromu pomocí algoritmu CART. Výsledná náročnost učení je tak O(n(md log(d))) [10], kde n je počet stromů, m je počet příznaků a d je velikost dat. [12] 26

43 Kapitola 6 Hodnocení shlukovacích a klasifikačních algoritmů Hodnocení správnosti a přesnosti by mělo být součástí každé klasifikační nebo shlukovací analýzy. Existuje mnoho postupů jak hodnotit algoritmy, ale bohužel ne každý se může použít pro všechny případy. To znamená, že neexistuje žádná univerzální metoda hodnocení. Hodnocení by se mělo provádět u shlukovacích algoritmů zejména z důvodu, že naprostá většina z nich má schopnost nalézt mezi množinou prvků shluky i navzdory tomu, že v ní nejsou žádné obsažené. 6.1 Externí míry Externí míry porovnávají, jak jednotlivé shluky odpovídají třídám objektů a využívají informace, které nejsou pouze v originálních datech Úplnost (recall) a přesnost (precision) Přesnost a úplnost patří mezi nejběžnější míry pro hodnocení systémů. Na Obrázku 6.1 jsou znázorněna čtyři různé množiny. Množina A představuje relevantní prvky, které byly systémem klasifikovány správně. Množina D obsahuje relevantní prvky klasifikované jako nerelevantní. Nerelevantní prvky označené jako relevantní jsou v množině B a všechny nerelevantní prvky, které byly označeny spravně jako nerelevantní jsou v množině C. Úplnost (R) vyjadřuje pomocí vzorce 6.1 poměr relevantních prvků, které byly přiřazeny správně, ku všem relevantním prvkům, které jsou dostupné. Nebo-li kolik z toho, co mělo být nalezeno, také skutečně nalezeno bylo. recall = A A + D (6.1) 27

44 6. Hodnocení shlukovacích a klasifikačních algoritmů Obrázek 6.1: Množina prvků rozdělená při klasifikaci do 4 podmnožin [27] Ve vzorci 6.2 přesnost (P) počítá poměr správně přiřazených prvků, ku všem prvkům, které byly klasifikovány jako správné. Nebo-li kolik z toho, co se našlo se skutečně mělo najít. precision = A A + B (6.2) Při klasifikaci nastává problém vyváženosti, úplnosti a přesnosti. Problém spočívá ve vlastnostech samotného systému. Pro některé systémy může být akceptovatelné, označit správnou volbu za špatnou, zatímco v jiných případech to může být fatální. Proto byl zaveden tzv. bod rovnosti BEP (breakeven point), ve kterém se tyto dvě míry rovnají. Pomocí parametrů zvoleného algoritmu můžeme tento bod nalézt a případně podle systému zvolit, kterou míru preferovat na úkor jiné. 28

45 6.2. Interní míry F-míra F-míra představuje vážený průměr hodnot úplnosti (R) a přesnosti (P ), pro který platí vzorec 6.3, kde hodnota α je většinou zvolena jako 0,5, 1 nebo 2. Čím větší je hodnota míry, tím lépe jsou prvky přiřazovány ke shlukům. F α = (1 + α)rp αp + R (6.3) E-míra E-míra měří poměr prvků přiřazených do shluků, do kterých by být přiřazeny neměly. E-míra vyjádřena pomocí úplnosti (R) a přesnosti (P ) ve vzorci 6.4 E = 1 2RP P + R (6.4) Jak jde vyčíst ze vzorce, míra bude rovna nule pokud se hodnoty R a P budou rovnat. Čím je míra nižší, tím je systém efektivnější v přiřazování prvků do správných shluků. 6.2 Interní míry Zde popsané interní míry, jsou určeny pro kontrolu správnosti shluků, bez ohledu na externí informace. Představené míry většinou pracují se vzdálenostmi prvků uvnitř shluků a mezi shluky. Aby mohl být výsledek jednotlivých měr správně interpretován, musíme být schopni ho s něčím porovnat. To je vhodné provést buď s výsledky z jiných shlukovacích algoritmů, s výsledky různých běhů zvoleného algoritmu, nebo s náhodně rozdělenými shluky. Čím více je výsledná hodnota shlukovací analýzy podobná již získaným měřením, tím je pravděpodobnější, že souhlasí se strukturami v datech Shluková soudržnost Míra je používána pro zjištění podobnosti prvků ve shluků. Pro každý prvek se spočítá vzdálenost od středu shluku, to většinou bývá jeden z jeho prvků (tzv. reprezentativní prvek), do kterého patří. Výsledná hodnota soudržnosti prvků ve shluku vznikne jejich součtem. Vzorec 6.5 pro výpočet využívá kvadrát odchylek, kde m i je reprezentativní prvek a x je prvek náležící ve shluku C i. Čím menší hodnota, tím více jsou si prvky ve shlucích podobnější. soudržnost = K i xɛc i (m i, x) 2 (6.5) 29

46 6. Hodnocení shlukovacích a klasifikačních algoritmů Obrázek 6.2: Shluková soudržnost [15] Obrázek 6.3: Shluková separace [15] Shluková separace Určuje odlišnost shluku od ostatních shluků. Výpočet je proveden pouze s reprezentativními prvky shluků kvůli menší výpočetní náročnosti. soudržnost = i C i (m m i ) 2 (6.6) Ci ve vzorci 6.6 představuje počet prvků ve shluku, m je reprezentativní prvek shluku, pro kterého separace počítáme a mi představuje reprezentativní prvek ostatních shluků. 30

47 6.2. Interní míry Obrázek 6.4: Obrysový koeficient [15] Obrysový koeficient Obrysový koeficient je kombinací dvou metrik popsaných výše. Používá se jak pro jednotlivé shluky, tak pro celé výsledky shlukových analýz. Pro jednotlivé prvky ve shluku se míra počítá podle vzorce 6.7, kde a je průměrná vzdálenost od objektu k prvkům, které patří do stejného shluku a b vyjadřuje minimální vzdálenost z průměrných vzdáleností k prvkům, které do stejného shluku nenáleží. S = 1 a b, pokud a b S = a b 1, pokud a > b (6.7) [15] [7] 31

48

49 Kapitola 7 Návrh řešení detekce hromadných ů 7.1 Výběr vektoru příznaků Data Získaná data od firmy Seznam.cz jsou uložena v distribuovaném souborovém systému HDFS. Záznamy jsou již předzpracovány a agregovány po hodině a týdnu v adresářích. Data jsou uloženy do souborů, které obsahují určitý počet ů od všech uživatelů za daný časový úsek. Jednotlivé y v souboru jsou uloženy ve formě protobufferu 4, díky tomu lze jednoduše pracovat s konkrétními příznaky ů. U uloženého u může být k dispozici okolo 130 příznaků různého typu, jako jsou například: SznId: identifikační číslo záznamu u Timestamp: čas uložení záznamu Country: země z jaké byl zaslán State: status zprávy, jestli byla zpráva doručena, odeslána nebo jestli zpráva byla reakcí na jinou zprávu atd. Pepca: hash vytvořený z textu zprávy Smtpd: byl doručen do schránky GreylistDone: prošel kontrolou graylistu a další. 4 Jazykově nezávislý mechanismus pro serializaci strukturovaných dat. 33

Zobrazit více