Sem vložte zadání Vaší práce.

Rozměr: px
Začít zobrazení ze stránky:

Download "Sem vložte zadání Vaší práce."

Transkript

1 Sem vložte zadání Vaší práce.

2

3 České vysoké učení technické v Praze Fakulta informačních technologií Katedra teoretické informatiky Diplomová práce Detekce hromadných ů Bc. Ondřej Kučera Vedoucí práce: Ing. Tomáš Siegl 6. května 2014

4

5 Poděkování Rád bych poděkoval svým rodičům za podporu při studiu a Ing. Tomáši Sieglovi za spoluprácí během vypracovávání mé práce.

6

7 Prohlášení Prohlašuji, že jsem předloženou práci vypracoval(a) samostatně a že jsem uvedl(a) veškeré použité informační zdroje v souladu s Metodickým pokynem o etické přípravě vysokoškolských závěrečných prací. Beru na vědomí, že se na moji práci vztahují práva a povinnosti vyplývající ze zákona č. 121/2000 Sb., autorského zákona, ve znění pozdějších předpisů. V souladu s ust. 46 odst. 6 tohoto zákona tímto uděluji nevýhradní oprávnění (licenci) k užití této mojí práce, a to včetně všech počítačových programů, jež jsou její součástí či přílohou a veškeré jejich dokumentace (dále souhrnně jen Dílo ), a to všem osobám, které si přejí Dílo užít. Tyto osoby jsou oprávněny Dílo užít jakýmkoli způsobem, který nesnižuje hodnotu Díla a za jakýmkoli účelem (včetně užití k výdělečným účelům). Toto oprávnění je časově, teritoriálně i množstevně neomezené. Každá osoba, která využije výše uvedenou licenci, se však zavazuje udělit ke každému dílu, které vznikne (byť jen zčásti) na základě Díla, úpravou Díla, spojením Díla s jiným dílem, zařazením Díla do díla souborného či spracováním Díla (včetně překladu), licenci alespoň ve výše uvedeném rozsahu a zároveň zpřístupnit zdrojový kód takového díla alespoň srovnatelným způsobem a ve srovnatelném rozsahu, jako je zpřístupněn zdrojový kód Díla. V Praze dne 6. května

8 České vysoké učení technické v Praze Fakulta informačních technologií c 2014 Ondřej Kučera. Všechna práva vyhrazena. Tato práce vznikla jako školní dílo na Českém vysokém učení technickém v Praze, Fakultě informačních technologií. Práce je chráněna právními předpisy a mezinárodními úmluvami o právu autorském a právech souvisejících s právem autorským. K jejímu užití, s výjimkou bezúplatných zákonných licencí, je nezbytný souhlas autora. Odkaz na tuto práci Kučera, Ondřej. Detekce hromadných ů. Diplomová práce. Praha: České vysoké učení technické v Praze, Fakulta informačních technologií, 2014.

9 Abstrakt Tato diplomová práce se zabývá shlukovacími algoritmy a jejich možnostmi analyzovat y ve free mailové službě Seznam.cz s cílem identifikovat hromadné zprávy. Práce také popisuje návrh, implementaci a výpočetní náročnost supervizovaného modelu pro následnou klasifikaci hromadných zpráv. Klíčová slova příznaky u shlukovací algoritmy, , spam, newsletter, klasifikace, Abstract The master thesis deals with clustering algorithms and their ability analyze s in fre service Seznam.cz with goal identify mass s. There is also described the design, the implementation and computational complexity of supervised model for clasification of mass s. Keywords features clustering algorithms, , spam, newsletter, clasification, ix

10

11 Obsah Úvod 1 1 Problém hromadných ů Fre ové služby Hromadné y Příznaky Příznaky ů Selekce a extrakce příznaků Selekce příznaků Extrakce příznaků z textu Shlukovací algoritmy Hierarchické shlukovací algoritmy Rozdělovací metody Hybridní postupy Metody s pravděpodobnostním modelem Metody založené na hustotě Neuronové sítě Problémy shlukování velkých dat Klasifikační algoritmy Metoda k-nejbližších sousedů (k-nn) Naivní bayes Rozhodovací lesy Hodnocení shlukovacích a klasifikačních algoritmů Externí míry Interní míry xi

12 7 Návrh řešení detekce hromadných ů Výběr vektoru příznaků Výběr shlukovacího algoritmů Výběr klasifikačních algoritmů Výběr technologií pro zpracování dat Realizace detekčního systému Určení vektoru příznaků Ověření kvality příznaků Realizace vybraného shlukovacího algoritmu Realizace klasifikačního modelu Závěr 51 Literatura 53 A Seznam použitých zkratek 57 B Obsah přiloženého CD 59 xii

13 Seznam obrázků 3.1 Porovnání filter a wrapper metod Projekce více dimenzionálních dat do prostoru s menší dimensionalitou Příklad dendogramu při hierarchickém shlukování Detekcé shluků pomocí jejich hustoty Znázorněné typy bodů a jejich závislosti v algoritmu DBSCAN Možné struktury uspořádání neuronů s definicí okolí R vítězného neuronu Příklad vizualizované projekce sítě neuronů Rozhodovací strom Množina prvků rozdělená při klasifikaci do 4 podmnožin Shluková soudržnost Shluková separace Obrysový koeficient Datový tok MapReduce Porovnání počtu vytvořených shluků při běhu algoritmu s různou velikostí vektorů příznaků Růst časové náročnosti shlukování s růstem velikostí dat Změna úplnosti (recall) a přesnosti (precision) na základě změny počtu příznaků pri testování modelu random forest Změna úplnosti (recall) a přesnosti (precision) na základě změny počtu rozhodovacích stromů při testování modelu random forest Vzrůstající časová náročnost klasifikace vzhledem k rostoucímu počtu vzorků xiii

14

15 Seznam tabulek 3.1 Kontingenční tabulka Hodnoty poměrného informačního zisku příznaků Testování vektoru příznaků o velikosti Testování vektoru příznaků o velikosti Hledání parametru ɛ pro algoritmus DBSCAN s vektorem příznaků o velikosti Hledání parametru ɛ pro algoritmus DBSCAN s vektorem příznaků o velikosti Výpočetní náročnost shlukovacího algoritmu vzhledem k rostoucímu počtu datových prvků Hledání vhodného parametru počtu stromů pro model random forest Hledání vhodného parametru počtu klasifikačních stromů pro model random forest Výpočetní náročnost vzhledem k rostoucímu počtu datových vzroků. 50 xv

16

17 Úvod je obecně používaná a velmi rozšířená služba, která je využívána nejen pro soukromé, ale i pro podnikové účely. Denně se celosvětově zpracuje obrovské množství ů. Mezi běžnou uživatelskou komunikací se nacházejí i tzv. hromadné y. Pod tímto názvem si můžeme představit ový spam, newsletter, informační y od zaměstnavatele a další y. Hromadné y lze rozdělit do dvou skupin, vyžádané a nevyžádané. Je zřejmé, že uživatel nechce být upozorňován na nevyžádané y, ale zároveň by uživatel mohl uvítat oddělení běžné pošty, kterou obdrží od hromadných ů, které si vyžádal. A právě tato funkce by mohla být jedna z možných aplikací této práce. Přijímání hromadných ů, a to především těch nevyžádaných, stojí ať už síťové a nebo lidské zdroje, které mohou, nejen firmy, stát ročně nemalé prostředky. Proto je důležité se zabývat možnostmi, jak předcházet zbytečným čerpání těchto zdrojů. Jedno z řešení jak rozpoznat tyto y je strojová analýza. V případě rozpoznávání hromadných ů, se jedná o nelehký problém, především protože dopředu neznáme počet skupin ů nebo-li shluků, které sdílejí podobnou charakteristiku. Cílem práce je vytvoření nesupervizovaného modelu, který bez znalosti počtu shluků vytvoří výslednou množinu dat pro následné vytvoření supervizovaného klasifikátoru, který bude hromadné y rozpoznávat. Práce se skládá z teoretické části, která je shrnuta v prvních šesti kapitolách. Je zde popsán problém hromadných ů a jeho definice, dále jsou zmíněny postupy pro získávání příznaků z ů, analýza shlukovacích a klasifikačních algoritmů a v neposlední řadě způsoby jejich hodnocení. Sedmá kapitola je zaměřena na návrh řešení problému. Jsou v ní diskutovány zmíněné varianty řešení a zdůvodněny rozhodnutí pro jednotlivé algoritmy. V návrhu je také obsaženo vysvětlení, proč bylo přistoupeno při realizaci k jednotlivým technologiím a také jejich popis. Osmá kapitola se věnuje samotné realizaci jednotlivých modelů, ověření kvality příznaků a nesupervizovaného shlukování 1

18 Úvod a vytvoření supervizovaného modulu. Celá práce je v závěru zhodnocena. 2

19 Kapitola 1 Problém hromadných ů Tato kapitola se zabývá úvodem do problematiky fre ových služeb, hromadných ů a jejich charakteristik. 1.1 Fre ové služby je stále jedna ze současných elektronických komunikačních služeb, pro doručování a přijímání zpráv využívá protokol SMTP. Fre je veřejně dostupná internetová služba, která obsahuje všechny potřebné komponenty pro příjem, přenos a ochranu elektronické pošty a zároveň nabízí zdarma všem uživatelům ovou schránku. Jedni z nejrozšířenějších poskytovatelů jsou služby Gmail.com, Yahoo.com, Outlook.com, v České republice to jsou zejména Seznam.cz a Centrum.cz. K této práci budou poskytnuty data právě z České fre ové služby Seznam.cz. Díky velké rozšířenosti této služby a relativně velkému počtu uživatelů může být zajištěno dostatečné množství dat pro konstrukci potřebných modelů. 1.2 Hromadné y Do schránek uživatelů fre ové služby, mohou být zasílány y od všech uživatelů, kteří znají uživatelovu adresu a jsou připojeni k internetu. To nepředstavuje větší problém, pokud se mezi uživateli realizuje pouze běžná uživatelská komunikace, ale mezi standardními zprávami jsou také přítomný hromadné y. Hromadné y jsou charakterizovány například, stejným nebo alespoň velmi podobným obsahem zpráv či předmětem zpráv, stejným odesílatelem, dobou doručení, která je v malém časovém intervalu a dalšími vlastnostmi. Jejich důsledkem může být způsobeno značné zatížení linky, přes kterou proudí 3

20 1. Problém hromadných ů data. Jako hromadný bývá většinou označen spam 1. Ovšem hromadný nemusí sloužit jen jako negativní věc. Hromadným em může být také označena skupinová zpráva všem zaměstnancům společnosti nebo informační newsletter, který si uživatel přeje odebírat. Ale pokud není tato komunikace uživatelem vyžádána, tak může zásadně znepříjemňovat práci s y. Tento jev je jeden ze základních důvodů, proč by se fre ové služby měly snažit klasifikovat hromadné y a případné nevyžádané nedoručovat přímo do schránek uživatelů. [7] 1 Spam: nevyžádaná informace, vytvořená pro velký počet příjemců, šířená internetem. 4

21 Kapitola 2 Příznaky Příznaky jsou prvky, které definují určité vlastnosti ů, popřípadě jiného objektu. Pomocí nich se snažíme o abstrakci zvolených objektů. Reprezentace pomocí příznaku se často využívá, protože je nemožné a ve většině případech i nežádoucí postihnout všechny vlastnosti, které objekt obsahuje. Je možné se setkat s různým názvoslovím příznaků, např. atributy, proměnné, features, atd. V této práci bude použito pojmenování příznaky. Příznaky se získávají zpracováním surových dat. Většinou v datech mohou být chyby, některé záznamy mohou být vynechány, data nemusí mít stejný formát apod. Proto je velmi důležité předzpracování dat, které někdy může být časově náročnější než samotné vytvoření modelu. Předzpracování dat by se měla věnovat nemalá pozornost, jelikož výsledek každé práce s daty, závisí na vstupech a pokud je vstup špatný, tak je i jeho výsledek nevyhovující. Do předzpracování dat se řadí i selekce a extrakce příznaků, které budou zmíněny v kapitole 3. Hodnoty příznaků mohou být kvantitativní nebo kvalitativní. Kvantitativní určují hodnotou určité množství a kvalitativní definují určitou vlastnost. Zde jsou čtyři základní typy reprezentací příznaků: [13] Nominální: obsahuje jména nebo kategorie pro kvalitativní hodnoty (např. národnost, pohlaví, práce,...) Ordinální: má stejné vlastnosti jako nominální s výjimkou smysluplného pořadí prvků (např. spokojenost 1-5) Numerické: jsou vyjádřena číselnou hodnotou, diskrétní x spojité Intervalové: jsou čistě číselné proměnné, které většinou mají několik ohraničených intervalů 5

22 2. Příznaky 2.1 Příznaky ů Při získávání příznaků z dat musíme být obezřetní co se týče smysluplnosti příznaků, podobnosti a dalších vlastností jako je např. jejich celkový počet. Jedním z důležitých a nesnadných kroků při vytváření příznaků je ověření jejich užitečnosti pro zpracování a následná selekce podmnožiny těch nejlepších. Některé z postupů nalezení kvalitních příznaků budou naznačeny v následující kapitole. V případě u máme na výběr z velkého množství příznaků jako jsou například: Nestrukturovaný text: text zprávy, předmět u, URL domény hyperlinků,... Nominální: příjemce zprávy, odesílatel zprávy, výskyt přílohy, formát zprávy (text, html,... ), výskyt obrázků, výskyt podezřelých slov (na základě slovníků), zpětná vazba od uživatelů (zda se jedná o hromadný ),... Numerická: délka textu zprávy, počet příloh, počet hyperlinků v textu,... Tento seznam není vyčerpávající, jistě by se dalo najít nebo vytvořit mnohem více příznaků. [13] 6

23 Kapitola 3 Selekce a extrakce příznaků Selekce a extrakce příznaků jsou důležité metody z hlediska určení či vytváření kvalitních příznaků. Díky nim lze také eliminovat tzv. prokletí dimenzionality 2. To znamená efektivně redukovat množinu příznaků s co nejmenší ztrátou informací o daném objektu, a tím přispět k snížení časové náročnosti shlukovacích algoritmů. Redukcí počtu příznaků, také eliminujeme nepodstatné a přebytečné parametry, které by mohly mít negativní vliv na výsledek. [19] 3.1 Selekce příznaků Při selekci příznaků se pokoušíme explicitně vybrat příznaky z originálních dat. Příznaky tedy neměníme ani nekombinujeme. Stavový prostor všech kombinací příznaků roste exponenciálně s jejich množstvím (tzv. růst dimenzionality). V publikaci od Edoardo Amaldi a Viggo Kann [2] bylo dokázáno, že problém hledání správné podmnožiny je pro lineární systémy NP těžký problém. Proto je vhodné zvolit ověřenou heuristiku. Metody selekce příznaků se rozdělují do tří skupin: Wrapper metody: Prohledávají prostor všech podmnožin příznaků a jejich kvalitu testuje na testovacích datech pomocí zvoleného shlukovacího algoritmu a např. cross-validace. Wrapper metody většinou dosahují lepších výsledků než filter metody, protože jsou použity se specifickým algoritmem a daty. S pomocí cross-validaci se metody mohou vyhnout přeučení. Nepříznivý efekt použití cross-validace je následný pomalý výpočet. Filter metody: Vybírají podmnožinu příznaků nezávisle na algoritmu, který s nimi bude pracovat. Výstupem většinou bývají seřazené příznaky. Tyto metody jsou mnohem rychlejší, než wrapper metody, ale 2 Jev, při kterém vzrůstající počet příznaků výsledek klasifikace spíše zhoršuje, než zlepšuje a zároveň se zvyšují nároky na výpočetní výkon. [22] 7

24 3. Selekce a extrakce příznaků Obrázek 3.1: Porovnání filter a wrapper metod [9] ne vždy naleznou nejvhodnější podmnožinu. Jednou z nevýhod je tendence označovat jako vybranou podmnožinou celou množinu příznaků, proto je dobré určit horní hranici jejich počtu. Emmbedded metody: Selekce neprobíhá ve fázi předzpracování, ale při běhu algoritmu se určuje, které příznaky se budou využívat. Příklad může být algoritmus konstrukce rozhodovacích stromů (např. ID3). Prohledávání prostoru podmnožin příznaků, se většinou realizuje, buď dopředným nebo zpětným generováním. Pro generování se může použít například tzv. metoda brute-force (postupné procházení všech kombinací podmnožin), metoda náhodného výběru, heuristiky (například hill-climbing, best-first-search, atd.) nebo evoluční algoritmy. Protože wrapperové metody závisí na zvolených shlukovacích algoritmech a některé z nich jsou popsány v kapitole 4., tak v následujících podkapitolách budou představeny pouze filter metody. [24] [14] Informační zisk Na informační zisk (information gain) lze nahlížet spíše jako na míru než metodu. Důležitou součástí výpočtu informačního zisku je entropie. Hodnota 8

25 3.1. Selekce příznaků entropie pro náhodnou proměnnou X je definována takto H(X) = i P (x i )log 2 (P (x i )). (3.1) Stejně tak lze definovat entropii proměnné Y za předpokladu pozorování hodnoty X H(Y X) = j P (x j ) i P (y i x j )log 2 (P (y i x j )). (3.2) Z vyjádřených vzorců 3.1 a 3.2 můžeme následně získat výslednou hodnotu informačního zisku (IG) redukcí cílového atributu Y za předpokladu volby X. IG(Y ; X) = H(Y ) H(Y X) (3.3) Čím vyšší je výsledná hodnota IG, tím více jsou schopny hodnoty příznaků rozdělit objekty do tříd. To znamená, že největší informační zisk budou mít příznaky s hodnotami, pro které existuje pouze jedna třída. Jednou z vlastností informačního zisku je symetričnost. Je tedy možné IG(Y ; X) zapsat jako IG(Y ; X) = IG(X; Y ) (3.4) Základní varianta má však jednu nevýhodu, protože nebere v úvahu počet hodnot v příznaku. Proto je dobré do vzorce přidat entropii zkoumaného příznaku a zavést tak poměrný informační zisk (infromation gain ratio) IGR(Y ; X) = IG(Y ; X)/H(X), (3.5) který nabývá hodnot v intervalu od 0 do 1. [24] Relief Princip metody je přičítání váhy ke každému příznaku počítané nad trénovacími daty. Příznak s finální váhou, která je větší než zvolená hranice, je vybrán do finální podmnožiny příznaků. W = W diff(x, nearhit) 2 + diff(x, nearmiss) 2 (3.6) Množina nearhit ve vzorci 3.6 představuje prvky, které jsou podle zvolené míry nejblíže náhodně zvolenému prvku X a zároveň patří do stejné třídy. Množina nearm iss obsahuje také prvky nejblíže prvku X, ale nesmějí být zařazeny ve stejné třídě. Základní myšlenka výpočtu spočívá v předpokladu, že rozdíl prvků nearhit od bodu X by měl být minimální a naopak rozdíl prvků v množině nearmiss k prvku X větší, což má za následek postupný růst váhy. Ovšem pokud jsou příznaky irelevantní, tyto vzdálenosti budou většinou totožné a váha nebude narůstat. Nevýhodou je, že pokud je většina příznaků relevantních, tak je vybírána tato většina a nedosáhne se cílené redukce dimenzionality. 9

26 3. Selekce a extrakce příznaků Tabulka 3.1: Kontingenční tabulka [24] y/x y [1]... x [s] n j x [1] n n 1s n x [r] n r1... n rs n r n k n 1... n s n Pseudokód [14]: selectedsubset = {} all featurew eight = 0 for i = 1; i < number of features; i++ do - get one instance X from the training data set D - get nearhit H = instance in D where dist(x, H) is closest AND X.class = H.class - get nearmiss M = instance in D where dist(x, M) is closest AND X.class <> M.class - update weightage for all features: featurew eight = featurew eight - diff(x, h)2 + diff(x, m)2 end for for j = 1; j < number of features; j++ do if featurew eight >= Treshold then add featurej to selectedsubset end if end for Základní verze metody je omezena na binární data, existuje však odvozená verze ReliefF pro více-třídní data. [24] X 2 test X 2 nám poskytuje informaci o míře závislosti proměnných. V tomto případě příznaku X a výsledné proměnné Y. Metoda testuje nulovou hypotézu H 0, která předpokládá vzájemnou nezávislost obou proměnných. Hodnota testu se vypočte pomocí vzorce 3.7 a jednotlivé hondoty jsou vyznačeny v kontingeční tabulce 3.1. r s X 2 (n jk n jn k n = )2 n j n k (3.7) n j=1 k=1 H 0 je zamítnuta na asymptotické hladině významnosti α, pokud X 2 X1 α 2 ((r 1)(s 1)). To znamená, že čím vyšší hodnota, tím jsou prvky navzájem vice závislé. 10

27 3.2. Extrakce příznaků z textu 3.2 Extrakce příznaků z textu Extrakce příznaků vytváří zcela nové, upravené příznaky z originálních dat. Na rozdíl od selekce příznaků, která příznaky pouze vybírá. Typicky jsou získané příznaky lineární kombinací těch originálních. V této podkapitole je diskutována extrakce příznaků zaměřená pouze na text. Textová data mají své specifické vlastnosti, proto k nim musíme zaujmout zvláštní přistup. Jedna z typických vlastností je velká dimenzionalita a řídkost dat. To je způsobeno množstvím slov ve slovnících a zároveň relativně malým počtem různých slov v dokumentu. Tento problém může být ještě větší, pokud se pracuje pouze s krátkými texty (věty apod.). Další jedinečná vlastnost se může projevit, pokud je slovník dokumentů velký. To může mít za následek vzájemnou korelaci slov, protože se ve slovníku mohou vyskytovat také synonyma. Všechny zmíněné rysy by měly být zahrnuty v návrhu algoritmu. Důležité pojmy při používání modelů je kolekce, která reprezentuje množinu všech dokumentů a každý dokument v kolekci má svou jedinečnou identifikaci. Dalším pojmem je slovník, kde jsou uloženy všechny termy v kolekci. Pod slovem term se skrývá většinou jedno slovo dokumentu (může jít také o n-gramy 3 ). Každý term má své jedinečné id a obvykle je ve slovníku 10 4 až Dokument je reprezentován množinou jedinečných termů, kterých bývá obvykle kolem 10 2 až Pro reprezentaci dokumentů lze zvolit ze dvou modelů, booleovským a vektorovým. V booleovském modelu je dokument reprezentován jako vektor, obsahující jedničky a nuly, např. d j =< 0 1, 0 1, 0 1,..., 0 1 >. A kolekce je množina těchto dokumentů. Takže booleovský model může být reprezentován jako řídká binární matice. Pro implementace tohoto modelu se volí invertovaný index. To znamená, že je matice tvořena jako seznam s identifikací dokumentů pro každý term Ohodnocení termů pomocí tf-idf Dokument je reprezentován pomocí matice termů s velkou dimenzionalitou. Vektorový model je reprezentován jako matice vah termů, které jsou obsaženy v dokumentu. Váhy jsou počítány z frekvence termů v dokumentu f ij. Pokud se v matici vyskytuje nula, znamená to, že term není v dokumentu obsažen. Počet výskytů termů v dokumentu může být velmi různý, proto je důležité normalizovat hodnoty na základě počtů výskytů v dokumentu a také v kolekci, aby některé termy nebyly zanedbány. Frekvence termů je tedy vyjádřena jako normalizovaná hodnota maximálního výskytu v kolekci. tf ij = f ij max(f ij ) (3.8) 3 posloupnost slov 11

28 3. Selekce a extrakce příznaků Dalším parametrem při výpočtu vah je inverzní frekvence dokumentů termů vyjádřena vzorcem 3.9. ( ) n idf i = log 2 (3.9) tf i Výsledná váha je tedy ( ) n w ij = tf ij idf i = tf ij log 2. (3.10) dfi Pokud má term velkou výslednou váhu znamená to, že je velmi často zastoupen v jednom z dokumentů, ale ne tak často v jiných. Pro implementaci je použit invertovaný index. Výsledek podobnosti dokumentů záleží na definované podobnostní funkci. Výhodou řešení výpočtu vah s tf idf je, že dokáže jednoduše filtrovat frekventovaná slova, která nechceme použít pro shlukování a také reagovat na případné překlepy, gramatické chyby, apod., které jsou u psaného textu běžné. [21] [3] LSI Metoda LSI (Latent semantic indexing) pracuje se singulárním rozkladem matice. Má schopnost korelovat sémanticky související termy, které jsou skryté v kolekci dokumentů. To znamená, že dokáže odhalit nové souvislosti a tak zpřesnit výsledky shlukování. Může výrazně přispět k řešení problému se synonymy a slovy s více významy. Klíčovým rysem LSI je jeho schopnost extrahovat obsah textu a vytvářet vztahy mezi termy, které se vyskytují v obdobných souvislostech. Metoda pracuje na principu používání stejných významových slov v podobných souvislostech. Pro výpočet se používá singulární rozklad matic, který je znázorněný vzorcem A = USV T (3.11) A je matice vah termů v dokumentech o velikost m x n, m je číslo unikátních termů a n číslo dokumentů. U je ortogonální matice termů velikosti m x r, S je diagonální matice velikosti r x r, na jejíž diagonále jsou vlastní čísla matice a podle velikosti jejich hodnot se vybírají vzniklé termy pro reprezentaci dokumentu. V je ortogonální matice vektorů dokumentů velikosti r x n. Parametr r se stanovuje podle toho, jak moc chceme redukovat dimenzi příznaků. Jeho velikost však musí splňovat podmínku r min(m, n). Následně můžeme sestavit nové vektory dokumentů z matice V r a také dotazovací vektor q. q = q T U r S 1 r (3.12) Z těchto hodnot můžeme následně počítat podobnosti dokumentů, podle zvolené podobnostní funkce. [3] 12

29 3.2. Extrakce příznaků z textu Obrázek 3.2: Projekce více dimenzionálních dat do prostoru s menší dimensionalitou [4] Analýza hlavních komponent (PCA) PCA (Principal component analysis) je metoda, která hledá lineární projekci více dimenzionálních dat do prostoru o menší dimenzionalitě. Vytváří se tedy lineární transformace původních příznaků na nové, které nejsou korelované a nazývají se hlavní komponenty. Jejich zásadní charakteristikou je, že rozptyl je roven příslušnému vlastnímu číslu a vychází se z předpokladu, že pokud má hlavní komponenta malý rozptyl, není schopna příliš přispívat k rozlišení mezi objekty. Při redukci původní demezionality velikosti d na velikost m transformujeme matici X s rozměry N x d, kde N je počet prvků, na matici Y s rozměry N x m. Y = XP (3.13) Ze vzorce 3.13 lze rozpoznat, že je nutné vyjádřit symetrickou kovarianční matici P s rozměry d x d, kde hodnota (i, j) reprezentuje kovarianci mezi dimenzí i a j. Nyní je nutné vyjádřit hodnotu kovarianční matice C Y z Y. C Y = E[(XP ) T (XP )] = E(P T X T XP ) = P T E(X T X)P = = P T C X P = P T P AP T P = A (3.14) A ve vzorci 3.14, značí diagonální matici. Na její diagonále jsou vlastní čísla, podle kterých lze vyberat m vlastních vektorů s nejvyšší hodnotou. [3] 13

30

31 Kapitola 4 Shlukovací algoritmy Shlukování je proces hledání prvků se společnými vlastnostmi, které splňují určitou míru podobnosti a vytvářejí tak oddělené skupiny tzv. shluky. Základní podmínkou pro všechny prvky patřící do určitého shluku je, aby si byly podobnější než objekty z jiných skupin. V dalších podkapitolách jsou uvedeny shlukovací algoritmy, které lze dělit podle několika kritérií: hierarchické, nehierarchické nebo algoritmy kombinující oba přístupy. Dále lze algoritmy rozdělit na hard (prvky patří striktně do jediného shluku) nebo soft shlukování (prvky patří s určitou pravděpodobností do různých shluků) a jistě lze najít i mnoho dalších rozdělení. Většina shlukovacích algoritmů je založena na hodnotě podobnosti a proto se musí dbát na vhodné vybrání podobnostní funkce, která měří vzdálenosti mezi objekty, jako jsou například euklidovská, manhattanská, kosinova, mahalanobisova vzdálenost a jiné. 4.1 Hierarchické shlukovací algoritmy Hierarchické shlukovací algoritmy se dělí na metody aglomerativní a divizní. Aglomerativní postupně agreguje prvky do shluků. Začíná se samotnými jedinci a postupně je spojuje do shluků podle podobnosti. Divizní metoda, naopak prvky z množiny ubírá. Na počátku jsou data kompletní a postupně jsou rozdělována do více shluků. Pro přidávání (rozdělování) prvků do shluků musí vždy existovat specifikovaná podmínka, například určení podle nejbližšího souseda, entropie, apod. Nevýhoda metod je, že musí být vždy určen počet shluků a nejsou robustní proti outlierům. Jednou z dalších nevýhod je, že pokud byly prvky jednou spojeny (rozděleny) v další fázi, nemohou být na základě jiných prvků znovu rozděleny (spojeny). Průběh shlukování i výsledné shluky můžeme reprezentovat pomocí dendogramu. Obecně je složitost O(n 3 ), ale v některých případech může byt i O(n 2 ). Existují různé principy pro hierarchické shlukování: 15

32 4. Shlukovací algoritmy Obrázek 4.1: Příklad dendogramu při hierarchickém shlukování [1] [5] [15] Single-linkage clustering (nejbližší bod): Počítá s největší podobností mezi dvěma páry. Výhodou je jednoduchost implementace. Nevýhodou je, že může dojít k problému zřetězení, kdy je pod A podobný s bodem B, bod B je podobný s bodem C, ale to neimplikuje, že je bod A podobný s bodem C. Group-Average Linkage Clustering: Podobnost mezi dvěma shluky je průměr podobnosti mezi páry prvků v obou shlucích. Je pomalejší než single-linkage clustering, ale vykazuje kvalitnější výsledky, protože nenastává jev zřetězení. Je možné algoritmus zrychlit pomocí aproximace, může se počítat jen s průměrným bodem ve shluku. Časová složitost tak může být redukována na O(n 2 ), kde n je počet jednotlivých prvků shluku. Complete-linkage clustering: Podobnost mezi dvěma shluky je definována jako nejhorší případ podobnosti mezi jakýmikoliv páry prvků ve dvou shlucích. Také má vlastnost se vyhýbat problému zřetězení, protože se vyhýbá vkládání rozdílných párů do jednoho shluku. a další 4.2 Rozdělovací metody U rozdělovacích metod (Partitioning clustering methods) jsou shluky reprezentovány jako centroidy. Centroidy nemusí být nutně body v datech. Algoritmus 16

33 4.3. Hybridní postupy tvoří všechny shluky v jedné iteraci a pak se jej snaží vylepšovat. Určení shluků může být zadáno jako optimalizační problém: Přiřaďte body k centroidům tak, aby součet všech vzdáleností bodů od příslušného centroidu umocněna na druhou byla co nejmenší. a podle této definice jde o NP těžký problém [8]. Proto hledáme raději aproximační řešení a to například pomocí Lloydovu algoritmu (k-means algoritmu), ale většinou algoritmus nalezne pouze lokální minima, proto se hledání provádí v iteracích a s různými počátečními body. Existují různé obměny k-means, které vybírají centroidy s jinými vlastnostmi jako medián, atd. Při zvolení k-medoid algoritmu, kde centroid je vždy vybrán z prvku dat. Musíme provést velký počet iterací. aby jsme nalezli požadované konvergované rozložení a také nepracují dobře s řídkými daty. K-means algoritmus definuje centroid v prostoru, to znamená, že nemusí byt v datech. Je zde zapotřebí relativně malý počet iterací, ale stále velmi záleží na počátečních zvolených centroidech. U shlukování pomocí k-means s velkými daty se často využívá předshlukování nebo-li hrubé určení počátečních centroidů namísto náhodného vybrání. Tato optimalizace dokáže urychlit vyhledávání. Velmi účinný je tzv. canopy clustering, který je výhodný použít spolu s technologií MapReduce, která bude přiblížena v kapitole 7. [15] [5] 4.3 Hybridní postupy Hierarchické přístupy jsou robustní a vyřešení úlohy může zabrat více času, na druhou stranu k-means algoritmy mohou být rychlejší, ale v některých případech méně přesné, protože mají tendenci spoléhat na náhodné inicializační prvky. Proto se snažíme o kombinaci obou metod, hierarchické i rozdělovací. Například hierarchické algoritmy lze dobře použít pro nalezení nejlepší inicializační množiny (např. buckshot, fractionation) pro k-means algoritmus. [15] [5] 4.4 Metody s pravděpodobnostním modelem Shluk je zde definován jako objekt patřící s pravděpodobností do nějaké distribuce. Složitější model většinou reprezentuje data lépe, ale používání tohoto typu metod klade na uživatele nárok vybrání správného modelu dat, což není jednoduché. Jedna z neznámějších metod je EM-shlukování, což je iterativní metoda, ve které se střídá krok E (expectation), ve kterém se vytvoří funkce pro odhad proměnných. Druhý krok se nazývá M (maximization), který vypočítá parametry maximalizující funkci nalezenou v předchozím kroku. U tohoto typu modelů může být použito jak hard shlukování, při kterém prvek patří vždy do distribuce, u niž má největší pravděpodobnost, tak soft 17

34 4. Shlukovací algoritmy Obrázek 4.2: Detekcé shluků pomocí jejich hustoty[18] shlukování. Největší nevýhodou metody je kvadratická výpočetní složitost. [15] 4.5 Metody založené na hustotě Metody jsou inspirovány přirozeným lidským rozpoznáváním shluků, kdy při pohledu na dvoudimenzionální prostor dokáže člověk rozlišit shluky podle hustoty rozmístění objektů vzhledem k hustotě rozmístění ostatních objektů. U těchto metod, jsou tedy shluky definovány jako oblasti s větší hustotou než zbytek prostoru a zároveň objekty v řídkých oblastech jsou obvykle brány jako šum. Jejich výhodou je, že nepotřebují mít určený počet shluků ani data označená třídou, do které patří. Shluky mohou zaujímat jakýkoliv tvar. Jedna z metod založená na hustotě je algoritmus DBSCAN (density-based spatial clustering of applications with noise). Pro její definici je nutno určit dva parametry a to minimální velikost shluků minp ts, pokud se hodnota určí malá, většina objektů bude tvořit shluk, naopak pokud bude velká, všechny objekty budou vyhodnoceny jako šum. Druhým parametrem je minimální hustotu shluků ɛ. V algoritmu jsou body rozděleny do tří typů: 18 Vnitřní body: Znázorněn bodem core point na obrázku 4.3 je umístěny uvnitř shluku. Všechny tyto body mají v dosahu více než jeden bod a zároveň vzájemná míra vzdálenosti s těmito body je menší nebo rovna než je stanovená hustota ɛ. Abychom body mohly označit za vnitřní, musí také platit podmínka, že počet takto vzájemně propojených bodů se alespoň rovná zadané hodnotě minp ts. Hraniční body: Bod borderpoint, který ohraničují shluk je tzv. densityreachable a sdílí s právě jedním bodem corepoint míru vzdálenosti menší nebo rovnu ɛ.

35 4.6. Neuronové sítě Obrázek 4.3: Znázorněné typy bodů a jejich závislosti v algoritmu DBSCAN [25] Body šumu: Jsou všechny ostatní body. Na obrázku 4.3 je reprezentován bodem noise point. Algoritmus vybírá náhodný objekt, který dosud nebyl označen za šum nebo objekt náležící do shluku. Objektu je následně určen počet dalších objektů v dosahu podle stanoveného ɛ. Pokud je počet objektů nulový, tak je objekt označen za šum, v opačném případě je označen za potenciální shluk a snaží se dále expandovat a hledat vnitřní body dokud nenarazí na hraniční. V momentu, kdy shluk nemá kam dále expandovat, tak se kontroluje, zda obsahuje dostatečný počet objektů, ty jsou pak označeny jako šum nebo jako součásti nového shluku. Složitost algoritmu je O(nlog(n)), pokud je použita indexační struktura, která uchovává vypočítané vzdálenosti mezi objekty. Algoritmus OPTICS pracuje na podobném principu jako DBSCAN, ale potřebuje explicitně stanovit pouze parametr minimální velikosti shluků. [16] 4.6 Neuronové sítě Jednou z neuronových sítí, kterou je možné použít pro shlukování je samoučící neuronová síť, nebo-li tzv. kohenn s self-organizing maps (SOM). Její kladnou vlastností je, že lze naučit pomocí nesupervizovaného přístupu. Data tedy nemusí být označená třídou a nemusíme znát ani počet těchto tříd, které se 19

36 4. Shlukovací algoritmy Obrázek 4.4: Možné struktury uspořádání neuronů s definicí okolí R vítězného neuronu [26] v datech objevují. Během učení si totiž síť dokáže přizpůsobit společným a odlišujícím příznakům. Základ SOM tvoří (většinou) 2D struktura neuronů. Nejčastěji struktura tvoří čtvercový nebo hexagonální tvar, jak je naznačeno na obrázku 4.4. Tvar struktury má vliv na učení a dosah R ovlivňování sousedních neuronů. Síti neuronů se předkládají vstupní vektory, které se porovnávají s jednotlivými neurony a hledá se tzv. BMU (best matching unit), který má největší shodu pomocí určené metriky. Vstupní vektory se vybírají náhodně nebo postupně a pokud již byly všechny vstupní prvky vyčerpány, využijí se ty samé, ale v jiném pořadí. Váhy BMU jsou následně upraveny, aby se co nejvíce podobaly vstupnímu vektoru. Spolu s BMU neuronem se mění i váhy neuronům v okolí R. Po proběhnutí učícího algoritmu, by měly ve struktuře vzniknout shluky neuronů s podobnými vektory vah a také vektory s nulovou hodnotou, které se následně vyloučí. [26] [23] Pseudokód [29]: 1. Inicializace vah (souřadnic) neuronů. 2. Výběr vstupní instance x j naleží X 3. Vyjádřit vzdálenost mezi x j a všemi neurony w i 4. Určit nejbližší neuron BMU 5. Upravit váhy (pozici) BMU a jeho okolí 6. Opakovat od bodu 2, pokud není splněna podmínka pro ukončení 20

37 4.7. Problémy shlukování velkých dat Obrázek 4.5: Příklad vizualizované projekce sítě neuronů [29] 4.7 Problémy shlukování velkých dat Nároky, které jsou kladeny na algoritmy zpracovávající obrovské množství dat, se oproti běžným algoritmům příliš nemění, ale klade se na ně větší důraz. Jako například parametry: přiměřená časová a paměťová náročnost, nezávislost na pořadí vstupů, zjistitelnost rozdílnosti objektů i při velkém počtu příznaků, rozpoznání překrývajících se shluků a další. Při práci s velkými daty lze jednodušeji narazit na problémy: Problém s nedostatkem vnitřní paměti: Data se buď rozdělí do p bloků a tím následně vznikne p krát k bloků, se kterými se následně pracuje, nebo se použijí metody postupného shlukování. Problém velkého množstvím dimenzí: Lze řešit pomocí klasické extrakce příznaků, rozdělení shlukování do podprostorů tzv. subspace shlukování, nebo korelační shlukování, který využívá korelaci mezi příznaky a tak některé nezahrnuje do zpracování. Problém určení počtu shluků: Grafické znázornění kvůli velké dimenzionalitě postrádá smysl a proto je obtížné navrhnout počet shluků. Jeden z přístupů řešení těchto problémů bylo vylepšení stávajících metod, jako například zvyšování jejich časové efektivity. Ale rychlost zpracovaní často roste na úkor sémantické správnosti generovaných shluků a proto se používají metody pre-clusteringu, které data zpracovávají efektivněji, ale zároveň výsledné shluky nejsou dokonalé. Vývoj algoritmů byl také zaměřen na metody, 21

38 4. Shlukovací algoritmy které se s některými zmíněnými problémy dokáží vyrovnat. Jsou založeny na principu hustoty (např. DBSCAN, OPTICS, DENCLUE), mřížky (např. STING) nebo modelu (např. Practicle filters). Jedním z dalších přístupů řešení jsou také samoučící se mapy. [15] [30] 22

39 Kapitola 5 Klasifikační algoritmy Klasifikace se snaží řešit problém přiřazení nově pozorovaného prvku do známých tříd. Přiřazení je realizováno většinou na základě trénovacích dat, které již obsahují informaci o jednotlivých třídách. Následuje představení některých vybraných klasifikačních metod. 5.1 Metoda k-nejbližších sousedů (k-nn) Metoda k-nn je jedním z nejjednodušších algoritmů pro klasifikaci. Princip závisí na počítání podobnosti zkoumaného prvku s ostatními. Po určení podobnosti je vybráno k nejbližších prvků z trénovací množiny, na kterých závisí výsledná zvolená hodnota. Po nalezení potřebného kvóra, může být rozhodnuto, do které třídy bude prvek přiřazen a to podle příslušnosti k třídám jednotlivých prvků v kvóru. Jednou z modifikací metody může být zahrnutí váženého podílu na rozhodování o finální třídě. To znamená, že by hodnota bližšího prvku byla brána z větší váhou, než hodnoty prvků vzdálenějšího. Velmi důležité u k-nn metody je určení metriky vzdálenosti. Nejčastěji je počítáno s euklidovskou. Ve vzorci 5.1 pro vyhodnocení vzdálenosti prvků n znázorňuje je počet dimenzí, a r představuje hodnotu příznaku v dimenzi r a x představují prvky v datech. [20] d(x i, x j ) = n (a r (x i ) a r (x j )) 2 (5.1) r=1 23

40 5. Klasifikační algoritmy 5.2 Naivní bayes Bayesův teorém poskytuje možnost vypočítat pravděpodobnost hypotéz h, pokud jsou k dispozice trénovací data D. Ve vzorci teorému 5.2 se vyskytuje: P (h D) = P (D h)p (h) P (D) (5.2) P (h) je apriorní pravděpodobnost hypotézy h předtím, než jsou známa trénovací data. Pokud tato hodnota známa není, musí se předpokládat, že každá z možných hypotéz je stejně pravděpodobná. P (D) je tzv. normalizační konstanta, počáteční pravděpodobnost výskytu dat D, bez znalosti jakékoli z hypotéz. P (D h) pravděpodobnost pozorování D při splnění platnosti hypotézy h. P (h D) je posteriorní pravděpodobnost. Říká s jakou pravděpodobností platí hypotéza h poté co jsou známy trénovacích dat D. U všech zkoumaných hypotéz je předpoklad vzájemné závislosti atributů, což má za následek potřeby velmi velkého množství trénovacích dat pro statisticky spolehlivé odhady. Z toho důvodu se používá naivní bayes, který předpokládá nezávislost všech příznaků. Cíl naivní bayesovské klasifikace je nalézt nejpravděpodobnější hodnotu v MAP. v MAP = arg max vj ɛv P (v j a 1, a 2,..., a n ) (5.3) Vzorec 5.3 lze pomocí bayesovského teorému vyjádřit jako 5.4, kde je ignorován jmenovatel P (a 1, a 2,..., a n ), protože je nezávislý na výsledné hodnotě v j. Jeho hodnota je vždy stejná a výsledek neovlivní. v MAP = arg max vj ɛv P (a 1, a 2,..., a n v j )P (v j ) (5.4) Pro výpočet je nutné vyjádřit pravděpodobnosti, které se vyskytují ve vzorci 5.4. Pravděpodobnost P (v j ) lze jednoduše určit z frekvence výskytu v trénovacích datech. Pro pravděpodobnost P (a 1, a 2,..., a n v j ) se v naivní baysovské metodě předpokládá, že jsou příznaky a 1, a 2,...a n nezávislé, proto se mohou vyjádřit jako ve vzorci 5.5. P (a 1, a 2,..., a n v j ) = i P (a i v j ) (5.5) Výsledný naivní bayesův klasifikátor je reprezentován rovnicí 5.6, kde v NB poskytuje výslednou hodnotu klasifikátoru. v NB = arg max vj V P (v j ) i P (a i v j ) (5.6) 24

41 5.3. Rozhodovací lesy Obrázek 5.1: Rozhodovací strom [6] Nevýhodou metody naivní bayes je předpoklad nezávislosti příznaků a normální distribuce dat. Naopak výhodou je, že k naučení klasifikátoru stačí málo dat a je jednoduchý na implementaci. Avšak pokud je k dispozici dostatečný počet dat, jiné metody mohou poskytovat lepší výsledky. [20] 5.3 Rozhodovací lesy Rozhodovací stromy Rozhodovací stromy jsou reprezentovány hierarchickou strukturou. Skládají se z právě jednoho kořene, což je speciální případ uzlu, do kterého nevedou žádné hrany. Uzly stromu jsou body, ve kterých se rozhoduje na základě příznaků, jakou hranou bude pokračovat rozhodovací proces. Hrana je přechod mezi uzly stromů. Konečným uzlem stromů jsou nazývány listy z nichž nevede žádná hrana. Další důležitou vlastností stromů je zda jsou binární nebo obecné. U binárních stromů vedou z každého uzlu maximálně dvě hrany. Obecné stromy obsahují libovolný počet hran z uzlu. Při učení rozhodovacích stromů probíhá procházení celé trénovací množiny a hledá se nejlepší příznak pro jeho rozdělení. Jedeno z kritérií pro testování a případné rozdělení může být informační zisk, který je založen na velikosti entropie, který je popsán v kapitole Po sestavení stromu, může také dojít k jeho prořezávání a to například na základě porovnání výpočtu chyby stromu, při přítomnosti hrany a bez ní. Pokud je rozdíl chyby minimální, hrana se odstraní. Tímto postupem se také předchází přeučení. Jedny ze základních algoritmů pro učení a konstrukci stromů jsou ID3, CART. 25

42 5. Klasifikační algoritmy Metoda random forest Rozhodovací lesy jsou reprezentovány množinou stromů. Každý strom z množiny stanovuje výstup na základě vstupních dat. V metodě random forest jsou použity binární stromy a algoritmus CART. Trénovací data pro každý strom jsou tvořeny pomocí boostrapové metody, která provádí náhodný výběr s opakováním o velikosti n z originálních dat. Data, která se do výběru nedostala se používají pro testování a odhad chyby stromu. Pro snížení korelace vytvořených stromů je použit výběr m příznaků ze všech možných. Po provedení klasifikace všech stromů v lese, se získá výsledná hodnota z každého stromu a podle nejčastějšího hodnoty, která se ve výsledku objevila je určena výsledná třída klasifikace. Pseudokód [12]: 1. Bootstrapový výběr trénovacích dat o velikosti n 2. Náhodný výběr příznaků pro vstup stromu o velikosti m 3. Konstrukce stromu pomocí algoritmu CART 4. Testování a odhad chyby zkonstruovaného stromu pomocí testovací množiny (body 1-4 se opakují až do zkonstruování daného počtu stromů) 5. Výpočet celkového výsledku klasifikace lesa Při konstrukci se musí dbát na správné zvolení parametrů, počtu stromů p a velikosti množiny příznaků m (pro klasifikaci je doporučené volit m = (p)). Jejich zvolení vyžaduje určité expertní znalosti. Při volbě počtu stromů v lese, je vhodné na počátku učení nastavit hodnotu n na větší číslo (např. 20 násobek hodnoty m), abychom si byli jisti optimalitou klasifikace. Minimální vhodná velikost lesa může být stanovena v momentě, kdy se s přibývajícími stromy odhad chyby již nemění. Nejdůležitější je zde však volba parametru m, protože velikost lesu nás omezuje především časovou náročností. Výhodou metody je rychlé učení. Výpočetní náročnost pro naučení lesu závisí na výpočetní náročnosti sestavení stromu, která je O(md log(d)). V tomto případě sestavení stromu pomocí algoritmu CART. Výsledná náročnost učení je tak O(n(md log(d))) [10], kde n je počet stromů, m je počet příznaků a d je velikost dat. [12] 26

43 Kapitola 6 Hodnocení shlukovacích a klasifikačních algoritmů Hodnocení správnosti a přesnosti by mělo být součástí každé klasifikační nebo shlukovací analýzy. Existuje mnoho postupů jak hodnotit algoritmy, ale bohužel ne každý se může použít pro všechny případy. To znamená, že neexistuje žádná univerzální metoda hodnocení. Hodnocení by se mělo provádět u shlukovacích algoritmů zejména z důvodu, že naprostá většina z nich má schopnost nalézt mezi množinou prvků shluky i navzdory tomu, že v ní nejsou žádné obsažené. 6.1 Externí míry Externí míry porovnávají, jak jednotlivé shluky odpovídají třídám objektů a využívají informace, které nejsou pouze v originálních datech Úplnost (recall) a přesnost (precision) Přesnost a úplnost patří mezi nejběžnější míry pro hodnocení systémů. Na Obrázku 6.1 jsou znázorněna čtyři různé množiny. Množina A představuje relevantní prvky, které byly systémem klasifikovány správně. Množina D obsahuje relevantní prvky klasifikované jako nerelevantní. Nerelevantní prvky označené jako relevantní jsou v množině B a všechny nerelevantní prvky, které byly označeny spravně jako nerelevantní jsou v množině C. Úplnost (R) vyjadřuje pomocí vzorce 6.1 poměr relevantních prvků, které byly přiřazeny správně, ku všem relevantním prvkům, které jsou dostupné. Nebo-li kolik z toho, co mělo být nalezeno, také skutečně nalezeno bylo. recall = A A + D (6.1) 27

44 6. Hodnocení shlukovacích a klasifikačních algoritmů Obrázek 6.1: Množina prvků rozdělená při klasifikaci do 4 podmnožin [27] Ve vzorci 6.2 přesnost (P) počítá poměr správně přiřazených prvků, ku všem prvkům, které byly klasifikovány jako správné. Nebo-li kolik z toho, co se našlo se skutečně mělo najít. precision = A A + B (6.2) Při klasifikaci nastává problém vyváženosti, úplnosti a přesnosti. Problém spočívá ve vlastnostech samotného systému. Pro některé systémy může být akceptovatelné, označit správnou volbu za špatnou, zatímco v jiných případech to může být fatální. Proto byl zaveden tzv. bod rovnosti BEP (breakeven point), ve kterém se tyto dvě míry rovnají. Pomocí parametrů zvoleného algoritmu můžeme tento bod nalézt a případně podle systému zvolit, kterou míru preferovat na úkor jiné. 28

45 6.2. Interní míry F-míra F-míra představuje vážený průměr hodnot úplnosti (R) a přesnosti (P ), pro který platí vzorec 6.3, kde hodnota α je většinou zvolena jako 0,5, 1 nebo 2. Čím větší je hodnota míry, tím lépe jsou prvky přiřazovány ke shlukům. F α = (1 + α)rp αp + R (6.3) E-míra E-míra měří poměr prvků přiřazených do shluků, do kterých by být přiřazeny neměly. E-míra vyjádřena pomocí úplnosti (R) a přesnosti (P ) ve vzorci 6.4 E = 1 2RP P + R (6.4) Jak jde vyčíst ze vzorce, míra bude rovna nule pokud se hodnoty R a P budou rovnat. Čím je míra nižší, tím je systém efektivnější v přiřazování prvků do správných shluků. 6.2 Interní míry Zde popsané interní míry, jsou určeny pro kontrolu správnosti shluků, bez ohledu na externí informace. Představené míry většinou pracují se vzdálenostmi prvků uvnitř shluků a mezi shluky. Aby mohl být výsledek jednotlivých měr správně interpretován, musíme být schopni ho s něčím porovnat. To je vhodné provést buď s výsledky z jiných shlukovacích algoritmů, s výsledky různých běhů zvoleného algoritmu, nebo s náhodně rozdělenými shluky. Čím více je výsledná hodnota shlukovací analýzy podobná již získaným měřením, tím je pravděpodobnější, že souhlasí se strukturami v datech Shluková soudržnost Míra je používána pro zjištění podobnosti prvků ve shluků. Pro každý prvek se spočítá vzdálenost od středu shluku, to většinou bývá jeden z jeho prvků (tzv. reprezentativní prvek), do kterého patří. Výsledná hodnota soudržnosti prvků ve shluku vznikne jejich součtem. Vzorec 6.5 pro výpočet využívá kvadrát odchylek, kde m i je reprezentativní prvek a x je prvek náležící ve shluku C i. Čím menší hodnota, tím více jsou si prvky ve shlucích podobnější. soudržnost = K i xɛc i (m i, x) 2 (6.5) 29

46 6. Hodnocení shlukovacích a klasifikačních algoritmů Obrázek 6.2: Shluková soudržnost [15] Obrázek 6.3: Shluková separace [15] Shluková separace Určuje odlišnost shluku od ostatních shluků. Výpočet je proveden pouze s reprezentativními prvky shluků kvůli menší výpočetní náročnosti. soudržnost = i C i (m m i ) 2 (6.6) Ci ve vzorci 6.6 představuje počet prvků ve shluku, m je reprezentativní prvek shluku, pro kterého separace počítáme a mi představuje reprezentativní prvek ostatních shluků. 30

47 6.2. Interní míry Obrázek 6.4: Obrysový koeficient [15] Obrysový koeficient Obrysový koeficient je kombinací dvou metrik popsaných výše. Používá se jak pro jednotlivé shluky, tak pro celé výsledky shlukových analýz. Pro jednotlivé prvky ve shluku se míra počítá podle vzorce 6.7, kde a je průměrná vzdálenost od objektu k prvkům, které patří do stejného shluku a b vyjadřuje minimální vzdálenost z průměrných vzdáleností k prvkům, které do stejného shluku nenáleží. S = 1 a b, pokud a b S = a b 1, pokud a > b (6.7) [15] [7] 31

48

49 Kapitola 7 Návrh řešení detekce hromadných ů 7.1 Výběr vektoru příznaků Data Získaná data od firmy Seznam.cz jsou uložena v distribuovaném souborovém systému HDFS. Záznamy jsou již předzpracovány a agregovány po hodině a týdnu v adresářích. Data jsou uloženy do souborů, které obsahují určitý počet ů od všech uživatelů za daný časový úsek. Jednotlivé y v souboru jsou uloženy ve formě protobufferu 4, díky tomu lze jednoduše pracovat s konkrétními příznaky ů. U uloženého u může být k dispozici okolo 130 příznaků různého typu, jako jsou například: SznId: identifikační číslo záznamu u Timestamp: čas uložení záznamu Country: země z jaké byl zaslán State: status zprávy, jestli byla zpráva doručena, odeslána nebo jestli zpráva byla reakcí na jinou zprávu atd. Pepca: hash vytvořený z textu zprávy Smtpd: byl doručen do schránky GreylistDone: prošel kontrolou graylistu a další. 4 Jazykově nezávislý mechanismus pro serializaci strukturovaných dat. 33

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Předzpracování dat. Lenka Vysloužilová

Předzpracování dat. Lenka Vysloužilová Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Klasifikace a rozpoznávání. Lineární klasifikátory

Klasifikace a rozpoznávání. Lineární klasifikátory Klasifikace a rozpoznávání Lineární klasifikátory Opakování - Skalární součin x = x1 x 2 w = w T x = w 1 w 2 x 1 x 2 w1 w 2 = w 1 x 1 + w 2 x 2 x. w w T x w Lineární klasifikátor y(x) = w T x + w 0 Vyber

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.

Více

UČENÍ BEZ UČITELE. Václav Hlaváč

UČENÍ BEZ UČITELE. Václav Hlaváč UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení

Více

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

Algoritmy a struktury neuropočítačů ASN P3

Algoritmy a struktury neuropočítačů ASN P3 Algoritmy a struktury neuropočítačů ASN P3 SOM algoritmus s učitelem i bez učitele U-matice Vektorová kvantizace Samoorganizující se mapy ( Self-Organizing Maps ) PROČ? Základní myšlenka: analogie s činností

Více

odlehlých hodnot pomocí algoritmu k-means

odlehlých hodnot pomocí algoritmu k-means Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

oddělení Inteligentní Datové Analýzy (IDA)

oddělení Inteligentní Datové Analýzy (IDA) Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

1 0 0 u 22 u 23 l 31. l u11

1 0 0 u 22 u 23 l 31. l u11 LU dekompozice Jedná se o rozklad matice A na dvě trojúhelníkové matice L a U, A=LU. Matice L je dolní trojúhelníková s jedničkami na diagonále a matice U je horní trojúhelníková. a a2 a3 a 2 a 22 a 23

Více

ALGORITMY A DATOVÉ STRUKTURY

ALGORITMY A DATOVÉ STRUKTURY Název tématického celku: Cíl: ALGORITMY A DATOVÉ STRUKTURY Metodický list č. 1 Časová složitost algoritmů Základním cílem tohoto tematického celku je vysvětlení potřebných pojmů a definic nutných k popisu

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci

Více

Rosenblattův perceptron

Rosenblattův perceptron Perceptron Přenosové funkce Rosenblattův perceptron Rosenblatt r. 1958. Inspirace lidským okem Podle fyziologického vzoru je třívrstvá: Vstupní vrstva rozvětvovací jejím úkolem je mapování dvourozměrného

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Algoritmy a struktury neuropočítačů ASN - P11

Algoritmy a struktury neuropočítačů ASN - P11 Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova

Více

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi

Více

Usuzování za neurčitosti

Usuzování za neurčitosti Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích

Více

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D. Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen

Více

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Hledání optimální polohy stanic a zastávek na tratích regionálního významu Hledání optimální polohy stanic a zastávek na tratích regionálního významu Václav Novotný 31. 10. 2018 Anotace 1. Dopravní obsluha území tratěmi regionálního významu 2. Cíle výzkumu a algoritmus práce

Více

Stavový model a Kalmanův filtr

Stavový model a Kalmanův filtr Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,

Více

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

GIS Geografické informační systémy

GIS Geografické informační systémy GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu

Více

Pravděpodobně skoro správné. PAC učení 1

Pravděpodobně skoro správné. PAC učení 1 Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného

Více

Globální matice konstrukce

Globální matice konstrukce Globální matice konstrukce Z matic tuhosti a hmotnosti jednotlivých prvků lze sestavit globální matici tuhosti a globální matici hmotnosti konstrukce, které se využijí v řešení základní rovnice MKP: [m]{

Více

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

GIS Geografické informační systémy

GIS Geografické informační systémy GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu

Více

Aplikovaná numerická matematika

Aplikovaná numerická matematika Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních

Více

Trénování sítě pomocí učení s učitelem

Trénování sítě pomocí učení s učitelem Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup

Více

Modifikace algoritmu FEKM

Modifikace algoritmu FEKM Modifikace algoritmu FEKM Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 9. 14. září 2012 Němčičky Motivace Potřeba metod

Více

Statistická teorie učení

Statistická teorie učení Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální

Více

Markov Chain Monte Carlo. Jan Kracík.

Markov Chain Monte Carlo. Jan Kracík. Markov Chain Monte Carlo Jan Kracík jan.kracik@vsb.cz Princip Monte Carlo integrace Cílem je (přibližný) výpočet integrálu I(g) = E f [g(x)] = g(x)f (x)dx. (1) Umíme-li generovat nezávislé vzorky x (1),

Více

2. Schurova věta. Petr Tichý. 3. října 2012

2. Schurova věta. Petr Tichý. 3. října 2012 2. Schurova věta Petr Tichý 3. října 2012 1 Podobnostní transformace a výpočet vlastních čísel Obecný princip: Úloha: Řešíme-li matematickou úlohu, je často velmi vhodné hledat její ekvivalentní formulaci

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Asociativní sítě (paměti) Asociace známého vstupního vzoru s daným výstupním vzorem. Typická funkce 1 / 44

Asociativní sítě (paměti) Asociace známého vstupního vzoru s daným výstupním vzorem. Typická funkce 1 / 44 Asociativní paměti Asociativní sítě (paměti) Cíl učení Asociace známého vstupního vzoru s daným výstupním vzorem Okoĺı známého vstupního vzoru x by se mělo také zobrazit na výstup y odpovídající x správný

Více

cv3.tex. Vzorec pro úplnou pravděpodobnost

cv3.tex. Vzorec pro úplnou pravděpodobnost 3 cvičení - pravděpodobnost 2102018 18cv3tex n i=1 Vzorec pro úplnou pravděpodobnost Systém náhodných jevů nazýváme úplným, jestliže pro něj platí: B i = 1 a pro i k je B i B k = 0 Jestliže je (Ω, A, P

Více

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n [1] Základní pojmy [2] Matice mezi sebou sčítáme a násobíme konstantou (lineární prostor) měníme je na jiné matice eliminační metodou násobíme je mezi sebou... Matice je tabulka čísel s konečným počtem

Více

Automatické vyhledávání informace a znalosti v elektronických textových datech

Automatické vyhledávání informace a znalosti v elektronických textových datech Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická

Více

Shluková analýza dat a stanovení počtu shluků

Shluková analýza dat a stanovení počtu shluků Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu

Více

Rozdělování dat do trénovacích a testovacích množin

Rozdělování dat do trénovacích a testovacích množin Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném

Více

Úlohy nejmenších čtverců

Úlohy nejmenších čtverců Úlohy nejmenších čtverců Petr Tichý 7. listopadu 2012 1 Problémy nejmenších čtverců Ax b Řešení Ax = b nemusí existovat, a pokud existuje, nemusí být jednoznačné. Často má smysl hledat x tak, že Ax b.

Více

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů

Více

Algoritmizace prostorových úloh

Algoritmizace prostorových úloh INOVACE BAKALÁŘSKÝCH A MAGISTERSKÝCH STUDIJNÍCH OBORŮ NA HORNICKO-GEOLOGICKÉ FAKULTĚ VYSOKÉ ŠKOLY BÁŇSKÉ - TECHNICKÉ UNIVERZITY OSTRAVA Algoritmizace prostorových úloh Grafové úlohy Daniela Szturcová Tento

Více

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Smíšené regresní modely a možnosti jejich využití. Karel Drápela Smíšené regresní modely a možnosti jejich využití Karel Drápela Regresní modely Základní úloha regresní analýzy nalezení vhodného modelu studované závislosti vyjádření reálného tvaru závislosti minimalizace

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Základy algoritmizace. Pattern matching

Základy algoritmizace. Pattern matching Základy algoritmizace Pattern matching 1 Pattern matching Úloha nalézt v nějakém textu výskyty zadaných textových vzorků patří v počítačové praxi k nejfrekventovanějším. Algoritmy, které ji řeší se používají

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

13 Barvy a úpravy rastrového

13 Barvy a úpravy rastrového 13 Barvy a úpravy rastrového Studijní cíl Tento blok je věnován základním metodám pro úpravu rastrového obrazu, jako je např. otočení, horizontální a vertikální překlopení. Dále budo vysvětleny různé metody

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC .6. VLASTNÍ ČÍSLA A VEKTORY MATIC V této kapitole se dozvíte: jak jsou definována vlastní (charakteristická) čísla a vektory čtvercové matice; co je to charakteristická matice a charakteristický polynom

Více

Podobnostní transformace

Podobnostní transformace Schurova věta 1 Podobnostní transformace a výpočet vlastních čísel Obecný princip: Úloha: Řešíme-li matematickou úlohu, je často velmi vhodné hledat její ekvivalentní formulaci tak, aby se řešení úlohy

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

Numerické metody a programování. Lekce 8

Numerické metody a programování. Lekce 8 Numerické metody a programování Lekce 8 Optimalizace hledáme bod x, ve kterém funkce jedné nebo více proměnných f x má minimum (maximum) maximalizace f x je totéž jako minimalizace f x Minimum funkce lokální:

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík,, CSc. NEURONOVÉ SÍTĚ otázky a odpovědi 1 AKD_predn4, slide 8: Hodnota výstupu závisí na znaménku funkce net i, tedy na tom, zda bude suma

Více

[1] samoopravné kódy: terminologie, princip

[1] samoopravné kódy: terminologie, princip [1] Úvod do kódování samoopravné kódy: terminologie, princip blokové lineární kódy Hammingův kód Samoopravné kódy, k čemu to je [2] Data jsou uložena (nebo posílána do linky) kodérem podle určitého pravidla

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Lineární klasifikátory

Lineární klasifikátory Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout

Více

Úvod do optimalizace, metody hladké optimalizace

Úvod do optimalizace, metody hladké optimalizace Evropský sociální fond Investujeme do vaší budoucnosti Úvod do optimalizace, metody hladké optimalizace Matematika pro informatiky, FIT ČVUT Martin Holeňa, 13. týden LS 2010/2011 O čem to bude? Příklady

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti

Více

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky Modely a sémantika Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky Úvod Existující problémy Prudký nárůst množství informací na webu Kognitivní přetížení Ztráta v informačním prostoru

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů

Více

2. úkol MI-PAA. Jan Jůna (junajan) 3.11.2013

2. úkol MI-PAA. Jan Jůna (junajan) 3.11.2013 2. úkol MI-PAA Jan Jůna (junajan) 3.11.2013 Specifikaci úlohy Problém batohu je jedním z nejjednodušších NP-těžkých problémů. V literatuře najdeme množství jeho variant, které mají obecně různé nároky

Více

Jasové transformace. Karel Horák. Rozvrh přednášky:

Jasové transformace. Karel Horák. Rozvrh přednášky: 1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

1 Linearní prostory nad komplexními čísly

1 Linearní prostory nad komplexními čísly 1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)

Více

Náplň. v.0.03 16.02.2014. - Jednoduché příklady na práci s poli v C - Vlastnosti třídění - Způsoby (algoritmy) třídění

Náplň. v.0.03 16.02.2014. - Jednoduché příklady na práci s poli v C - Vlastnosti třídění - Způsoby (algoritmy) třídění Náplň v.0.03 16.02.2014 - Jednoduché příklady na práci s poli v C - Vlastnosti třídění - Způsoby (algoritmy) třídění Spojení dvou samostatně setříděných polí void Spoj(double apole1[], int adelka1, double

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem

Více

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2 Výpočet transformačních koeficinetů vybraných 2D transformací Jan Ježek červen 2008 Obsah Odvození transformačního klíče vybraných 2D transformací 2 Meto vyrovnání 2 2 Obecné vyjádření lineárních 2D transformací

Více

Kombinatorická minimalizace

Kombinatorická minimalizace Kombinatorická minimalizace Cílem je nalézt globální minimum ve velké diskrétní množině, kde může být mnoho lokálních minim. Úloha obchodního cestujícího Cílem je najít nejkratší cestu, která spojuje všechny

Více

Využití metod strojového učení v bioinformatice David Hoksza

Využití metod strojového učení v bioinformatice David Hoksza Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace

Více

1. Přednáška. Ing. Miroslav Šulai, MBA

1. Přednáška. Ing. Miroslav Šulai, MBA N_OFI_2 1. Přednáška Počet pravděpodobnosti Statistický aparát používaný ve financích Ing. Miroslav Šulai, MBA 1 Počet pravděpodobnosti -náhodné veličiny 2 Počet pravděpodobnosti -náhodné veličiny 3 Jevy

Více

SVD rozklad a pseudoinverse

SVD rozklad a pseudoinverse SVD rozklad a pseudoinverse Odpřednesenou látku naleznete v kapitole 12 skript Abstraktní a konkrétní lineární algebra. Jiří Velebil: Lineární algebra 19.12.2016: SVD rozklad a pseudoinverse 1/21 Cíle

Více