Analýza antropologických dat metodami výpočetní inteligence. Bc. Jakub Novák

Rozměr: px
Začít zobrazení ze stránky:

Download "Analýza antropologických dat metodami výpočetní inteligence. Bc. Jakub Novák"

Transkript

1 České vysoké učení technické v Praze Fakulta elektrotechnická Diplomová práce Analýza antropologických dat metodami výpočetní inteligence Bc. Jakub Novák Vedoucí práce: Ing. Kordík Pavel, Ph.D. Studijní program: Elektrotechnika a informatika strukturovaný magisterský Obor: Informatika a výpočetní technika květen 2008

2 ii

3 Poděkování Chtěl bych moc poděkovat Ing. Pavlu Kordíkovi, Ph.D. za jeho výborné vedení mé práce. Jeho pozitivní přístup a vstřícnost, se kterou přistupoval k mým dotazům a problémům. iii

4 iv

5 Prohlášení Prohlašuji, že jsem svou diplomovou práci vypracoval samostatně a použil jsem pouze podklady uvedené v přiloženém seznamu. Nemám závažný důvod proti užití tohoto školního díla ve smyslu 60 Zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon). V Praze dne v

6 vi

7 Abstract A computational intelligence methods are suitable instrument for work with the anthropological data which represents senescence indicators along with other inputs. Based on this information we try to predict the age of skeleton. But this is a very difficult process and obtain high-quality results is complicated. My goal in this diploma thesis is to find and valorize the best methods which can handle well the anthropological data and give us the best results. Abstrakt Metody výpočetní inteligence jsou vhodným nástrojem pro práci s antropologickými daty, které představují kosterní ohledání spolu s některými dalšími vstupy, ze kterých se snažíme predikovat věk zesnulého. Proces to však není vůbec jednoduchý a dostat kvalitní výsledky je poměrně komplikované. Proto si touto prací kladu za cíl nalézt a zhodnotit nejvhodnější metody, které by uměly dobře zpracovat daná antropologická data a podat co nejlepší výsledek. vii

8 viii

9 Obsah Seznam obrázků Seznam tabulek xi xiii 1 Úvod 1 2 Metody pro analýzu antropologických dat Získávání znalostí z dat Typy dolovacích úloh Klasifikace a predikce Shlukování Analýza odlehlých objektů Analýza nalezených vzorů Data Antropologická data Prediktivní metody Klasifikační metody Shlukové metody Předzpracování dat - teoretická část Čištění dat Nekompletní data Zašumělá data Integrace a transformace dat Redukce dat Početní redukce Další možné metody předzpracování Výsledky experimentů Prediktivní metody GMDH GAME Klasifikační metody LVQ Perceptron RBF Metody shlukové analýzy SOM Předzpracovací metody Výsledky jednotlivých metod Výsledky experimentů za použití modulu pro automatické předzpracování dat Zhodnocení výsledků 41 6 Závěr 45 7 Literatura 47 ix

10 A Seznam použitých zkratek 49 B Obsah přiloženého CD 51 x

11 Seznam obrázků 2.1 Ukázka GMDH sítě jako černé skříňky Struktura sítě GMDH Ukončení učení sítě GMDH Příklad sítě GAME Prostor 2D a hraniční přímka Model perceptronu jako neuronu Struktura RBF sítě Ukázka typických Radial Basis Function Trénovaná RBF Struktura neuronů Kohonenovy mapy SOM - možné struktury uspořádání neuronů SOM - příklad adaptace vah neuronu U-matice pro sít 10 x Příklad rozdělení do shluků Metody výběru podmnožiny atributů Výsledný GMDH model v KnowledgeMiner softwaru LVQ - celkový přehled úspěšnosti ohodnocení Rozptyl úspěšnosti klasifikace pomocí automaticky generované sítě Rozptyl úspěšnosti klasifikace pomocí minimální sítě D prostor vstupních vektorů obsahující dva shluky RBF - správně zařazené vzorky pro n=4 a σ = 0, SOM - vliv pohlaví na predikci SOM - rozdělení podle národnosti SOM - rozdělení podle kontinentu SOM - výsledné shluky koster podle stáří Ukázka programu GAME spolu s předzpracovacím dialogem Ukázka grafu trénovacích dat pomocí 2D regrese Rozptyl výsledných hodnot MAPD - vybrané PM metody Rozptyl výsledných hodnot MMVI xi

12 xii

13 Seznam tabulek 4.1 GMDH věková regrese Výsledky GMDH a GAME Parametry sítě LVQ LVQ1 - procentuální úspěšnost klasifikace Parametry automaticky generované sítě Parametry minimální sítě Průměrná úspěšnost klasifikace na automaticky generované síti Průměrná úspěšnost klasifikace na minimální síti Zastoupení ve věkových třídách Zastoupení žen Evropanek RBF - nejlepší výsledky pro n=4 a σ = 0, Přepočítány výsledky GMDH a GAME Výsledek předzpracovacích metod - All units, 1N Výsledek předzpracovacích metod - All units, ensemble (3N) Výsledek předzpracovacích metod - linear, 1N Výsledek předzpracovacích metod - linear, ensemble (3N) Výsledky č.1 - modulu pro automatické předzpracování dat Průměrné hodnoty z tabulek 4.13 až Výsledky č.2 - modulu pro automatické předzpracování dat Porovnání výsledků klasifikačních metod - tučně nejlepší výsledek Vybrané výsledky algoritmů GAME a GMDH - chyba RMS Vybrané nejlepší předzpracovací metody xiii

14 xiv

15 KAPITOLA 1. ÚVOD 1 1 Úvod V této diplomové práci se zaměřuji na různé metody výpočetní inteligence k nasazení pro dolování znalostí z dat (tzv. data mining). Zkoumám jejich využití, kvalitu výsledných dat, které nám mohou poskytnout a jejich nasazení na reálných datech. Pro experimenty se všemi metodami využívám antropologická data. Z nich se snažím získat co nejlepší hodnoty za použití různých metod neuronových sítí. Experimentuji s různými předzpracovacími metodami, tak aby nám poskytly co nejlepší úpravu předložených dat a tím se pokusily pomoci k dosažení ještě lepšího výsledku. S tímto cílem také testuji modul pro automatické předzpracování dat, implementovaný do programu GAME, jehož výsledky poté porovnávám s ostatními metodami. Mou snahou bylo také shromáždit a porovnat výsledky, které vznikly v rámci různých prací, a vybrat z nich ty nejvhodnější pro práci s antropologickými daty. K této práci mě motivovalo navázat na výzkum, který jsem prováděl v rámci své bakalářské práce, která byla také založená na antropologických datech a neuronových sítích. Proto možnost pokračovat v této problematice a pokusit se posunout výsledky v této oblasti dále, mě přišlo velice lákavé. Pokusit se vylepšit přesnost predikce stáří kosterních pozůstatků, zmapovat použití jiných technologií a předzpracovacích metod. Tato práce se dělí do několika kapitol. První z nich je Metody pro analýzu antropologických dat (AD). Zde teoreticky popisuji metody, které jsou vhodné pro práci s AD, jak fungují a jakých výstupů z nich můžeme dosáhnout. V druhé kapitole popisuji různé metody úpravy dat. Co je možné s daty udělat, aby poskytovaly co nejlepší vypovídací hodnotu. Za tímto účelem, že můžeme data různými způsoby upravovat, redukovat a čistit, k čemuž nám dopomáhají předzpracovací metody. V další kapitole popisuji experimenty, které byly s AD provedeny. Jakých prostředků a metod k nim bylo použito a jaké výsledky nám poskytly. Následuje kapitola, kde shrnuji dosažené výsledky a porovnávám je mezi sebou. Tím se snažím nalézt nejlepší metody a ty doporučit pro práci s AD. Poslední kapitolou je závěr. Ta uzavírá mou diplomovou práci a hodnotí, k jakým výsledkům jsem dospěl.

16 2 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT 2 Metody pro analýzu antropologických dat 2.1 Získávání znalostí z dat Metody výpočetní inteligence pro získávání znalostí z dat jsou vhodným nástrojem pro odhalování předem skrytých vztahů mezi daty. Hlavní techniky používané při vytěžování dat jsou regrese, klasifikace a shlukování. Pomocí těchto technik můžeme z antropologických dat získat požadované informace. Na základě vstupních dat můžeme pomocí regrese predikovat výstup, čímž je stáří kostry. V podstatě jde o to, že si vezme soubor dat a pomocí matematického vzorce se tyto data popíší. Tím vznikne určitý model, který popisuje dané data. 2.2 Typy dolovacích úloh Řada metod používaných v problematice získávání znalostí vychází z umělé inteligence. Úlohy se rozdělují na 2 typy: deskriptivní a prediktivní. Deskriptivní funkce charakterizují a popisují data podle jejich vlastností. Prediktivní funkce pracují tak, že na základě trénovacích dat jsou schopny předpovědět vlastnosti dat nově příchozích Klasifikace a predikce Jedná se o prediktivní dolovací úlohy. Cílem klasifikace je nalezení pravidel, která rozlišují a zároveň popisují třídy dat. Tato pravidla se pak použijí k predikci třídy objektu, jehož zařazení neznáme. Model je sestavován pomocí podmínkových pravidel, rozhodovacích stromů nebo jiných prostředků. Proces klasifikace se sestává ze tří kroků: 1. Trénování na základě trénovací množiny je vytvořen model pro klasifikaci. Tato fáze se označuje také jako učení. 2. Testování ověření kvality modelu testováním pomocí testovací množiny. 3. Aplikace použití modelu ke klasifikaci dat, jejichž třídu neznáme. Klasifikace se používá k predikci diskrétních tříd. Oproti tomu predikce předpovídá hodnoty spojitých atributů. V tomto případě předpovídáme numerickou nedostupnou hodnotu. Nejčastější metodou predikce je regresní analýza. V případě antropologických dat jde o predikci věku kostry Shlukování Shluková analýza (Cluster Analysis) na rozdíl od klasifikace a predikce analyzuje objekty bez znalosti přiřazení do tříd. Cílem je nalézt třídy objektů, které mají co nejvíce společného tak, aby se objekty různých tříd co nejvíce lišily. Nalezené třídy mají podobu tzv. shluků Analýza odlehlých objektů Jde o nalezení objektů, které se nějakým způsobem významně odlišují od ostatních. Takové datové objekty se nazývají odlehlé (outlier). Tato analýza může například v praxi odhalit podvodné zneužití kreditních karet, extrémně velké nebo podezřelé nákupy. U antropologických dat jde o nalezení tzv. ustřelených hodnot a ty pro modelování nepoužívat, protože zanáší chybu do predikce stáří Analýza nalezených vzorů Systém pro získávání znalostí z dat je schopen generovat obrovské množství vzorů nebo pravidel. Vzniká tak důležitá otázka zajímavosti nalezených vzorů. V praxi je zajímavá pro koncového

17 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT 3 uživatele pouze malá část. Zajímavé vzory nebo pravidla pak představují znalost. Aby byl vydolovaný vzor pro uživatele zajímavý, musí mít 4 základní vlastnosti, které určují míru zajímavosti: Srozumitelnost vzor musí být srozumitelný pro člověka Platnost pro nová nebo testovací data Užitečnost vzor musí mít reálnou užitečnost Novost přináší nové poznatky Užitečným vzorem může být i vzor, který validuje hypotézu, kterou se snaží uživatel potvrdit. Pro určení míry zajímavosti existují objektivní a subjektivní metody. Objektivní metody jsou založeny na struktuře objevovaných vzorů a statistických údajích k nim vztažených. Mezi tyto metody patří dříve zmíněné frekventované vzory a asociační pravidla (míra podpory a spolehlivosti). Subjektivní míry by měly doplňovat objektivní, které samy o sobě nejsou dostatečným kritériem pro vyhodnocení zajímavosti. Mezi taková kritéria patří např. novost, neočekávanost apod. 2.3 Data Pro získání kvalitního výsledku mohou být limitující data sama. Je důležité rozhodnout která data (vstupy) jsou důležité a které méně, pro výsledek, kterého se snažíme dosáhnout. Ne všechny informace jsou vhodné pro vytěžování dat. Je zapotřebí porozumět struktuře, pokrytí a kvalitě daných dat. Často je také zapotřebí předzpracovat daná data, abychom z nich odstranili informace, které nejsou pro námi požadovaný model potřebná nebo dokonce jsou zavádějící a směřují k špatným výsledkům. Takovým datům říkáme zašumělá. Pomocí předzpracovacích metod se snažíme takovýmto zavádějícím hodnotám přecházet a eliminovat je. Bylo vyvinuto mnoho technik pro získávání znalostí z dat. Pro predikci biologického stáří člověka z jeho kosterních pozůstatků na antropologických datech se hodí nejvíce regresivní modelování. Protože na trénovacích datech se vytvoří model popisující jednotlivé vztahy mezi proměnnými (neuronová sít ) a pomocí ní na testovacích datech se dá predikovat stáří kostry. Jednak můžeme určovat stáří kostry přímo nebo si stanovit určité věkové skupiny a stáří dané kostry určovat podle toho do které skupiny spadá - klasifikace. Pro určování věku koster se jako vhodné jeví metody lineární regrese a to GMDH (Group Method of Data Handling) a GAME (Group of Adaptive Models Evolution). Díky nim můžeme odhadovat věk koster. Dalšími metodami jsou LVQ (Learning Vector Quantization), Perceptron - technický model organické nervové sítě a nebo RBF (Radial Basis Function). Tyto metody jsou vhodné pro klasifikaci do věkových tříd. A třetí zajímavou skupinou pro práci s AD jsou metody shlukové analýzy. Do těch spadají mapy SOM - Self-Organizing Map. Jednotlivé metody budou popsány dále v práci spolu s výsledky experimentů Antropologická data Stěžejním prvkem o který se opírá tato diplomová práce jsou použité antropologické data. Ty naše škola získala za spolupráce s Université Bordeaux, přesněji ve spolupráci s Jaroslavem Brůžkem, který dané data poskytnul. Ty jsou posbírány z muzeí celého světa. Obsahují různé příznaky opotřebení kostí, ke kterým dochází při stárnutí. Podle těchto ohledání se snažíme predikovat věk kostry. Bohužel jak se ukázalo, tak jsou tyto data velmi zašumělá a predikce

18 4 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT není příliš přesná, jak bude vidět dále ve výsledcích experimentů. Data reprezentují množinu hodnot, kterými je ohodnocena lidská kostra pro účely odhadu stáří z lidského skeletonu (Schmitt, 2001; Schmitt et al., 2002). Jde o vizuální ohodnocení morfologických změn povrchu dvou kostí pánevních. Vzorek je sebrán z 955 koster, u kterých je známo pohlaví a věk. Tato kolekce obsahuje data: Kontinent: Europe, Africa, North America, Asia. Národnost: Portugal, Africaner, ZULU, USAW, Spain, Suisse, SOTO, Thailand, USAB. Pohlaví: Female, Male. Číselné parametry: PUSA, PUSB, PUSC, SSPIA, SSPIB, SSPIC, SSPID. Věk zesnulých se pohybuje mezi 19 a 100 lety. Vstupní data obsahují informace identifikační číslo kostry, které ale není pro predikci důležité. Dále data popsaná výše, z nichž nejdůležitějšími faktory jsou: 3 vstupy jsou ohledání spony stydké na pánvi: Zadní ploténka (PUSA) ohodnocena na stupnici (1-2-3) Přední ploténka (PUSB) ohodnocena na stupnici (1-2-3) Zadní hřbet (PUSC) ohodnocena na stupnici (1-2) 4 pozorování sacropelvic povrchu ilia: Příčné uložení (SSPIA) ohodnocení (1-2) Změny na povrchu kloubu (SSPIB) hodnocení ( ) Změny na hrotu kosti (SSPIC) hodnocení (1-2) Změny na iliu tuberosity (SSPID) hodnocení (1-2) A jako poslední informací, a to výstupní, je stáří kostry. Ten slouží k naučení neuronové sítě v průběhu fáze trénování a ve fázi testování se pokoušíme tuto hodnotu predikovat, popřípadě klasifikovat. Nakonec jsou ještě data rozdělily do dvou množin a to do trénovací, která obsahuje 639 vzorků a testovací, čítající 319 vzorků. 2.4 Prediktivní metody GMDH Neuronové sítě typu GMDH jsou polynomiální sítě. Lze je použít například pro predikce (bankovnictví, předpovídání počasí), ale například také pro rozpoznávání. Sítě se uplatní všude tam, kde si řešený problém lze představit jako černou skříňku mající několik nezávislých vstupů a jeden výstup. Úkolem sítě je najít hodnotu výstupu v závislosti na nějaké kombinaci vstupů. Idea sítě GMDH spočívá v nalezení analytického vyjádření (funkce), které bude pracovat takovým způsobem, že sítí predikovaná hodnota výstupu bude co nejvěrohodněji vyjadřovat skutečnou hodnotu. Tuto funkci hledáme postupně při učení sítě pomocí učící množiny. Autorem sítě GMDH je DrSc. Alexey Grigorievich Ivakhnenko.

19 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT 5 Obrázek 2.1: Ukázka GMDH sítě jako černé skříňky Sítě typu GMDH jsou sítě polynomiálního typu s učitelem. Učitel zde spočívá v tom, že síti při učení předkládáme dvojice vstupní vektor - požadovaná hodnota. Jejich základní činnost spočívá v aproximaci funkcí f : A R n R, což demonstruje obrázek 2.1. Z obrázku je patrné, že sít má n vstupů (X1 Xn) a jeden výstup (Y ). Horní mez počtu vstupů neexistuje, pouze ovlivňuje nároky na výpočetní prostředky, které musíme vynaložit. Pokud budeme chtít využít všech vlastností GMDH, je minimální počet vstupů 3. Hlavní nasazení sítě je v oblastech, kde je potřeba aproximace funkcí. Po úpravě lze sít použít například pro predikce, či klasifikace. Což se právě hodí k určování věku v antropologických datech. Struktura neuronové sítě, ze které také vychází princip GMDH, lze vidět na obrázku 2.2: Obrázek 2.2: Struktura sítě GMDH Jak již bylo řečeno výše, činnost sítě spočívá v aproximaci funkcí f : A R n R. Funkce mapují podmnožinu n-rozměrného Euclidovského prostoru do množiny reálných čísel. Příklad na obrázku 2.2 má 4 vstupy (složky vstupního vektoru X 1 X n ) a jeden výstup y, což je odhad funkce y = f(x). Na obrázku si lze všimnout toho, že sít se skládá z jednotlivých vrstev, každá vrstva je složena z prvků (neuronů). Vrstvy můžeme rozdělit na 3 kategorie: vstupní - slouží k distribuci složek vstupního vektoru do sítě, konkrétně do první skryté vrstvy. Obsahuje tolik neuronů, kolik je prvků vstupního vektoru; výstupní - pokud při procesu učení dospějeme do stavu, kdy výstup sítě splňuje naše kritéria, poslední vrstvu prohlásíme za výstupní a ukončíme tvorbu sítě. Neuron, který dává nejlepší výsledky v závislosti na testovacích datech, prohlásíme za výstup sítě; skryté - vrstvy, které jsou mezi vstupní a výstupní vrstvou. Sít GMDH by měla mít

20 6 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT pro svou správnou funkci alespoň jednu skrytou vrstvu. Maximální počet skrytých vrstev není nijak omezen. Vstupní vrstva není pro funkci sítě nijak významná, slouží pouze pro distribuci jednotlivých složek vstupního vektoru do dalších vrstev (na vstupní vrstvu navazuje první skrytá vrstva, na první skrytou druhá skrytá atd.). Skryté vrstvy obsahují výkonné prvky sítě (neurony). Výstupní vrstva obsahuje pouze jeden neuron, který zároveň tvoří výstup celé sítě. Vlastní chování sítě je založeno na principu dopředného šíření (v případě obrázku 2.2 zleva doprava). Na jednotlivé vstupy sítě (vstupy neuronů vstupní vrstvy) přiložíme hodnoty vstupního vektoru, které jsou vstupní vrstvou distribuovány do první skryté vrstvy, kde jsou provedeny příslušné kombinace. Výstup první skryté vrstvy je dále distribuován na vstupy druhé skryté vrstvy a tak dále. Poslední vrstvou je vrstva výstupní, která obsahuje pouze jeden neuron (jeden výstupní neuron není pravidlem, v některých modifikacích GMDH jich může být i více). Jejím výstupem je reálné číslo y, které je současně výstupem celé sítě. Počet skrytých vrstev není omezen a není předem určen. Vyplývá ze složitosti řešeného problému a požadavků kladených na přesnost výstupu. Na obrázku 2.2 si lze všimnout, že mezi neurony jednotlivých vrstev neexistuje úplné propojení. Dále si všimněme, že každý neuron (vyjma neuronů vstupní vrstvy) má právě dva vstupy a jeden výstup (výstup se mnohačetně distribuuje do neuronů dalších vrstev). Z toho plynou jistá omezení pro minimální počet vstupů. Sít s jedním vstupem vytvořit nejde a ani to nemá smysl. Sít se dvěma vstupy neobsahuje žádné skryté vrstvy - vzniklá sít je jiného charakteru. Pokud chceme vytvořit sít, která bude mít všechny vlastnosti GMDH jsme omezeni minimálním počtem vstupů 3. Sít GMDH se od ostatních sítí liší především tím, že dochází ke splynutí procesu učení a tvorby sítě. Na počátku není dána ani struktura sítě, ani počet neuronů. Známe pouze počet složek vstupního vektoru vytvoříme vstupní vrstvu s odpovídajícím počtem neuronů. Na této vrstvě postupně procesem učení vyrůstají další a další vrstvy, dokud není splněn požadavek na výstup sítě. Algoritmus tvorby jednotlivých vrstev je stále stejný. Každá nově vytvořená vrstva se vždy samostatně zadaptuje a zmrazí (během dalšího učení se již její parametry nemění a tato vrstva slouží pouze k distribuci signálu). Na této vrstvě posléze stavíme stejným způsobem další vrstvu a celý postup opakujeme, dokud sít nesplňuje požadavky, které na ní klademe. Pokud dorazíme do tohoto bodu, tvorbu sítě zastavíme. Ukončení výpočtu nastane, jakmile sít splňuje požadavky na přesnost výstupu. Postupujeme tak, že v každém učícím kroku (po přidání nové vrstvy a vyčíslení koeficientů) otestujeme, zda jsme již nedosáhli požadovanou hodnotu a zda bychom právě v tomto kroku neměli tvorbu sítě ukončit. Průběh střední kvadratické chyby v závislosti na počtu skrytých vrstev ukazuje obrázek 2.3. Na něm si můžeme všimnout toho, že s počtem vrstev se výsledná chyba sítě zmenšuje. Jakmile ale dosáhne minima, začíná se opět zvětšovat. My musíme toto globální minimum najít a ukončit zde tvorbu sítě. Tvorbu sítě tedy můžeme ukončit: v okamžiku, kdy dosáhneme globálního minima v okamžiku, kdy sít dosáhne lepšího výstupu než požadujeme Zde je třeba si uvědomit, že je při učení třeba obejít místa lokálního minima. Lze to provést například tak, že předpokládáme, že nalezené místo je globálním minimem, ale pokračujeme

21 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT 7 Obrázek 2.3: Ukončení učení sítě GMDH v přidání ještě několika vrstev. Podle vývoje chyby se bud vrátíme do původního místa, nebo pokračujeme dál. Poslední vrstvu označíme za výstupní vrstvu. Neuron s nejlepším výstupem v této vrstvě označíme jako výstupní neuron celé sítě. Odstraníme ostatní neurony, které neovlivňují výstup sítě. Tím je sít naučena a máme model postihující předložená data. Ten poté můžeme aplikovat na testovací data. [GMDH web] GAME Další metodou vhodnou pro použití na antropologických datech je GAME (Group of Adaptive Models Evolution). Jedná se v podstatě o vylepšenou variantu GMDH, ze které také vychází. Příklad tvorby sítě GAME je vidět na obrázku 2.4. Z něj je patrné, že se sít vytváří vrstvu po vrstvě v průběhu procesu učení z jednotek, které přenášejí informace dopředně ze vstupů na výstup. Sít se tak postupně rozrůstá a učí. Genetický algoritmus musí v každé vrstvě vybrat vhodné jednotky, které budou použity dále pro vytvoření modelu. Více informací o tomto modelování lze najít v [Kordík, 05], podle [Kordík, Šnorek, 05]. GAME může vytvářet modely pro klasifikaci, predikci, identifikaci a regresi. Topologie GAME modelů se přizpůsobuje povaze skrytých dat. Metoda je odolná vůči neplatným nebo redundantním položkám, vhodná pro krátké a zašumělé vzorky. V GAME rostou jednotky z minimální formy, počet vstupů je minimálně jeden a shora omezen pořadím skryté vrstvy, ve které jednotka je. Vstupy jednotek již nejsou pouze z přímé předchozí vrstvy. Mohou být připojeny na vstup jakékoli jednotky z předchozích vrstev, stejně tak k libovolnému vstupu modelu. Za použití sítě GAME byla využita tzv. ensemble technika. Ta je založena na tom, že konečné množství modelů neuronových sítí naučíme na stejné úloze. A když dáme dohromady všechny tyto modely, tak spolu popisují daný problém (data) daleko lépe než každý model sám. Využívá se dvou přístupů a to bud tzv. bagging nebo boosting. Bagging neboli jakési pytlování či sáčkování představuje postup, kdy jsou jedny trénovací data rozděleny na více souborů a z nich jsou poté trénovány jednotlivé modely. GAME sítě používané programem GAME používají přesně takový přístup, při použití ensemble techniky.

22 8 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT input variables P L C first layer P C P G second layer 3 inputs max P P C third layer 4 inputs max L interlayer connection output layer output variable Obrázek 2.4: Příklad sítě GAME. Sít se vytvoří pomocí trénovacích dat obsahujících vhodné jednotky pro přenos (P-jednotky perception optimalizované pomocí backpropagation algoritmu, L-lineární a C-polynomiální přenosové jednotky, obojí optimalizované pomocí Quasi Newton metody). 2.5 Klasifikační metody LVQ Metodou vhodnou pro klasifikaci do tříd, tudíž zde se již nepokoušíme určit přesný věk kostry, ale padnutí do třídy, je LVQ - Learning Vector Quantization. Tato neuronová sít vychází z Kohonenovy sítě, která patří k samoorganizujícím neuronovým sítím, takže nepotřebuje ke svému trénování učitele. Jejich funkce je založena na principu shlukové analýzy ( nalezení určitých vlastností a závislostí přímo v předkládaných trénovacích datech ). Kohonenův základní model je většinou dvojdimenzionální i když může mít i jiné uspořádání výstupních neuronů. Tento model obsahuje jen vstupní a výstupní vrstvu. Počet vstupů do sítě je roven dimenzi vstupního prostoru. Počet vstupů neuronu ve výstupní vrstvě je roven počtu vstupů do Kohonenovy sítě. Váhy těchto vstupů neuronu slouží k zakódování vzorů. Jedinou operací, kterou neuron provádí, je výpočet vzdálenosti předloženého vzoru od vzoru zakódovaného ve vahách daného neuronu. Výstupní neurony jsou propojeny se všemi svými sousedními neurony. Každý vstup je spojen s každým neuronem výstupní mřížky. LVQ je modifikovaná Kohonenova sít, která je schopna pracovat s pomocí učitele. Fáze učení je o něco komplikovanější než u Kohonenovy sítě, vybavovací fáze je shodná. Existují tři verze LVQ1,LVQ2 a LVQ3, které se od sebe liší algoritmem hledání nejlepší hranice mezi třídami. LVQ1: Neuronová sít LVQ vylepšuje své chování podle informace o třídě do které vstupní vektor patří. V první fázi běží LVQ jako klasická Kohonenova sít. Tím se zajistí určité samovolné uspořádání neuronů do tříd. Pak přijde na řadu LVQ1. Přivádíme na vstupy znovu trénovací vektory a v případě, že vektor byl zařazen do správné třídy, přikloní váhy ještě více k dané třídě. V opačném případě musí být váhy od špatné třídy odkloněny. Tím se zvýrazňují hranice mezi třídami a zmenšuje riziko špatně zařazeného vektoru. LVQ1 může být ještě vylepšena a tato vylepšená verze se nazývá Optimalizovaná LVQ1. Rozdíl je v individuálním nastavení

23 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT 9 parametru rychlosti učení pro každý neuron. [MOON web] Perceptron Další podobnou metodou klasifikace koster do skupin je neuronová sít založená na perceptronu. Ten představuje něco jako lidský neuron, do kterého vedou vstupy (vstupní informace) a výstupem jsou zpracované vstupní informace v podobě požadovaného formátu výsledku. Úkolem perceptronu (rep. obecně neuronové sítě) je nalézt hranici mezi těmito dvěma skupinami. Správné určení hranice je důležité pro budoucí správné zařazení nového vzoru. Obrázek 2.5: Prostor 2D a hraniční přímka Obrázek 2.6: Model perceptronu jako neuronu Algoritmus učení Učení je interaktivní proces, kdy se v každém kroku trochu poopraví jednotlivé složky váhového vektoru. Vzory, které slouží k učení, se vybírají z množiny všech vstupních vzorů. Těchto vzorů může být libovolný počet. Na počátku jsou váhy nastaveny na své počáteční hodnoty, které se nejčastěji volí náhodně. Hraniční přímka (rovina,...) určená těmito vahami je samozřejmě špatně orientována. Teprve časem se vlivem adaptace vah podaří najít správný směr. Základním principem je učení se z vlastních chyb. Jestliže perceptron odpověděl špatně na předložený vzor, upravujeme váhy (zvyšujeme nebo snižujeme) tak, aby se snížila chyba. Hodnota, kterou modifikujeme váhy, je odvozena z velikosti chyby. Je to vlastně vzdálenost mezi daným a správným výstupem, [Perceptron].

24 10 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT Obrázek 2.7: Struktura RBF sítě RBF Patří mezi nejmladší typy neuronových sítí. Často se používá na regresi a predikci. Jedná se o typ dopředné vícevrstvé sítě, se vstřícným šířením signálu a učením s učitelem. Její výhodou je zejména rychlost učení. Radiální funkce je určena svým středem a její hodnota závisí na vzdálenosti argumentu od tohoto středu. RBF je to třívrstvá sít, jejíž struktura je obdobná jako u třívrstvé sítě typu backpropagation, ale přenosová funkce výstupních neuronů musí být lineární, což nemusí být pro sít typu backpropagation pravda a přenosové funkce skrytých neuronů jsou tzv. Radial Basis Functions, odtud i název sítě. Jejich charakteristickým znakem je, že bud monotónně klesají, nebo rostou směrem od svého středového bodu. Na následujících obrázcích je ukázka struktury RBF sítě (obrázek 2.7) a RBF funkce (obrázek 2.8). Kromě vstupní vrstvy, která slouží jen pro předání hodnot, má RBF sít vrstvu RBF (skrytá vrstva) a vrstvu výstupní tvořenou perceptrony. Mezi jednotlivými vrstvami se zpravidla používá úplné propojení. Definice RBF neuronů: výpočet vnitřního potenciálu φ = ni=1 (x i c i ) 2 Jinými slovy: Vnitřní potenciál se počítá jako euklidovská vzdálenost vstupního vektoru x od c dělenou šířkou b. Pro RBF neurony se používá Eukleidovská metrika, na rozdíl od perceptronů, kde se používá skalární součin. Vektor C = c 1,..., c n označujeme jako prototyp, protože reprezentuje jistou podmnožinu vstupních dat ve tvaru shluku. Jako aktivační funkce se nejčastěji používá Gaussova funkce a multikvadratická funkce, ale existují i jiné. Učení neuronů RBF vrstvy Trénovací množinu tvoří dvojice vstup-výstup. Učení RBF sítě je rozděleno na dvě fáze. V první fázi se určí prototyp C a sigma pro každý RBF neuron. Tento proces probíhá bez znalostí

25 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT 11 Obrázek 2.8: Ukázka typických Radial Basis Function funkčních hodnot nebo kategorií. Používají se algoritmy podobné algoritmům pro shlukovou analýzu, nebo algoritmům učení Kohonenovy sítě. Pro urychlení této fáze lze využít také neadaptivních metod, např. rovnoměrné, nebo náhodné rozložení středů RBF neuronů po vstupním prostoru. Učení neuronů výstupní vrstvy Druhá fáze učení má za úkol určit váhy výstupních neuronů. Vzhledem k charakteru výstupních neuronů, je možno použít metody nejmenších čtverců, nebo gradientních algoritmů. Použití RBF sítě Po naučení je sít připravená k použití na nových, zatím neznámých datech. Nový vstupní vektor nebude pravděpodobně stejný jako vektory trénovací množiny (přesněji řečeno, bod ve středu aktivační funkce může být posunut). Pravděpodobně bude částečně odpovídat jen několik vah vektoru, a proto se uvedou v činnost odpovídající skryté uzly, které se postupně mění. Neuron bude aktivován jen tehdy, bude-li vstupní vektor zařazen do jeho oblasti zájmu. Normálně je aktivováno mnoho neuronů a jejich výstup je slučován dohromady ve výstupních uzlech. Tímto způsobem sít interpoluje prostor mezi středy zájmových oblastí neuronů. Obrázek 2.9 ukazuje příklad trénované RBF. Jednotlivé aktivační funkce R 1, R 2,... jsou zobrazeny jako křivky dvou vstupních funkcí I 1 a I 2. Vypočítaný model bude lokální (ve smyslu, že má velice malou vypovídací schopnost o tom, jak vypadají funkce mimo zájmové oblasti konkrétního neuronu, popř. kde jsou jiná školená data). Každá aktivační funkce reprezentuje právě jeden místní model školených dat, takže vnitřek zájmové oblasti odpovídá konkrétnímu neuronu. Na druhé straně běžná vícevrstvá sít produkuje globální aproximaci, z toho vyplývá, že je každá zájmová oblast ovlivněna i ostatními trénovacími daty, které ve skutečnosti nemusí mít na danou oblast žádný vliv. RBF sít jako klasifikátor To je případ, který použijeme na antropologická data. Zde můžeme využít jak spojitých, tak nespojitých výstupních funkcí RBF neuronů. Nespojité zařazují vstupní vektor do naučené množiny (shluku), spojité mohou informovat, do jaké míry patří vektor do této množiny.

26 12 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT Obrázek 2.9: Trénovaná RBF Základní pravidla pro stavbu sítě jsou: Výstup RBF neuronu je napojen pouze na jeden výstupní neuron Na výstupní neuron může být napojeno více RBF neuronů. Průnik sféry vlivu RBF neuronů náležejících více různým kategoriím musí být prázdný. RBF neurony téže kategorie musí reprezentovat vzory dané kategorie s minimální chybou. Pokud používáme pro klasifikaci RBF sít se spojitými výstupními funkcemi RBF neuronů, musí být váhy a práh výstupních neuronů nastaven tak, aby tyto neurony realizovaly prahovou logickou funkci OR. Obvykle se RBF sít učí řádově rychleji, než obyčejná dopředná neuronová sít, ale RBF sít je zpravidla pomalejší při použití většího počtu uzlů, podle [VSB web]. 2.6 Shlukové metody SOM Dnes již mezi základní typy neuronových sítí, patří také tzv. SOM = Self-Organizing Maps, neboli samoorganizující se mapy, častěji známé po svém stvořiteli jako Kohonenovy mapy. Ty patří do skupiny samoučících se neuronových sítí, tzn. sítí s učením bez učitele, které ke svému nastavování nepotřebují ideální vzory. To znamená, že k učení sítě stačí jen velká skupina reálných signálů, z nichž některé mají určitou společnou vlastnost nebo naopak výrazné odlišnosti a již k nim nemusí být přiřazeny žádné ideální učící signály nebo informace (target = cílové hodnoty). Ty v případě tzv. učení s učitelem udávají konečný cílový stav, do kterého se má sít učením dostat. A právě jejich získání bývá často velkým problémem. Naopak u SOM (Kohonenovy mapy) nám například stačí jen skupina vstupních signálů a během učení si sít již sama nalezne společné znaky a odlišnosti, podle kterých se bude ve své aktivní činnosti rozhodovat. A to je ta výhoda, která za cca 20 let od vzniku Kohonenových map, z nich udělala velmi často využívanou a velmi oblíbenou neuronovou sít. Svojí schopností samoorganizace a shlukování objektů s podobnými vlastnostmi do skupin jsou Kohonenovy mapy přímo předurčeny pro aplikace rozhodování, rozlišování a třídění objektů, signálů, značek apod. Častou aplikací je rozpoznávání řeči (např.přepis mluveného slova na

27 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT 13 Obrázek 2.10: Struktura neuronů Kohonenovy mapy s vítězným neuronem BMU (vstupní vektor s hodnotami x1...xn, neuron s váhami mi = W ) napsané apod.) nebo přeložení psaného textu na tištění, či v mém případě antropologická data. Princip a struktura Základ tvoří uspořádaná struktura neuronů, které se v tomto případě dají představit jako body (kroužky), kde ke každému přísluší unikátní vektor koeficientů označované jako váhy W (mi na obrázku 2.10). Nejčastěji má struktura formu dvourozměrné (k=2) čtvercové nebo obdélníkové matice, hexagonálního útvaru nebo někdy i jednorozměrného vektoru (k=1). Rozměr struktury (k) však nemá nic společného s počtem vah každého neuronu (bodu), tedy dimenzí neuronu (n). Obvykle platí, že k < n, stejně jako počet neuronů m < n. Naopak tvar struktury uspořádání neuronů má vliv na učení mapy a počet vah je vždy shodný s počtem parametrů vstupních vzorků, hodnot nebo koeficientů vstupujícího zpracovávaného signálu. Tvar uspořádání neuronů má vliv na volbu tzv. okolí neuronu R, které vymezuje jeho sousedy (sousední, nejblíže postavené neurony). V maticovém uspořádání neuronů (čtvercové nebo hexagonální) je velikost okolí rovná počtu řad neuronů od centrálního neuronu - viz obrázek Váhy každého neuronu naopak definují polohu neuronu v prostoru. Princip učení SOM Matici neuronů se postupně předkládají vektory vstupního signálu (x) tak, že se zvlášt porovnává rozdíl příslušných hodnot vektoru vah (koeficientů w) každého neuronu s hodnotami vektoru vstupního signálu. K vyjádření rozdílu se může využít různých algoritmů, ale nejčastěji se dává přednost výpočtu euklidovské vzdálenosti D, tj. součet rozdílů příslušných hodnot: D = (x 1 w 1 ) 2 + (x 2 w 2 ) (x n w n ) 2 Výsledkem je tedy počet hodnot D, rovný počtu neuronů ve struktuře (např. 100 hodnot v matici 10 x 10 neuronů). Následně se vybere jediný neuron s nejmenším D a označí se jako tzv. vítěz (winner). Váhy tohoto neuronu totiž nejvíce ze všech odpovídají hodnotám právě předloženého signálu. Při předkládání první učícího vstupního vektoru se jeho hodnoty porovnávají s náhodně vygenerovanými hodnotami vah (koeficientů) jednotlivých neuronů. Váhy W vítězného neuronu se pak upravují (updatují), aby se co nejvíce přiblížily hodnotám právě předloženého vstupního vektoru (x). Využívá se vzorce: W i nové = W i staré + α(x W i staré) kde α je učící koeficient vyjadřující rychlost učení (může nabývat hodnot 0 až 1, např. α = 0.6), W i je vektor vah (koeficinetů) i-tého neuronu W i = [W i 1, W i 2,..., W i n] a x je vstupní učící vektor x = [x 1, x 2,...x n ].

28 14 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT Obrázek 2.11: Možné struktury uspořádání neuronů (*) s definicí okolí R vítězného neuronu (#) Při opětovném opakování dávky učících vektorů nebo postupným předkládáním dalších nových dávek se učící koeficient obvykle snižuje. Spolu s vítězným neuronem se mění i ty sousední v definovaném okolí R (viz obrázek 2.11). Jejich váhy se upravují stejným způsobem jako u vítěze, pouze s tím rozdílem, že koeficient α je nahrazen koeficientem β, přičemž platí α < β. Při opětovném opakováním dávky učících vektorů se může provádět i snižování hodnoty okolí R až na R = 0, tzn. adaptuje se pouze vítěz. Ve výsledku by se mělo dosáhnout stavu, kdy v maticové struktuře neuronů vznikne několik významných center, tzv. shluky, mezi nimiž se výrazně liší hodnoty vah neuronů. Neurony, jejichž váhy během učení dosáhly nulových hodnot, se ze struktury mohou vyloučit. Počet shluků by měl být shodný s počtem odlišných vlastností nebo parametrů, které Kohonenova mapa našla v předložených dávkách učících vstupních vektorů. To také znamená, že funkčnost mapy a neuronových sítí obecně, výrazně závisí na složení signálů a informací v učících dávkách. Pro jednodušší kontrolu a přehlednější dohled nad učením mapy se využívá grafického zobrazení shluků, které vyjadřuje prostorové vztahy mezi neurony v prostoru vah. V diagramu jsou váhové vektory (= neurony) zobrazeny jako černé body v dvojdimenzionálním prostoru, které zároveň tvoří centra shluků. Černé čáry představují přímky spojující váhové vektory sousedních neuronů. Na obrázku 2.12 je ukázaná změna pozice neuronu před a po adaptaci vah na vstupní vektor (zelený bod). Po naučení SOM se na vstup vždy přikládá analyzovaný neznámý vektor hodnot (zelený bod) podobného druhu, jako byly učící vektory a opět výpočtem podobnosti-vzdálenosti od vektorů vah jednotlivých neuronů (černé body), se vybere ten vítězný neuron, nejvíce podobný hodnotám na vstupu. Ten již představuje určitou definovanou skupinu (shluk) a tím je znám výsledek. Ten představuje zařazení analyzovaných dat do některé skupiny či kategorie a tím i jejich pojmenování a nalezení jejich vlastností, [SOM]. U-matice Pro zobrazení výsledků metody SOM se využívá tzv u-matice. Ta zobrazuje neuronovou sít s barevně vyjádřenou informací o tom, jak moc se daný neuron liší od okolních ve svých vahách.

29 KAPITOLA 2. METODY PRO ANALÝZU ANTROPOLOGICKÝCH DAT 15 Obrázek 2.12: Příklad adaptace vah neuronu v mapě rozložení shluků ve dvojdimenzionálním prostoru Čím světlejší, tím je jim podobnější. Světlé oblasti vymezené tmavší hranicí tak představují shluky (clusters) neuronů s podobným referenčním vektorem. Jako příklad můžeme použít obrázek 2.13, kde vidíme jasně jeden takový velký shluk s nepříliš ostrou hranicí a asi bychom našli i pár menších. V této u-matici každé druhé políčko představuje neuron, mezi nimi jsou vyznačeny přechody k sousedním neuronům, takže je obrázek informativnější, než kdyby byl zhuštěný, jak se občas vyskytuje, a jedno políčko představovalo jeden neuron. Bílé a černé tečky a čísla označují neurony, čísla jsou názvy, přidělené vektorům ve vstupních datech (má-li vstupní vektor 10 položek, je 11. sloupec dat brán jako jeho název). Existují různé variace u-matice, snažící se překonat některé její nevýhody nebo poskytující jinou informaci (např. p-matice, u*-matice). Obrázek 2.13: U-matice pro sít 10 x 10

30 16 KAPITOLA 3. PŘEDZPRACOVÁNÍ DAT - TEORETICKÁ ČÁST 3 Předzpracování dat - teoretická část Získávání znalostí je proces, který se provádí v několika krocích. Tyto kroky se mohou provádět v iteracích. Jelikož máme data nejrůznějšího druhu a ty často bývají tzv. zašumělá nebo nekonzistentní. Častým problémem pro dolování dat je chybějící hodnota atributu. Tyto problémy mohou vznikat vlivem lidského faktoru, ztrátou dat nebo integrací z různých datových souborů. Podstatným krokem v tomto procesu je proto čištění a integrace dat. Čištění, integrace, výběr a transformace se souhrnně označují jako předzpracování dat. Čištění dat slouží k odstranění zašuměných a nekonzistentních dat. Integrace dat je krokem, který spojuje data z různých zdrojů do jednoho zdroje. Transformace dat provádí transformaci dat a upravuje data tak, aby byla vhodná pro dolovací metody (např. normalizace hodnot může zlepšit výsledek dolování). Výběr dat zmenšuje objem dat pro dolování, například pomocí agregace, shlukováním, nebo odstraněním nezajímavých atributů. Předzpracování dat může výrazně zlepšit kvalitu vydolovaných vzorů a tím i výsledek dolování. Obecně platí, že data, která chceme použít pro dolování, musí co nejpřesněji modelovat realitu, kterou reprezentují, být konzistentní, důvěrná, aktuální, dostupná a prospěšná pro danou úlohu. Správné předzpracování dat je důležité pro získání co nejlepších výsledků a zabírá také velké množství času. 3.1 Čištění dat Jedná se o odstranění problémů nekompletních, zašumělých nebo chybějících hodnot. Důvodem těchto problémů může být porucha na přístroji pro sběr dat, lidský faktor, chyba komunikačního kanálu apod. Úkolem čištění dat je doplnění chybějících atributů, vyhlazení zašumělých hodnot, odstranění extrémních hodnot a vyřešená konzistence. Tento proces není jednoprůchodový, ale iterativní. Určitý krok čištění může mít za následek opakování některého předchozího kroku. Například při odstranění nekonzistence, může vzniknout potřeba pro odstranění chybějící hodnoty Nekompletní data Velmi častým problémem je chybějící hodnota atributu, který však může reprezentovat důležité informace pro proces dolování. Existuje několik metod pro ošetření chybějících hodnot. Ignorování položky tato metoda je vhodná pouze v případě, pokud v prvku relace chybí některé další atributy (nelze odvodit chybějící hodnotu atributu) nebo v případě čištění dat pro klasifikaci. Manuální doplnění chybějící hodnoty metoda by byla vhodná, ale většinou kvůli velkému množství dat je prakticky nepoužitelná. Uživatel by rovněž musel mít znalosti, které by uplatnil při nahrazování. Automatické doplnění globální konstantou používá se hodnota mimo rozsah platných hodnot daného atributu (např. 0 nebo pro numerický atribut). Pokud by výskyt této odlehlé hodnoty byl nízký, algoritmus pro dolování jí může ignorovat, ale v případě častého výskytu může tato metoda negativně ovlivnit výsledek dolování. Algoritmus by mohl tuto konstantu brát za důležitou a chybně ji interpretovat jako stěžejní. Použití průměrné hodnoty atributu hodnota pro automatické doplňování se vypočítá jako průměr z hodnot atributů v ostatních prvcích.

31 KAPITOLA 3. PŘEDZPRACOVÁNÍ DAT - TEORETICKÁ ČÁST 17 Použití průměrné hodnoty n-tic stejné třídy je použita průměrná hodnota atributu z relací, které patří do stejné třídy. Například v případě třídy vzdělání= vysokoškolské se použije průměrná hodnota atributu příjem z průměru hodnot relací, které spadají do této třídy. Doplnění nejpravděpodobnější hodnotou tato hodnota může být vypočtena použitím odvozovacích nástrojů jako je Bayesovská klasifikace, regrese apod. Jedná se vlastně o klasifikaci nebo predikci s doplňovaným atributem jako cílem. Metoda se jeví jako nejlepší, protože nejvíce zohledňuje okolní informace, z nichž je doplňující hodnota počítána Zašumělá data Jedná se o náhodné chyby v datech. Důvodů pro zašuměné hodnoty může být více. Většinou jde o chyby vzniklé poruchou na zařízení pro sběr dat, lidským faktorem, špatným ohodnocením, poruchou hardware nebo použitím různých formátů pro kódování. Techniky, které provádějí vyhlazení dat, jsou uvedeny níže. Plnění vyhlazování numerických dat je prováděno tak, že setříděná posloupnost zohledňuje hodnoty v blízkém okolí. Tato technika provádí lokální vyhlazení. Setříděné hodnoty se rozdělí do tzv. košů stejné frekvence. Hodnoty v koších se pak nahradí průměrem koše, mediánem koše nebo hraniční hodnotou koše. Regrese data se nahrazují hodnotami, které jsou dány regresní křivkou. Lze použít lineární nebo vícenásobnou lineární regresi. Rozdělení do shluků (tzv. shlukování) nalezení odlehlých hodnot, které nelze zařadit do žádného shluku. Intuitivně mohou být hodnoty, které spadnou mimo grupu, brány jako zbloudilé. Kombinovaná počítačová a ruční kontrola - expertní systém určí potenciální odlehlé hodnoty detekcí překročení určitého prahu. Ruční kontrolou se z nich pak vyberou skutečné chybné hodnoty. Metody pro odstraňování šumu z dat můžeme rovněž chápat i jako metody pro redukci dat. Lze je použít i pro diskretizaci hodnot. Požívá se metoda pro rozčlenění na intervaly stejné šířky nebo rozčlenění na intervaly stejné hloubky. 3.2 Integrace a transformace dat Jedná se o spojení dat z několika nezávislých úložišt do jednoho a vytvoření jednoho konzistentního zdroje. V případě integrace dat jde o nalezení atributů různých vstupů, které k sobě patří. Například atribut pro identifikaci zboží může být v jedné databázi (datech) nazván item id v druhé jako iid. Tento problém se označuje jako konflikt schématu. Další podstatnou částí procesu integrace je odstranění redundance. To znamená odstranění dat, která jsou duplicitní ale i taková, která se dají odvodit z jiných uložených dat. Redundance se dají detekovat z metadat, ale v datech se může vyskytnout i silná korelace, která se detekuje tzv. korelační analýzou. Dalším problémem, s kterým se musí integrace vypořádat, je konflikt hodnot, kdy jsou odpovídající si hodnoty atributů různé, a konflikt identifikace, kdy v různých úložištích je identifikace objektů různá (např. rodné číslo a pořadové číslo u osob). Ve fázi transformace se data transformují tak, aby lépe vyhovovala dolovacím metodám a charakteru dolovací úlohy. Operace, které můžou být zahrnuty ve fázi transformace:

32 18 KAPITOLA 3. PŘEDZPRACOVÁNÍ DAT - TEORETICKÁ ČÁST Obrázek 3.1: Příklad rozdělení do shluků Vyhlazení odstranění šumu. Agregace aplikují se sumační nebo agregační funkce typické pro plnění datového soboru. Obvykle se provádí při plnění datové kostky pro analýzu na vyšší úrovni abstrakce a slouží rovněž jako redukce dat, např. denní příjmy sloučené, aby se mohly vypočítat měsíční a roční příjmy. Generalizace nahrazení hodnoty atributu jejich obecnější hodnotou jako u hierarchie konceptů, např. jednoduchý atribut jako je věk může být mapován na vyšší úroveň jako nezletilý, dospělý... Normalizace dat jde o transformaci hodnot tak, že spadají do určitého intervalu hodnot (typicky je to < 0.0, 1.0 >). Normalizace se provádí typicky u neuronových sítí, shlukování a metody nejbližšího souseda, protože by mohlo dojít k negativnímu ovlivnění výsledku dolování. Normalizace většinou zabrání tomu, aby atribut s velkým rozsahem hodnot překryl svým významem atributy s menším rozsahem hodnot. Existuje celá řada metod pro normalizaci, ale nejčastější jsou min-max normalizace (lineární transformace), z-score (normalizace na základě průměru a odchylky) a dekadickou změnou měřítka (posunutí desetinné čárky tak, aby obor hodnot ležel v požadovaném rozsahu). 3.3 Redukce dat Jelikož je dolování nad velkým množstvím dat časově a výpočetně náročné, je žádoucí zdrojová data vhodným způsobem redukovat. Vhodným způsobem rozumíme tak, že informace obsažená v datech se nezmění nebo nezmění se charakter dat a je zachována integrita dat. Používá se zpravidla 5 technik pro redukci dat: 1. Agregace datové kostky sumarizace původních dat. Technika kde jsou operace aplikované na data, tak aby se seskupila do několikarozměrné datové krychle. 2. Odstranění dimenze provádí se, pokud je dimenze pro analýzu nepodstatná nebo málo podstatná. Klíčovým faktorem je správné zvolení množiny atributů pro redukci. Je nutné znát doménu a význam uložených dat včetně závislostí.

Samoučící se neuronová síť - SOM, Kohonenovy mapy

Samoučící se neuronová síť - SOM, Kohonenovy mapy Samoučící se neuronová síť - SOM, Kohonenovy mapy Antonín Vojáček, 14 Květen, 2006-10:33 Měření a regulace Samoorganizující neuronové sítě s učením bez učitele jsou stále více využívány pro rozlišení,

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

5. Umělé neuronové sítě. Neuronové sítě

5. Umělé neuronové sítě. Neuronové sítě Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Úvod do optimalizace, metody hladké optimalizace

Úvod do optimalizace, metody hladké optimalizace Evropský sociální fond Investujeme do vaší budoucnosti Úvod do optimalizace, metody hladké optimalizace Matematika pro informatiky, FIT ČVUT Martin Holeňa, 13. týden LS 2010/2011 O čem to bude? Příklady

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Neuronové sítě Ladislav Horký Karel Břinda

Neuronové sítě Ladislav Horký Karel Břinda Neuronové sítě Ladislav Horký Karel Břinda Obsah Úvod, historie Modely neuronu, aktivační funkce Topologie sítí Principy učení Konkrétní typy sítí s ukázkami v prostředí Wolfram Mathematica Praktické aplikace

Více

Umělé neuronové sítě

Umělé neuronové sítě Umělé neuronové sítě 17. 3. 2018 5-1 Model umělého neuronu y výstup neuronu u vnitřní potenciál neuronu w i váhy neuronu x i vstupy neuronu Θ práh neuronu f neuronová aktivační funkce 5-2 Neuronové aktivační

Více

Algoritmy a struktury neuropočítačů ASN P3

Algoritmy a struktury neuropočítačů ASN P3 Algoritmy a struktury neuropočítačů ASN P3 SOM algoritmus s učitelem i bez učitele U-matice Vektorová kvantizace Samoorganizující se mapy ( Self-Organizing Maps ) PROČ? Základní myšlenka: analogie s činností

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Neuronové sítě v DPZ

Neuronové sítě v DPZ Univerzita J. E. Purkyně v Ústí nad Labem Fakulta životního prostředí Neuronové sítě v DPZ Seminární práce z předmětu Dálkový průzkum Země Vypracovali: Jan Lantora Rok: 2006 Zuzana Vašková Neuronové sítě

Více

Algoritmy a struktury neuropočítačů ASN - P11

Algoritmy a struktury neuropočítačů ASN - P11 Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík,, CSc. NEURONOVÉ SÍTĚ otázky a odpovědi 1 AKD_predn4, slide 8: Hodnota výstupu závisí na znaménku funkce net i, tedy na tom, zda bude suma

Více

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

Rosenblattův perceptron

Rosenblattův perceptron Perceptron Přenosové funkce Rosenblattův perceptron Rosenblatt r. 1958. Inspirace lidským okem Podle fyziologického vzoru je třívrstvá: Vstupní vrstva rozvětvovací jejím úkolem je mapování dvourozměrného

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Kombinatorická minimalizace

Kombinatorická minimalizace Kombinatorická minimalizace Cílem je nalézt globální minimum ve velké diskrétní množině, kde může být mnoho lokálních minim. Úloha obchodního cestujícího Cílem je najít nejkratší cestu, která spojuje všechny

Více

Trénování sítě pomocí učení s učitelem

Trénování sítě pomocí učení s učitelem Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup

Více

StatSoft Úvod do neuronových sítí

StatSoft Úvod do neuronových sítí StatSoft Úvod do neuronových sítí Vzhledem k vzrůstající popularitě neuronových sítí jsme se rozhodli Vám je v tomto článku představit a říci si něco o jejich využití. Co si tedy představit pod pojmem

Více

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013 Ambasadoři přírodovědných a technických oborů Ing. Michal Řepka Březen - duben 2013 Umělé neuronové sítě Proč právě Neuronové sítě? K čemu je to dobré? Používá se to někde v praxi? Úvod Umělé neuronové

Více

Aplikovaná numerická matematika

Aplikovaná numerická matematika Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních

Více

U Úvod do modelování a simulace systémů

U Úvod do modelování a simulace systémů U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení

Více

Učící se klasifikátory obrazu v průmyslu

Učící se klasifikátory obrazu v průmyslu Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291 Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam

Více

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc Neuronové sítě a možnosti jejich využití Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc 1. Biologický neuron Osnova 2. Neuronové sítě Umělý neuron

Více

odlehlých hodnot pomocí algoritmu k-means

odlehlých hodnot pomocí algoritmu k-means Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

3. Vícevrstvé dopředné sítě

3. Vícevrstvé dopředné sítě 3. Vícevrstvé dopředné sítě! Jsou tvořeny jednou nebo více vrstvami neuronů (perceptronů). Výstup jedné vrstvy je přitom připojen na vstup následující vrstvy a signál se v pracovní fázi sítě šíří pouze

Více

Náhodné chyby přímých měření

Náhodné chyby přímých měření Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015 Umělé neuronové sítě 5. 4. 205 _ 5- Model umělého neuronu y výstup neuronu u vnitřní potenciál neuronu w i váhy neuronu x i vstupy neuronu Θ práh neuronu f neuronová aktivační funkce _ 5-2 Neuronové aktivační

Více

Dolování asociačních pravidel

Dolování asociačních pravidel Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních

Více

2. RBF neuronové sítě

2. RBF neuronové sítě 2. RBF neuronové sítě Kapitola pojednává o neuronových sítích typu RBF. V kapitole je popsána základní struktura tohoto typu neuronové sítě. Poté následuje definice a charakteristika jednotlivých radiálně

Více

NG C Implementace plně rekurentní

NG C Implementace plně rekurentní NG C Implementace plně rekurentní neuronové sítě v systému Mathematica Zdeněk Buk, Miroslav Šnorek {bukz1 snorek}@fel.cvut.cz Neural Computing Group Department of Computer Science and Engineering, Faculty

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby Algoritmy a struktury neuropočítačů ASN P4 Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby Vrstevnatá struktura - vícevrstvé NN (Multilayer NN, MLNN) vstupní vrstva (input layer)

Více

SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování

SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování KATEDRA ANALYTICKÉ CHEMIE FAKULTY CHEMICKO TECHNOLOGICKÉ UNIVERSITA PARDUBICE - Licenční studium chemometrie LS96/1 SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování Praha, leden 1999 0 Úloha

Více

Stanovení nejistot při výpočtu kontaminace zasaženého území

Stanovení nejistot při výpočtu kontaminace zasaženého území Stanovení nejistot při výpočtu kontaminace zasaženého území Michal Balatka Abstrakt Hodnocení ekologického rizika kontaminovaných území představuje komplexní úlohu, která vyžaduje celou řadu vstupních

Více

Předzpracování dat. Lenka Vysloužilová

Předzpracování dat. Lenka Vysloužilová Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost. Optimální rozdělující nadplocha. Support vector machine. Adaboost. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Opakování Lineární diskriminační

Více

Lineární klasifikátory

Lineární klasifikátory Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout

Více

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,

Více

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako

Více

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního

Více

Neuropočítače. podnět. vnímání (senzory)

Neuropočítače. podnět. vnímání (senzory) Neuropočítače Princip inteligentního systému vnímání (senzory) podnět akce (efektory) poznání plánování usuzování komunikace Typické vlastnosti inteligentního systému: schopnost vnímat podněty z okolního

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

Klasifikace předmětů a jevů

Klasifikace předmětů a jevů Klasifikace předmětů a jevů 1. Úvod Rozpoznávání neboli klasifikace je základní znak lidské činnosti. Rozpoznávání (klasifikace) předmětů a jevů spočívá v jejich zařazování do jednotlivých tříd. Třídou

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

I. D i s k r é t n í r o z d ě l e n í

I. D i s k r é t n í r o z d ě l e n í 6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme

Více

Chybějící atributy a postupy pro jejich náhradu

Chybějící atributy a postupy pro jejich náhradu Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage

Více

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/07.0018 2. Množiny, funkce MNOŽIN, ZÁKLDNÍ POJMY Pojem množiny patří v matematice ke stěžejním. Nelze jej zavést ve formě definice pomocí

Více

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL)

Více

Numerická stabilita algoritmů

Numerická stabilita algoritmů Numerická stabilita algoritmů Petr Tichý 9. října 2013 1 Numerická stabilita algoritmů Pravidla v konečné aritmetice Pro počítání v konečné aritmetice počítače platí určitá pravidla, která jsou důležitá

Více

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D. Algoritmizace diskrétních simulačních modelů Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Při programování simulačních modelů lze hlavní dílčí problémy shrnout do následujících bodů: 1) Zachycení statických

Více

Náhodné (statistické) chyby přímých měření

Náhodné (statistické) chyby přímých měření Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

p(x) = P (X = x), x R,

p(x) = P (X = x), x R, 6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme

Více

Jasové transformace. Karel Horák. Rozvrh přednášky:

Jasové transformace. Karel Horák. Rozvrh přednášky: 1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace

Více

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních

Více

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů

Více

Národní informační středisko pro podporu kvality

Národní informační středisko pro podporu kvality Národní informační středisko pro podporu kvality Nestandardní regulační diagramy J.Křepela, J.Michálek REGULAČNÍ DIAGRAM PRO VŠECHNY INDIVIDUÁLNÍ HODNOTY xi V PODSKUPINĚ V praxi se někdy setkáváme s požadavkem

Více

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13. Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

UČENÍ BEZ UČITELE. Václav Hlaváč

UČENÍ BEZ UČITELE. Václav Hlaváč UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení

Více

1 Linearní prostory nad komplexními čísly

1 Linearní prostory nad komplexními čísly 1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)

Více

Úvod do zpracování signálů

Úvod do zpracování signálů 1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování

Více

Algoritmizace prostorových úloh

Algoritmizace prostorových úloh INOVACE BAKALÁŘSKÝCH A MAGISTERSKÝCH STUDIJNÍCH OBORŮ NA HORNICKO-GEOLOGICKÉ FAKULTĚ VYSOKÉ ŠKOLY BÁŇSKÉ - TECHNICKÉ UNIVERZITY OSTRAVA Algoritmizace prostorových úloh Grafové úlohy Daniela Szturcová Tento

Více

Usuzování za neurčitosti

Usuzování za neurčitosti Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích

Více

Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)

Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného) Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného) 1 Obecný popis metody Particle Image Velocimetry, nebo-li zkráceně PIV, je měřící

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik

Více

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Kartografické stupnice Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Datum vytvoření dokumentu: 20. 9. 2004 Datum poslední aktualizace: 16. 10. 2012 Stupnice

Více

Interpolace Uvažujme třídu funkcí jedné proměnné ψ(x; a 0,..., a n ), kde a 0,..., a n jsou parametry, které popisují jednotlivé funkce této třídy. Mějme dány body x 0, x 1,..., x n, x i x k, i, k = 0,

Více

GIS Geografické informační systémy

GIS Geografické informační systémy GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu

Více

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté polynomy pro případ dvou uzlových bodů ξ 1 = 1 a ξ 2 = 4. Experimentální body jsou x = [0.2 0.4 0.6 1.5 2.0 3.0

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu. 6. NÁHODNÝ VEKTOR Průvodce studiem V počtu pravděpodobnosti i v matematické statistice se setkáváme nejen s náhodnými veličinami, jejichž hodnotami jsou reálná čísla, ale i s takovými, jejichž hodnotami

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Využití neuronové sítě pro identifikaci realného systému

Využití neuronové sítě pro identifikaci realného systému 1 Portál pre odborné publikovanie ISSN 1338-0087 Využití neuronové sítě pro identifikaci realného systému Pišan Radim Elektrotechnika 20.06.2011 Identifikace systémů je proces, kdy z naměřených dat můžeme

Více